«Яндекс. Новости»: как устроена работа сервиса
Сервис «Яндекс. Новости» юбиляр — в этом году ему исполнилось 15 лет. Впрочем, в современном образе, в котором мы его привыкли видеть (с сюжетами и темами дня), он появился чуть позже — в 2003 году.
В Украине же ресурс был запущен еще на шесть лет позже — в 2009-м. С тех пор сервис набирал все большей популярности в Украине. Статистика, розмещенная в свободном доступе, гласит: с 2010 года (с момента запуска двуязычного варианта ресурса) аудитория сайта постепенно росла, хотя и были временные спады. Так, по состоянию на октябрь 2010 года сайтом пользовались чуть более миллиона человек, а в сентябре 2015-го — почти 1,7 млн. Самая многочисленная аудитория в Украине была зафиксирована в феврале 2015-го года — 2,3 млн человек.
Партнерами (именно так упорно называют в компании все СМИ, сообщения которых собирает «Яндекс. Новости») ресурса являются более 6,5 тыс. различных изданий. 800 из них — украинские.
Как может существовать ресурс, будучи СМИ по своей сути, но не будучи им юридически? Сколько людей работают в «редакции» сервиса? Каким образом заметки, которые выходят на новостных сайтах, попадают на страницы сервиса? На все эти вовпросы отвечала на прошлой неделе руководитель проекта «Яндекс. Новости» Татьяна Исаева, которая побывала в Киеве и провела семинар, рассказав об особенностях работы сервиса.
Что такое «Яндекс. Новости»?
«Яндекс» помогает найти ту или иную информацию. Есть такой вид данных — новости, и без них сложно решить те или иные задачи. Например, довольно сложно ответить на вопрос, в какой банк вкладывать деньги, если сначала не пробить, что про этот банк вообще пишут. В интернете разные виды данных — есть картинки, есть видео, есть объявления, есть огромные научные труды. Кроме прочего, есть новости.
Для того, чтобы поисковик умел хорошо обрабатывать разные виды данных, для их обработки написаны разные алгоритмы. Чтобы хорошо индексировать новости — есть «Яндекс. Новости».
Почему нужен специализированный поиск? Приведу пример. Если хотим купить хомячка, что важно? Важна, конечно же, его цена. Важно, жив ли хомячок, как он кушает. Петя его продает или Вася — абсолютно неважно. Главное, чтобы хомяк был живой и не очень дорогой. В случае с новостями важных данных гораздо больше. Важно, кто выпустил публикацию, кто первоисточник новости; важны также ее полный текст и время публикации. Новостной интернет не очень большой, и специально сделанные для него роботы «Яндекс. Новостей» индексируют его быстрее, чем роботы «большого» «Яндекса», которые индексируют весь интернет со всем его многообразием данных.
Задача, которую помогает решать сервис «Яндекс. Новости», — понять, что случилось и какие в медиасреде есть мнения об этом событии. Наша задача — отразить без искажения то, что происходит на данный момент в информационной среде. При этом «Яндекс. Новости» ранжирует сообщения и формирует новостные сюжеты (актуальные темы) в соответствии с четырьмя критериями: актуальность, информативность, принадлежность к первоисточнику и цитируемость.
Главная страница «Яндекс. Новостей», где собраны на данный момент все самые важные, все самые главные события, — это такой аналог «морды», первой страницы СМИ.
Издание присылает контент в «Яндекс». «Яндекс» формирует свой продукт под названием «Яндекс. Новости». Пользователь переходит на «Яндекс» — удовлетворяет свой поверхностный интерес с помощью продукта «Яндекс. Новости» — и, превращаясь в читателя, уходит читать подробности на сайт наших партнеров — средств массовой информации.
Сейчас партнеры «Яндекс. Новостей» — 6,5 тыс. изданий. Из Украины — 800. Кого мы берем? Мы берем всех, у кого есть новости, созданные силами редакции, кто может публиковать не только перепечатки. Политическая позиция, объективность или достоверность новостей от конкретного СМИ не учитывается. Юридически оформляем отношения. Многие знают, что с нами подписывается соглашение, в котором фиксируются, по сути, две важные вещи: что СМИ обязуется поставлять нам экспорт в том формате, в каком мы просим, чтобы все работало; за содержание заметок «Яндекс. Новости» не несет ответственности.
Все СМИ, которые с «Яндекс. Новостями» работают, хорошо знают, что деньги ни на каком этапе нашего сотрудничества не фигурируют. Все это старая добрая модель «контент в обмен на трафик».
Кто работает на «Яндекс. Новостях»?
Все везде делается машинами. Изменение каждого алгоритма — это месяцы разработки. В лучшем случае. Все процессы, которые происходят внутри сервиса, делаются автоматическими алгоритмами, которые в какой-то момент были написаны людьми, но дальше работают без участия человека.
В «Яндекс. Новостях» — меньше 30 человек вместе с менеджерами, дизайнером, тремя врестальщиками. Это очень компактная команда.
В «Яндекс. Новостях» человек принимает решение о том, сотрудничать с сайтом или не сотрудничать, потому что на данный момент, к сожалению, нет такого алгоритма, кооторый автоматически сходил бы на сайт и посмотрел — новости там или нет, и отличал бы новости от всякого другого контента. Это должен быть человек.
Контент-менеджеры — тоже люди, которые на самом деле никаким контентом не управляют. Но другого названия у нас для них нет, потому что «письмоводители» — звучит как-то странно в XXI веке — в основном они действительно пишут письма. Они помогают подключиться к «Яндекс. Новостям» правильным образом, отстроить экспорт и отвечают на те вопросы, которые у вас по ходу сотрудничества возникают. Все остальное делают «ведра с болтами» — роботы.
Почему «Яндекс. Новости» не является СМИ?
С одной стороны, «Яндекс. Новости», конечно, информируют массы — средство массового информирования. С другой стороны, есть юридичесское понятие о средстве массовой информации. И вот этому юридическому понятию «Яндекс. Новости», конечно, никаким образом не отвечают. Потому что должна быть редакция — в «Яндекс. Новостях» редакции нет. Факт-чекинг, достоверность информации — «Яндекс. Новости» никоим образом не могут все это обеспечить, потому что некем. Алгоритм этого не умеет, а людей, которые это делают, нет.
Полтора года назад Роскомнадзор нас хотел подвести под закон о СМИ… А закон о СМИ и у нас, и, думаю, у вас тоже, означает, что субъект, который признан СМИ, несет ответственность за все, что написано на его страницах. Но в «Яндекс. Новостях» по 250 тыс. сообщений в сутки — это объём контента, который вручную обработать невозможно. Конечно, совершенно невозможно отвечать за то, что ты не в состоянии прочитать за день.
Как сообщения попадают в «Яндекс. Новости»?
На стороне партнера готовится экспортный файл, куда автоматически попадает все, что СМИ хочет отправить в «Яндекс. Новости» для индексирования. По адресу этого экспортного файла приходит робот «Яндекс. Новостей» и забирает все, что там появилось. С того момента, как ваша заметка попала в экспортный файл для «Яндекс. Новостей», до того момента, когда ее можно найти в поиске, проходит пять минут. А до того момента, когда она попадает в соответствующий сюжет и занимает в нем свое место, проходит около 20 минут.
Мы никогда не показываем на страницах «Яндекс. Новостей» полные тексты сообщений и не планируем паразитировать на партнерском контенте. Максимум, что мы себе позволяем, — два предложения из одного сообщения.
Как создается сюжет?
Представим, что некая информация вышла на большом количестве разных сайтов. Алгоритм «Яндекса» собирает эту информацию в сюжет на «Яндексе».
Когда сообщение из экспортного файла забирает робот «Яндекса», он дробит текст на слова, откидывая служебные — образно говоря, превращает сообщение в мешок слов. Алгоритм подсчитывает, сколько раз в вашем тексте то или иное слово употреблено. Те слова, которые наибольшее количество раз были употреблены внутри текста, составляют лексическое ядро сообщения. Это происходит абсолютно со всеми текстами, попавшими в индекс. И те тексты, у которых эти лексические ядра близки, попадают в один и тот же сюжет.
Продукт, на который мы тратим практически все наши силы, время и умения — это страница сюжета в «Яндекс. Новостях». Это аналог статьи на странице СМИ. Первая задача — сэкономить время пользователя и прямо на странице сюжета дать представление, что произошло, основную фактологию и предоставить на выбор лучшие материалы, по мнению алгоритмов «Яндекса».
В украинском выпуске мы показываем сюжет и на русском языке, и на украинском. Можно выбрать какой-то один, можно смотреть все вперемешку.
В рамках сюжета сообщения отсортированы по времени: более свежие — сверху.
Как попасть на страницу в сюжет?
На странице сюжета — до 18 мест. Сначала алгоритм из всех сообщений СМИ по теме сюжета выбирает те сообщения, на которые есть ссылки, т. е. их цитируют. А на оставшиеся места, если они есть, выбираются самые свежие сообщения.
Если у нас есть два сообщения с одинаковым количеством ссылок на них и примерно одинаковым временем публикации, то на первую страницу сюжета будут выбраны сообщения от того издания, вес которого выше.
Как только сообщение перестает быть свежим, единственное, из-за чего оно может удержаться на первой странице сюжета, — это ссылки на него. Если ссылок нет, сообщение будет быстро вытеснено более свежими новостями на эту же тему.
Заголовок одного из сообщений на странице сюжета становится заголовком самого сюжета (а если сюжет попадает в топ-пятерку на главной «Яндекса», то переносится и туда). Критерии отбора алгоритмом заголовка в сюжете: информативность, читабельность, актуальность фактов, лексическая и фактологическая ядерность, соответствие региона пользователя.
Два месяца назад у нас появилась технология персонализации в сюжете. Очень большое количество пользователей кликает на сообщения именно с тем заголовком, который они уведели на главной странице, на «морде». Вторая часть, более вдумчивая, ищет знакомое СМИ, которое привыкла читать. Этим людям мы решили облегчить поиск. Есть специальный алгоритм, который смотрит, не куда пользователь уходит из «Яндекс. Новостей», а с каких новостных хостов он употребляет информацию. Если в сюжете есть заметка с этого хоста, для этого пользователя она поднимается вверх в анотацию. Пользователей с ярко выражеными предпочтениями не очень много. Персонализация работает на всех по умолчанию. Отключить ее нельзя. Но можно подкорректировать.
Для каждого события, про которое есть сюжет в «Яндекс. Новостях», определяется его тематическая принадлежность и место действия. В результате из всех сюжетов, в которых упоминается один и тот же регион, формируется региональный выпуск новостей. Из сюжетов на одну и ту же тематику формируется тематичесская рубрика, которую тоже можно посмотреть в «Яндекс. Новостях».
Как сюжеты попадают в топ?
На вес сюжета влияют три фактора: кто написал, сколько написано и плотность потока новостей (как много пишут о событии в единицу времени).
«Кто написал» — это вес источника. Он базируется на двух параметрах — цитируемость источника среди колег по цеху и оперативность.
Вес источников автоматически пересчитываются раз в неделю, но, как показывает практика, топ-двадцатка источников почти не меняется. Последние 10 лет в российском выпуске расчет весомости СМИ возглавляли РИА «Новости» до того момента, когда у них не переформировали редакцию полтора-два года назад. Через два месяца после всех перетрубаций в редакции, когда людей стало меньше, цитируемость уменьшилась, оперативность тоже уменьшилось, поскольку стало меньше корреспондентов, — РИА «Новости» покинули первое место этого расчета весов. Но вообще внутри топа этого расчета веса изменения происходят небольшие. Плюс-минус два пункта. (О нынешних лидерах рейтинга СМИ Татьяна Исаева не говорит — по её словам, разглашение такой информации запрещено политикой компании. — MS).
Помимо прочего, цитируемость конкретного издания — самый важный параметр, который влияет на ранжирование новости внутри сюжета.
Авторство материала (имя журналиста, написавшего новость, его авторитетность) на вес источника в сюжете не влияет. Вообще-то, в нашем формате есть даже тег для указания имени автора, но СМИ, как правило, его не заполняют.
Могут ли фейковые новости стать сюжетами?
Все мы знаем, что когда нам не хватает трафика, мы «хороним Горбачева». В выдаче «Яндекса» на запрос «умер Горбачев» можно найти сообщение от 2011 года — от 2011, 2012, 2013 и 2014 гг. Regnum написал, что Горбачев умер, «как собщает BBC». Ссылка текстовая. На BBC такого сообщения в жизни не было. Естественно, «большие» ребята прочли это сообщение, что-то там на BBC поискали, ничего не нашли, ну и писать про это не стали. А десяток «маленьких», которые, видимо, решили «мы английского не знаем, все равно там ничего не найдем», — они просто перепечатали Regnum. В результате, какой-то сюжет был, но ни в какой топ он не поднялся.