Штучний інтелект і алгоритми, або Звідки новини в Google News
Штучний інтелект і алгоритми, або Звідки новини в Google News
Як працює Google News
У 2002 році вийшла бета-версія агрегатора новин Google News, який збирає заголовки з різноманітних медіа з усього світу, об’єднує подібні новини разом і показує їх відповідно до інтересів читача.
Google News пропонує користувачеві новини, ґрунтуючись на інформації, яку Google уже знає про нього. Після входу до облікового запису в новинах з’являються лише ті, що можуть зацікавити користувача, навіть без додаткового налаштування. Крім того, їх можна персоналізувати — переглядати лише головні новини або лише ті, які подобаються.
8 травня 2018 року платформа Google News повністю оновилась. Якщо раніше новини були організовані за кластерним принципом (список джерел за тією чи іншою темою), то тепер механізм агрегатора використовує алгоритми штучного інтелекту й машинного навчання.
Підбором новин займається алгоритм, методологія якого є таємною. У Google News немає оголошень, вакансій, реклами, а виключно інформаційні статті. Алгоритм автоматично переглядає вміст, шукає показники якості, кількість переглядів, перевіряє надійність джерела інформації, актуальність новини для географічного розташування читача та своєчасність (тобто дату й час публікації) новини. Платформа показуватиме українські новинні сайти частіше, коли новина стосується виборів в Україні, пожежі в Києві, обстрілів на Донбасі, ніж новини про той самий інцидент у таких іноземних виданнях, як The New York Times або BBC.
Окрім розділу «головні новин», де є найважливіші події для обраної країни й мови, у Google News представлені розділи «для вас», «вибране», «світ», «країна», «бізнес», «наука і техніка», «розваги», «спорт».
Розділи Google News. Джерело: скріншот
У серпні минулого рокуз’явилась експериментальна функція «Скажи мені щось хороше» («Tell me something good»), яка дозволяє отримувати лише хороші новини. Фільтр новин налаштований таким чином, що користувач отримує інформацію про людей, які розв'язують проблеми, важливі для суспільства і світу в цілому. Ці матеріали походять із широкого кола ЗМІ, їх підбирає неприбуткова організація Solutions Journalism Network, яка просуваєконструктивну журналістику й допомагає боротися з негативною втомою від новин.
Які сайти потрапляють в агрегатор
Google формулює ряд вимог до новинних сайтів, без виконання яких не вдасться потрапити у стрічку новин. Перш за все оцінюється якість інформації: вона має бути виключно новинною — ніяких «корисних порад», оголошень про вакансії, прогнозів погоди або біржових зведень. Корпоративний сайт із рекламними новинами про продукт теж не підійде. Передруки в новини також не потрапляють. У стрічці відповідними позначками промарковані блоги, сатира або прес-релізи.
Окрема тема — новинні портали, на яких контент доступний за передплатою. Матеріали цих майданчиків розміщуються в google-новинах за принципом «перше натискання безкоштовно». Це означає, що одна новина є у відкритому доступі, але посилання всередині неї вже вимагають реєстрації. Або ж можливе розміщення фрагментів новин із таких сайтів (до 80 слів) із тегом «підписка».
У лютому на Мюнхенській конференції з питань безпеки компаніяпредставила білу книгу, яка надає детальнішу інформацію про роботу з подолання навмисного поширення дезінформації. Дляпротидії поширенню оманливих, неправдивих або шкідливих новин у Google News є певні правила.
Компанія не включає у видачу матеріали сайтів, що видають себе за будь-яку особу або організацію, а також спотворюють або приховують власність, мету, країну походження чи продукують неправдиву інформацію. Якщо все ж такий сайт виявлений, то команда з питань довіри та безпеки проводить розслідування та вживає заходів, коли це необхідно.
Які видання потрапляють у топ
На відміну від інших агрегаторів новин, Google News обирає не конкретне медіа і найцікавіші заголовки на ньому, а тему, по якій підбираються посилання на найрізноманітніші ресурси. Таким чином дотримується збалансована подача матеріалів.
Оскільки цілі Google News зосереджуються виключно на висвітленні поточних подій, алгоритм будує власні системи рейтингів та політику щодо показу новин. Googlebot — пошуковий робот Google — регулярно шукає сайти, щоби постійно оновлювати стрічку новин. Якщо ресурс відповідаєтехнічним параметрам, є більша ймовірність бачити його частіше.
Видання, яким Google News довіряє, скануються частіше. Довіру отримують сайти, які щодня оновлюють новини, продукують унікальний контент. Видання з кількома авторами, як правило, піднімаються над усіма іншими блогами й невеликими сайтами.
Google News зацікавлений у нішевих веб-сайтах, які спеціалізуються на певній темі. Щоразу, як Google проглядає такі сайти, у внутрішньому рейтингу вони піднімаються вище й ресурс стає авторитетним джерелом інформації. Якщо раніше певний сайт довгий час потрапляв у топ із новинами про культуру, то є велика ймовірність, що його актуальні новини відображатимуться на початку стрічки.
Приміром, у вкладці «Найпопулярніші» або «Новини регіону» алгоритм спрямований на те, щоби зрозуміти популярність новин у певний час у певному регіоні. Тому новини, які популярні у столиці, можуть відрізнятися від новин, які з’являються у стрічці користувачів на півдні чи заході України.
Яке майбутнє програми
Наразі є певна невизначеність щодо майбутнього Google News у Європі після того, як Європейський Союзпогодив своє суперечливе законодавство про авторські права. Пошукові системи та онлайн-агрегатори новин, наприклад Google Search і News, мають сплачувати ліцензійні збори, коли показують фрагменти статті або фото, для того щоб допомогти видавцям адаптуватися в інтернеті та забезпечити джерело доходу.
У директиві ЄС єсуперечливі статті 11 та 13. Перша має на меті надати видавцям та медіа можливість заробляти гроші, коли такі компанії, як Google, посилаються на їхні історії. Друга вимагає від інтернет-платформ перед завантаженням блокувати неліцензований контент від користувачів, який захищений авторським правом.
Google показав, як його результати пошуку новин виглядатимутьбез фотографій і текстових витягів і зроблять службу майже марною.
Google News без фото. Джерело: 9to5google.com
А нещодавно провідний виконавчий директор Google Кент Уокерзаявив, що директива ЄС про авторське право — один крок уперед і два кроки назад. Він зазначив, що компанія продовжує підтримувати оновлення авторського права для цифрової доби, визнає цінність контенту, який творці та правовласники виробляють, і глибоко піклується про журналістику, але додав, що директива радше затримає розвиток цифрової економіки у Європі.
«Ми завжди говорили, що директива про авторські права повинна надавати всім видавцям право контролювати свої власні бізнес-моделі, дозволяючи їм відмовитися від необхідності офіційної комерційної ліцензії на їхні матеріали. І здається, що директива дає можливість надавати безкоштовні ліцензії, що полегшує і великим і маленьким видавцям можливості заробляти гроші, отримуючи більше читачів. Проте остання версія завдає шкоди малим і новим видавцям, а також обмежує доступ споживачів до різноманітних джерел новин», — зазначив Кент Вокер.
За його словами, відповідно до директиви Google News, буде заборонено показувати що-небудь, окрім простих фактів, гіперпосилань, окремих слів і дуже коротких повідомлень. Цей вузький підхід створить невизначеність і може призвести до того, що Google News обмежуватиме свій вміст «дуже короткими витягами» з медіа.