The Washington Post проаналізувала сайти, які потрапляють у навчальні дані ШІ

17:50,

20 Квітня 2023

4003

Версія для друку

Онлайн-медіа

Що нового

22 Липня 2026

87% опитаних українців дивляться короткі відео в соцмережах, серед платформ лідирує тікток, — Kantar

22 Липня 2026

Кількість заблокованих російських медіасервісів в Україні зросла на 42,5% за пів року, — ініціатива «Чисте небо»

22 Липня 2026

У роботі фейсбуку та інстаграму стався черговий збій

22 Липня 2026

В уряді Британії вперше зʼявився міністр з питань ШІ

22 Липня 2026

Франція першою в Європі заборонила соцмережі для дітей до 15 років

Що нового

Помітили помилку?
Виділіть її та натисніть Ctrl + Enter —
ми виправимo

The Washington Post проаналізувала сайти, які потрапляють у навчальні дані ШІ

Юлія Поліковська

17:50,

20 Квітня 2023

4003

Версія для друку

Автори:

Юлія Поліковська

У навчальному наборі для ШІ від Google виявили сім українських ЗМІ, зокрема і «Детектор медіа».

The Washington Post у співпраці з дослідниками з Інституту штучного інтелекту Аллена проаналізувала сайти, які потрапляють у навчальні дані штучного інтелекту. Вони класифікували вебсайти з набору даних Google C4, куди входить 15 мільйонів унікальних доменів, використовуючи дані Similarweb. Про це повідомив MediaMaker з посиланням на The Washington Post.

Усі ці сайти використовують для створення великих мовних моделей, зокрема T5 від Google і LLaMA від Facebook. Водночас OpenAI не розкриває, які саме набори даних вона використовує для навчання моделей популярного чат-бота ChatGPT.

Дослідження засвідчило, що у наборі даних переважали сайти з журналістики, розваг, розробки програмного забезпечення, медицини та створення контенту.

Це, на думку дослідників, пояснює, чому нова хвиля ШІ може загрожувати цим галузям.

Трьома найбільшими сайтами, на яких навчаються моделі ШІ стали:

patents.google.com — сайт з текстами патентів, виданих у всьому світі;
wikipedia.org — всесвітня безплатна онлайн-енциклопедія;
scribd.com — цифрова бібліотека, доступна лише за передплатою.

Також у списку виявили щонайменше 27 інших сайтів, визначених урядом США як ринки піратської та контрафактної продукції, та сайти, які мають приватні копії державних баз даних реєстрації виборців.

Хоча дані виборців є загальнодоступними, моделі можуть використовувати цю особисту інформацію у невідомий спосіб, вважають дослідники.

Найбільшу категорію склали промислові та бізнес-сайти. Серед них kickstarter.com — він дає змогу користувачам збирати кошти на творчі проєкти, а також patreon.com, який допомагає збирати щомісячно плату за ексклюзивний контент.

Художники не отримують жодної компенсації чи заохочення, коли їхні роботи включають у навчальні дані ШІ, тож вони подали позови про порушення авторських прав проти генераторів зображень Stable Diffusion, MidJourney і DeviantArt, зазначено у дослідженні.

На третьому місці — сайти категорії «новини та медіа». Половина з десяти найпопулярніших сайтів, на яких навчається ШІ, — новинні видання. Йдеться про:

сайт видання The New York Times — nytimes.com;
сайт Los Angeles Times — latimes.com;
сайт видання The Guardian — theguardian.com;
cайт видання Forbes — forbes.com;
видання HuffPost — huffpost.com.

Як і художники та творці контенту, деякі новинні організації критикували технологічні компанії за використання їхнього контенту без дозволу або компенсації.

Прикметно, що до набору даних входять і українські видання. Серед них:

сайт «Української правди» — ukrpravda.net;
сайт «Українського тижня» — tyzhden.ua;
сайт Укрінформу — ukrinform.net;
сайт «Обозревателя» obozrevatel.com;
сайт 24 каналу — 24tv.ua;
сайт медіа AiN — ain.ua;
сайт «Детектор медіа» — detector.media.

Дослідники виявили, що навчального набору ШІ включені і медіа, які мають низький рейтинг за незалежною шкалою надійності NewsGuard. Серед них:

RT.com — державний російський пропагандистський сайт;
breitbart.com — відоме джерело ультраправих новин і думок;
vdare.com — антиімміграційний сайт, який асоціюється з білим супрематизмом.

У дослідженні засвідчено, що чат-боти впевнено поширюють неправдиву інформацію та не завжди пропонують посилання на джерела.

Набір даних містить також понад півмільйона персональних блогів, написаних на WordPress, Tumblr, Blogspot і Live Journal. Платформа для публікацій medium.com була п’ятим за величиною технологічним сайтом і розмістила під своїм доменом десятки тисяч блогів. Серед них є сайт Uprooted Palestinians, де часто пишуть про «сіоністський тероризм» і «сіоністську ідеологію».

Соцмережі, такі як Facebook і Twitter, забороняють скрапінг. Відтак більшість наборів даних, які використовують для навчання ШІ, не можуть отримати до них доступ. Водночас Meta і Google не дали чіткої офіційної відповіді на питання про те, як особисту інформацію користувачів можуть використати для навчання моделей ШІ всередині їхніх компаній.

Зазначено, що Google при створенні наборів даних C4 застосовував фільтри, аби захистити в подальшому користувачів ШІ від небажаного контенту. Зокрема, використали відкритий «Список брудних, нецензурних, непристойних та інших поганих слів», який містить 402 терміни англійською мовою та один емодзі, що означає непристойний жест.

Проте в ході аналізу виявили сотні прикладів порнографічних вебсайтів і понад 72 тисячі випадків використання свастики, одного із заборонених термінів зі списку.

Також фільтри не змогли видалити сайти, що пропагують теорії змови, включаючи ультраправий феномен QAnon і «піццагейт» — популярний фейк про те, що піцерія в окрузі Колумбія була таємним місцем для педофілів.

«Хоча C4 є величезною, великі мовні моделі, ймовірно, використовують ще більші набори даних, кажуть експерти. Наприклад, навчальні дані для OpenAI GPT-3 починалися з у 40 разів більшого обсягу даних з інтернету. Навчальні дані GPT-3 також включають всю англомовну Вікіпедію і колекцію безплатних романів неопублікованих авторів, які часто використовуються великими технологічними компаніями. У вівторок Reddit, сайт, який регулярно використовується в навчальних моделях ШІ, оголосив, що планує стягувати з компаній плату за такий доступ, — зазначили у The Washington Post — Експерти кажуть, що багато компаній не документують свої навчальні дані — навіть для внутрішнього користування — через страх знайти особисту інформацію про людей, яких можна ідентифікувати, матеріали, захищені авторським правом, та інші дані, зібрані без згоди».

Нагадаємо, експерти Інституту масової інформації на основі моніторингових досліджень у лютому-березні 2023 року уклали перелік найякісніших і найбільш відповідальних українських онлайн-медіа. До нього увійшли редакції Суспільного, hromadske, «Ліги», «Української правди», «Укрінформу», «Дзеркала тижня», «Бабеля», НВ та «Еспресо».

Фото: Pixabay

Читайте також

OpenAI навчатиме свої моделі штучного інтелекту на публікаціях Associated Press

У США двоє письменників позиваються проти OpenAI за порушення авторських прав

Google заявив право на всі відкриті дані для навчання ШІ

Людям складно виявляти дезінформацію, створену ШІ, — дослідження

NewsGuard: Google розміщує рекламу відомих брендів на фейкових сайтах, створених чатботами

У Twitter поширили фейкове фото вибуху біля Пентагону

Видання The NYT запустило новий застосунок із подкастами

Пошуковик Google позначатиме зображення, згенеровані ШІ

OpenAI погодилася видаляти персональні дані за запитом користувачів

Трафік новинних видань на Facebook знизився на 16% з початку 2018 року

Samsung заборонила своїм працівникам користуватися чатботами штучного інтелекту

Чатботи ШІ використовують для створення десятків контент-ферм

У Великій Британії розроблятимуть базові моделі штучного інтелекту за державні кошти

Google навчила чатбот зі штучним інтелектом Bard створювати програмні коди

Американське медіа BuzzFeed закриває відділ новин

Світлина, створена за допомогою штучного інтелекту, перемогла в конкурсі фотографії. Автор відмовився від нагороди

ЗМІ: Європарламент планує впровадити жорсткі вимоги щодо використання штучного інтелекту

США шукають можливі методи регулювання штучного інтелекту

Дослідні лабораторії закликали поставити на паузу експерименти зі штучним інтелектом

В Україні анонсували запуск регуляторної «пісочниці» для штучного інтелекту

ГО «Детектор медіа» понад 20 років бореться за кращу українську журналістику. Ми стежимо за дотриманням стандартів у медіа. Захищаємо права аудиторії на якісну інформацію. І допомагаємо читачам відрізняти правду від брехні.
До 22-річчя з дня народження видання ми відновлюємо нашу Спільноту! Це коло активних людей, які хочуть та можуть фінансово підтримати наше видання, долучитися до генерування ідей та створення якісних матеріалів, просувати свідоме медіаспоживання і разом протистояти російській дезінформації.

Долучитись

* Знайшовши помилку, виділіть її та натисніть Ctrl+Enter.

Теги: