The Washington Post проаналізувала сайти, які потрапляють у навчальні дані ШІ

The Washington Post у співпраці з дослідниками з Інституту штучного інтелекту Аллена проаналізувала сайти, які потрапляють у навчальні дані штучного інтелекту. Вони класифікували вебсайти з набору даних Google C4, куди входить 15 мільйонів унікальних доменів, використовуючи дані Similarweb. Про це повідомив MediaMaker з посиланням на The Washington Post.

Усі ці сайти використовують для створення великих мовних моделей, зокрема T5 від Google і LLaMA від Facebook. Водночас OpenAI не розкриває, які саме набори даних вона використовує для навчання моделей популярного чат-бота ChatGPT.

Дослідження засвідчило, що у наборі даних переважали сайти з журналістики, розваг, розробки програмного забезпечення, медицини та створення контенту.

Це, на думку дослідників, пояснює, чому нова хвиля ШІ може загрожувати цим галузям.

Трьома найбільшими сайтами, на яких навчаються моделі ШІ стали:

patents.google.com — сайт з текстами патентів, виданих у всьому світі;
wikipedia.org — всесвітня безплатна онлайн-енциклопедія;
scribd.com — цифрова бібліотека, доступна лише за передплатою.

Також у списку виявили щонайменше 27 інших сайтів, визначених урядом США як ринки піратської та контрафактної продукції, та сайти, які мають приватні копії державних баз даних реєстрації виборців.

Хоча дані виборців є загальнодоступними, моделі можуть використовувати цю особисту інформацію у невідомий спосіб, вважають дослідники.

Найбільшу категорію склали промислові та бізнес-сайти. Серед них kickstarter.com — він дає змогу користувачам збирати кошти на творчі проєкти, а також patreon.com, який допомагає збирати щомісячно плату за ексклюзивний контент.

Художники не отримують жодної компенсації чи заохочення, коли їхні роботи включають у навчальні дані ШІ, тож вони подали позови про порушення авторських прав проти генераторів зображень Stable Diffusion, MidJourney і DeviantArt, зазначено у дослідженні.

На третьому місці — сайти категорії «новини та медіа». Половина з десяти найпопулярніших сайтів, на яких навчається ШІ, — новинні видання. Йдеться про:

сайт видання The New York Times — nytimes.com;
сайт Los Angeles Times — latimes.com;
сайт видання The Guardian — theguardian.com;
cайт видання Forbes — forbes.com;
видання HuffPost — huffpost.com.

Як і художники та творці контенту, деякі новинні організації критикували технологічні компанії за використання їхнього контенту без дозволу або компенсації.

Прикметно, що до набору даних входять і українські видання. Серед них:

сайт «Української правди» — ukrpravda.net;
сайт «Українського тижня» — tyzhden.ua;
сайт Укрінформу — ukrinform.net;
сайт «Обозревателя» obozrevatel.com;
сайт 24 каналу — 24tv.ua;
сайт медіа AiN — ain.ua;
сайт «Детектор медіа» — detector.media.

Дослідники виявили, що навчального набору ШІ включені і медіа, які мають низький рейтинг за незалежною шкалою надійності NewsGuard. Серед них:

RT.com — державний російський пропагандистський сайт;
breitbart.com — відоме джерело ультраправих новин і думок;
vdare.com — антиімміграційний сайт, який асоціюється з білим супрематизмом.

У дослідженні засвідчено, що чат-боти впевнено поширюють неправдиву інформацію та не завжди пропонують посилання на джерела.

Набір даних містить також понад півмільйона персональних блогів, написаних на WordPress, Tumblr, Blogspot і Live Journal. Платформа для публікацій medium.com була п’ятим за величиною технологічним сайтом і розмістила під своїм доменом десятки тисяч блогів. Серед них є сайт Uprooted Palestinians, де часто пишуть про «сіоністський тероризм» і «сіоністську ідеологію».

Соцмережі, такі як Facebook і Twitter, забороняють скрапінг. Відтак більшість наборів даних, які використовують для навчання ШІ, не можуть отримати до них доступ. Водночас Meta і Google не дали чіткої офіційної відповіді на питання про те, як особисту інформацію користувачів можуть використати для навчання моделей ШІ всередині їхніх компаній.

Зазначено, що Google при створенні наборів даних C4 застосовував фільтри, аби захистити в подальшому користувачів ШІ від небажаного контенту. Зокрема, використали відкритий «Список брудних, нецензурних, непристойних та інших поганих слів», який містить 402 терміни англійською мовою та один емодзі, що означає непристойний жест.

Проте в ході аналізу виявили сотні прикладів порнографічних вебсайтів і понад 72 тисячі випадків використання свастики, одного із заборонених термінів зі списку.

Також фільтри не змогли видалити сайти, що пропагують теорії змови, включаючи ультраправий феномен QAnon і «піццагейт» — популярний фейк про те, що піцерія в окрузі Колумбія була таємним місцем для педофілів.

«Хоча C4 є величезною, великі мовні моделі, ймовірно, використовують ще більші набори даних, кажуть експерти. Наприклад, навчальні дані для OpenAI GPT-3 починалися з у 40 разів більшого обсягу даних з інтернету. Навчальні дані GPT-3 також включають всю англомовну Вікіпедію і колекцію безплатних романів неопублікованих авторів, які часто використовуються великими технологічними компаніями. У вівторок Reddit, сайт, який регулярно використовується в навчальних моделях ШІ, оголосив, що планує стягувати з компаній плату за такий доступ, — зазначили у The Washington Post — Експерти кажуть, що багато компаній не документують свої навчальні дані — навіть для внутрішнього користування — через страх знайти особисту інформацію про людей, яких можна ідентифікувати, матеріали, захищені авторським правом, та інші дані, зібрані без згоди».

Нагадаємо, експерти Інституту масової інформації на основі моніторингових досліджень у лютому-березні 2023 року уклали перелік найякісніших і найбільш відповідальних українських онлайн-медіа. До нього увійшли редакції Суспільного, hromadske, «Ліги», «Української правди», «Укрінформу», «Дзеркала тижня», «Бабеля», НВ та «Еспресо».

Фото: Pixabay