Apple, NVIDIA та Anthropic навчали ШІ-моделі на стенограмах ютубу без дозволу компанії

15:35,

17 Липня 2024

1333

Версія для друку

IT-компанії

Що нового

22 Лютого 2026

Міноборони запросило українських хакерів, щоб протестувати маркетплейс зброї

22 Лютого 2026

У Gemini з’явилася оновлена функція генерації музикальних композицій

22 Лютого 2026

Трамп вимагає звільнення керівниці Netflix за критику на свою адресу

21 Лютого 2026

У Росії остаточно ухвалили закон про відключення зв'язку на вимогу ФСБ

21 Лютого 2026

OpenAI не попередила поліцію про настрої 18-річної канадки, яка влаштувала стрілянину у школі

Що нового

Помітили помилку?
Виділіть її та натисніть Ctrl + Enter —
ми виправимo

Apple, NVIDIA та Anthropic навчали ШІ-моделі на стенограмах ютубу без дозволу компанії

Юлія Поліковська

15:35,

17 Липня 2024

1333

Версія для друку

Автори:

Юлія Поліковська

До навчального набору даних потрапили й відео, які ютуб заблокував.

Компанії Apple, NVIDIA та Anthropic використовували стенограми відео з ютубу для навчання своїх моделей ШІ, не звертаючись по дозвіл до платформи. Про це йдеться в розслідуванні видання Proof News.

Провідні IT-компанії навчали свої моделі штучного інтелекту на наборі даних «Ютуб-субтитри» із 173 536 відео, отриманих із понад 48 тис. ютуб-каналів.

У згадуваному наборі даних Proof News виявило стенограми відео з освітніх та онлайн-навчальних каналів, таких як Khan Academy, MIT і Harvard. Також використовувалися відео медіа The Wall Street Journal, The New York Times, ABC News, NPR, BBC та найпопулярніших ютуб-блогерів, зокрема MrBeast (289 млн підписників), Marques Brownlee (19 млн підписників), Jacksepticeye (майже 31 млн підписників) і PewDiePie (111 млн підписників). До слова, в наборі окрім іншого виявили й відео, які пропагують різні теорії змови, зокрема про теорію «пласкої Землі».

Набір даних для навчання ШІ-моделей створила некомерційна організація EleutherAI. На своєму сайті вона повідомила, що загальна мета її діяльності — знизити бар’єри на шляху розробки штучного інтелекту для тих, хто перебуває поза когортою IT-гігантів, й вона надає «доступ до передових технологій штучного інтелекту шляхом навчання та випуску моделей». Набори даних EleutherAI доступні та відкриті для будь-кого в інтернеті, в кого є достатньо місця та обчислювальної потужності для доступу до них.

Згідно з дослідницькою статтею, опублікованою EleutherAI, набір стенограм відео з ютубу є частиною набору даних під назвою Pile. До нього також включили публікації із сайту Європейського парламенту, англомовної Вікіпедії та безліч електронних листів співробітників Enron Corporation, які були опубліковані в межах федерального розслідування щодо фірми.

Компанії Apple, Nvidia та Salesforce у своїх дослідницьких та офіційних публікаціях зазначали, що використовували Pile для навчання ШІ, те саме зробила й Anthropic.

Засновник EleutherAI Сід Блек написав на GitHub, що створив «Ютуб-субтитри» за допомогою сценарію. Цей сценарій завантажує субтитри з API ютубу так само, як браузер глядача відеоплатформи завантажує їх під час перегляду відео. Відповідно до документації на GitHub, Блек використовував 495 пошукових термінів, щоб вилучити невідповідні відео, включаючи «кумедні відеоблогери», «Ейнштейн», «чорношкірий протестант», «захисні соціальні служби», «інфовійни», «квантова хромодинаміка», «Бен Шапіро» «Уйгури», «фрукти», «рецепт торта», «лінії Наска» та «пласка земля».

Хоча умови використання ютубу забороняють доступ до його відео «автоматичними засобами», понад 2 тис. користувачів GitHub додали в закладки або схвалили код Сіда Блека.

Автори розслідування провели експеримент: пов’язали субтитри з набору даних Pile із відео на ютубі, щоб визначити, чий творчий матеріал використовувався для навчання моделей ШІ. Вони знайшли докази того, що компанії зі штучним інтелектом використовували ці дані в офіційних документах і публікаціях в інтернеті. Навчальні дані містили 173 536 відео з ютубу, з яких понад 12 тис. уже видалені з платформи, проте доступні для використання моделями ШІ.

Представник Google Джек Мелон у відповіді електронною поштою на запит про коментар заявив, що компанія протягом багатьох років вживала заходів, щоб запобігти образливому несанкціонованому копіюванню. Він не відповів на запитання щодо використання іншими компаніями матеріалу як даних для навчання.

Тим часом у коментарі виданню Engadget з тієї ж теми представник Google повідомив, що попередні заяви генерального директора Youtube Ніла Мохана про те, що компанії, які використовують дані відеоплатформи для навчання моделей штучного інтелекту, порушуватимуть умови використання платформи, залишаються актуальними.

Читайте також

Nvidia обійшла Microsoft за ринковою капіталізацією і стала найдорожчою компанією світу

У Британії авторам платитимуть за використання їхніх творів для навчання ШІ

Apple загрожує штраф за недотримання європейського закону про цифрові ринки

Apple скорочує близько 100 робочих місць у групі, що займалася цифровими послугами, — Bloomberg

В ютубі з'явився ШІ-помічник, що допомагає відновлювати хакнуті канали

Троє авторів подали позов на Anthropic за порушення авторських прав під час навчання чатбота Claude

У віці 56 років померла колишня гендиректорка YouTube Сьюзан Войчицькі

Компанія Apple змінила політику свого магазину додатків AppStore після розслідування Європейської комісії

YouTube розсилає користувачам запрошення протестувати функцію, що допоможе боротися з дезінформацією

На окупованих Росією територіях фіксують збої в роботі ютубу

Ютуб тестує інтеграцію ШІ-помічника Gemini для пошуку ідей нових відео

У Росії навмисно сповільнюють ютуб, щоб переконати платформу відновити роботу заблокованих каналів

Meta випустила ШІ-модель Llama 3.1 з відкритим кодом

8 нових емодзі можуть зʼявитися на iOS 18

Чатбот Gemini дозволив користувачам ставити загальні запитання на заблокованому екрані Android

Як штучний інтелект може вплинути на виборців — експеримент Channel 4

На початку липня OpenAI заблокує доступ до ChatGPT у Китаї

У Мінцифрі підготували «Білу книгу» майбутнього регулювання ШІ в Україні

Компанія Nvidia стала найдорожчою компанією у світі завдяки буму штучного інтелекту

ШІ-чатбот ChatGPT стане частиною системи Apple

ГО «Детектор медіа» понад 20 років бореться за кращу українську журналістику. Ми стежимо за дотриманням стандартів у медіа. Захищаємо права аудиторії на якісну інформацію. І допомагаємо читачам відрізняти правду від брехні.
До 22-річчя з дня народження видання ми відновлюємо нашу Спільноту! Це коло активних людей, які хочуть та можуть фінансово підтримати наше видання, долучитися до генерування ідей та створення якісних матеріалів, просувати свідоме медіаспоживання і разом протистояти російській дезінформації.

Долучитись

* Знайшовши помилку, виділіть її та натисніть Ctrl+Enter.

Теги: