Apple, NVIDIA та Anthropic навчали ШІ-моделі на стенограмах ютубу без дозволу компанії

Apple, NVIDIA та Anthropic навчали ШІ-моделі на стенограмах ютубу без дозволу компанії

15:35,
17 Липня 2024
814

Apple, NVIDIA та Anthropic навчали ШІ-моделі на стенограмах ютубу без дозволу компанії

15:35,
17 Липня 2024
814
Apple, NVIDIA та Anthropic навчали ШІ-моделі на стенограмах ютубу без дозволу компанії
Apple, NVIDIA та Anthropic навчали ШІ-моделі на стенограмах ютубу без дозволу компанії
До навчального набору даних потрапили й відео, які ютуб заблокував.

Компанії Apple, NVIDIA та Anthropic використовували стенограми відео з ютубу для навчання своїх моделей ШІ, не звертаючись по дозвіл до платформи. Про це йдеться в розслідуванні видання Proof News.

Провідні IT-компанії навчали свої моделі штучного інтелекту на наборі даних «Ютуб-субтитри» із 173 536 відео, отриманих із понад 48 тис. ютуб-каналів.

У згадуваному наборі даних Proof News виявило стенограми відео з освітніх та онлайн-навчальних каналів, таких як Khan Academy, MIT і Harvard. Також використовувалися відео медіа The Wall Street Journal, The New York Times, ABC News, NPR, BBC та найпопулярніших ютуб-блогерів, зокрема MrBeast (289 млн підписників), Marques Brownlee (19 млн підписників), Jacksepticeye (майже 31 млн підписників) і PewDiePie (111 млн підписників). До слова, в наборі окрім іншого виявили й відео, які пропагують різні теорії змови, зокрема про теорію «пласкої Землі».

Набір даних для навчання ШІ-моделей створила некомерційна організація EleutherAI. На своєму сайті вона повідомила, що загальна мета її діяльності — знизити бар’єри на шляху розробки штучного інтелекту для тих, хто перебуває поза когортою IT-гігантів, й вона надає «доступ до передових технологій штучного інтелекту шляхом навчання та випуску моделей». Набори даних EleutherAI доступні та відкриті для будь-кого в інтернеті, в кого є достатньо місця та обчислювальної потужності для доступу до них.

Згідно з дослідницькою статтею, опублікованою EleutherAI, набір стенограм відео з ютубу є частиною набору даних під назвою Pile. До нього також включили публікації із сайту Європейського парламенту, англомовної Вікіпедії та безліч електронних листів співробітників Enron Corporation, які були опубліковані в межах федерального розслідування щодо фірми.

Компанії Apple, Nvidia та Salesforce у своїх дослідницьких та офіційних публікаціях зазначали, що використовували Pile для навчання ШІ, те саме зробила й Anthropic.

Засновник EleutherAI Сід Блек написав на GitHub, що створив «Ютуб-субтитри» за допомогою сценарію. Цей сценарій завантажує субтитри з API ютубу так само, як браузер глядача відеоплатформи завантажує їх під час перегляду відео. Відповідно до документації на GitHub, Блек використовував 495 пошукових термінів, щоб вилучити невідповідні відео, включаючи «кумедні відеоблогери», «Ейнштейн», «чорношкірий протестант», «захисні соціальні служби», «інфовійни», «квантова хромодинаміка», «Бен Шапіро» «Уйгури», «фрукти», «рецепт торта», «лінії Наска» та «пласка земля».

Хоча умови використання ютубу забороняють доступ до його відео «автоматичними засобами», понад 2 тис. користувачів GitHub додали в закладки або схвалили код Сіда Блека.

Автори розслідування провели експеримент: пов’язали субтитри з набору даних Pile із відео на ютубі, щоб визначити, чий творчий матеріал використовувався для навчання моделей ШІ. Вони знайшли докази того, що компанії зі штучним інтелектом використовували ці дані в офіційних документах і публікаціях в інтернеті. Навчальні дані містили 173 536 відео з ютубу, з яких понад 12 тис. уже видалені з платформи, проте доступні для використання моделями ШІ.

Представник Google Джек Мелон у відповіді електронною поштою на запит про коментар заявив, що компанія протягом багатьох років вживала заходів, щоб запобігти образливому несанкціонованому копіюванню. Він не відповів на запитання щодо використання іншими компаніями матеріалу як даних для навчання.

Тим часом у коментарі виданню Engadget з тієї ж теми представник Google повідомив, що попередні заяви генерального директора Youtube Ніла Мохана про те, що компанії, які використовують дані відеоплатформи для навчання моделей штучного інтелекту, порушуватимуть умови використання платформи, залишаються актуальними.

Читайте також
ГО «Детектор медіа» понад 20 років бореться за кращу українську журналістику. Ми стежимо за дотриманням стандартів у медіа. Захищаємо права аудиторії на якісну інформацію. І допомагаємо читачам відрізняти правду від брехні.
До 22-річчя з дня народження видання ми відновлюємо нашу Спільноту! Це коло активних людей, які хочуть та можуть фінансово підтримати наше видання, долучитися до генерування ідей та створення якісних матеріалів, просувати свідоме медіаспоживання і разом протистояти російській дезінформації.
* Знайшовши помилку, виділіть її та натисніть Ctrl+Enter.
Коментарі
оновити
Код:
Ім'я:
Текст:
2019 — 2024 Dev.
Andrey U. Chulkov
Develop
Використовуючи наш сайт ви даєте нам згоду на використання файлів cookie на вашому пристрої.
Даю згоду