Змести цифрові крихти. Як ШI-чатботи харчуються даними користувачів
Змести цифрові крихти. Як ШI-чатботи харчуються даними користувачів
Поява та популярність інструментів штучного інтелекту (ШІ) спричинила проблему, обговорення якої ще десять років тому було б складно уявити ― принаймні, на шпальтах серйозних видань, а не в наукпопі. Йдеться про те, чи може раптово ШІ заговорити вашим власним голосом? Або чи може чатбот привласнити ваш номер телефону? Насправді ці та інші питання впираються в одне глобальне суперпитання: як і для чого компанії використовують дані юзерів соціальних мереж і чи можуть користувачі цьому запобігти?
Раніше цифровий слід користувача (набір даних про його використання інтернету, активність у соціальних мережах, створений ним контент) використовувався здебільшого для заробітку на рекламі. Знання про юзера та його активність давали змогу доволі точно таргетувати рекламні оголошення. Натомість поява ChatGPT та аналогів― генеративних моделей штучного інтелекту ― породила потребу в датасетах, тобто наборах даних, на яких ці сервіси навчатимуться. Перші версії великих мовних моделей, що лежать в основі ChatGPT, використовували загальнодоступні онлайн-дані. Проте для покращення їхніх здібностей їм потрібно все більше даних, бажано актуальних.
«Палива» для штучного інтелекту не вистачає ― про це писали ще наприкінці 2023 року. Тоді прогнозували, що до 2026 року закінчаться всі доступні в світі дані, на яких навчається ШІ. Нове дослідження, про яке розповіли в липні 2024 року, підтвердило цю тенденцію. Його автори, фахівці з дослідницької групи Data Provenance Initiative, виявили, що проблема з даними для штучного інтелекту стає дедалі актуальнішою. Це відбувається ще й тому, що все більше власників онлайн-платформ та вебвидавців, серед яких й онлайн-медіа, блокують доступ ШI-чатботів до їхнього контенту.
Цей дефіцит «палива» для ШI став відчутним для розробників усіх мовних моделей. Натомість соціальні платформи, які теж намагаються стати учасниками ринку інструментів штучного інтелекту, розробляючи свої власні сервіси, почали навчати свої моделі на даних власних користувачів. Подекуди просто ставлячи юзерів перед фактом, що весь їхній соціальний «цифровий слід» відтепер служить для навчання ШІ.
Як Ілон Маск перетворив твіти на навчальний датасет для Grock
Долучитися до перегонів на ринку штучного інтелекту вирішила й компанія Twitter (X), запустивши свого чатбота Grock AI. Перша його версія для обмеженого кола користувачів стала доступною в листопаді 2023 року, а в березні 2024-го було представлено першу повноцінну версію продукту. Перша версія сервісу використовувала публічні онлайн-дані, доступні до третього кварталу 2023 року.
Наприкінці липня стало відомо, що платформа Twitter (X) активувала параметр у налаштуваннях користувачів сервісу, який дозволяє компанії навчати свій чатбот зі штучним інтелектом Grok AI на публікаціях користувачів. Це налаштування платформа X увімкнула за замовчуванням без попередження користувачів. Про це дізналися випадково журналісти, які переглядали сторінку налаштувань X. Хоча доволі оперативно з’явилися інструкції про те, як деактивувати цю функцію, сам факт такого вільного поводження з даними користувачів викликав обурення і серед юзерів сервісу, і серед регуляторів різних країн.
Завдяки такому навчанню на даних користувачів чатбот Grok AI навчився давати оцінку профілю юзерів. Тепер за допомогою опції «Докладніше про цей акаунт», наразі доступної лише для платних користувачів, він може «розповісти» про юзера, який вам цікавий, написати «коротке резюме» про нього (щоправда, журналісти, які проводили тестування, кажуть, що він доволі часто помиляється; а коли не помиляється, розповідає те, що ви й самі з’ясуєте, якщо уважно почитаєте інформацію про користувача і його пости). Ймовірно, саме для цієї задачі Grok AI необхідно було навчатися на твітах користувачів. Загалом же Grok AI працює як аналог ChatGPT ― здатен вести діалог та відповідати на запитання користувачів.
Ще у вересні минулого року, при останньому оновленні Політики конфіденційності, компанія Twitter (X) додала до неї одне речення, яким сповіщала користувачів про те, що вона «може» використовувати зібрану нею інформацію для навчання її моделей машинного навчання або штучного інтелекту. Проте інших анонсів про те, що політика щодо даних чи якісь налаштування змінились, у компанії не робили.
Після перших публікацій про нові можливості чатбота Grok AI стали з’являтися новини про реакцію на них регуляторів різних країн. До прикладу, Ірландська комісія із захисту даних (Ireland's Data Protection Commission (DPC) подала до суду на Twitter (X) через використання публічних даних європейців для навчання ШI-чатбота. Цей крок, на думку представників DPC, порушує Загальний регламент захисту даних (GDPR). Стурбованість цією практикою соціальної мережі висловив й Офіс уповноваженого із захисту інформації у Великій Британії. Згодом Ілон Маск нібито погодився припинити навчання Grok на даних європейців. Проте не лише регулятори звернули увагу на таке занадто вільне поводження з даними ― загалом проти X з цього приводу було подано дев’ять скарг щодо порушення GDPR з боку організації noyb, що займається захистом конфіденційності та цифрових прав. Обурення, висловлене і комісією DPC, і організацією noyb, полягало в тому, що Ілон Маск і Twitter (X) вирішили використати дані юзерів, навіть не повідомляючи їх про це, тобто вважаючи, що всі користувачі на це погодились за замовчуванням.
Google та Meta продовжують експлуатувати дані користувачів, тепер задля ШI-навчання
Не лише Twitter (X) був помічений у перетворенні даних користувачів на паливо для свого ШI. Багато інших технологічних компаній без особливих анонсів (або з мінімальними повідомленнями) змінили свої угоди з користувачем таким чином, щоб вони містили дозвіл на використання даних юзерів.
До прикладу, компанія Google ще в липні минулого року повідомила користувачів про навчання її ШI-моделей на юзерських даних. В угоді з’явилося таке сповіщення: «Наприклад, ми можемо збирати загальнодоступну інформацію з інтернету або інших відкритих джерел, щоб навчати моделі ШІ від Google і розробляти такі продукти й функції, як Google Перекладач чи Bard... Також, якщо інформація про вашу компанію з’являється на вебсайті, ми можемо проіндексувати її і показувати в сервісах Google».
Проте в поточній версії угоди Google цього пункту вже немає. У травні 2024 року компанія повідомила про чергове оновлення й вказала таке: «22 травня 2024 р. ми додали в Загальні положення й умови Google теми, пов’язані зі штучним інтелектом. Починаючи із цієї дати, Додаткові умови використання генеративного штучного інтелекту більше не застосовуватимуться. Однак вони далі діятимуть для ділових партнерів, які підписували угоду, що посилається на ці умови».
Здавалося б, невже Google відмовляється від такого ласого ресурсу як дані користувачів? Ні. Справа в тому, що всі сповіщення про використання даних просто «перекочували» в політику конфіденційності Gemini ― власного генеративного чатбота компанії. В ній (оновленій 29 травня 2024 року) сказано про використання даних юзерів для навчання штучного інтелекту та детально пояснюється, як рецензенти можуть покращувати штучний інтелект від Google. Проте автори цього документа наголошують: «Будь ласка, не вводьте конфіденційну інформацію у своїх розмовах або будь-які дані, які ви не хотіли б зробити доступними рецензенту або щоб вони використовувалися Google для покращення наших продуктів, послуг і технологій машинного навчання». Цей фрагмент не залишає сумнівів щодо того, що компанія Google не оминає можливості покращувати свої інструменти за рахунок користувачів.
Деякі зміни в користувацьких договорах невеликі ― до прикладу, Twitter (X) додала буквально декілька слів до своєї старої угоди. Інші компанії додають цілі розділи, щоби пояснити, як працюють генеративні моделі ШІ та які доступи вони мають до даних користувачів. Snap, наприклад, попередила своїх користувачів, що чати з її My AI працюють інакше, аніж діалоги з користувачами і можуть використовуватися для його навчання. Meta також використовує загальнодоступні дані та не приховує: «Навіть якщо ви не користуєтеся нашими продуктами й послугами або не маєте облікового запису, ми все одно можемо обробляти інформацію про вас, щоб розвивати й удосконалювати ШІ в Meta».
Заява Meta викликала обурення європейських регуляторів, і після скарги Європейського центру цифрових прав (European Center for Digital Rights) компанія призупинила свої плани щодо використання даних принаймні європейців. Натомість дані американців виявилися менш захищеними. Ще у вересні минулого року Meta повідомила, що нова версія її великої мовної моделі буде навчатися на даних користувачів. При цьому компанія запевнила, що її штучний інтелект не читає приватні повідомлення в Messenger і WhatsApp.
Скандал з Adobe
Одна з найепічніших історій, що стосується угоди з користувачем та права штучного інтелекту на дані юзерів, пов’язана з компанією Adobe ― розробником популярних інструментів для графіки та редагування зображень. На початку червня цього року стало відомо, що компанія Adobe змінила свою політику конфіденційності та включила до неї фразу про те, що ті, хто використовує в роботі програмні продукти Adobe (а це, до прикладу, популярний Photoshop), дають «невиключну, всесвітню, безоплатну субліцензію на використання, відтворення, публічне відображення, розповсюдження, зміну, створення похідних робіт на основі їхнього контенту».
Користувачі це сприйняли як право Adobe користуватися результатами їхньої творчості, до прикладу, зображеннями. Деякі з них порівняли це рішення з випадком, коли магазин, що продав художнику олівці чи пензлик, вимагатиме свого права на намальовану за їх допомогою картину. Інші дизайнери наголосили на тому, що такий підхід унеможливлює використання Photoshop чи інших продуктів Adobe для робіт, захищених угодою про нерозголошення (NDA). Деякі намагалися з’ясувати в чаті служби підтримки, що ж саме означають ці пункти, проте не особливо вдало.
Через обурення в соціальних мережах компанія вимушена була пояснити, що означає її угода з користувачами. Ба більше ― в самій угоді (в її оновленій версії від 18 червня), аби уникнути різночитань, з’явилось додаткове уточнення: «Ваш контент є вашим контентом — ви володієте ним, а ми ні». Окрім того, компанія повідомила, що користувачі можуть відмовитися від використання їхніх даних в аналітиці Adobe, та підкреслила: «Ми не використовуватимемо ваш вміст для навчання генеративних моделей штучного інтелекту, за винятком вмісту, який ви вибрали для розміщення на маркетплейсі Adobe Stock, і таке використання регулюється окремою угодою учасника Adobe Stock».
Nvidia та Runway також застосовують користувацький контент для свого ШI. І це ютуб-відео
Не лише текстовий чи графічний контент використовується для навчання штучного інтелекту. Компанії, які розробляють генератори відео, так само не гребують неанонсованим використанням доступного контенту, часто без дозволу перетворюючи його на паливо для своїх моделей ШІ.
Лише протягом декількох тижнів літа в цьому були помічені компанії Runway та Nvidia. Перша ― розробник інструменту штучного інтелекту для генерації відео на основі текстових підказок. Друга ― лідер на ринку графічних чипів, який вирішив зайнятися створенням систем штучного інтелекту. Завдяки витокам деяких документів журналісти 404media дізнатись про практику обох компаній щодо використання доступних в онлайні відео для навчання їхніх ШI-моделей. У Runway зібрали тисячі відео та навіть фільмів на піратських сайтах для тренування своїх моделей. У Nvidia задача збору даних для свої моделей була настільки масштабною, що завдяки наявним технічним можливостям компанія щодня могла завантажувати з ютубу відеоролики загальною тривалістю 80 років. Окрім того, вона агрегувала дані з Netflix для цієї ж мети.
Спроби журналістів дізнатися в Google, власника відеохостингу YouTube, про ставлення до таких практик ШI-компаній закінчилися повторенням керівництвом відеохостингу позиції, висловленої ще навесні: будь-яке використання контенту з ютубу для навчання нейромереж є порушенням умов сервісу. Проте інших заяв з боку Google щодо дій Runway та Nvidia чи інформації про те, що він припиняє доступ цих компаній до своїх відео, не з’явилось.
Чи можливо захистити дані від ШI
Відчайдушний пошук даних для навчання ШI-моделей втілюється у зміну угод про конфіденційність (як у Google чи Snap), автоматичне перемикання налаштувань (як у Twitter (X)) чи навіть такі скандали, як в Adobe. Публічні дані для штучного інтелекту закінчуються, а їх дефіцит призводить до спроб використання синтетичних або «фейкових» даних для ШI-навчання. Якщо ви ще не зрозуміли, то ось що пропонують розробники ШІ: оскільки реальні дані, створені людством за весь час існування, закінчуються (нагадаємо, орієнтовно до 2028 року), то ШІ може сам для себе генерувати дані. А потім на них же навчатися. Правда, деякі дослідники кажуть, що після навчання на таких синтетичних даних ШІ верзе нісенітниці, і поки до масового використання фейкових даних справа не дійшла.
Водночас саме соціальні платформи перетворилися на найбільших власників «палива» для ШI ― з їхніми величезними обсягами користувацьких даних, які ще й щодня поповнюються руками юзерів, що ведуть соцмережі, розміщують фото чи дописи, шерять їх чи додають «уподобайки». Саме ця перевага може стати конкурентною для майбутніх моделей штучного інтелекту, які розробляють Google, Twitter (X) чи Meta.
Наразі дані європейських користувачів частково захищені GDPR, тому їм більше пощастило в боротьбі за право володіння їхніми даними. За умови відсутності у США федерального закону про конфіденційність техногіганти поспішають скористатися своєю перевагою у володінні великими обсягами даних. Користувачам на свій захист залишається мінімізувати дані про себе, доступні в соціальних мережах. Проте ця порада є радше засобом для заспокоєння, а не способом вирішення проблеми. Адже жоден юзер не застрахований від того, що його дані стануть відомі чатботу і той не скористається ними в зручний момент. Наочним прикладом цієї ситуації стала історія з журналістом Business Insider Робом Прайсом, мобільний телефон якого чатбот MetaAI раптом став розсилати користувачам з Південної Америки ― як його, штучного інтелекту, власний. І користувачі були дещо ображені на Прайса за те, що він не хотів генерувати їм картинки чи відповідати на запитання. Яким чином чатбот вирішив, що телефон журналіста, який пише про технології, тепер є телефонним номером самого чатбота, Meta не пояснила, туманно відповівши, що ШІ навчається на даних з мережі (наприклад, на статтях Business Insider, де вказаний номер їхнього журналіста).
Інша не менш приголомшлива історія ― коли абсолютно новий інструмент ChatGPT, точніше, його розширений голосовий режим, почав говорити голосом одного з тестувальників. І хоча поки справа не дійшла до того, щоб ChatGPT імітував, наприклад, голос користувача (уявіть собі, як це моторошно, чути відповіді на свої запитання своїм голосом), технологія очевидно здатна помилятися. В OpenAI теоретично існують засоби захисту від таких ситуацій. Проте звинувачення з боку Скарлетт Йоганссон в тому, що її голос без дозволу використали для голосового режиму ChatGPT, вже спричинило скандал. Компанія, звісно, спростувала, що навмисно використала голос, дуже схожий на голос акторки у фільмі «Вона», де Йоганссон озвучила операційну систему. Але вже вдруге OpenAI опиняється в ситуації, коли дані користувачів (і навіть зірок) можуть раптово бути використані без їхньої згоди.
І загалом, ці історії свідчать про те, що ми ще дуже багато не знаємо про роботу інструментів штучного інтелекту. Й про те, яким чином вони використовують та використовуватимуть наші з вами дані.
Колаж: Getty Images