Microsoft створила запобіжники, щоб люди не налаштовували чатботи з ШІ на зловмисні дії

Корпорація Microsoft доповнила сервіс Azure AI Studio, що дає розробникам змогу створювати персоналізованих ші-помічників на основі моделі OpenAI, інструментами, що блокують спроби налаштовувати чатботи на зловмисну, шкідливу роботу. Про це повідомив Bloomberg.

Зокрема, сервіс доповнили так званими «оперативними щитами («prompt shields»), які автоматично блокуватимуть спроби змусити ШІ-модель поводитися непередбачувано. Йдеться про випадки, коли хакери вставляють зловмисні інструкції в набір даних, на яких уже навчається модель, і обманом змушують її виконувати недозволені дії, як викрадення інформації користувача або викрадення системи.

Також компанія розгорнула ще одну додаткову функцію, яка попереджатиме користувачів, коли ШІ-модель вигадує щось або генерує помилкові відповіді.

Читайте також: Microsoft дозволила створювати користувацькі чатботи на основі Copilot GPT

Директорка Microsoft з питань відповідального ШІ Сара Берд сказала, що нові засоби захисту призначені для «виявлення підозрілих вхідних даних і їх блокування в режимі реального часу».

Таким чином компанія намагається підвищити довіру до своїх генеративних інструментів штучного інтелекту. У лютому розслідували інциденти з Copilot, який генерував «дивні та шкідливі» відповіді. Проте після аналізу з’ясувалося, що люди навмисно змусили ШІ-модель це робити.

Фото: офісна будівля Microsoft / Getty Images