Google представила штучний інтелект, що створює відео за описом
Google представила штучний інтелект, що створює відео за описом
Google розробив систему штучного інтелекту Imagen Video, яка може створювати відеокліпи за текстовою підказкою. Про це повідомляє TechCrunch.
Imagen Video базується на Imagen від Google, системі генерації зображень, яку можна порівняти з DALL-E 2 і Stable Diffusion від OpenAI. Але новий продукт, як зазначили в компанії, «є кроком до системи з високим ступенем керованості та світовими знаннями, що надають можливість генерувати відеоматеріал в різних художніх стилях».
Як пояснюють розробники, Imagen Video бере текстовий опис і генерує 16-кадрове відео з частотою три кадри в секунду з роздільною здатністю 24 на 48 пікселів. Потім система збільшує масштаб і «прогнозує» додаткові кадри, створюючи остаточне 128-кадрове відео з частотою 24 кадри в секунду з роздільною здатністю 720p (1280×768).
За даними Google, система Imagen Video навчалася на 14 мільйонах пар відео-текст і 60 мільйонах пар зображення-текст, а також на загальнодоступному наборі даних зображення-текст LAION-400M. «Imagen Video продемонструвала розуміння глибини та тривимірності, дозволяючи створювати відео, подібні до відео з дронів, які обертаються та знімають об’єкти з різних кутів, не спотворюючи їх», - розповіли представники компанії.
Також Imagen Video може належним чином відтворювати текст. У той час як Stable Diffusion і DALL-E 2 доволі важко перекладають підказки у читабельний шрифт, Imagen Video робить це без проблем.
Через те, що дані, які використовувалися для навчання системи, містили проблемний матеріал, який може призвести до створення Imagen Video роликів з насильницькими або відверто сексуальними моментами, Google пообіцяв не випускати модель і не публікувати вихідний код Imagen Video, «доки ці проблеми не будуть пом’якшені».
Раніше «MediaSapiens» розповідав про те, що таке Midjourney і як замовити нейромережі свій малюнок.
Фото: Google