Nvidia представила нейромережу, що створює відео за текстовим описом

Дослідницька компанія Nvidia розробила нейромережу під назвою VideoLDM, яка генерує відео за текстовим запитом користувачів.

Генератор відео використовує Stable Diffusion і наразі може синтезувати короткі ролики тривалістю до 4,7 секунди. Нейромережа генерує відео з роздільною здатністю до 1280×2048 пікселів з частотою 24 кадри за секунду і враховує близько 4,1 млрд параметрів.

Для цієї технології розробники застосовують Latent Diffusion Models (LDM). Такий підхід дає змогу синтезувати високоякісні зображення і не витрачати багато обчислювальних потужностей, адже модель тренується у стиснутому низьковимірному латентному просторі.

«Спочатку ми тренуємо LDM виключно на зображеннях, а потім перетворюємо генератор зображень на відеогенератор: додаємо часовий вимір до LDM-моделі та точно налаштовуємо послідовність закодованих зображень, тобто відео», — пояснили розробники.

Детальніше ця технологія описана на сайті Nvivdia, де компанія показала приклади згенерованих за текстовими описами відео. Серед них — «Вдягнена в костюм лисиця, що танцює в парку», «Самотній мандрівник у туманному лісі на світанку», «Снігова людина у заметілі» та багато інших.

Наразі це лише дослідницька розробка. Поки що компанія не викладає інструмент у відкритий доступ.

Нагадаємо, на початку 2023 року компанія Nvidia додала до програми Nvidia Broadcast 1.4 нову функцію «Зоровий контакт», створену за допомогою «штучного інтелекту». Опція імітує погляд людини в камеру, навіть якщо в реальному житті вона дивиться в інший бік. За інформацією розробників, функція призначена для «творців контенту, які прагнуть записати себе під час читання своїх нотаток або сценарію», коли не дивляться прямо в камеру.

Фото: Nvidia