Meta створила новий генератор на основі штучного інтелекту

03.10.2022, 02:34 — Технології&Авто

530

Останнім часом часто обговорюються генератори зображень на основі штучного інтелекту, проте дослідники Meta вже йдуть далі та публічно представили новий генератор, який перетворює текст на відео, повідомляє The Verge.

Команда інженерів з машинного навчання Meta представила нову систему під назвою Make-A-Video. Ця модель штучного інтелекту дозволяє користувачам вводити приблизний опис сцени, і вона генерує коротке відео, що відповідає їхньому тексту. Відеоролики явно штучні, з розмитими об’єктами та спотвореною анімацією, але все ж є значним досягненням в області генерації контенту штучного інтелекту.

У своєму пості на Facebook гендиректор Meta Марк Цукерберг описав цю роботу як «дивовижний прогрес», додавши:

«Створювати відео набагато складніше, ніж фотографії, тому що крім правильної генерації кожного пікселя, система також повинна передбачити, як вони будуть змінюватися з часом».

Кліпи тривають не більше п’яти секунд і не містять звуку, але охоплюють величезний спектр підказок. Хоча зрозуміло, що відео згенеровані комп’ютером, якість таких моделей штучного інтелекту швидко покращиться в найближчому майбутньому. Лише за кілька років генератори зображень штучного інтелекту пройшли шлях від створення майже незрозумілих картинок до фотореалістичного контенту. І хоча прогрес у відео може бути повільнішим, зважаючи на майже безмежну складність предметної області, нагорода за безшовну генерацію відео буде мотивувати багато організацій і компаній вкладати значні ресурси в цей проєкт.

Компанія заявляє, що планує випустити демонстраційну версію системи, але не повідомляє, коли і як це буде реалізовано.

У документі-описі моделі, дослідники Meta зазначають, що Make-A-Video тренується на парах зображень і підписів, а також на немаркованих відеоматеріалах. Навчальний контент був отриманий з двох наборів даних, WebVid-10M і HD-VILA-100M, які разом містять мільйони відеороликів та охоплюють сотні тисяч годин відеозаписів. До слова, сюди входять стокові відеоматеріали.

Дослідники зазначають, що модель має багато технічних обмежень, окрім розмитих кадрів і розрізненої анімації. Наразі Make-A-Video виводить 16 кадрів відео з роздільною здатністю 64×64 пікселі, які потім збільшуються в розмірі за допомогою окремої моделі штучного інтелекту до 768×768 пікселів.

За матеріалами:

mezha.media

Місце для вашої реклами

Якщо Ви помітили помилку, виділіть необхідний текст і натисніть Ctrl+Enter , щоб повідомити про це.

Поділитися новиною

Також за темою

Lamborghini відкладає перший електромобіль Lanzador, роблячи ставку на Plug-in гібриди

Сьогодні 06:09

Capricorn представила перший власний суперкар 01 Zagato вартістю $3 млн (фото)

Сьогодні 05:16

136

Mercedes інтегрує штучний інтелект Google Gemini у свої автомобілі (фото, відео)