Meta создала новый генератор на основе искусственного интеллекта

03.10.2022, 02:34 — Технологии&Авто

540

В последнее время часто обсуждаются генераторы изображений на основе искусственного интеллекта, однако исследователи Meta уже идут дальше и публично представили новый генератор, превращающий текст в видео, сообщает The Verge.

Команда инженеров по машинному обучению Meta представила новую систему под названием Make-A-Video. Эта модель искусственного интеллекта позволяет пользователям вводить приблизительное описание сцены, и она генерирует короткое видео, соответствующее их тексту. Видеоролики явно искусственные, с размытыми объектами и искаженной анимацией, но все же являются значительным достижением в области генерации контента искусственного интеллекта.

В своем посту на Facebook гендиректор Meta Марк Цукерберг описал эту работу как «удивительный прогресс», добавив:

«Создавать видео гораздо сложнее, чем фотографии, потому что помимо правильной генерации каждого пикселя, система также должна предугадать, как они будут меняться со временем».

Клипы длятся не более пяти секунд и не содержат звука, но охватывают огромный спектр подсказок. Хотя понятно, что видео сгенерировано компьютером, качество таких моделей искусственного интеллекта быстро улучшится в ближайшем будущем. Всего за несколько лет генераторы изображений искусственного интеллекта прошли путь от создания почти непонятных картинок до фотореалистического контента. И хотя прогресс в видео может быть медленнее, учитывая почти безграничную сложность предметной области, награда за бесшовную генерацию видео будет мотивировать многие организации и компании вкладывать значительные ресурсы в этот проект.

Компания заявляет, что планирует выпустить демонстрационную версию системы, но не сообщает, когда и как это будет реализовано.

В документе-описании модели исследователи Meta отмечают, что Make-A-Video тренируется на парах изображений и подписей, а также на немаркированных видеоматериалах. Обучающий контент был получен из двух наборов данных, WebVid-10M и HD-VILA-100M, которые вместе содержат миллионы видеороликов и охватывают сотни тысяч часов видеозаписей. К слову, сюда входят стоковые видеоматериалы.

Исследователи отмечают, что у модели много технических ограничений, кроме размытых кадров и разрозненной анимации. Make-A-Video выводит 16 кадров видео с разрешением 64×64 пикселя, которые затем увеличиваются в размере с помощью отдельной модели искусственного интеллекта до 768×768 пикселей.

По материалам:

mezha.media

Место для вашей рекламы

Если Вы заметили ошибку, выделите необходимый текст и нажмите Ctrl+Enter , чтобы сообщить нам об этом.

Поделиться новостью

Также по теме

Какие зарплаты получают ІТ-специалисты, работающие в Anthropic

Сегодня 07:15

797

Citroën представил недорогой электромобиль ë-C3 Tonic (фото)

Сегодня 06:11

539