0 800 307 555
0 800 307 555

Netflix выпустил бесплатную модель искусственного интеллекта, которая удаляет объекты на видео

Технологии&Авто
307
Стриминговый сервис Netflix совместно с исследователями Университета Софии (Калифорния) выпустил VOID (Video Object and Interaction Deletion) — новую открытую модель искусственного интеллекта, обещающую революцию в киномонтаже и обработке видео.
Модель доступна на Hugging Face и GitHub под лицензией Apache 2.0, пишет The Register. Для ее локального запуска требуется видеокарта с 40 ГБ видеопамяти.

В чем ее особенность

Главное отличие VOID от существующих инструментов — способность понимать причинно-следственные связи в сцене. Она понимает физику взаимодействия и способна полностью переписать логику сцены.
Новая модель понимает физику взаимодействия и способна полностью переписать логику сцены
Новая модель понимает физику взаимодействия и способна полностью переписать логику сцены
Обычные методы просто окрашивают область за удаленным объектом и корректируют тени и отражения, но не справляются с физическими взаимодействиями. VOID использует специальную четырехкомпонентную маску (quadmask), которая обозначает не только сам объект, но и зоны, на которые он влияет — в частности, предметы, которые он поддерживал или смещал. Для определения таких зон, модель использует мультимодальную модель Gemini и систему сегментации SAM2.
Хотя сейчас существуют другие инструменты для изменения сцен на видео, такие как Runway, Generative Omnimatte, DiffuEraser, ROSE, MiniMax-Remover и ProPainter, представители Netflix утверждают, что VOID значительно превосходит их. Согласно опросу 25 человек по нескольким сценариям работы, VOID предпочли в 64,8% случаев, тогда как ближайший конкурент Runway занял второе место с большим отрывом — 18,4%.
Технически VOID построена на базе CogVideoX-Fun — видеодиффузионного трансформера с 5 млрд параметров от Alibaba PAI. Модель учили на синтетических парных видео, где сцены с объектом и без него генерировались в Blender с физической симуляцией (набор данных HUMOTO) и на движке Kubric от Google. Для обучения использовали 8 GPU A100 80 ГБ.

Как это работает на практике:

  • ДТП без аварии: Если на видео зафиксировано столкновение двух автомобилей, VOID может удалить один из них. При этом ИИ не просто «замажет» машину, а сгенерирует видео, где другой автомобиль продолжает спокойно ехать по пустой дороге — без дыма, огня или обломков, которые были в оригинале.
  • Спокойная вода: Если человек прыгает в бассейн, создавая кучу брызг, VOID может удалить человека так, что поверхность воды останется абсолютно неподвижной, как будто у нее никто и не прыгал.

Доступность

Самое интересное, что Netflix не стал закрывать технологию внутри компании. Модель уже опубликована на платформе Hugging Face, что позволяет разработчикам и монтажникам во всем мире испытать ее в собственных проектах.
Этот шаг подчеркивает стратегию стримингового гиганта по внедрению генеративного ИИ в производственные циклы, что позволяет значительно экономить на пересъемках и сложных визуальных эффектах.
Если Вы заметили ошибку, выделите необходимый текст и нажмите Ctrl+Enter , чтобы сообщить нам об этом.

Поделиться новостью

Подпишитесь на нас