Владелец TikTok раскрыл подробности своей альтернативы GPT
Китайский технологический гигант ByteDance, владеющий TikTok, планирует запустить большую языковую модель (LLM) под названием LEGO.
В исследовании ArXiv ученые описали модель, способную улавливать мелкие детали в тексте, видео, аудио и изображениях.
Конструкция LEGO включает в себя различные кодеры и адаптеры для различных типов информации, как видео, изображения и аудио. Каждый тип информации проходит через собственный кодер и адаптер.
Исследователи утверждают, что обучаемая ими модель демонстрирует точную идентификацию и локализацию конкретных регионов на изображениях или моментах видео.
«Благодаря обучению на различных мультимодальных и детализированных наборах данных LEGO достигает лучшего восприятия мультимодальных входных данных и демонстрирует улучшенную производительность в задачах, требующих глубокого понимания. В будущем мы стремимся расширить LEGO, чтобы включить дополнительные модальности ввода и вывода, исследуя более сложные методы», — говорится в выводах исследователей.
По материалам: НВ
Поделиться новостью