Модель уверенно работает на нескольких языках и самостоятельно заполняет пробелы в запросе
OpenAI выпустила «мыслящий» генератор изображений ChatGPT Images 2.0 — «передовую модель, способную решать сложные визуальные задачи и создавать точные работы, готовые к использованию».
Introducing ChatGPT Images 2.0
A state-of-the-art image model that can take on complex visual tasks and produce precise, immediately usable visuals, with sharper editing, richer layouts, and thinking-level intelligence.
В компании отметили «качественный скачок» в соблюдении инструкций, точном размещении и соотношении объектов, а также в визуализации плотного текста.
Модель уверенно работает на нескольких языках и самостоятельно заполняет пробелы в запросе, опираясь на визуальный и общий контекст. В результате пользователь получает нужный результат с меньшим количеством уточнений.
Точность и контроль
ChatGPT Images 2.0 овладевает сложными концепциями и точно воплощает их визуально.
Модель следует инструкциям, сохраняет заданные детали и воспроизводит мелкие элементы с разрешением до 2K.
ChatGPT Images 2.0 is a step change in detailed instruction following, placing and relating objects accurately, and rendering dense text, with the ability to generate across aspect ratios.
It’s also accurate across languages and uses its expanded visual and world knowledge to…
ChatGPT Images 2.0 точнее передает характерные особенности фотографий, кинематографических кадров, пиксельной графики, манги и других визуальных стилей. LLM обеспечивает высокую согласованность текстур, освещения, композиции и мельчайших деталей.
Такая точность пригодится при создании игровых прототипов, разработке сторибордов, подготовке маркетинговых материалов и создании работ в определенном медиаформате или жанре.
Модель умеет думать
ChatGPT Images 2.0 — первая модель OpenAI для работы с изображениями, способная размышлять перед генерацией.
В связи с ChatGPT модель умеет искать информацию в интернете в реальном времени, создавать несколько вариантов по одному промпту, проверять результаты и генерировать рабочие QR-коды.
«Это позволяет модели взять на себя большую часть тяжелой работы между идеей и изображением, особенно когда точность, актуальность информации, согласованность и визуальная целостность имеют первостепенное значение», — утверждают в OpenAI.
Модель поддерживает соотношение сторон от 3:1 по ширине до 1:3 по высоте. Она доступна пользователям ChatGPT и Codex.
Функция Images with thinking доступна в тарифных планах ChatGPT Plus, Pro и Business.