OpenAI представила улучшенный генератор изображений на базе GPT-4o для ChatGPT

27.03.2025, 22:34 — Технологии&Авто

196

OpenAI представила улучшенный генератор изображений на базе GPT-4o для ChatGPT

OpenAI представила новую функцию генерации изображений на основе модели GPT-4o, доступную для пользователей ChatGPT. Функция станет стандартной для всех версий ChatGPT и позволяет создавать высококачественные изображения без необходимости отдельного выбора модели, как это было с DALL-E.

Генерация изображений на основе GPT-4o отличается от предыдущих версий благодаря улучшенной способности более точно воспроизводить текст, логотипы и другие сложные элементы. Благодаря большой мультимодальной модели GPT-4o также может работать с текстом, изображениями, аудио и видео, что позволяет создавать изображения с разными объектами и сценариями с помощью только одного запроса.

Для пользователей с бесплатным доступом остаются прежние лимиты генерации (до трех изображений в день), однако новая система демонстрирует лучшую точность при создании текстовых элементов на изображениях, по сравнению с предыдущими моделями. Обновленная система генерирует изображение поэтапно, сверху вниз и слева направо, что позволяет обеспечить более подробное и корректное отображение всех элементов.

Новая функция также позволяет редактировать загруженные изображения, создавая новые варианты, используя имеющиеся изображения в качестве визуальных вдохновений.

Поскольку GPT-4o является «омниомодальной» моделью, работающей с текстом, изображением, аудио и видео, она способна лучше понимать промпты пользователей, когда нужно создать несколько объектов на изображении.

Однако у модели есть определенные ограничения:

Из-за повышенной детализации создание изображения может занимать до одной минуты.
Длинные изображения, такие как постеры, могут обрезаться слишком плотно, особенно в нижней части.
Если в запросе недостаточно контекста, модель может «додумывать» детали.
При создании сложных концепций, например полной периодической таблицы, модель может неточно воспроизводить более 10−20 объектов одновременно.
Символы могут отображаться некорректно или искажаться.
Устранение отдельных деталей (например, орфографических ошибок) не всегда работает без побочных изменений в изображении.
Модель может некорректно отображать мелкие детали.

OpenAI активно работает над улучшением этих аспектов в ближайшие месяцы.

Благодаря усовершенствованным мерам безопасности, система будет блокировать возможность создания вредных изображений, таких как сексуальные подделки, а также запросы на генерацию CSAM.

Все изображения, созданные с помощью этой технологии, будут иметь метаданные C2PA, которые будут обозначать их как созданные OpenAI.

По материалам:

Букви

Место для вашей рекламы

Если Вы заметили ошибку, выделите необходимый текст и нажмите Ctrl+Enter , чтобы сообщить нам об этом.

Поделиться новостью

Подпишитесь на нас