Модель впевнено працює кількома мовами та самостійно заповнює прогалини в запиті
OpenAI випустила «мислячий» генератор зображень ChatGPT Images 2.0 — «передову модель, здатну розв’язувати складні візуальні завдання і створювати точні, готові до використання роботи».
Introducing ChatGPT Images 2.0
A state-of-the-art image model that can take on complex visual tasks and produce precise, immediately usable visuals, with sharper editing, richer layouts, and thinking-level intelligence.
У компанії відзначили «якісний стрибок» у дотриманні інструкцій, точному розміщенні та співвідношенні об’єктів, а також у візуалізації щільного тексту.
Модель впевнено працює кількома мовами та самостійно заповнює прогалини в запиті, спираючись на візуальний і загальний контекст. У підсумку користувач отримує потрібний результат із меншою кількістю уточнень.
Точність і контроль
ChatGPT Images 2.0 опановує складні концепції й точно втілює їх візуально.
Модель дотримується інструкцій, зберігає задані деталі та відтворює дрібні елементи з роздільною здатністю до 2K.
ChatGPT Images 2.0 is a step change in detailed instruction following, placing and relating objects accurately, and rendering dense text, with the ability to generate across aspect ratios.
It’s also accurate across languages and uses its expanded visual and world knowledge to…
ChatGPT Images 2.0 точніше передає характерні риси фотографій, кінематографічних кадрів, піксельної графіки, манґи та інших візуальних стилів. LLM забезпечує високу узгодженість текстур, освітлення, композиції та дрібних деталей.
Така точність стане у пригоді під час створення ігрових прототипів, у розробленні сторібордів, підготовці маркетингових матеріалів і створенні робіт у визначеному медіаформаті чи жанрі.
Модель уміє думати
ChatGPT Images 2.0 — перша модель OpenAI для роботи із зображеннями, здатна розмірковувати перед генерацією.
У зв’язці з ChatGPT модель уміє шукати інформацію в інтернеті в реальному часі, створювати кілька варіантів за одним промптом, перевіряти результати й генерувати робочі QR-коди.
«Це дозволяє моделі взяти на себе більшу частину важкої роботи між ідеєю та зображенням, особливо коли точність, актуальність інформації, узгодженість і візуальна цілісність мають першорядне значення», — стверджують в OpenAI.
Модель підтримує співвідношення сторін від 3:1 по ширині до 1:3 по висоті. Вона доступна користувачам ChatGPT і Codex.
Функція Images with thinking доступна в тарифних планах ChatGPT Plus, Pro і Business.