OpenAI представила «думающий» генератор изображений

Фирма OpenAI выпустила «размышляющий» генератор изображений ChatGPT Images 2.0 — «передовую модель, способную решать сложные визуальные задачи и создавать точные, готовые к использованию работы».

В компании отметили «качественный скачок» в следовании инструкциям, точном расположении и соотношении объектов, а также в визуализации плотного текста.

Модель уверенно работает с несколькими языками и самостоятельно заполняет пробелы в запросе, опираясь на визуальный и общий контекст. В итоге пользователь получает нужный результат с меньшим числом уточнений.

ChatGPT Images 2.0 справляется со сложными концепциями и точно воплощает их визуально.

Модель следует инструкциям, сохраняет указанные детали и отображает мелкие элементы с разрешением до 2К.

ChatGPT Images 2.0 точнее передает характерные черты фотографий, кинематографических кадров, пиксельной графики, манги и других визуальных стилей. LLM обеспечивает высокую степень согласованности текстур, освещения, композиции и мелких деталей. 

Подобная точность может быть полезна при создании игровых прототипов, в разработке сторибордов, подготовке маркетинговых материалов и создании работ в определенном медиаформате или жанре.

ChatGPT Images 2.0 — первая модель OpenAI для работы с изображениями, способная рассуждать перед генерацией.

В связке с ChatGPT модель умеет искать информацию в интернете в реальном времени, создавать несколько вариантов по одному промпту, перепроверять результаты и генерировать рабочие QR-коды.

Модель поддерживает соотношения сторон от 3:1 по ширине до 1:3 по высоте. Она доступна пользователям ChatGPT и Codex.