Фирма OpenAI выпустила «размышляющий» генератор изображений ChatGPT Images 2.0 — «передовую модель, способную решать сложные визуальные задачи и создавать точные, готовые к использованию работы».
В компании отметили «качественный скачок» в следовании инструкциям, точном расположении и соотношении объектов, а также в визуализации плотного текста.
Модель уверенно работает с несколькими языками и самостоятельно заполняет пробелы в запросе, опираясь на визуальный и общий контекст. В итоге пользователь получает нужный результат с меньшим числом уточнений.
ChatGPT Images 2.0 справляется со сложными концепциями и точно воплощает их визуально.
Модель следует инструкциям, сохраняет указанные детали и отображает мелкие элементы с разрешением до 2К.
ChatGPT Images 2.0 точнее передает характерные черты фотографий, кинематографических кадров, пиксельной графики, манги и других визуальных стилей. LLM обеспечивает высокую степень согласованности текстур, освещения, композиции и мелких деталей.
Подобная точность может быть полезна при создании игровых прототипов, в разработке сторибордов, подготовке маркетинговых материалов и создании работ в определенном медиаформате или жанре.
ChatGPT Images 2.0 — первая модель OpenAI для работы с изображениями, способная рассуждать перед генерацией.
В связке с ChatGPT модель умеет искать информацию в интернете в реальном времени, создавать несколько вариантов по одному промпту, перепроверять результаты и генерировать рабочие QR-коды.
Модель поддерживает соотношения сторон от 3:1 по ширине до 1:3 по высоте. Она доступна пользователям ChatGPT и Codex.