ChatGPT Images 2.0 наконец научился нормально писать текст

Генерация изображений с помощью ИИ давно перестала удивлять. Нейросети рисуют фотореалистичные сцены, делают концепты, собирают постеры и даже имитируют стиль известных художников. Но почти у всех подобных сервисов оставалась одна большая проблема — текст.

Надписи на изображениях выглядели как случайный набор букв. Интерфейсы ломались. Баннеры приходилось дорабатывать вручную. Именно поэтому выход ChatGPT Images 2.0 стал настолько заметным событием.

🚀 Конвертируйте изображения
без загрузки файлов на сервер

Бесплатный сервис Конвертус переведет JPG, JPEG, PNG, WEBP и AVIF в нужный формат
без потери качества.

👉 Начать бесплатно →

OpenAI фактически представила не очередной апдейт генератора картинок, а полноценную переработку всей системы. Теперь модель умеет корректно размещать текст, понимать сложные инструкции и сохранять единый стиль сразу в нескольких изображениях.

И это действительно меняет рынок AI-графики.

Что изменилось в ChatGPT Images 2.0

Главное улучшение новой версии — работа с текстом. Причем речь идет не только о коротких словах на вывесках.

Модель спокойно генерирует меню, инфографику, интерфейсы, предупреждения, баннеры и другие изображения, где раньше нейросети стабильно ошибались.

OpenAI добавила этап анализа перед генерацией картинки. Система сначала продумывает композицию, расположение объектов и структуру сцены, а уже потом создает изображение.

На практике это ощущается сразу.

Картинки стали аккуратнее. Макеты выглядят логичнее. Текст больше не превращается в абстрактный шум.

Особенно заметен прогресс при сложных запросах, где нужно одновременно соблюдать стиль, композицию и большое количество деталей.

Теперь нейросеть понимает сложные запросы

Раньше генераторы изображений лучше работали с короткими промптами. Чем длиннее описание, тем выше шанс получить хаос.

С ChatGPT Images 2.0 ситуация изменилась.

Теперь можно буквально описывать сцену как режиссер:

положение объектов;
освещение;
отражения;
расположение текста;
стиль интерфейса;
эмоции персонажей.

И модель действительно старается все это учитывать.

Например, можно попросить создать лабораторию в стиле sci-fi, добавить голографический интерфейс, дождливое окно на заднем плане и конкретную фразу без ошибок. В большинстве случаев система справится.

Причем результат получается не только похожим, а достаточно точным.

Режим размышления оказался важнее, чем кажется

Одна из самых интересных функций — режим анализа или размышления.

В обычном режиме изображения создаются быстро. Такой вариант подходит для простых задач и доступен даже бесплатно.

Но платные тарифы получили отдельный режим, где модель сначала анализирует запрос, а потом уже начинает генерацию.

Разница заметна.

При сложных задачах система тратит больше времени, зато лучше удерживает структуру сцены, аккуратнее работает с текстом и почти не ломает композицию.

Фактически генератор начинает не просто рисовать по описанию, а планировать изображение заранее.

Для AI-графики это довольно серьезный шаг вперед.

Генерация сразу нескольких изображений — одна из лучших функций

Еще одно крупное обновление — создание до восьми связанных изображений за один запрос.

И речь не про обычный коллаж.

Модель умеет сохранять одного и того же персонажа, стиль освещения, окружение и детали сцены между кадрами. Это особенно полезно для:

раскадровок;
рекламных кампаний;
комиксов;
презентаций;
визуальных историй.

Раньше добиться одинакового персонажа даже в двух генерациях было сложно. Теперь нейросеть намного стабильнее удерживает внешность и окружение.

Хотя полностью идеальной систему пока назвать нельзя.

Иногда мелкие детали все же меняются между кадрами, особенно в бесплатной версии.

Редактирование стало намного удобнее

OpenAI также переработала инструменты редактирования.

Теперь можно выделить конкретную область изображения и изменить только ее. Например:

заменить предмет;
поменять цвет интерфейса;
исправить текст;
изменить объект на переднем плане.

При этом остальная сцена останется прежней.

Для дизайнеров и контент-команд это огромное упрощение работы. Больше не нужно перегенерировать всю картинку из-за одной ошибки.

Особенно хорошо система справляется с освещением и отражениями после локальных правок. Новые объекты обычно выглядят естественно внутри сцены.

Кому подойдет этот инструмент

В первую очередь — тем, кто регулярно работает с визуальным контентом.

Маркетологи могут быстро делать баннеры, рекламные креативы и посты для соцсетей без постоянной доработки текста вручную.

Дизайнеры — собирать прототипы интерфейсов и концепты.

Разработчики — генерировать UI-элементы и изображения для приложений через API.

Также модель хорошо подходит для презентаций, инфографики, обучающих материалов и локализации контента на разных языках.

Поддержка нелатинских шрифтов здесь стала заметно лучше.

Есть ли минусы

Без них пока не обошлось.

Режим глубокого анализа работает медленнее. Иногда генерация занимает несколько минут.

Ошибки тоже полностью не исчезли. Артефакты периодически появляются, а отдельные сцены все еще требуют повторной генерации.

Кроме того, бесплатная версия сильно ограничена по возможностям.

Самые интересные функции вроде генерации нескольких отдельных кадров или режима размышления доступны только в Plus и более дорогих тарифах.

Вердикт

С выходом ChatGPT Images 2.0 генераторы изображений на базе ИИ стали заметно ближе к полноценным рабочим инструментам.

Главный прорыв здесь — не качество света или детализация. С этим нейросети справлялись и раньше.

Куда важнее то, что модель наконец начала нормально работать с текстом, композицией и сложными инструкциями.

Именно этого AI-генераторам не хватало последние несколько лет.

👍 3 ❤️ 2 🙂+

👁 2.5k