Последний месяц OpenAI щедра на обновления. Неделю назад появились o3 and o4-mini — «самые интеллектуальные модели на сегодняшний день», по словам компании. А еще новое семейство: GPT-4.1 и ее вариации mini и nano (будто мало путаницы с остальными названиями). Чуть раньше, в конце марта, в GPT-4o встроили продвинутый генератор изображений, который работает как «текстовый фотошоп на стероидах». Рассказываем, кому и как они могут пригодиться.
У всех GPT-4.1 память длиннее примерно в восемь раз, чем у моделей постарше: они могут обрабатывать до 1 млн токенов за раз (около 750 тыс. слов — это больше, чем в «Войне и мире»). Ответы достигают 24 тыс. слов (32 тыс. токенов против предыдущих 16 тыс. — примерно как в «Бедной Лизе»). Впрочем, до отказа память пока лучше не заполнять, иначе у нейросети снижается точность и появляются галлюцинации.
GPT-4.1 и ее вариации — универсальные модели, но в первую очередь в них оценили умение кодить.
Что касается o3 и o4-mini, у первой «внимания» также хватает на 1 млн токенов — и это теперь «самая мощная из самых умных» моделей OpenAI (по версии самой OpenAI), если говорить о логике. Она лучше всего ищет нестандартные ответы, умеет рассуждать и строить глубинные взаимосвязи: может качественно решить олимпиадную задачу по математике и обсудить книгу. Вторая, o4-mini — компактная версия с памятью в пять раз короче. Она думает быстрее и подходит для задач попроще: например, проанализировать описания товаров в карточках на маркетплейсе.
{{quote1}}
Сразу после добавления GPT-генератора в сети завирусилась стилизация под кукол и персонажей из миров Хаяо Миядзаки (который сам, кстати, подобную генерацию осуждает). К трендам присоединились даже Королевская почта Великобритании и Белый дом США — последний сгенерировал и опубликовал картинку с задержанием мигрантки, получив в ответ шквал критики.
{{slider-gallery}}
o3 и o4-mini — пополнение в семье рассуждающих моделей ИИ, которые запрограммированы дольше и лучше думать, прежде чем реагировать.
У новых нейросетей есть доступ к другим инструментам ChatGPT (вроде интернет-поиска), а также к пользовательским сервисам через API. И они сами решают, что в какой момент использовать.
{{quote2}}
Особенно хорошо o3 и o4-mini работают с визуальными вводными: скажем, если нужно проанализировать диаграммы или сопоставить фото. Как объясняет OpenAI в анонсе, это первые модели, которые «не просто видят картинки, а думают с помощью картинок», — они способны не просто найти созвездие на фото, но и порассуждать, с какой локации был сделан кадр, приводит пример Кирилл.
Из минусов, как подметил CEO neural.love Денис Ширяев, — o3 забавно оправдывается, если ошибается, «потому что уверена, что почти всегда права»: может заявить, что «проверила скрипт целиком и все работает, проблема у тебя». Ошибается o3 при этом часто, в трети ответов, признает OpenAI, — вдвое больше, чем o1, самая старшая из рассуждающего семейства.
Как считают независимые аналитики из Artificial Analysis, модель GPT-4.1 сопоставима с DeepSeek V3. К тому же она «умнее и дешевле по всем параметрам», чем GPT-4o, которую представили год назад и до сих пор нередко называли самой продвинутой нейросетью OpenAI.
В частности, в кодировании GPT-4.1 лучше GPT-4o на 21%, в обработке длинного контекста — почти на 7%, в мультизадачности — как минимум на 10%.
{{quote3}}
Модель GPT-4o появилась прошлой весной и сразу могла одновременно обрабатывать текст, изображения, аудио и видео, но до конца этого марта генерировала изображения через Dall-E, другую нейросеть OpenAI.
{{quote4}}
{{slider-gallery}}
Конечно, пользователи стали изощряться в фантазии. Переделывать «Интерстеллар» в аниме, иллюстрировать гардероб любимых персонажей. Превращать мемы в фотореалистичные картинки. Генерировать стикеры, постеры и обложки для YouTube, макеты для веб-сайтов и фото для каталогов.
{{slider-gallery}}
И конечно, фантазировать, как выглядели бы их питомцы в других вселенных.
{{slider-gallery}}
Генератор в GPT-4o — прорыв не только потому, что он наконец-то не грешит «лишними пальцами», но и потому, что теперь модель явно лучше понимает, что она генерирует, уточняет Кирилл. Например, может спланировать обстановку комнаты по фото или отредактировать реальный кадр — заменить билборд Apple на рекламу огурцов. А значит, дизайнеры смогут быстрее создавать визуалы, маркетологи — тестировать подходы, а стартаперы — меньше тратиться на простые задачки.
«Рождение» GPT-4.1 в первую очередь порадовало разработчиков, o3 — исследователей, работающих с дата-массивами и производящих сложные расчеты. Обе модели многозадачные, хорошо следуют многоэтапным инструкциям. А вот обновление GPT‑4o с генератором изображений пришлось по душе дизайнерам, маркетологам, видеографам — всем, кто работает с визуалом, в том числе инфлюенсерам.
Например, если подключить через API базу данных о продажах и датчики с пунктов выдачи и складов, o3 и o4-mini могут поискать в сети, собрать код для проверки внутренних баз — и в итоге построить план поставок или найти проблемы в логистике.
На практике GPT-4.1 поможет разработчикам и предпринимателям быстрее и качественнее разрабатывать приложения, веб-страницы и другие ИТ-продукты, юристам — изучать громоздкие договоры, журналистам — разбирать архивы.
А еще усилит ИИ-агентов — автономные сервисы, способные выполнять сложные задачи без постоянного контроля человека. Так, ИИ-планировщик на базе GPT-4.1 сможет не просто напоминать о встречах, а самостоятельно координировать расписание, планировать командировки, запрашивать брони в гостиницах.
Самое замечательное — если что-то не нравится, не нужно начинать с нуля, можно итеративно работать над картинкой: менять стиль, корректировать нюансы, добавлять текст. Причем добавлять текст не просто «где-то снизу», а встраивать его в изображение — пока это умеют немногие ИИ-сервисы.
Полина Садовникова и Мария Бессмертная воспользовались этим поводом, чтобы пересмотреть свои любимые вампирские саги в строго рабочее время. Пройдите его и узнайте, какой вы вампир.