«Она»: что умеет GPT-4o и какое у нас с ней будущее

Наиля Аглицкая

ИИ-исследовательница

Техно

Разбор

2024-05-14

5 мин

Что происходило с YouTube в 2022 году

В январе 2024 года Сэм Альтман, выступая на программе Y Combinator, посоветовал командам не сосредотачиваться на ограничениях GPT-4 при создании новых продуктов, так как в следующей версии модели большинство ограничений будет устранено. После вчерашней презентации OpenAI стало ясно, что Альтман намекал на новую флагманскую модель GPT-4o, которая теперь еще более человекоподобна. Разбираемся, что изменилось и как теперь выглядит наше будущее.

Слышит, видит, говорит

GPT-4o теперь умеет одновременно работать с текстом, звуком и видео. Раньше модель обрабатывала разные типы данных по отдельности — и это ее ограничивало. Например, если вы говорили с ChatGPT, пользуясь голосовым вводом в приложении, то он понимал только слова и не учитывал интонации и эмоциональность речи. Если вы присылали чат-боту изображение, он его анализировал, не сопоставляя с аудиоконтекстом. ChatGPT мог поддерживать диалог через текст, голосовые транскрипции и изображения, но ему не хватало способности понимать и интерпретировать в реальном времени невербальные сигналы — язык тела и интонации говорящего, которые составляют значительную часть коммуникации.

Модель GPT-4o собирает эти модальности — текст, звук и изображение — воедино в реальном времени (потому в названии использовали букву «о», то есть omni — приставка, обозначающая объединение всего). GPT-4o понимает не только что вы говорите, но и как вы это говорите: учитывает тон вашего голоса, выражение лица и даже фоновые звуки. Пользователь получает не просто ответы на вопросы, а полноценное общение, в котором ИИ улавливает эмоции собеседника и адаптируется под его настроение. Чат-бот может, например, похихикать вместе с человеком. На презентации GPT-4o также просили рассказать историю «драматично», голосом робота и пропеть ее.

Средняя скорость реагирования модели на речь — 320 миллисекунд. Это сопоставимо с реакцией человека в живом разговоре. Можно, например, прервать чат-бота в середине ответа, чтобы задать уточняющий вопрос.

Пользователи соцсетей уже успели сравнить происходящее с фильмом «Она», в котором главный герой влюбляется в операционную систему на базе ИИ.

Что еще стало известно на презентации OpenAI

• GPT-4o будет бесплатной (скорее всего, потому, что компании нужно больше данных, на которых будет обучаться модель). Доступ к ней будут открывать постепенно начиная с 13 мая.

• Интерфейс бота стал минималистичным: в центре экрана расположена большая черная точка, которая превращается в стилизованную звуковую волну, когда бот говорит.

• Производительность GPT-4o в работе с текстом и кодом соответствует уровню платной GPT-4 Turbo.

• Модель лучше понимает другие языки и умеет переводить речь с одного языка на другой в реальном времени.

• ChatGPT появится десктопное приложение для macOS и Windows. С ним можно будет поделиться экраном компьютера, чтобы показать, например, код.

Оптимисты и скептики

OpenAI очередной раз «обновила» правила игры в нашем взаимодействии с ИИ. Но, как и в любом технологическом прорыве, здесь есть место как оптимизму, так и скепсису.

С одной стороны, GPT-4o, способный взаимодействовать в человекоподобной манере, может усилить восприятие чат-бота как полноценного участника общения. В таком случае ИИ из технологического инструмента превращается в настоящего компаньона, который умеет понимать и поддерживать. Это может изменить то, как мы строим социальные взаимодействия, ожидая от технологий понимания и эмпатии наравне с людьми.

Рэй Курцвейл, приверженец идеи технологической сингулярности, прогнозирует будущее, в котором ИИ и человеческий мозг будут сливаться, расширяя интеллектуальные способности человека. Так, технология станет неотъемлемой частью нашего мозга, чем-то вроде внешнего жесткого диска. А голосовое взаимодействие с ИИ сделает его более доступным и полезным. Представьте, что ваш виртуальный ассистент не просто помогает вам с задачами, но и участвует в креативных процессах, предлагает идеи и помогает их реализовать, работая как настоящая правая рука, притом подшучивая на ходу.

На противоположном полюсе Шерри Теркл. Ее стезя — социальные аспекты взаимодействия человека с технологиями в MIT. Теркл обращает внимание на психологические последствия технологического прогресса. В своих работах она предупреждает об ухудшении человеческих взаимоотношений из-за повышенной зависимости от технологий: настоящее общение и глубокие человеческие связи страдают, а люди все больше ожидают эмоциональной поддержки от машин, которая не может полностью заменить человеческое взаимодействие. Но, кажется, у нас нет выбора. ИИ неизбежно проникает в жизнь и требует от нас новых протоколов и подходов, чтобы минимизировать негативные последствия и усилить положительное влияние технологий на жизнь.

Время на это есть. В основе инженерной культуры OpenAI лежит итеративное развертывание продукта, благодаря чему публика постепенно адаптируется к нему. Так, например, было с плагинами, которые потом превратились в кастомизированные GPTs. Чтобы снизить сопротивление общества отчасти пугающим новшествам, OpenAI прививает аудитории чувство непрекращающегося эксперимента — еще и бесплатного.

Для успеха в бизнесе важны навыки предпринимателя и его команды, общие высокие цели и умение мыслить нестандартно. Но не менее важны правильно организованные бизнес-процессы, которые помогают работать эффективно и быстро. Экосистема для бизнеса Контур предлагает удобные инструменты для оптимизации работы. Например, с помощью электронного документооборота в Контур. Диадок подписание любых документов занимает всего несколько секунд. Для этого нужны цифровые подписи и доверенности — они тоже доступны в Контуре.

Общение даже небольших команд удобнее вести в единой платформе Контур. Толк. Здесь все сообщения и документы всегда под рукой, а ведение протоколов встреч гораздо удобнее благодаря встроенному ИИ. Бухгалтерский учет и отчетность также легко вести с сервисами Контура: Экстерн подойдет для команд с бухгалтером, а Эльба — для индивидуальных предпринимателей, которые ведут дела самостоятельно.

Все сервисы Контура работают круглосуточно, надежны и безопасны. Команда экспертов поддержки готова помочь как действующим клиентам, так и тем, кто только начинает бизнес и ищет профессиональный совет.

Реклама, АО «ПФ «СКБ Контур», Erid: 2W5zFHN7mep

Текст:

Наиля Аглицкая

Иллюстрации:

Юрий Копылов

Подписка оформлена

Иван Юницкий

Основатель иммерсивной лаборатории Voic Lab

GPT теперь будет общаться, используя большой спектр эмоций, а также улавливать эмоции пользователя. Фанаты научной фантастики и антиутопий теперь смогут повторять сценарии любимых произведений в реальной жизни.

Что еще может новая модель? Она умеет генерировать звуки окружения, петь, быть переводчиком, работать с дизайном и текстом на изображениях, понимает пространство. С ней можно решать математические задачи, учить языки, подключать на видеоколлы с коллегами и придумывать креативные решения для проектов. Еще она неплохо умеет шутить и использовать сарказм.

Можно даже сказать, что презентации OpenAI становятся настоящими событиями, вытесняя в этом плане Apple c пьедестала почета.

Алексей Хахунов

Сооснователь Dbrain

Вчерашний релиз GPT-4о от OpenAI очередной раз взорвал мой мозг. Потому что каждый раз они умудряются попасть в мой оптимистичный прогноз, в который, казалось, невозможно попасть.

Главные изменения касаются не столько увеличения интеллектуальных способностей модели, сколько ее человечности. Теперь GPT-4 отвечает быстрее, понятнее и демонстрирует эмоциональную окраску в ответах. Особенно впечатляет способность модели считывать изображение в реальном времени. Это значительно расширяет ее функциональные возможности как помощника.

Еще важно отметить социальное значение этих изменений: модель может улучшить жизнь людей с ограниченным возможностями, особенно тех, у кого есть проблемы со зрением.

Олег Юсупов

Сооснователь Phygitalism и Phygital+

GPT-4o работает с текстом, аудио и изображениями. Но не с видео: для этого нужно больше мощностей и данных. Сейчас бот просто фиксирует изображение в моменте и анализирует его. Дальнейший шаг — работа с видео и 3D. Все идет к этому.

Честно говоря, я не вижу в LLM способности решать все задачи. Многие прочат, что это шаг на пути к AGI. Это, безусловно, отличный инструмент, но не AGI. Здесь я бы сослался на Яна Лекуна, главного по ИИ в Meta (запрещена в РФ). Он говорит, что, создавая LLM, мы пытаемся представить через текст все модальности, но на самом деле реальный мир далеко не текст. Чтобы идти в сторону AGI, нужно также использовать предметно-ориентированный подход. Это, например, сигналы от сенсоров, снимки МРТ — данные, которые мы не можем описать текстом. Тогда будет возможна метамодальность.

No items found.

tip text

tip label