«Эмпатия» нейросети: как ИИ помогает нам понимать себя и других
В январе 2024 года Сэм Альтман, выступая на программе Y Combinator, посоветовал командам не сосредотачиваться на ограничениях GPT-4 при создании новых продуктов, так как в следующей версии модели большинство ограничений будет устранено. После вчерашней презентации OpenAI стало ясно, что Альтман намекал на новую флагманскую модель GPT-4o, которая теперь еще более человекоподобна. Разбираемся, что изменилось и как теперь выглядит наше будущее.
GPT-4o теперь умеет одновременно работать с текстом, звуком и видео. Раньше модель обрабатывала разные типы данных по отдельности — и это ее ограничивало. Например, если вы говорили с ChatGPT, пользуясь голосовым вводом в приложении, то он понимал только слова и не учитывал интонации и эмоциональность речи. Если вы присылали чат-боту изображение, он его анализировал, не сопоставляя с аудиоконтекстом. ChatGPT мог поддерживать диалог через текст, голосовые транскрипции и изображения, но ему не хватало способности понимать и интерпретировать в реальном времени невербальные сигналы — язык тела и интонации говорящего, которые составляют значительную часть коммуникации.
Модель GPT-4o собирает эти модальности — текст, звук и изображение — воедино в реальном времени (потому в названии использовали букву «о», то есть omni — приставка, обозначающая объединение всего). GPT-4o понимает не только что вы говорите, но и как вы это говорите: учитывает тон вашего голоса, выражение лица и даже фоновые звуки. Пользователь получает не просто ответы на вопросы, а полноценное общение, в котором ИИ улавливает эмоции собеседника и адаптируется под его настроение. Чат-бот может, например, похихикать вместе с человеком. На презентации GPT-4o также просили рассказать историю «драматично», голосом робота и пропеть ее.
Средняя скорость реагирования модели на речь — 320 миллисекунд. Это сопоставимо с реакцией человека в живом разговоре. Можно, например, прервать чат-бота в середине ответа, чтобы задать уточняющий вопрос.
Пользователи соцсетей уже успели сравнить происходящее с фильмом «Она», в котором главный герой влюбляется в операционную систему на базе ИИ.
{{slider-gallery}}
{{quote1}}
{{quote2}}
{{quote3}}
OpenAI очередной раз «обновила» правила игры в нашем взаимодействии с ИИ. Но, как и в любом технологическом прорыве, здесь есть место как оптимизму, так и скепсису.
С одной стороны, GPT-4o, способный взаимодействовать в человекоподобной манере, может усилить восприятие чат-бота как полноценного участника общения. В таком случае ИИ из технологического инструмента превращается в настоящего компаньона, который умеет понимать и поддерживать. Это может изменить то, как мы строим социальные взаимодействия, ожидая от технологий понимания и эмпатии наравне с людьми.
Рэй Курцвейл, приверженец идеи технологической сингулярности, прогнозирует будущее, в котором ИИ и человеческий мозг будут сливаться, расширяя интеллектуальные способности человека. Так, технология станет неотъемлемой частью нашего мозга, чем-то вроде внешнего жесткого диска. А голосовое взаимодействие с ИИ сделает его более доступным и полезным. Представьте, что ваш виртуальный ассистент не просто помогает вам с задачами, но и участвует в креативных процессах, предлагает идеи и помогает их реализовать, работая как настоящая правая рука, притом подшучивая на ходу.
На противоположном полюсе Шерри Теркл. Ее стезя — социальные аспекты взаимодействия человека с технологиями в MIT. Теркл обращает внимание на психологические последствия технологического прогресса. В своих работах она предупреждает об ухудшении человеческих взаимоотношений из-за повышенной зависимости от технологий: настоящее общение и глубокие человеческие связи страдают, а люди все больше ожидают эмоциональной поддержки от машин, которая не может полностью заменить человеческое взаимодействие. Но, кажется, у нас нет выбора. ИИ неизбежно проникает в жизнь и требует от нас новых протоколов и подходов, чтобы минимизировать негативные последствия и усилить положительное влияние технологий на жизнь.
Время на это есть. В основе инженерной культуры OpenAI лежит итеративное развертывание продукта, благодаря чему публика постепенно адаптируется к нему. Так, например, было с плагинами, которые потом превратились в кастомизированные GPTs. Чтобы снизить сопротивление общества отчасти пугающим новшествам, OpenAI прививает аудитории чувство непрекращающегося эксперимента — еще и бесплатного.