Создатель ChatGPT компания OpenAI анонсировала свою новейшую модель искусственного интеллекта, GPT-4o, более болтливого и более человечного чат-бота с искусственным интеллектом, который может интерпретировать аудио и видео пользователя и отвечать в режиме реального времени.

Серия демонстраций, выпущенных фирмой, показывает, что GPT-4 Omni помогает потенциальным пользователям в таких вещах, как подготовка к собеседованию (убедившись, что они выглядят презентабельно для собеседования) и звонок агенту службы поддержки клиентов, чтобы получить замену iPhone, перевести двуязычный разговор в реальном времени. время.

Демо-версии показывают, что он может делиться отцовскими шутками, быть судьей в матче «камень-ножницы-бумага» между двумя пользователями и отвечать сарказмом, когда его об этом спрашивают. В одной из демонстраций ChatGPT даже впервые показан щенку пользователя.

«Ну здравствуй, Баузер! Разве ты не самая очаровательная малышка?» - воскликнул чат-бот.

Встречайте GPT-4o, нашу новую флагманскую модель, которая может анализировать звук, изображение и текст в режиме реального времени: https://t.co/MYHZB79UqNText и ввод изображений, которые сегодня доступны в API и ChatGPT с голосовым и видео ближайшие недели. pic.twitter.com/uuthKZyzYx

– OpenAI (@OpenAI) 13 мая 2024 г.

«Это похоже на ИИ из фильмов; и меня до сих пор немного удивляет, что это реально», — заявил генеральный директор фирмы Сэм Альтман в своем блоге от 13 мая.

«Достижение времени отклика и выразительности на человеческом уровне оказывается большим изменением».

Версия для ввода только текста и изображений была запущена 13 мая, а полная версия будет выпущена в ближайшие недели, сообщил OpenAI в недавнем сообщении X.

GPT-4o будет доступен как платным, так и бесплатным пользователям ChatGPT, а также будет доступен через API ChatGPT.

В OpenAI заявили, что буква «o» в GPT-4o означает «omni», что означает шаг к более естественному взаимодействию человека с компьютером.

Представляем GPT-4o, нашу новую модель, которая может обрабатывать текст, аудио и видео в режиме реального времени. Она чрезвычайно универсальна, с ней интересно играть, и она является шагом к гораздо более естественной форме взаимодействия человека с компьютером (и даже человеческого взаимодействия). -взаимодействие компьютер-компьютер): pic.twitter.com/VLG7TJ1JQx

– Грег Брокман (@gdb) 13 мая 2024 г.

Способность GPT-4o обрабатывать любой ввод текста, звука и изображения одновременно является значительным достижением по сравнению с более ранними инструментами искусственного интеллекта OpenAI, такими как ChatGPT-4, который часто «теряет много информации», когда вынужден выполнять несколько задач одновременно. .

Связанный: Apple завершает сделку с OpenAI для интеграции ChatGPT с iPhone: отчет

OpenAI заявила, что «GPT-4o особенно лучше понимает зрение и звук по сравнению с существующими моделями», что включает в себя даже распознавание эмоций пользователя и характера дыхания.

Он также «намного быстрее» и «на 50% дешевле», чем GPT-4 Turbo в API OpenAI.

Новый инструмент искусственного интеллекта может реагировать на аудиовход всего за 2,3 секунды, при этом среднее время составляет 3,2 секунды, утверждает OpenAI, что, по ее словам, аналогично времени реакции человека в обычном разговоре.

Журнал: Как остановить апокалипсис искусственного интеллекта: Дэвид Брин, автор Uplift