OpenAI в понедельник представила свою последнюю флагманскую модель под названием GPT-4o («о» означает «омни»), и, похоже, она ближе всего к тому, чтобы иметь интеллектуального помощника в роли Джарвиса в фильме «Железный человек».

Преимущество заключается в том, что ChatGPT-4o может обрабатывать различные модальности, чего не могут сделать большинство существующих моделей искусственного интеллекта. Это означает, что GPT-4o может принимать и генерировать любую комбинацию запросов текста, аудио и изображений.

Постановочная демо-версия, представленная командой X (ранее Twitter), была настолько впечатляющей, что многие люди раскрутили ее. Одним из больших достижений является то, что GPT-4o реагирует на аудиовходы всего за 232 миллисекунды, что аналогично времени реакции человека во время разговора.

«Это похоже на ИИ из фильмов; и меня до сих пор немного удивляет, что это реально», — написал в понедельник в своем блоге генеральный директор OpenAI Сэм Альтман. «Достижение времени отклика и выразительности на человеческом уровне оказывается большим изменением».

OpenAI начала предоставлять пользователям функции текста и изображений GPT-4o. В ближайшие недели аудио- и видеовозможности будут доступны «небольшой группе доверенных партнеров по API», сообщила компания.

Тем не менее, вот некоторые вещи, которые вы можете делать с моделью ChatGPT-4o.

Что можно сделать с GPT-4o

Создавайте изображения с разборчивым текстом

До сих пор некоторые генераторы изображений искусственного интеллекта, такие как Midjourney, все еще с трудом создают изображения с читаемым текстом. В OpenAI заявили, что GPT-4o теперь гораздо лучше понимает текстовые описания и может создавать разборчивый текст на изображениях.

Источник изображения: Перевод OpenAI в реальном времени

В ситуации, когда необходим переводчик, GPT-4o может выступать в его роли. В видео-демонстрации команда OpenAI показала, что GPT-4o может повторять сказанное на английском языке на испанском, а возможно, и на других языках, и обратно с испанского на английский.

Перевод в реальном времени с помощью GPT-4o pic.twitter.com/J1BsrxwYdE

– OpenAI (@OpenAI) 13 мая 2024 г.

Посмотри и скажи

Для людей с нарушениями зрения или просто для развлечения ChatGPT-4o может смотреть и рассказывать о том, что происходит вокруг, через камеру телефона. В одном случае модель смогла сказать, что у кого-то празднуется день рождения, когда заметила в комнате торт и свечу.

@BeMyEyes с GPT-4o pic.twitter.com/nWb6sEWZlo

– OpenAI (@OpenAI) 13 мая 2024 г.

Решайте математические задачи

GPT-4o также может просматривать математические задачи на листе бумаги или экране дисплея и давать на них ответ. Мало того, он также может обучать и направлять вас, чтобы узнать, как решить проблему.

Математические задачи с GPT-4o и @khanacademy pic.twitter.com/RfKaYx5pTJ

– OpenAI (@OpenAI) 13 мая 2024 г.

ИИ на визуальных встречах

GPT-4o может присоединяться к визуальным встречам и проводить консервации вместе с участниками. Это также может помочь пользователям подготовиться к собеседованиям.

Встреча ИИ с GPT-4o pic.twitter.com/rHkQ316MYj

– OpenAI (@OpenAI) 13 мая 2024 г.