Творець ChatGPT OpenAI анонсував свою останню модель штучного інтелекту GPT-4o, більш балакучий, більш схожий на людину чат-бот ШІ, який може інтерпретувати аудіо та відео користувача та відповідати в режимі реального часу.

Серія демонстрацій, опублікованих фірмою, показує, як GPT-4 Omni допомагає потенційним користувачам у підготовці до співбесіди — переконавшись, що вони виглядають презентабельно для співбесіди — і зателефонував агенту служби підтримки клієнтів, щоб отримати заміну iPhone, перекладати двомовну розмову в реальному часі. час.

Демонстрації показують, що він може ділитися татовими жартами, бути суддею в матчі «камінь-ножиці-папір» між двома користувачами та відповідати сарказмом на запитання. Одна демонстрація навіть показує, що ChatGPT знайомиться з цуценям користувача вперше.

«Ну, привіт, Боузер! Хіба ти не наймиліша маленька істота?» — вигукнув чат-бот.

Привітайтеся з GPT-4o, нашою новою флагманською моделлю, яка може обговорювати аудіо, зображення та текст у режимі реального часу: https://t.co/MYHZB79UqNTТекстове введення та введення зображень розгортається сьогодні в API та ChatGPT з голосом і відео в найближчі тижні. pic.twitter.com/uuthKZyzYx

— OpenAI (@OpenAI) 13 травня 2024 р

«Відчуття, як ШІ з фільмів; і для мене все ще трохи дивно, що це реально», — сказав генеральний директор фірми Сем Альтман у дописі в блозі від 13 травня.

«Досягнення часу реакції на рівні людини та виразності виявляється великою зміною».

Версія лише для введення тексту та зображень була запущена 13 травня, а повна версія буде випущена найближчими тижнями, повідомляє OpenAI в останньому дописі X.

GPT-4o буде доступний як для платних, так і для безкоштовних користувачів ChatGPT і буде доступний через API ChatGPT.

OpenAI сказав, що «o» в GPT-4o означає «omni», що прагне позначити крок до більш природної взаємодії людини з комп’ютером.

Представляємо GPT-4o, нашу нову модель, яка може обговорювати текст, аудіо та відео в реальному часі. Вона надзвичайно універсальна, з нею весело грати, і вона є кроком до набагато більш природної форми взаємодії людини з комп’ютером (і навіть людини - взаємодія комп’ютер-комп’ютер): pic.twitter.com/VLG7TJ1JQx

— Грег Брокман (@gdb) 13 травня 2024 р

Здатність GPT-4o обробляти будь-який вхідний текст, аудіо та зображення одночасно є значним прогресом у порівнянні з попередніми інструментами штучного інтелекту OpenAI, такими як ChatGPT-4, який часто «втрачає багато інформації», коли змушений виконувати багато завдань. .

За темою: Apple завершує угоду з OpenAI для інтеграції ChatGPT iPhone: звіт

OpenAI сказав, що «GPT-4o особливо кращий у сприйнятті зору та аудіо в порівнянні з існуючими моделями», що включає навіть уловлювання емоцій і дихання користувача.

Він також «набагато швидший» і «на 50% дешевший», ніж GPT-4 Turbo в API OpenAI.

Новий інструмент штучного інтелекту може реагувати на аудіовхід всього за 2,3 секунди із середнім часом 3,2 секунди, стверджує OpenAI, що, за його словами, подібне до часу реакції людини під час звичайної розмови.

Журнал: ​​Як зупинити апокаліпсис штучного інтелекту: Девід Брін, автор Uplift