У понеділок OpenAI представила свою останню флагманську модель під назвою GPT-4o («o» означає «omni»), і, здається, це ближче всього до того, щоб мати розумного помічника, як «Джарвіс» у фільмі «Залізна людина».

Головна перевага полягає в тому, що ChatGPT-4o може обробляти різні модальності, чого не може зробити більшість існуючих моделей ШІ. Це означає, що GPT-4o може приймати та генерувати будь-яку комбінацію запитів на текст, аудіо та зображення.

Поетапна демонстрація, представлена ​​командою на X (колишній Twitter), була настільки вражаючою, що багато людей її підняли. Однією з великих переваг є те, що GPT-4o реагує на аудіовхідні сигнали лише за 232 мілісекунди, що приблизно дорівнює часу реакції людини під час розмови.

«Відчуття, як ШІ з фільмів; і для мене все ще трохи дивно, що це реально», — написав генеральний директор OpenAI Сем Альтман у своєму блозі в понеділок. «Досягнення часу реакції на рівні людини та виразності виявляється великою зміною».

OpenAI почав розгортати текстові та графічні функції GPT-4o для користувачів. У найближчі тижні аудіо- та відеоможливості будуть надані «невеликій групі надійних партнерів в API», повідомила компанія. 

Незважаючи на це, ось деякі речі, які ви можете робити за допомогою моделі ChatGPT-4o. 

Що ви можете зробити з GPT-4o

Створюйте зображення з розбірливим текстом

Дотепер деякі генератори зображень штучного інтелекту, як-от Midjourney, досі не можуть створювати зображення з читабельним текстом. OpenAI сказав, що GPT-4o тепер набагато краще розуміє текстові описи та може робити тексти на зображеннях розбірливими. 

Джерело зображення: переклад OpenAI у реальному часі

У ситуації, коли потрібен перекладач, GPT-4o може виступити ним. У відеодемонстрації команда OpenAI показала, що GPT-4o може повторювати щось, сказане англійською мовою, іспанською, можливо, іншими мовами, і повертатися з іспанської на англійську.

Переклад у реальному часі за допомогою GPT-4o pic.twitter.com/J1BsrxwYdE

— OpenAI (@OpenAI) 13 травня 2024 р

Подивіться і розкажіть

Для людей із вадами зору або просто для розваги ChatGPT-4o може дивитися та розповідати, що відбувається навколо вас через камеру телефону. В одному випадку модель змогла сказати, що хтось святкує день народження, коли помітила торт і свічку в кімнаті.

@BeMyEyes з GPT-4o pic.twitter.com/nWb6sEWZlo

— OpenAI (@OpenAI) 13 травня 2024 р

Розв’яжіть математичні задачі

GPT-4o також може переглядати математичні задачі на аркуші паперу чи екрані дисплея та давати на них відповідь. Не тільки це, він також може навчити вас і допомогти вам навчитися розв’язувати проблему.

Математичні завдання з GPT-4o та @khanacademy pic.twitter.com/RfKaYx5pTJ

— OpenAI (@OpenAI) 13 травня 2024 р

AI у Visual Meeting

GPT-4o може приєднуватися до візуальних зустрічей і проводити збереження з учасниками. Це також може допомогти користувачам підготуватися до співбесід. 

Зустріч ШІ з GPT-4o pic.twitter.com/rHkQ316MYj

— OpenAI (@OpenAI) 13 травня 2024 р