Twórca ChatGPT, OpenAI, ogłosił swój najnowszy model sztucznej inteligencji, GPT-4o, chatbota AI, który jest bardziej gadatliwy i bardziej ludzki, który może interpretować dźwięk i obraz użytkownika oraz odpowiadać w czasie rzeczywistym.

Seria wersji demonstracyjnych wydanych przez firmę pokazuje, że GPT-4 Omni pomaga potencjalnym użytkownikom w takich czynnościach, jak przygotowanie do rozmowy kwalifikacyjnej — upewniając się, że wyglądają atrakcyjnie podczas rozmowy kwalifikacyjnej — oraz dzwonienie do agenta obsługi klienta w celu uzyskania zamiennego iPhone'a, tłumaczenie dwujęzycznej rozmowy na żywo czas.

Dema pokazują, że może dzielić się dowcipami z tatą, oceniać mecz papier-kamień-nożyce pomiędzy dwoma użytkownikami i odpowiadać sarkazmem na pytania. Jedno z pokazów pokazuje nawet, że ChatGPT jest po raz pierwszy przedstawiany szczeniakowi użytkownika.

„Cóż, cześć, Bowser! Czyż nie jesteś najcudowniejszą małą istotką?” – wykrzyknął chatbot.

Przywitaj się z GPT-4o, naszym nowym flagowym modelem, który może przetwarzać dźwięk, obraz i tekst w czasie rzeczywistym: https://t.co/MYHZB79UqNText i wprowadzanie obrazu wprowadzane dzisiaj w API i ChatGPT z głosem i wideo w nadchodzące tygodnie. pic.twitter.com/uuthKZyzYx

— OpenAI (@OpenAI) 13 maja 2024 r

„Wygląda jak sztuczna inteligencja z filmów; i wciąż jest dla mnie trochę zaskakujące, że to prawda” – powiedział dyrektor generalny firmy, Sam Altman, w poście na blogu z 13 maja.

„Uzyskanie czasu reakcji i ekspresji na poziomie ludzkim okazuje się dużą zmianą”.

Wersja wejściowa zawierająca wyłącznie tekst i obrazy została uruchomiona 13 maja, a pełna wersja ma zostać udostępniona w nadchodzących tygodniach, jak poinformowało OpenAI w niedawnym poście na X.

GPT-4o będzie dostępny zarówno dla płatnych, jak i bezpłatnych użytkowników ChatGPT i będzie dostępny z poziomu API ChatGPT.

OpenAI stwierdziło, że „o” w GPT-4o oznacza „omni” – co ma oznaczać krok w kierunku bardziej naturalnych interakcji człowiek-komputer.

Przedstawiamy GPT-4o, nasz nowy model, który potrafi analizować tekst, dźwięk i wideo w czasie rzeczywistym. Jest niezwykle wszechstronny, zapewnia świetną zabawę i stanowi krok w kierunku znacznie bardziej naturalnej formy interakcji człowiek-komputer (a nawet człowiek -interakcja komputer-komputer): pic.twitter.com/VLG7TJ1JQx

— Greg Brockman (@gdb) 13 maja 2024 r

Zdolność GPT-4o do jednoczesnego przetwarzania dowolnego tekstu, dźwięku i obrazu stanowi znaczny postęp w porównaniu z wcześniejszymi narzędziami AI OpenAI, takimi jak ChatGPT-4, które często „tracą wiele informacji” pod wpływem wielozadaniowości .

Powiązane: Apple finalizuje umowę z OpenAI na potrzeby integracji ChatGPT z iPhonem: raport

OpenAI stwierdziło, że „GPT-4o jest szczególnie lepszy w rozumieniu obrazu i dźwięku w porównaniu z istniejącymi modelami”, co obejmuje nawet wychwytywanie emocji i wzorców oddychania użytkownika.

Jest także „znacznie szybszy” i „50% tańszy” niż GPT-4 Turbo w API OpenAI.

Nowe narzędzie AI może reagować na sygnały audio w zaledwie 2,3 sekundy, przy średnim czasie 3,2 sekundy, twierdzi OpenAI, co według niego jest podobne do czasu reakcji człowieka podczas zwykłej rozmowy.

Magazyn: Jak zatrzymać apokalipsę sztucznej inteligencji: David Brin, autor Uplift