Twórca ChatGPT, OpenAI, ogłosił swój najnowszy model sztucznej inteligencji, GPT-4o, chatbota AI, który jest bardziej gadatliwy i bardziej ludzki, który może interpretować dźwięk i obraz użytkownika oraz odpowiadać w czasie rzeczywistym.
Seria wersji demonstracyjnych wydanych przez firmę pokazuje, że GPT-4 Omni pomaga potencjalnym użytkownikom w takich czynnościach, jak przygotowanie do rozmowy kwalifikacyjnej — upewniając się, że wyglądają atrakcyjnie podczas rozmowy kwalifikacyjnej — oraz dzwonienie do agenta obsługi klienta w celu uzyskania zamiennego iPhone'a, tłumaczenie dwujęzycznej rozmowy na żywo czas.
Dema pokazują, że może dzielić się dowcipami z tatą, oceniać mecz papier-kamień-nożyce pomiędzy dwoma użytkownikami i odpowiadać sarkazmem na pytania. Jedno z pokazów pokazuje nawet, że ChatGPT jest po raz pierwszy przedstawiany szczeniakowi użytkownika.
„Cóż, cześć, Bowser! Czyż nie jesteś najcudowniejszą małą istotką?” – wykrzyknął chatbot.
Przywitaj się z GPT-4o, naszym nowym flagowym modelem, który może przetwarzać dźwięk, obraz i tekst w czasie rzeczywistym: https://t.co/MYHZB79UqNText i wprowadzanie obrazu wprowadzane dzisiaj w API i ChatGPT z głosem i wideo w nadchodzące tygodnie. pic.twitter.com/uuthKZyzYx
— OpenAI (@OpenAI) 13 maja 2024 r
„Wygląda jak sztuczna inteligencja z filmów; i wciąż jest dla mnie trochę zaskakujące, że to prawda” – powiedział dyrektor generalny firmy, Sam Altman, w poście na blogu z 13 maja.
„Uzyskanie czasu reakcji i ekspresji na poziomie ludzkim okazuje się dużą zmianą”.
Wersja wejściowa zawierająca wyłącznie tekst i obrazy została uruchomiona 13 maja, a pełna wersja ma zostać udostępniona w nadchodzących tygodniach, jak poinformowało OpenAI w niedawnym poście na X.
GPT-4o będzie dostępny zarówno dla płatnych, jak i bezpłatnych użytkowników ChatGPT i będzie dostępny z poziomu API ChatGPT.
OpenAI stwierdziło, że „o” w GPT-4o oznacza „omni” – co ma oznaczać krok w kierunku bardziej naturalnych interakcji człowiek-komputer.
Przedstawiamy GPT-4o, nasz nowy model, który potrafi analizować tekst, dźwięk i wideo w czasie rzeczywistym. Jest niezwykle wszechstronny, zapewnia świetną zabawę i stanowi krok w kierunku znacznie bardziej naturalnej formy interakcji człowiek-komputer (a nawet człowiek -interakcja komputer-komputer): pic.twitter.com/VLG7TJ1JQx
— Greg Brockman (@gdb) 13 maja 2024 r
Zdolność GPT-4o do jednoczesnego przetwarzania dowolnego tekstu, dźwięku i obrazu stanowi znaczny postęp w porównaniu z wcześniejszymi narzędziami AI OpenAI, takimi jak ChatGPT-4, które często „tracą wiele informacji” pod wpływem wielozadaniowości .
Powiązane: Apple finalizuje umowę z OpenAI na potrzeby integracji ChatGPT z iPhonem: raport
OpenAI stwierdziło, że „GPT-4o jest szczególnie lepszy w rozumieniu obrazu i dźwięku w porównaniu z istniejącymi modelami”, co obejmuje nawet wychwytywanie emocji i wzorców oddychania użytkownika.
Jest także „znacznie szybszy” i „50% tańszy” niż GPT-4 Turbo w API OpenAI.
Nowe narzędzie AI może reagować na sygnały audio w zaledwie 2,3 sekundy, przy średnim czasie 3,2 sekundy, twierdzi OpenAI, co według niego jest podobne do czasu reakcji człowieka podczas zwykłej rozmowy.
Magazyn: Jak zatrzymać apokalipsę sztucznej inteligencji: David Brin, autor Uplift