Odaily Planet Daily News OpenAI wypuściło swój najnowszy flagowy model GPT-4o, który może generować dźwięk, obraz i tekst w czasie rzeczywistym. Główną koncepcją jest antropomorficzny, nadprzyrodzony osobisty interaktywny asystent głosowy o bardzo niskim opóźnieniu. Według informacji związanych z oficjalną stroną OpenAI i oficjalnym kontem Generuj dowolną kombinację tekstu, dźwięku i obrazu. Może reagować na sygnał audio w ciągu 232 milisekund, średnio 320 milisekund, czyli podobnie jak czas reakcji człowieka podczas rozmowy. Działa na równi z GPT-4 Turbo w języku angielskim i kodzie, ze znacznymi ulepszeniami w przypadku tekstu w języku innym niż angielski, a jednocześnie ma szybszy i 50% tańszy interfejs API. GPT-4o szczególnie dobrze radzi sobie z rozumieniem obrazu i dźwięku w porównaniu z istniejącymi modelami. Wprowadzanie tekstu i obrazu zostanie już dziś udostępnione w interfejsie API i ChatGPT, a wprowadzanie głosu i wideo pojawi się w nadchodzących tygodniach.