Odaily Planet Daily News OpenAI hat sein neuestes Flaggschiffmodell GPT-4o veröffentlicht, das Audio, Bild und Text in Echtzeit ableiten kann. Das Hauptkonzept ist ein anthropomorpher, übernatürlicher, persönlicher interaktiver Sprachassistent mit extrem geringer Latenz. Laut Informationen im Zusammenhang mit der offiziellen Website von OpenAI und dem offiziellen Konto der Generieren Sie eine beliebige Kombination aus Text-, Audio- und Bildausgabe. Es kann in 232 Millisekunden auf Audioeingaben reagieren, mit einem Durchschnitt von 320 Millisekunden, ähnlich den menschlichen Reaktionszeiten bei Gesprächen. In Englisch und Code ist die Leistung mit GPT-4 Turbo vergleichbar, mit erheblichen Verbesserungen bei nicht englischsprachigem Text und einer schnelleren und 50 % günstigeren API. GPT-4o schneidet im Vergleich zu bestehenden Modellen besonders gut beim visuellen und akustischen Verständnis ab. Text- und Bildeingaben werden heute für die API und ChatGPT eingeführt, Sprach- und Videoeingaben folgen in den kommenden Wochen.