OpenAI, creatore di ChatGPT, ha annunciato il suo ultimo modello di intelligenza artificiale, GPT-4o, un chatbot AI più loquace e più simile a quello umano, in grado di interpretare l'audio e il video di un utente e rispondere in tempo reale.

Una serie di demo rilasciate dall'azienda mostra che GPT-4 Omni aiuta i potenziali utenti in cose come la preparazione al colloquio - assicurandosi che siano presentabili per il colloquio - e chiama un agente del servizio clienti per ottenere un iPhone sostitutivo, traducendo una conversazione bilingue in realtà. tempo.

Le demo mostrano che può condividere le battute di papà, essere il giudice di una partita sasso-carta-forbice tra due utenti e rispondere con sarcasmo quando richiesto. Una demo mostra addirittura che ChatGPT viene introdotto per la prima volta al cucciolo dell'utente.

"Beh, ciao Bowser! Non sei proprio adorabile?" esclamò il chatbot.

Saluta GPT-4o, il nostro nuovo modello di punta che può ragionare su audio, visione e testo in tempo reale: https://t.co/MYHZB79UqNText e input di immagini disponibili oggi in API e ChatGPT con voce e video nel prossime settimane. pic.twitter.com/uuthKZyzYx

– OpenAI (@OpenAI) 13 maggio 2024

“Sembra l'intelligenza artificiale dei film; ed è ancora un po’ sorprendente per me che sia reale”, ha affermato il CEO dell’azienda, Sam Altman, in un post sul blog del 13 maggio.

"Raggiungere tempi di risposta ed espressività a livello umano si rivela un grande cambiamento."

Una versione di input composta solo da testo e immagini è stata lanciata il 13 maggio, mentre la versione completa sarà lanciata nelle prossime settimane, ha affermato OpenAI in un recente post su X.

GPT-4o sarà disponibile sia per gli utenti ChatGPT a pagamento che per quelli gratuiti e sarà accessibile dall'API di ChatGPT.

OpenAI ha affermato che la “o” in GPT-4o sta per “omni” – che cerca di segnare un passo verso interazioni uomo-computer più naturali.

Presentiamo GPT-4o, il nostro nuovo modello in grado di ragionare su testo, audio e video in tempo reale. È estremamente versatile, divertente con cui giocare ed è un passo verso una forma molto più naturale di interazione uomo-computer (e persino uomo -interazione computer-computer): pic.twitter.com/VLG7TJ1JQx

— Greg Brockman (@gdb) 13 maggio 2024

La capacità di GPT-4o di elaborare qualsiasi input di testo, audio e immagine allo stesso tempo rappresenta un notevole progresso rispetto ai precedenti strumenti di intelligenza artificiale di OpenAI, come ChatGPT-4, che spesso "perde molte informazioni" quando costretto al multitasking .

Correlati: Apple conclude l'accordo con OpenAI per l'integrazione di ChatGPT con iPhone: rapporto

OpenAI ha affermato che "GPT-4o è particolarmente migliore nella visione e nella comprensione dell'audio rispetto ai modelli esistenti", che include anche la raccolta delle emozioni e dei modelli di respirazione dell'utente.

È anche “molto più veloce” e “50% più economico” di GPT-4 Turbo nell’API di OpenAI.

Il nuovo strumento AI può rispondere agli input audio in soli 2,3 secondi, con un tempo medio di 3,2 secondi, afferma OpenAI, che secondo lui è simile ai tempi di risposta umani in una normale conversazione.

Rivista: Come fermare l'apocalisse dell'intelligenza artificiale: David Brin, autore di Uplift