Creatorul ChatGPT OpenAI și-a anunțat cel mai recent model AI, GPT-4o, un chatbot AI mai conversator, mai uman, care poate interpreta audio și video-ul unui utilizator și poate răspunde în timp real.

O serie de demonstrații lansate de firmă arată că GPT-4 Omni ajută utilizatorii potențiali cu lucruri precum pregătirea interviului - asigurându-se că arată prezentabil pentru interviu - și apelând un agent de servicii pentru clienți pentru a obține un iPhone de înlocuire, a traduce o conversație bilingvă în realitate. timp.

Demonstrațiile arată că poate împărtăși glume cu tatăl, poate fi judecătorul unui meci piatră-hârtie-foarfecă între doi utilizatori și poate răspunde cu sarcasm atunci când este întrebat. O demonstrație arată chiar că ChatGPT este prezentat cățelușului utilizatorului pentru prima dată.

"Ei bine, bună ziua, Bowser! Nu ești doar cel mai adorabil lucru mic?" a exclamat chatbot-ul.

Salutați-l lui GPT-4o, noul nostru model emblematic, care poate raționa în timp real audio, viziune și text: https://t.co/MYHZB79UqNTText și introducere de imagine care se lansează astăzi în API și ChatGPT cu voce și video în săptămânile următoare. pic.twitter.com/uuthKZyzYx

— OpenAI (@OpenAI) 13 mai 2024

„Se simte ca AI din filme; și încă este un pic surprinzător pentru mine că este real”, a spus CEO-ul companiei, Sam Altman, într-o postare pe blog din 13 mai.

„A ajunge la timpii de răspuns și expresivitate la nivel uman se dovedește a fi o schimbare majoră.”

O versiune de introducere doar pentru text și imagini a fost lansată pe 13 mai, iar versiunea completă urmează să fie lansată în săptămânile următoare, a spus OpenAI într-o postare recentă X.

GPT-4o va fi disponibil atât pentru utilizatorii ChatGPT plătiți, cât și pentru cei gratuiti și va fi accesibil din API-ul ChatGPT.

OpenAI a spus că „o” din GPT-4o înseamnă „omni” – care încearcă să marcheze un pas către interacțiuni mai naturale om-calculator.

Vă prezentăm GPT-4o, noul nostru model care poate raționa text, audio și video în timp real. Este extrem de versatil, distractiv de jucat și este un pas către o formă mult mai naturală de interacțiune om-calculator (și chiar om. -interacțiune computer-computer): pic.twitter.com/VLG7TJ1JQx

— Greg Brockman (@gdb) 13 mai 2024

Capacitatea GPT-4o de a procesa orice intrare de text, audio și imagine în același timp este un progres considerabil în comparație cu instrumentele AI anterioare ale OpenAI, cum ar fi ChatGPT-4, care adesea „pierde o mulțime de informații” atunci când este forțat să facă mai multe sarcini. .

Înrudit: Apple finalizează acordul cu OpenAI pentru integrarea ChatGPT iPhone: Raport

OpenAI a spus că „GPT-4o este mai ales mai bun la înțelegerea vizuală și audio în comparație cu modelele existente”, ceea ce include chiar și perceperea emoțiilor și tiparelor de respirație ale unui utilizator.

De asemenea, este „mult mai rapid” și „cu 50% mai ieftin” decât GPT-4 Turbo în API-ul OpenAI.

Noul instrument AI poate răspunde la intrările audio în doar 2,3 secunde, cu un timp mediu de 3,2 secunde, susține OpenAI, despre care spune că este similar cu timpul de răspuns uman într-o conversație obișnuită.

Revista: ​​Cum să opriți apocalipsa inteligenței artificiale: David Brin, autor Uplift