OpenAI a anunțat GPT-4o, un model AI care își propune să transforme interacțiunea om-calculator. GPT-4o, cunoscut și ca modelul „omni”, este un progres major în capabilitățile inteligenței artificiale care combină intrări și ieșiri text, audio și vizuale într-un singur sistem coerent.

Salutați-l lui GPT-4o, noul nostru model emblematic, care poate raționa în timp real audio, viziune și text: https://t.co/MYHZB79UqNTIntrare de text și imagine care se lansează astăzi în API și ChatGPT cu voce și video în săptămânile următoare. pic.twitter.com/uuthKZyzYx

— OpenAI (@OpenAI) 13 mai 2024

Viteză și eficiență fără precedent

Modelul GPT-4o este o încununare a anilor de cercetare și dezvoltare menite să creeze o interfață mai naturală și mai intuitivă între oameni și mașini. Acceptând și generând orice combinație de text, audio și imagini, GPT-4o înlătură barierele care au separat în mod tradițional aceste modalități, deschizând calea pentru o experiență AI cu adevărat captivantă și multidimensională.

Capacitatea lui GPT-4o de a reacționa la intrările audio foarte instantaneu este una dintre cele mai remarcabile calități ale sale. Modelul poate conversa la o viteză care este izbitor de apropiată de comunicarea de la om la om, cu un timp de reacție tipic de doar 320 de milisecunde. Pe lângă îmbunătățirea simplității interacțiunii, această latență redusă creează noi oportunități pentru serviciile de traducere în timp real și asistenții AI, printre alte aplicații care necesită răspunsuri prompte.

De asemenea, am îmbunătățit semnificativ performanța în limba non-engleză, inclusiv îmbunătățirea tokenizatorului pentru a comprima mai bine multe dintre ele: pic.twitter.com/hE92x1qmM1

— Greg Brockman (@gdb) 13 mai 2024

GPT-4o are multe îmbunătățiri în comparație cu funcționalitatea audio. Modelul se potrivește cu performanța predecesorului său, GPT-4 Turbo, și prezintă o competență remarcabilă în limbile non-engleze, toate în timp ce se lăuda cu progrese notabile în interpretarea textului și a codului. Acest multilingvism este important deoarece deschide noi căi pentru cooperare și comunicare interculturală și face GPT-4o disponibil în întreaga lume.

Capacități multimodale

Cu toate acestea, cea mai intrigantă caracteristică a GPT-4o ar putea fi capacitatea sa de a procesa și furniza date vizuale. Separând GPT-4o de alte modele, inovația sa în viziune și înțelegere audio îi permite să analizeze și să interpreteze fotografii, filme și mostre audio cu o precizie nemaiauzită până acum. Abilitățile vizuale ale lui GPT-4o, care variază de la recunoașterea obiectelor și emoțiilor până la producerea de imagini realiste, au potențialul de a revoluționa o varietate de domenii, inclusiv educația și asistența medicală, precum și industriile creative precum designul și media.

Solicitarea publicului live pentru capabilitățile de viziune GPT-4o pic.twitter.com/FPRXpZ2I9N

— OpenAI (@OpenAI) 13 mai 2024

Antrenamentul de la capăt la capăt al GPT-4o care cuprinde modalități text, vizuale și audio este unul dintre principalele sale beneficii. Spre deosebire de metodele anterioare care foloseau modele diferite pentru fiecare modalitate, GPT-4o este o singură rețea neuronală care poate analiza și sintetiza date din mai multe surse simultan. Pe lângă creșterea vitezei, această strategie combinată ajută modelul să capteze subtilitățile și semnalele contextuale care altfel ar putea fi ratate într-o conductă fragmentată.

Utilizabilitate practică și accesibilitate

GPT-4o s-a dovedit a funcționa foarte bine pe o varietate de standarde, acoperind codificare, logica de bază și sarcini multilingve, conform OpenAI. Într-un număr de evaluări, cum ar fi 0-shot COT MMLU și M3Exam (o evaluare multilingvă și vizuală care cuprinde probleme de la examene standardizate cu imagini și diagrame), modelul a obținut scoruri excelente.

OpenAI a dat prioritate problemelor de securitate și morale pe lângă potențialul inovator incontestabil al lui GPT-4o. Caracteristicile multimodale ale modelului au fost supuse unor evaluări amănunțite și unei echipe roșii externe pentru a detecta și gestiona orice pericole. Pentru a se asigura că GPT-4o respectă standardele etice și nu reprezintă un pericol grav în domenii precum securitatea cibernetică, persuasiunea sau autonomia modelului, OpenAI a inclus o serie de intervenții de siguranță, cum ar fi screeningul datelor de antrenament și îmbunătățirea comportamentului modelului după antrenament.

OpenAI observă că, odată cu aceste încercări, există noi pericole asociate cu dezvoltarea modalităților audio care trebuie luate în considerare cu atenție și monitorizate continuu. Datorită acestui fapt, compania implementează treptat ieșirile audio ale GPT-4o, începând cu o gamă limitată de sunete prestabilite și respectând reglementările actuale de siguranță. Într-un card de sistem viitor, OpenAI promite să susțină întreaga gamă de modalități GPT-4o în mod transparent.

Pe lângă faptul că a fost inovator inițial, OpenAI a lansat strategic GPT-4o pentru a crește accesibilitatea instrumentelor sale de inteligență artificială de ultimă generație pentru o gamă mai largă de utilizatori. Funcțiile de text și imagine ale GPT-4o sunt acum disponibile pentru toți utilizatorii ChatGPT, inclusiv utilizatorii de nivel gratuit și membrii Plus cu alocații mai mari de mesaje. Folosind API-ul OpenAI, dezvoltatorii pot utiliza și GPT-4o, care oferă avantaje față de modelele anterioare în ceea ce privește performanța, costul și limitele de rată.

Pe măsură ce lumea anticipează cu nerăbdare lansarea completă a capabilităților GPT-4o, un lucru este clar: OpenAI a făcut un pas semnificativ către realizarea viziunii unui sistem AI cu adevărat multimodal care se poate integra perfect în viața noastră de zi cu zi. Cu capabilitățile sale fără precedent în procesarea textului, audio și vizuală, GPT-4o are potențialul de a transforma industriile, de a îmbunătăți productivitatea și de a debloca noi frontiere în interacțiunea om-calculator. Viitorul AI este aici și este unidimensional.

Viitorul AI generativ

Deși utilizarea GenAI nu este încă obișnuită, numeroși experți cred că poate și ar trebui să fie utilizată în viitor, potrivit cercetărilor Institutului Thomson Reuters. Potrivit cercetării, peste 25% dintre participanți au declarat că organizațiile lor fie utilizează în prezent GenAI, fie au intenții active de a face acest lucru. Respondenții judiciari și de afaceri și riscul de fraudă au avut mai multe șanse să angajeze GenAI decât respondenții din domeniul fiscal și contabil sau guvernamentali.

Aproape o treime dintre cei chestionați au declarat că companiile lor încă dezbat dacă să angajeze sau nu GenAI, ceea ce poate implica utilizarea platformelor deschise sau a tehnologiilor create special pentru cazurile de utilizare din sector, în funcție de necesități. Sondajul a arătat, de asemenea, că mulți furnizori de servicii încă lucrează la încorporarea GenAI în strategia generală a companiei și în produsele de lucru zilnice. Avocații și experții fiscali sunt împărțiți în ceea ce privește modul de gestionare a taxelor GenAI și dacă ar duce sau nu la taxe mai mari.

Conform previziunilor IDC, până în 2027, întreprinderile ar investi 16 miliarde de dolari, în creștere cu o rată anuală de creștere compusă de 73,3%, în infrastructură, software și servicii legate de inteligența artificială gen. sisteme și procese în lumina acestei extinderi. Progresul viitor va fi probabil un proces continuu, potrivit lui Jean-Paul Paoli, director de transformare a afacerilor generative AI la L'Oréal. După cum a afirmat Deloitte, se așteaptă ca cheltuielile corporative cu IA generativă să crească cu 30% în 2024, datorită necesității unor modele mai specializate și mai limitate, care au fost instruite folosind date confidențiale ale întreprinderii.

Accelerația din ultimii doi ani a fost uluitoare, iar domeniul este de așteptat să continue să crească. Atât modelele lingvistice mari (LLMS) cât și modelele lingvistice mici (SLMS) vor rămâne relevante, SLMS crescând rapid. LLM-urile s-ar putea omogeniza în jurul câtorva furnizori mari, cum ar fi Google, Microsoft și Open AI, în timp ce SLM-urile vor avea o gamă mai largă, nereglementată de modele și dispozitive încorporate open-source.

Postarea Cum cel mai recent model OpenAI distruge barierele, integrând text, audio și intrări vizuale pentru a crea o experiență de utilizator fără întreruperi a apărut prima pe Metaverse Post.