OpenAI lansează o actualizare pentru a permite raționamentul în timp real pe conținut audio, vizual și text

Odaily Planet Daily News OpenAI a făcut patru actualizări ale modelului său în octombrie pentru a ajuta modelul său AI să conducă conversații mai bune și să îmbunătățească capacitățile de recunoaștere a imaginii. Prima actualizare majoră este Live API, care le permite dezvoltatorilor să creeze aplicații de vorbire generate de AI folosind un singur prompt, permițând conversații naturale similare cu modul avansat de vorbire al ChatGPT. Anterior, dezvoltatorii trebuiau să „împletească” mai multe modele pentru a crea aceste experiențe. Adesea, intrarea audio trebuie încărcată și procesată complet înainte de a primi un răspuns, ceea ce înseamnă o latență mai mare pentru aplicațiile în timp real, cum ar fi conversațiile voce pentru vorbire. Cu capacitățile de streaming ale API-ului în timp real, dezvoltatorii pot acum să obțină interacțiuni instantanee, naturale, la fel ca un asistent vocal. API-ul rulează pe GPT-4, lansat în mai 2024 și poate efectua inferențe audio, vizuale și text în timp real. O altă actualizare include instrumente de reglare fină pentru dezvoltatori, permițându-le să îmbunătățească răspunsurile AI generate din introducerea imaginilor și a textului. Spinerele bazate pe imagini permit inteligenței artificiale să înțeleagă mai bine imaginile, îmbunătățind astfel capacitățile de căutare vizuală și de detectare a obiectelor. Procesul include feedback de la oameni, care oferă exemple de răspunsuri bune și rele pentru antrenament. Pe lângă actualizările de vorbire și viziune, OpenAI introduce, de asemenea, „distilarea modelului” și „cachingul indicii” care permit modelelor mai mici să învețe de la modele mai mari și să reducă costurile și timpul de dezvoltare prin reutilizarea textului procesat. OpenAI se așteaptă ca veniturile să crească la 11,6 miliarde de dolari anul viitor, față de 3,7 miliarde de dolari estimate în 2024, a raportat Reuters. (Cointelegraph)

OpenAI lansează o actualizare pentru a permite raționamentul în timp real pe conținut audio, vizual și text

Explorați mai multe de la acest creator

Ultimele știri