OpenAI rilascia un aggiornamento per consentire il ragionamento in tempo reale su audio, immagini e testo

Odaily Planet Daily News OpenAI ha apportato quattro aggiornamenti al suo modello in ottobre per aiutare il suo modello di intelligenza artificiale a condurre conversazioni migliori e migliorare le capacità di riconoscimento delle immagini. Il primo importante aggiornamento è la Live API, che consente agli sviluppatori di creare applicazioni vocali generate dall’intelligenza artificiale utilizzando un unico prompt, consentendo conversazioni naturali simili alla modalità vocale avanzata di ChatGPT. In precedenza gli sviluppatori dovevano "cucire insieme" più modelli per creare queste esperienze. Spesso l'input audio deve essere completamente caricato ed elaborato prima che venga ricevuta una risposta, il che significa una latenza più elevata per le applicazioni in tempo reale come le conversazioni voice-to-talk. Con le funzionalità di streaming dell'API Realtime, gli sviluppatori possono ora ottenere interazioni istantanee e naturali, proprio come un assistente vocale. L'API funziona su GPT-4, rilasciato a maggio 2024, e può eseguire inferenze su audio, immagini e testo in tempo reale. Un altro aggiornamento include strumenti di perfezionamento per gli sviluppatori, consentendo loro di migliorare le risposte dell'intelligenza artificiale generate dall'input di immagini e testo. Gli spinner basati su immagini consentono all'intelligenza artificiale di comprendere meglio le immagini, migliorando così le capacità di ricerca visiva e di rilevamento degli oggetti. Il processo include il feedback degli esseri umani, che forniscono esempi di risposte positive e negative per la formazione. Oltre agli aggiornamenti vocali e visivi, OpenAI sta introducendo anche la “distillazione del modello” e il “caching dei suggerimenti” che consentono ai modelli più piccoli di apprendere da modelli più grandi e di ridurre i costi e i tempi di sviluppo riutilizzando il testo elaborato. OpenAI prevede che le entrate saliranno a 11,6 miliardi di dollari l’anno prossimo, rispetto ai 3,7 miliardi di dollari previsti nel 2024, ha riferito Reuters. (Cointelegrafo)

OpenAI rilascia un aggiornamento per consentire il ragionamento in tempo reale su audio, immagini e testo

Scopri di più dal Creator

Ultime notizie