Lo sviluppatore di intelligenza artificiale OpenAI ha iniziato il mese di ottobre con diversi aggiornamenti ai suoi modelli, aiutando i suoi modelli di intelligenza artificiale a interagire meglio e a migliorare il riconoscimento delle immagini.
Il 1° ottobre, OpenAI ha presentato quattro aggiornamenti che introducono nuovi strumenti progettati per semplificare l'utilizzo dei modelli di intelligenza artificiale da parte degli sviluppatori.
Parla!
Un aggiornamento importante è la Realtime API, che consente agli sviluppatori di creare applicazioni vocali generate dall'intelligenza artificiale utilizzando un singolo prompt.
Lo strumento, disponibile per i test, supporta esperienze multimodali a bassa latenza tramite lo streaming di input e output audio, consentendo conversazioni naturali simili alla modalità vocale avanzata di ChatGPT.
In precedenza, gli sviluppatori dovevano "cucire insieme" più modelli per creare queste esperienze. L'input audio in genere doveva essere completamente caricato ed elaborato prima di ricevere una risposta, il che significava una latenza più elevata per le applicazioni in tempo reale come le conversazioni speech-to-speech.
Con la capacità di streaming di Realtime API, gli sviluppatori possono ora abilitare interazioni immediate e naturali, molto simili agli assistenti vocali. L'API funziona su GPT-4, rilasciato a maggio 2024, che può ragionare su audio, visione e testo in tempo reale.
L'intelligenza artificiale ora ci vede chiaramente
Un altro aggiornamento include uno strumento di messa a punto per gli sviluppatori, che consente loro di migliorare le risposte dell'intelligenza artificiale generate da immagini e input di testo.
I fine tuner basati sulle immagini consentono all'intelligenza artificiale di avere una migliore capacità di comprendere le immagini, migliorando a sua volta le capacità di ricerca visiva e di rilevamento degli oggetti, secondo lo sviluppatore. Il processo include feedback da parte degli esseri umani che forniscono esempi di risposte buone e cattive.
Oltre agli aggiornamenti vocali e visivi, OpenAI ha anche implementato la “distillazione del modello” e il “caching dei prompt”, che consentono ai modelli più piccoli di imparare da quelli più grandi e di ridurre i costi e i tempi di sviluppo riutilizzando il testo già elaborato.
Le capacità avanzate dei suoi modelli sono un punto di forza fondamentale, poiché una parte importante delle entrate di OpenAI deriva dalle aziende che sviluppano le proprie applicazioni sulla base della tecnologia di OpenAI.
Secondo Reuters, OpenAI prevede che il suo fatturato salirà a 11,6 miliardi di dollari l'anno prossimo, rispetto ai 3,7 miliardi di dollari stimati per il 2024.
Rivista: l'intelligenza artificiale potrebbe già consumare più energia di Bitcoin e minaccia il mining di Bitcoin