Il prossimo modello di intelligenza artificiale di OpenAI sta offrendo guadagni di prestazioni più piccoli rispetto ai suoi predecessori, hanno detto fonti a conoscenza della questione a The Information.


Test dei dipendenti rivelano che Orion ha raggiunto prestazioni a livello di GPT-4 dopo aver completato solo il 20% del suo addestramento, riporta The Information.


L'aumento di qualità da GPT-4 alla versione attuale di GPT-5 sembra essere minore rispetto a quello da GPT-3 a GPT-4.


“Alcuni ricercatori dell'azienda credono che Orion non sia affidabilmente migliore del suo predecessore nella gestione di determinati compiti, secondo i dipendenti (OpenAI),” ha riportato The Information. “Orion performa meglio nei compiti linguistici ma potrebbe non superare i modelli precedenti in compiti come la programmazione, secondo un dipendente di OpenAI.”


Sebbene Orion si avvicini a GPT-4 con il 20% del suo addestramento, potrebbe sembrare impressionante per alcuni, è importante notare che le prime fasi dell'addestramento dell'IA tipicamente offrono i miglioramenti più drammatici, con fasi successive che producono guadagni più piccoli.


Quindi, l'80% rimanente del tempo di addestramento non è probabile che produca la stessa magnitudine di avanzamento vista nei precedenti salti generazionali, hanno detto fonti.



Immagine: V7 Labs

Le limitazioni emergono in un momento critico per OpenAI dopo il suo recente round di finanziamento da 6,6 miliardi di dollari.


L'azienda ora affronta aspettative elevate da parte degli investitori mentre si confronta con vincoli tecnici che sfidano gli approcci tradizionali alla scalabilità nello sviluppo dell'IA. Se queste prime versioni non soddisfano le aspettative, gli sforzi di raccolta fondi futuri dell'azienda potrebbero non essere accolti con lo stesso entusiasmo di prima - e questo potrebbe essere un problema per una potenziale azienda a scopo di lucro, che è ciò che Sam Altman sembra desiderare per OpenAI.


Risultati deludenti indicano una sfida fondamentale che l'intera industria dell'IA deve affrontare: la diminuzione dell'offerta di dati di addestramento di alta qualità e la necessità di rimanere rilevanti in un campo competitivo come l'IA generativa.


Ricerche pubblicate a giugno prevedevano che le aziende di IA esauriranno i dati testuali generati da umani disponibili pubblicamente tra il 2026 e il 2032, segnando un punto di inflessione critico per gli approcci di sviluppo tradizionali.


"Le nostre scoperte indicano che le attuali tendenze nello sviluppo di LLM non possono essere sostenute solo attraverso la scalabilità dei dati convenzionale," afferma il documento di ricerca, evidenziando la necessità di approcci alternativi per il miglioramento del modello, inclusa la generazione di dati sintetici, l'apprendimento di trasferimento da domini ricchi di dati e l'uso di dati non pubblici.


La strategia storica di addestrare modelli di linguaggio su testi disponibili pubblicamente da siti web, libri e altre fonti ha raggiunto un punto di rendimenti decrescenti, con gli sviluppatori che hanno "per lo più spremuto quanto più possibile da quel tipo di dati," secondo The Information.


Come OpenAI sta affrontando questo problema: Modelli di ragionamento vs. Modelli di linguaggio

Per affrontare queste sfide, OpenAI sta ristrutturando fondamentalmente il suo approccio allo sviluppo dell'IA.


“In risposta alla recente sfida alle leggi di scalabilità basate sul training poste dal rallentamento dei miglioramenti di GPT, l'industria sembra stia spostando i suoi sforzi per migliorare i modelli dopo il loro addestramento iniziale, potenzialmente producendo un diverso tipo di legge di scalabilità,” riporta The Information.


Per raggiungere questo stato di miglioramento continuo, OpenAI sta separando lo sviluppo del modello in due percorsi distinti:


La serie O (che sembra essere il nome in codice Strawberry), concentrata sulle capacità di ragionamento, rappresenta una nuova direzione nell'architettura del modello. Questi modelli operano con un'intensità computazionale significativamente più alta e sono esplicitamente progettati per compiti complessi di risoluzione dei problemi.


Le richieste computazionali sono sostanziali, con stime iniziali che suggeriscono costi operativi sei volte superiori a quelli dei modelli attuali. Tuttavia, le capacità di ragionamento migliorate potrebbero giustificare la spesa aumentata per applicazioni specifiche che richiedono un'elaborazione analitica avanzata.


Questo modello, se è lo stesso di Strawberry, è anche incaricato di generare abbastanza dati sintetici per aumentare costantemente la qualità dei LLM di OpenAI.


Parallelamente, i modelli Orion o la serie GPT (considerando che OpenAI ha registrato il nome GPT-5) continuano a evolversi, concentrandosi sull'elaborazione del linguaggio generale e sui compiti di comunicazione. Questi modelli mantengono requisiti computazionali più efficienti, sfruttando la loro base di conoscenza più ampia per compiti di scrittura e argomentazione.


Il CPO di OpenAI, Kevin Weil, ha anche confermato questo durante un AMA e ha detto di aspettarsi di convergere entrambi gli sviluppi a un certo punto nel futuro.


“Non è né l'uno né l'altro, sono entrambi,” ha risposto quando gli è stato chiesto se OpenAI si sarebbe concentrato sulla scalabilità dei LLM con più dati o sull'uso di un approccio diverso, concentrandosi su modelli più piccoli ma più veloci, “migliori modelli base più più tempo di calcolo per la scalabilità/inferenza di Strawberry.”


Una soluzione alternativa o la soluzione definitiva?

L'approccio di OpenAI per affrontare la scarsità di dati attraverso la generazione di dati sintetici presenta sfide complesse per l'industria. I ricercatori dell'azienda stanno sviluppando modelli sofisticati progettati per generare dati di addestramento, tuttavia questa soluzione introduce nuove complicazioni nel mantenere la qualità e l'affidabilità del modello.


Come riportato in precedenza da Decrypt, i ricercatori hanno scoperto che l'addestramento del modello su dati sintetici rappresenta una doppia lama. Sebbene offra una potenziale soluzione alla scarsità di dati, introduce nuovi rischi di degradazione del modello e preoccupazioni di affidabilità con una degradazione provata dopo diversi cicli di addestramento.


In altre parole, man mano che i modelli vengono addestrati su contenuti generati dall'IA, potrebbero iniziare ad amplificare imperfezioni sottili nelle loro uscite. Questi loop di feedback possono perpetuare e amplificare pregiudizi esistenti, creando un effetto cumulativo che diventa sempre più difficile da rilevare e correggere.


Il team Foundations di OpenAI sta sviluppando nuovi meccanismi di filtraggio per mantenere la qualità dei dati, implementando diverse tecniche di validazione per distinguere tra contenuti sintetici di alta qualità e potenzialmente problematici. Il team sta anche esplorando approcci di addestramento ibridi che combinano strategicamente contenuti generati da umani e IA per massimizzare i benefici di entrambe le fonti riducendo al contempo i rispettivi svantaggi.


L'ottimizzazione post-addestramento ha guadagnato anche rilievo. I ricercatori stanno sviluppando nuovi metodi per migliorare le prestazioni del modello dopo la fase di addestramento iniziale, offrendo potenzialmente un modo per migliorare le capacità senza fare affidamento esclusivamente sull'espansione del dataset di addestramento.


Detto ciò, GPT-5 è ancora un embrione di un modello completo con un significativo lavoro di sviluppo da fare. Sam Altman, CEO di OpenAI, ha indicato che non sarà pronto per il rilascio quest'anno o il prossimo. Questo prolungato lasso di tempo potrebbe rivelarsi vantaggioso, consentendo ai ricercatori di affrontare le limitazioni attuali e potenzialmente scoprire nuovi metodi per il miglioramento del modello, migliorando notevolmente GPT-5 prima del suo eventuale rilascio.


Modificato da Josh Quittner e Sebastian Sinclair