OpenAI ha lanciato un nuovo modello di ragionamento o3, con un punteggio record del 75,7% nei test ARC-AGI, introducendo la tecnologia di "allineamento deliberato" per migliorare la sicurezza del modello. Questo modello è attualmente aperto per le richieste di test di sicurezza e si prevede che sarà ufficialmente rilasciato all'inizio del 2025. (Riassunto: Lo strumento di generazione video di OpenAI, Sora, è ufficialmente online! Scopri tutte le 5 principali funzionalità e i piani di abbonamento) (Informazioni di base: OpenAI ha rilasciato il modello o1 completo e il nuovo piano di abbonamento ChatGPT Pro, vale la pena pagare 200 dollari al mese?) Il produttore di ChatGPT, OpenAI, ha concluso ieri (20) una serie di lanci di nuovi prodotti durata 12 giorni, culminando con il debutto del nuovo modello di ragionamento "o3" e "o3-mini", un modello di intelligenza artificiale con capacità di ragionamento potenziate, progettato per affrontare compiti complessi che richiedono un ragionamento logico passo dopo passo. Oggi, abbiamo condiviso valutazioni per una versione preliminare del prossimo modello nella nostra serie di modelli o: OpenAI o3 pic.twitter.com/e4dQWdLbAD — OpenAI (@OpenAI) 20 dicembre 2024 Caratteristiche del modello 1) Capacità di ragionamento che stabilisce nuovi record SoTA OpenAI ha dichiarato che il modello o3 ha avuto prestazioni eccezionali in vari test di benchmark, inclusi problemi complessi di programmazione, matematica e scienza, dimostrando la sua potente capacità di ragionamento logico. Nei test di valutazione "ARC-AGI", sviluppati dal Alignment Research Center (ARC) per valutare le capacità di intelligenza artificiale generale (AGI), o3 ha raggiunto un punteggio record del 75,7% in alcuni test non pubblici, stabilendo un nuovo standard tecnologico (State of the Art, SoTA). Inoltre, una versione ad alta capacità di calcolo (high-compute configuration) di o3 ha ottenuto un punteggio ancora più alto dell'87,5% nello stesso test, ma potrebbe non aver soddisfatto i requisiti per qualificarsi per ARC-AGI-Pub (risultati di test ARC-AGI pubblicamente verificabili). Nuovo SoTA verificato ARC-AGI-Pub! @OpenAI o3 ha ottenuto un punteggio record del 75,7% nella valutazione semi-privata ARC-AGI. E una configurazione o3 ad alta capacità di calcolo (non idonea per ARC-AGI-Pub) ha ottenuto un punteggio dell'87,5% nella valutazione semi-privata. 1/4 pic.twitter.com/uQA47JWkl6 — ARC Prize (@arcprize) 20 dicembre 2024 2) Opzioni multiple OpenAI offre due versioni, o3 e o3-mini, quest'ultima prevista per il rilascio alla fine di gennaio 2025, mentre la versione completa di o3 sarà rilasciata successivamente (senza una data specifica fornita). Questo nuovo modello utilizza l'API di Tempo di Pensiero Adattivo (Adaptive Thinking Time) recentemente lanciata da OpenAI, offrendo tre diverse modalità di ragionamento: bassa, media e alta. Questa funzionalità consente agli utenti di regolare la durata del "tempo di pensiero" del modello prima di rispondere alle domande. Dall'immagine sottostante, si può notare che o3-mini può competere con l'attuale modello o1 in termini di risultati di ragionamento, ma con costi computazionali significativamente ridotti. 3) Rafforzamento della sicurezza OpenAI ha adottato un nuovo metodo di formazione di "allineamento deliberato", insegnando direttamente ai modelli linguistici di grandi dimensioni (LLM) a comprendere le normative di sicurezza scritte dagli umani e a garantire che vengano rispettate queste normative durante il ragionamento prima di rispondere alle domande. OpenAI ha dichiarato: Attraverso questo metodo, abbiamo ottimizzato con successo i modelli della serie o di OpenAI, consentendo loro di utilizzare la tecnica di ragionamento "catena di pensiero" (Chain-of-Thought, CoT) per riflettere sulle domande degli utenti, identificare i testi normativi pertinenti nelle politiche interne di OpenAI e generare risposte più sicure. Origine del nome Vale la pena notare che OpenAI ha saltato la denominazione "o2" e ha direttamente utilizzato "o3". Il CEO Sam Altman ha spiegato che ciò è stato fatto per evitare confusione con il fornitore di telecomunicazioni britannico O2, mostrando al contempo l'umorismo unico di OpenAI. Durante una diretta, ha affermato: "Per rispetto a Telefónica (la società madre di O2) e per mantenere la tradizione di OpenAI di avere difficoltà a trovare nomi, lo abbiamo chiamato o3." Invito ai ricercatori a partecipare ai test di sicurezza Attualmente, o3 e o3-mini sono in fase di test di sicurezza interna, con OpenAI che ha aperto le richieste per invitare i ricercatori esterni a partecipare ai test di sicurezza. Le domande scadono il 10 gennaio 2025. Riguardo al lancio di questo modello, Sam Altman ha dichiarato senza modestia che segna l'inizio di una "nuova fase" nello sviluppo dell'IA. Ricordando che, a metà anno, Bloomberg ha rivelato il sistema di classificazione dell'IA di OpenAI, la fase successiva dopo i chatbot e i modelli di ragionamento è rappresentata dagli Agenti — sistemi di IA avanzati in grado di agire per conto degli utenti. Questo è esattamente ciò su cui i mercati delle criptovalute e il settore Web2 stanno attualmente concentrando i loro sforzi di esplorazione e sviluppo. Il sistema di classificazione dell'IA di OpenAI. Fonte: Bloomberg Notizie correlate OpenAI lancia una nuova funzionalità di "apprendimento per rinforzo fine-tuning" che migliora l'accuratezza dell'apprendimento nelle aree professionali dell'IA OpenAI ha annunciato che trasmetterà in diretta per 12 giorni: lancerà molte nuove funzionalità, sarà possibile acquisire criptovalute concettuali di IA? I giochi politici di OpenAI non hanno successo, Sam Altman avrà difficoltà a competere con l'"alleanza AI" di Musk e Trump?