PANews 9 gennaio notizie, secondo TechCrunch, Elon Musk ha dichiarato durante una conversazione in diretta con il presidente di Stagwell, Mark Penn, che attualmente l'addestramento dei modelli AI ha praticamente esaurito i dati del mondo reale, "abbiamo esaurito la somma cumulativa della conoscenza umana, ed è successo l'anno scorso." Musk condivide l'opinione dell'ex chief scientist di OpenAI, Ilya Sutskever, il quale ha affermato alla conferenza NeurIPS di machine learning che l'industria AI ha raggiunto il "picco dei dati" e che in futuro potrebbe essere necessario cambiare il modo di sviluppare i modelli.

Musk ritiene che i dati sintetici saranno un modo per integrare i dati reali, e che l'AI realizzerà l'autoapprendimento tramite la generazione e l'auto-valutazione dei dati. Questa tendenza è stata adottata da grandi aziende tecnologiche come Microsoft, Meta, OpenAI e Anthropic; ad esempio, il modello Phi-4 di Microsoft e il modello Gemma di Google combinano dati reali e dati sintetici per l'addestramento. Gartner prevede che nel 2024 circa il 60% dei dati nei progetti AI e di analisi sarà generato sinteticamente.

I vantaggi dei dati sintetici includono il risparmio sui costi; ad esempio, la startup AI Writer ha speso solo circa 700.000 dollari per sviluppare il suo modello Palmyra X 004, che si basa quasi completamente su dati sintetici, mentre il costo di sviluppo di un modello OpenAI di dimensioni simili è di circa 4,6 milioni di dollari. Tuttavia, i dati sintetici presentano anche rischi, tra cui la diminuzione della creatività del modello, l'intensificazione dei bias di output e il potenziale collasso del modello, soprattutto quando i dati di addestramento stessi presentano bias, ciò può influenzare anche i risultati generati.