Potrivit știrilor de la TechFlow, pe 9 ianuarie, Musk a declarat într-un dialog live cu președintele Stagwell, Mark Penn, că suma totală a cunoștințelor umane ca date pentru antrenamentul AI este practic epuizată în 2024, această opinie reflectând teoria „vârfului de date” propusă de fostul director științific al OpenAI, Ilya Sutskever, la conferința NeurIPS din decembrie.
Musk consideră că datele sintetice vor deveni calea cheie pentru dezvoltarea AI în viitor. În prezent, gigantii tehnologici precum Microsoft, Meta, OpenAI și Anthropic au adoptat scheme de antrenament cu date sintetice în modelele lor AI de vârf. Printre acestea, Phi-4, recent open-source de Microsoft, modelul Gemma de la Google, Claude 3.5 Sonnet de la Anthropic și cele mai recente modele din seria Llama de la Meta au fost antrenate sau ajustate cu date sintetice.
Din perspectiva costurilor, startup-ul AI Writer a dezvoltat modelul Palmyra X 004 folosind aproape exclusiv date sintetice, cheltuind doar 700.000 de dolari, semnificativ mai puțin decât costul de dezvoltare de 4,6 milioane de dolari pentru un model de dimensiuni similare de la OpenAI. Totuși, cercetările arată că datele sintetice pot duce la probleme de colaps ale modelului, făcând ieșirile modelului mai puțin creative și amplificând prejudecățile, deoarece prejudecățile și limitările din datele de antrenament originale sunt amplificate în procesul de sinteză. Conform statisticilor Gartner, aproximativ 60% din datele proiectelor de AI și analiză din 2024 sunt generate sintetic.