Potrivit PANews, Elon Musk a discutat recent despre limitările modelelor actuale de AI într-o conversație live cu președintele Stagwell, Mark Penn. Musk a declarat că antrenamentul AI a epuizat aproape datele din lumea reală, susținând că cunoștințele cumulate despre umanitate au fost epuizate anul trecut. Această viziune se aliniază cu fostul om de știință OpenAI, Ilya Sutskever, care a sugerat la conferința de învățare automată NeurIPS că industria AI a atins un „vârf de date”, necesitând o schimbare a strategiilor de dezvoltare a modelelor.

Musk a evidențiat datele sintetice ca un mijloc de a completa datele reale, permițând inteligenței artificiale să învețe prin generarea de date și autoevaluare. Această abordare este deja adoptată de giganții tehnologici precum Microsoft, Meta, OpenAI și Anthropic. De exemplu, modelul Phi-4 de la Microsoft și modelul Gemma de la Google folosesc ambele o combinație de date reale și sintetice pentru antrenament. Gartner prezice că până în 2024, aproximativ 60% din datele din proiectele de IA și analiză vor fi generate sintetic.

Avantajele datelor sintetice includ economiile de costuri. Startup-ul AI Writer, de exemplu, a cheltuit aproximativ 700.000 de dolari pentru a-și dezvolta modelul Palmyra X 004, care se bazează aproape în întregime pe date sintetice. În schimb, dezvoltarea unui model OpenAI de dimensiuni similare costă aproximativ 4,6 milioane de dolari. Cu toate acestea, datele sintetice prezintă, de asemenea, riscuri, cum ar fi creativitatea redusă a modelului, părtinirea crescută a rezultatelor și potențialul eșec al modelului, în special dacă datele de antrenament în sine sunt părtinitoare, ceea ce poate afecta rezultatele generate.