PANews 9 Januari melaporkan, menurut TechCrunch, Elon Musk dalam dialog langsung dengan Ketua Stagwell Mark Penn menyatakan bahwa saat ini pelatihan model AI telah hampir menghabiskan data dari dunia nyata, "Kami telah menghabiskan akumulasi total pengetahuan manusia, yang terjadi tahun lalu." Pandangan Musk sejalan dengan mantan Kepala Ilmuwan OpenAI Ilya Sutskever, yang menyatakan di konferensi pembelajaran mesin NeurIPS bahwa industri AI telah mencapai "puncak data," dan mungkin perlu mengubah cara pengembangan model di masa depan.
Musk percaya bahwa data sintetik akan menjadi cara untuk melengkapi data nyata, AI akan mencapai pembelajaran mandiri melalui pembuatan dan evaluasi data sendiri. Tren ini telah diadopsi oleh raksasa teknologi seperti Microsoft, Meta, OpenAI, dan Anthropic, di mana model Microsoft Phi-4 dan model Google Gemma menggabungkan data nyata dan data sintetik untuk pelatihan. Gartner memperkirakan bahwa pada tahun 2024, sekitar 60% data dalam proyek AI dan analitik akan dihasilkan secara sintetik.
Keuntungan data sintetik termasuk penghematan biaya, misalnya, perusahaan rintisan AI Writer hanya menghabiskan sekitar 700.000 dolar untuk mengembangkan model Palmyra X 004 yang hampir sepenuhnya berbasis data sintetik, sedangkan biaya pengembangan model OpenAI dengan skala serupa adalah sekitar 4,6 juta dolar. Namun, data sintetik juga memiliki risiko, termasuk penurunan kreativitas model, peningkatan bias keluaran, dan potensi keruntuhan model, terutama ketika data pelatihan itu sendiri memiliki bias, sehingga hasil yang dihasilkan juga dapat terpengaruh.