Menurut berita dari TechFlow, pada 9 Januari, Musk dalam dialog langsung dengan Ketua Stagwell Mark Penn menyatakan bahwa total pengetahuan manusia sebagai data pelatihan AI telah hampir habis pada tahun 2024, pandangan ini selaras dengan teori 'puncak data' yang diajukan oleh mantan Kepala Ilmuwan OpenAI Ilya Sutskever pada konferensi NeurIPS bulan Desember.
Musk percaya bahwa data sintetik akan menjadi jalur kunci untuk perkembangan AI di masa depan. Saat ini, raksasa teknologi seperti Microsoft, Meta, OpenAI, dan Anthropic telah mengadopsi skema pelatihan data sintetik dalam model AI unggulan mereka. Di antaranya, Phi-4 yang baru saja diopen-source oleh Microsoft, model Gemma dari Google, Claude 3.5 Sonnet dari Anthropic, serta model terbaru dari seri Llama oleh Meta semuanya menggunakan data sintetik untuk pelatihan atau fine-tuning.
Dari sudut pandang biaya, perusahaan rintisan AI Writer hanya menghabiskan 700 ribu dolar untuk mengembangkan model Palmyra X 004 yang hampir sepenuhnya menggunakan data sintetik, jauh lebih rendah dibandingkan dengan biaya pengembangan model setara OpenAI yang mencapai 4,6 juta dolar. Namun, penelitian menunjukkan bahwa data sintetik dapat menyebabkan masalah keruntuhan model, yang membuat keluaran model kurang kreatif dan memperburuk bias, yang berasal dari bias dan keterbatasan dalam data pelatihan asli yang akan diperbesar selama proses sintesis. Menurut statistik Gartner, sekitar 60% data dalam proyek AI dan analisis pada tahun 2024 adalah data yang dihasilkan secara sintetik.