Menurut PANews, Elon Musk baru-baru ini membahas keterbatasan model AI saat ini dalam percakapan langsung dengan Ketua Stagwell Mark Penn. Musk menyatakan bahwa pelatihan AI hampir menghabiskan data dunia nyata, mengklaim bahwa pengetahuan kumulatif manusia telah habis tahun lalu. Pandangan ini sejalan dengan mantan Kepala Ilmuwan OpenAI Ilya Sutskever, yang menyarankan pada konferensi pembelajaran mesin NeurIPS bahwa industri AI telah mencapai 'puncak data', yang mengharuskan adanya perubahan dalam strategi pengembangan model.
Musk menyoroti data sintetis sebagai sarana untuk melengkapi data riil, yang memungkinkan AI untuk belajar melalui pembuatan data dan penilaian mandiri. Pendekatan ini telah diadopsi oleh raksasa teknologi seperti Microsoft, Meta, OpenAI, dan Anthropic. Misalnya, model Phi-4 Microsoft dan model Gemma Google sama-sama memanfaatkan kombinasi data riil dan sintetis untuk pelatihan. Gartner memperkirakan bahwa pada tahun 2024, sekitar 60% data dalam proyek AI dan analitik akan dibuat secara sintetis.
Keunggulan data sintetis mencakup penghematan biaya. Startup AI Writer, misalnya, menghabiskan sekitar $700.000 untuk mengembangkan model Palmyra X 004, yang hampir sepenuhnya bergantung pada data sintetis. Sebaliknya, mengembangkan model OpenAI dengan ukuran yang sama menghabiskan biaya sekitar $4,6 juta. Namun, data sintetis juga menimbulkan risiko, seperti berkurangnya kreativitas model, meningkatnya bias output, dan potensi kegagalan model, terutama jika data pelatihan itu sendiri bias, yang dapat memengaruhi hasil yang dihasilkan.