De acordo com a PANews, Elon Musk discutiu recentemente as limitações dos modelos atuais de IA em uma conversa ao vivo com o presidente da Stagwell, Mark Penn. Musk declarou que o treinamento de IA quase esgotou os dados do mundo real, alegando que o conhecimento cumulativo da humanidade foi esgotado no ano passado. Essa visão se alinha com o ex-cientista-chefe da OpenAI, Ilya Sutskever, que sugeriu na conferência de aprendizado de máquina NeurIPS que a indústria de IA atingiu um "pico de dados", necessitando de uma mudança nas estratégias de desenvolvimento de modelos.

Musk destacou dados sintéticos como um meio de suplementar dados reais, permitindo que a IA aprenda por meio da geração de dados e autoavaliação. Essa abordagem já está sendo adotada por gigantes da tecnologia como Microsoft, Meta, OpenAI e Anthropic. Por exemplo, o modelo Phi-4 da Microsoft e o modelo Gemma do Google utilizam uma combinação de dados reais e sintéticos para treinamento. A Gartner prevê que até 2024, aproximadamente 60% dos dados em projetos de IA e análise serão gerados sinteticamente.

As vantagens dos dados sintéticos incluem economia de custos. A startup de IA Writer, por exemplo, gastou cerca de US$ 700.000 para desenvolver seu modelo Palmyra X 004, que depende quase inteiramente de dados sintéticos. Em contraste, desenvolver um modelo OpenAI de tamanho similar custa cerca de US$ 4,6 milhões. No entanto, dados sintéticos também apresentam riscos, como redução da criatividade do modelo, aumento do viés de saída e potencial falha do modelo, particularmente se os dados de treinamento em si forem tendenciosos, o que pode afetar os resultados gerados.