Grandes modelos de linguagem (LLMs) treinados em iterações anteriores de material gerado por IA produzem resultados que carecem de substância e nuances, descobriu um novo estudo. As descobertas apresentam um novo desafio para os desenvolvedores de IA, que dependem de conjuntos limitados de dados gerados por humanos para obter conteúdo.
Leia também: Deepfakes de IA estão dificultando a proteção das crianças pelas autoridades dos EUA – relatório
Pesquisadores de inteligência artificial da Universidade de Cambridge e da Universidade de Oxford, no Reino Unido, tentaram escrever prompts com base em um conjunto de dados composto apenas por conteúdo gerado por IA. O resultado não foi o ideal, pois produziu respostas incompreensíveis.
A IA ainda precisa dos humanos para fazer sentido
Um dos autores do artigo, Zhakar Shumaylov, da Universidade de Cambridge, disse que há necessidade de controle de qualidade nos dados que alimentam os LLMs, a tecnologia por trás dos chatbots generativos de IA, como o ChatGPT e o Gemini do Google. Shumaylov disse:
“A mensagem é que temos que ter muito cuidado com o que acaba nos nossos dados de treinamento. [Caso contrário,] as coisas sempre, comprovadamente, darão errado”.
O fenômeno é conhecido como “colapso do modelo”, detalhou Shumaylov. Foi comprovado que afeta todos os tipos de modelos de inteligência artificial, incluindo aqueles especializados na geração de imagens usando prompts de texto.
De acordo com o estudo, a repetição de prompts de texto usando dados gerados por IA em um modelo acabou gerando algo sem sentido. Por exemplo, os investigadores descobriram que um sistema testado com texto sobre as torres medievais das igrejas do Reino Unido produziu uma lista repetitiva de coelhos após apenas nove gerações.
Comentando os resultados, o cientista da computação da Universidade da Califórnia, Hany Farid, comparou o colapso dos dados aos desafios endêmicos da endogamia animal.
“Se uma espécie cruzar com a sua própria descendência e não diversificar o seu património genético, isso pode levar ao colapso da espécie”, disse Farid.
Quando os pesquisadores inseriram dados gerados por humanos nos dados de IA, o colapso aconteceu mais lentamente do que quando funcionava com conteúdo puramente gerado por IA.
Os modelos de IA produzem algo sem sentido quando treinados em dados gerados por IA. Pesquisadores: IA pode piorar preconceitos contra grupos minoritários
Os modelos de linguagem funcionam construindo associações entre tokens – palavras ou partes de palavras – em grandes extensões de texto, muitas vezes extraídos da Internet. Eles geram texto cuspindo a próxima palavra estatisticamente mais provável, com base nesses padrões aprendidos.
Leia também: Poe, ursinho de pelúcia movido a ChatGPT, lê histórias de ninar para crianças
O estudo, publicado na revista Nature em 24 de julho, mostrou que as informações mencionadas algumas vezes em conjuntos de dados provavelmente não se repetirão. Os investigadores temem que isto possa impactar negativamente grupos minoritários já marginalizados.
Para evitar o colapso do modelo em casos de uso da vida real, o estudo sugeriu marcar conteúdo gerado por IA e conteúdo gerado por humanos. Mas isto também pode ser problemático devido à falta de coordenação entre empresas rivais de IA, afirmou.
As conclusões do estudo surgem num momento em que há um debate crescente sobre se a IA resultará na exclusão total dos seres humanos na criação de conteúdos, incluindo a escrita de romances e artigos de jornal.
Intitulado “Os modelos de IA entram em colapso quando treinados com base em dados gerados recursivamente”, os resultados do estudo põem fim a esse debate – os humanos ainda não estão a ser removidos da equação.