AI Models Spew ‘gibberish’ When Trained on AI-generated Data

Cryptopolitan · 2024-07-26T05:03:01.000Z

Large language models (LLMs) trained on previous iterations of AI-generated material produce outputs that lack substance and nuance, a new study has found. The findings present a new challenge for AI developers, who rely on limited human-generated data sets for content. Also read: AI deepfakes are making it hard for US authorities to protect children – report Artificial intelligence researchers from the University of Cambridge and Oxford University in the United Kingdom tried to write prompts relying on a dataset comprising only AI-generated content. The outcome was not ideal, as it produced incomprehensible responses. AI still needs humans to make sense One of the paper’s authors, Zhakar Shumaylov from the University of Cambridge said there is a need for quality control in the data that feeds LLMs, the technology behind generative AI chatbots like ChatGPT and Google’s Gemini. Shumaylov said: “The message is we have to be very careful about what ends up in our training data. [Otherwise,] things will always, provably, go wrong”. The phenomenon is known as “model collapse,” Shumaylov detailed. It has been proven to affect all kinds of artificial intelligence models including those that specialize in image generation using text prompts. According to the study, repeat text prompts using AI-generated data on one model ended up generating gibberish. For example, researchers found that one system tested with text about the UK’s medieval Church towers produced a repetitive list of jackrabbits after only nine generations. Commenting on the outputs, University of California computer scientist, Hany Farid, likened the data collapse to the challenges endemic to animal in-breeding. “If a species inbreeds with their own offspring and doesn’t diversify their gene pool, it can lead to a collapse of the species,” Farid said. When the researchers infused human-generated data into the AI data, the collapse happened more slowly than when it was running on purely AI-generated content. AI models produce gibberish when trained on AI-generated data. Researchers: AI could worsen biases against minority groups Language models work by building up associations between tokens — words or word parts — in huge swathes of text, often scraped from the Internet. They generate text by spitting out the statistically most probable next word, based on these learned patterns. Also read: ChatGPT-powered teddy bear Poe reads bedtime stories to kids The study, which was published in the journal Nature on July 24, showed that information mentioned a few times in data sets is likely not to be repeated. Researchers worry this could negatively impact already marginalized minority groups. To avert the model collapse in real-life use cases, the study suggested watermarking AI-generated content and human-generated content. But this could also be problematic due to a lack of coordination between rival AI companies, it said. The study’s findings come at a time when there is increased debate on whether AI will result in the total exclusion of humans in the creation of content, including the writing of novels and newspaper articles. Titled, ‘AI models collapse when trained on recursively generated data’, the study’s outcomes put that debate to rest – humans aren’t being removed from the equation just yet.

Los modelos de lenguaje grande (LLM) entrenados en iteraciones anteriores de material generado por IA producen resultados que carecen de sustancia y matices, según un nuevo estudio. Los hallazgos presentan un nuevo desafío para los desarrolladores de IA, que dependen de conjuntos limitados de datos generados por humanos para su contenido.
Lea también: Los deepfakes de IA dificultan que las autoridades estadounidenses protejan a los niños: informe
Investigadores de inteligencia artificial de la Universidad de Cambridge y la Universidad de Oxford en el Reino Unido intentaron escribir indicaciones basándose en un conjunto de datos que comprendía únicamente contenido generado por IA. El resultado no fue ideal, ya que produjo respuestas incomprensibles.
La IA todavía necesita humanos para tener sentido
Uno de los autores del artículo, Zhakar Shumaylov, de la Universidad de Cambridge, dijo que es necesario un control de calidad de los datos que alimentan los LLM, la tecnología detrás de los chatbots de IA generativa como ChatGPT y Gemini de Google. Shumaylov dijo:
“El mensaje es que debemos tener mucho cuidado con lo que termina en nuestros datos de entrenamiento. [De lo contrario,] es probable que las cosas siempre salgan mal”.
El fenómeno se conoce como “colapso del modelo”, detalló Shumaylov. Se ha demostrado que afecta a todo tipo de modelos de inteligencia artificial, incluidos aquellos que se especializan en la generación de imágenes mediante indicaciones de texto.
Según el estudio, repetir mensajes de texto utilizando datos generados por IA en un modelo terminó generando galimatías. Por ejemplo, los investigadores descubrieron que un sistema probado con texto sobre las torres de las iglesias medievales del Reino Unido produjo una lista repetitiva de liebres después de sólo nueve generaciones.
Al comentar sobre los resultados, el científico informático de la Universidad de California, Hany Farid, comparó el colapso de los datos con los desafíos endémicos de la endogamia animal.
"Si una especie se reproduce con su propia descendencia y no diversifica su acervo genético, puede conducir al colapso de la especie", dijo Farid.
Cuando los investigadores introdujeron datos generados por humanos en los datos de la IA, el colapso ocurrió más lentamente que cuando se ejecutaba con contenido puramente generado por la IA.
 Los modelos de IA producen galimatías cuando se entrenan con datos generados por IA. Investigadores: la IA podría empeorar los prejuicios contra los grupos minoritarios
Los modelos de lenguaje funcionan construyendo asociaciones entre tokens (palabras o partes de palabras) en grandes extensiones de texto, a menudo extraídas de Internet. Generan texto escupiendo la siguiente palabra estadísticamente más probable, basándose en estos patrones aprendidos.
Lea también: Poe, el osito de peluche con tecnología ChatGPT, lee cuentos a los niños antes de dormir
El estudio, publicado en la revista Nature el 24 de julio, mostró que es probable que la información mencionada varias veces en conjuntos de datos no se repita. A los investigadores les preocupa que esto pueda afectar negativamente a los grupos minoritarios ya marginados.
Para evitar el colapso del modelo en casos de uso de la vida real, el estudio sugirió marcar con marcas de agua el contenido generado por IA y el contenido generado por humanos. Pero esto también podría ser problemático debido a la falta de coordinación entre empresas rivales de IA, afirmó.
Los hallazgos del estudio llegan en un momento en el que existe un creciente debate sobre si la IA resultará en la exclusión total de los humanos en la creación de contenidos, incluida la escritura de novelas y artículos periodísticos.
Los resultados del estudio, titulado “Los modelos de IA colapsan cuando se entrenan con datos generados de forma recursiva”, ponen fin a ese debate: los humanos aún no están siendo eliminados de la ecuación.

Descubre más contenidos del creador

Últimas noticias

Descubre más contenidos del creador

Últimas noticias

Artículos en tendencia