Los modelos de lenguaje grande (LLM) entrenados en iteraciones anteriores de material generado por IA producen resultados que carecen de sustancia y matices, según un nuevo estudio. Los hallazgos presentan un nuevo desafío para los desarrolladores de IA, que dependen de conjuntos limitados de datos generados por humanos para su contenido.

Lea también: Los deepfakes de IA dificultan que las autoridades estadounidenses protejan a los niños: informe

Investigadores de inteligencia artificial de la Universidad de Cambridge y la Universidad de Oxford en el Reino Unido intentaron escribir indicaciones basándose en un conjunto de datos que comprendía únicamente contenido generado por IA. El resultado no fue ideal, ya que produjo respuestas incomprensibles.

La IA todavía necesita humanos para tener sentido

Uno de los autores del artículo, Zhakar Shumaylov, de la Universidad de Cambridge, dijo que es necesario un control de calidad de los datos que alimentan los LLM, la tecnología detrás de los chatbots de IA generativa como ChatGPT y Gemini de Google. Shumaylov dijo:

“El mensaje es que debemos tener mucho cuidado con lo que termina en nuestros datos de entrenamiento. [De lo contrario,] es probable que las cosas siempre salgan mal”.

El fenómeno se conoce como “colapso del modelo”, detalló Shumaylov. Se ha demostrado que afecta a todo tipo de modelos de inteligencia artificial, incluidos aquellos que se especializan en la generación de imágenes mediante indicaciones de texto.

Según el estudio, repetir mensajes de texto utilizando datos generados por IA en un modelo terminó generando galimatías. Por ejemplo, los investigadores descubrieron que un sistema probado con texto sobre las torres de las iglesias medievales del Reino Unido produjo una lista repetitiva de liebres después de sólo nueve generaciones.

Al comentar sobre los resultados, el científico informático de la Universidad de California, Hany Farid, comparó el colapso de los datos con los desafíos endémicos de la endogamia animal.

"Si una especie se reproduce con su propia descendencia y no diversifica su acervo genético, puede conducir al colapso de la especie", dijo Farid.

Cuando los investigadores introdujeron datos generados por humanos en los datos de la IA, el colapso ocurrió más lentamente que cuando se ejecutaba con contenido puramente generado por la IA.

Los modelos de IA producen galimatías cuando se entrenan con datos generados por IA. Investigadores: la IA podría empeorar los prejuicios contra los grupos minoritarios

Los modelos de lenguaje funcionan construyendo asociaciones entre tokens (palabras o partes de palabras) en grandes extensiones de texto, a menudo extraídas de Internet. Generan texto escupiendo la siguiente palabra estadísticamente más probable, basándose en estos patrones aprendidos.

Lea también: Poe, el osito de peluche con tecnología ChatGPT, lee cuentos a los niños antes de dormir

El estudio, publicado en la revista Nature el 24 de julio, mostró que es probable que la información mencionada varias veces en conjuntos de datos no se repita. A los investigadores les preocupa que esto pueda afectar negativamente a los grupos minoritarios ya marginados.

Para evitar el colapso del modelo en casos de uso de la vida real, el estudio sugirió marcar con marcas de agua el contenido generado por IA y el contenido generado por humanos. Pero esto también podría ser problemático debido a la falta de coordinación entre empresas rivales de IA, afirmó.

Los hallazgos del estudio llegan en un momento en el que existe un creciente debate sobre si la IA resultará en la exclusión total de los humanos en la creación de contenidos, incluida la escritura de novelas y artículos periodísticos.

Los resultados del estudio, titulado “Los modelos de IA colapsan cuando se entrenan con datos generados de forma recursiva”, ponen fin a ese debate: los humanos aún no están siendo eliminados de la ecuación.