Los investigadores han encontrado evidencia de que los modelos de inteligencia artificial prefieren mentir antes que admitir la vergüenza de no saber algo. Este comportamiento parece ser más evidente cuanto más crecen en tamaño y complejidad.


Un nuevo estudio publicado en Nature descubrió que cuanto más grandes son los LLM, menos confiables se vuelven para tareas específicas. No es exactamente mentir de la misma manera que percibimos la palabra, pero tienden a responder con confianza incluso si la respuesta no es factualmente correcta, porque están entrenados para creer que lo es.


Este fenómeno, que los investigadores denominaron "ultracrepidario" (una palabra del siglo XIX que básicamente significa expresar una opinión sobre algo de lo que no se sabe nada), describe a los LLM que se aventuran mucho más allá de su base de conocimientos para proporcionar respuestas. "[Los LLM] fracasan proporcionalmente más cuando no saben, pero aun así responden", señaló el estudio. En otras palabras, los modelos no son conscientes de su propia ignorancia.


El estudio, que examinó el rendimiento de varias familias LLM, incluida la serie GPT de OpenAI, los modelos LLaMA de Meta y la suite BLOOM de BigScience, destaca una desconexión entre el aumento de las capacidades del modelo y el rendimiento confiable en el mundo real.


Si bien los modelos LLM de mayor tamaño generalmente muestran un mejor desempeño en tareas complejas, esta mejora no necesariamente se traduce en una precisión constante, especialmente en tareas más simples. Esta "discordancia de dificultad" (el fenómeno de que los modelos LLM fallen en tareas que los humanos perciben como fáciles) socava la idea de un área operativa confiable para estos modelos. Incluso con métodos de entrenamiento cada vez más sofisticados, que incluyen aumentar el tamaño del modelo y el volumen de datos y darle forma con retroalimentación humana, los investigadores aún no han encontrado una forma garantizada de eliminar esta discordancia.


Los hallazgos del estudio contradicen la opinión generalizada sobre el desarrollo de la IA. Tradicionalmente, se pensaba que aumentar el tamaño de un modelo, el volumen de datos y la potencia computacional daría como resultado resultados más precisos y confiables. Sin embargo, la investigación sugiere que la ampliación puede, en realidad, exacerbar los problemas de confiabilidad.


Los modelos más grandes muestran una marcada disminución en la evitación de tareas, lo que significa que es menos probable que rehúyan las preguntas difíciles. Si bien esto puede parecer un avance positivo a primera vista, tiene una desventaja significativa: estos modelos también son más propensos a dar respuestas incorrectas. En el gráfico a continuación, es fácil ver cómo los modelos arrojan resultados incorrectos (rojo) en lugar de evitar la tarea (azul claro). Las respuestas correctas aparecen en azul oscuro.




"Actualmente, el escalado y el modelado cambian la evitación por una mayor incorrección", señalaron los investigadores, pero solucionar este problema no es tan fácil como entrenar un modelo para que sea más cauteloso. "La evitación es claramente mucho menor en los modelos modelados, pero la incorrección es mucho mayor", afirmaron los investigadores. Sin embargo, un modelo que se entrena para evitar la ejecución de tareas puede terminar volviéndose más perezoso o debilitado, como han notado los usuarios en diferentes LLM de primera categoría como ChatGPT o Claude.


Los investigadores descubrieron que este fenómeno no se debe a que los LLM más grandes no sean capaces de sobresalir en tareas simples, sino que están entrenados para ser más competentes en tareas complejas. Es como una persona que está acostumbrada a comer solo comidas gourmet y de repente tiene dificultades para preparar una barbacoa casera o un pastel tradicional. Los modelos de IA entrenados en conjuntos de datos vastos y complejos son más propensos a pasar por alto habilidades fundamentales.


El problema se agrava por la aparente confianza de los modelos. A los usuarios a menudo les resulta difícil discernir cuándo una IA proporciona información precisa y cuándo emite información errónea con total seguridad. Este exceso de confianza puede llevar a una dependencia excesiva y peligrosa de los resultados de la IA, en particular en campos críticos como la atención sanitaria o el asesoramiento jurídico.



Los investigadores también observaron que la fiabilidad de los modelos ampliados fluctúa en diferentes dominios. Si bien el rendimiento puede mejorar en un área, puede degradarse simultáneamente en otra, creando un efecto de choque que dificulta establecer áreas de operación "seguras". "El porcentaje de respuestas evasivas rara vez aumenta más rápido que el porcentaje de respuestas incorrectas. La lectura es clara: los errores siguen siendo más frecuentes. Esto representa una involución en la fiabilidad", escribieron los investigadores.


El estudio destaca las limitaciones de los métodos actuales de entrenamiento de la IA. Las técnicas como el aprendizaje por refuerzo con retroalimentación humana (RLHF), destinadas a moldear el comportamiento de la IA, pueden en realidad estar exacerbando el problema. Estos enfoques parecen estar reduciendo la tendencia de los modelos a evitar tareas para las que no están preparados (¿recuerdan el infame "como modelo de lenguaje de IA no puedo?"), fomentando inadvertidamente errores más frecuentes.



La ingeniería rápida, el arte de elaborar consultas efectivas para sistemas de IA, parece ser una habilidad clave para contrarrestar estos problemas. Incluso modelos muy avanzados como GPT-4 muestran sensibilidad a la forma en que se formulan las preguntas, y pequeñas variaciones pueden llevar a resultados drásticamente diferentes.


Esto es más fácil de notar cuando se comparan diferentes familias LLM: por ejemplo, Claude 3.5 Sonnet requiere un estilo de indicaciones completamente diferente al de OpenAI o1 para lograr los mejores resultados. Las indicaciones inadecuadas pueden terminar haciendo que un modelo sea más o menos propenso a alucinar.


La supervisión humana, considerada durante mucho tiempo como una salvaguarda contra los errores de la IA, puede no ser suficiente para abordar estos problemas. El estudio descubrió que los usuarios a menudo tienen dificultades para corregir los resultados incorrectos del modelo, incluso en dominios relativamente simples, por lo que confiar en el juicio humano como medida de seguridad puede no ser la solución definitiva para un entrenamiento adecuado del modelo. "Los usuarios pueden reconocer estos casos de alta dificultad, pero aún así cometen frecuentes errores de supervisión al corregir lo incorrecto", observaron los investigadores.


Los hallazgos del estudio ponen en tela de juicio la trayectoria actual del desarrollo de la IA. Si bien continúa la presión para obtener modelos más grandes y con más capacidades, esta investigación sugiere que, en lo que respecta a la confiabilidad de la IA, un tamaño más grande no siempre es mejor.


Y ahora mismo, las empresas se están centrando en mejorar la calidad de los datos en lugar de la cantidad. Por ejemplo, los últimos modelos Llama 3.2 de Meta consiguen mejores resultados que las generaciones anteriores entrenadas con más parámetros. Por suerte, esto los hace menos humanos, por lo que pueden admitir la derrota cuando se les pregunta lo más básico del mundo para hacerlos parecer tontos.