Los modelos de inteligencia artificial (IA) poseen algunas capacidades mucho antes de exhibirlas durante el entrenamiento, ha demostrado una nueva investigación. Según la investigación llevada a cabo por Harvard y la Universidad de Michigan, los modelos no muestran estas habilidades hasta que necesitan hacerlo de una forma u otra.

La investigación es una de las muchas que se han llevado a cabo para entender cómo los modelos de IA construyen sus capacidades antes de mostrarlas.

El estudio analizó cómo los modelos de IA aprenden conceptos básicos como tamaño y color, revelando que dominan las habilidades antes de lo que la mayoría de las pruebas sugieren. El estudio también proporcionó información sobre la complejidad de medir las capacidades de una IA. “Un modelo puede parecer incompetente cuando se le dan indicaciones estándar, mientras que en realidad posee habilidades sofisticadas que solo emergen bajo condiciones específicas”, dice el documento.

La investigación muestra que los modelos de IA internalizan conceptos

Harvard y la Universidad de Michigan no son los primeros en intentar entender las capacidades de los modelos de IA, ya que los investigadores de Anthropic revelaron un documento titulado ‘aprendizaje de diccionario’. El documento discutió la elaboración de conexiones en su lenguaje Claude con conceptos específicos que entiende. Aunque la mayoría de estas investigaciones tomaron diferentes enfoques, es principalmente para entender los modelos de IA.

Anthropic reveló que encontró características que podrían estar vinculadas a diferentes conceptos interpretables. “Encontramos millones de características que parecen corresponder a conceptos interpretables que van desde objetos concretos como personas, países y edificios famosos hasta ideas abstractas como emociones, estilos de escritura y pasos de razonamiento”, reveló la investigación.

Durante su investigación, los investigadores llevaron a cabo varios experimentos utilizando el modelo de difusión, una de las arquitecturas más populares para la IA. Durante el experimento, se dieron cuenta de que los modelos tenían formas distintas de manipular conceptos básicos. Los patrones fueron consistentes a medida que los modelos de IA mostraron nuevas capacidades en diferentes fases y un punto de transición agudo que señalaba cuándo se adquiría una nueva habilidad.

Durante el entrenamiento, los modelos mostraron que habían dominado conceptos alrededor de 2,000 pasos antes de lo que una prueba estándar detectaría. Los conceptos fuertes aparecieron alrededor de 6,000 pasos y los más débiles fueron visibles alrededor de 20,000 pasos. Después de que se ajustaron las señales de concepto, descubrieron una correlación directa con la velocidad de aprendizaje.

Los investigadores revelan métodos para acceder a capacidades ocultas

Los investigadores utilizaron métodos de indicación alternativos para revelar capacidades ocultas antes de que se exhibieran en pruebas estándar. La naturaleza desenfrenada de la emergencia oculta tiene efectos en la evaluación y seguridad de la IA. Por ejemplo, los puntos de referencia tradicionales pueden pasar por alto ciertas capacidades de los modelos de IA, perdiendo tanto las beneficiosas como las preocupantes.

Durante la investigación, el equipo descubrió ciertos métodos para acceder a las capacidades ocultas de los modelos de IA. La investigación denominó los métodos intervención latente lineal y sobre-indicación, ya que los investigadores hicieron que los modelos exhibieran comportamientos complejos antes de que aparecieran en pruebas estándar. Los investigadores también descubrieron que los modelos de IA manipulaban ciertas características complejas antes de que pudieran mostrarlas a través de indicaciones estándar.

Por ejemplo, los modelos podrían ser indicados para generar ‘mujeres sonriendo’ o ‘hombres con sombreros’ con éxito antes de que se les pida combinarlos. Sin embargo, la investigación mostró que han aprendido a combinarlos antes, pero no podrán mostrarlos a través de indicaciones convencionales. Los modelos que muestran capacidades pueden ser considerados como grokking, una situación en la que los modelos exhiben un rendimiento perfecto en la prueba después de un entrenamiento prolongado. Sin embargo, los investigadores dijeron que hay diferencias clave entre ambos.

Mientras que el grokking ocurre después de varias sesiones de entrenamiento e implica refinar varias distribuciones de los mismos conjuntos de datos, la investigación muestra que estas capacidades emergen durante el aprendizaje activo. Los investigadores señalaron que los modelos encontraron nuevas formas de manipular conceptos a través de cambios en fases en lugar de mejoras graduales en la representación en grokking.

Según la investigación, muestra que los modelos de IA conocen estos conceptos, solo que no pueden mostrarlos. Es similar a las personas que ven y entienden una película extranjera pero no pueden hablar el idioma. Esto muestra que la mayoría de los modelos tienen más capacidades de las que muestran, y también muestra la dificultad de entender y controlar sus capacidades.

De Cero a Web3 Pro: Tu Plan de Lanzamiento Profesional de 90 Días