Anthropic y muchos otros gigantes tecnológicos están formando un "equipo rojo" para reparar las fallas de seguridad y evitar el riesgo de que el modelo sea explotado con malos propósitos.

Durante la semana, Anthropic publicó una guía para el "equipo rojo", uniéndose a un grupo de proveedores como Google, Microsoft, NIST, NVIDIA y OpenAI que también lanzaron marcos similares. El objetivo de estos marcos es identificar y remediar las crecientes vulnerabilidades de seguridad en los modelos de inteligencia artificial (IA).

El enfoque del “equipo rojo” está demostrando ser eficaz para detectar vulnerabilidades de seguridad que otros métodos de seguridad no pueden ver, lo que ayuda a las empresas de inteligencia artificial a evitar que sus modelos se utilicen para generar contenido no deseado.

El objetivo y la importancia de la estrategia del "equipo rojo" en el campo de la IA

Las preocupaciones sobre los riesgos de seguridad de los modelos de IA están aumentando, lo que empuja a los formuladores de políticas a buscar soluciones para una plataforma de IA segura y confiable. La Orden Ejecutiva (EO) sobre IA segura y confiable (14110), firmada por el presidente Biden el 30 de octubre de 2018, ordenó al NIST que estableciera pautas y procesos apropiados para permitir que los desarrolladores de IA, especialmente con modelos de plataformas de uso cerrado, realicen "Pruebas de modelos de IA": también una opción del "equipo rojo" de IA para implementar sistemas de IA seguros y confiables.

El NIST publicó dos borradores de publicaciones a finales de abril para ayudar a gestionar los riesgos de la IA generativa. Estos documentos son recursos complementarios al Marco de gestión de riesgos de IA (AI RMF) y al Marco de desarrollo de software seguro (SSDF).

La Oficina Federal Alemana para la Seguridad de la Información (BSI) ofrece una estrategia de “equipo rojo” como parte de su marco más amplio IT-Grundschutz. Australia, Canadá, la Unión Europea, Japón, los Países Bajos y Singapur también cuentan con marcos destacados. El Parlamento Europeo aprobó la Ley de Inteligencia Artificial de la UE en marzo de este año.

El concepto de IA del “equipo rojo”

De hecho, el modelo del equipo rojo existe desde la década de 1960, cuando se crearon ataques adversarios en forma de simulación para garantizar que los sistemas informáticos funcionaran de manera estable. “En las computadoras no existe el concepto de 'seguridad'. En cambio, lo que los ingenieros pueden decir es: lo intentamos pero no pudimos romperlo", dijo Bruce Schneier, experto en seguridad y miembro del Centro de Investigación Berkman Klein de la Universidad de Harvard.

Hoy en día, el “equipo rojo” también se conoce como una técnica para probar modelos de IA mediante la simulación de ataques diversos e impredecibles, con el fin de determinar sus fortalezas y debilidades. Debido a que los modelos de IA generativa se entrenan en enormes almacenes de datos, a los métodos de seguridad tradicionales les resulta difícil encontrar vulnerabilidades.

Pero como cualquier software informático, estos modelos aún comparten vulnerabilidades cibernéticas comunes: pueden ser atacados por actores nefastos para lograr una variedad de objetivos, incluyendo preguntas dañinas, contenido pornográfico, uso ilegal de material protegido por derechos de autor o divulgación de información personal. nombre, dirección y número de teléfono. El objetivo de la estrategia es promover patrones de respuesta y decir cosas para las que aún no están programados, incluida la revelación de sesgos.

En particular, los miembros del "equipo rojo" utilizarán modelos de lenguaje grandes (LLM) para automatizar la creación de comandos y scripts de ataque para encontrar y corregir las debilidades de los modelos de IA generados en el campo.

Por ejemplo, Google utiliza equipos rojos para proteger los modelos de IA de amenazas como ataques de inyección rápida, ataques de envenenamiento de datos y puertas traseras. Una vez que se identifican dichas vulnerabilidades, se pueden reducir los errores en el software y mejorarlos.

El valor de una estrategia de "equipo rojo" para mejorar la seguridad del modelo de IA sigue demostrandose en competiciones de toda la industria. El año pasado, DEF CON, la conferencia de hackers más grande del mundo, organizó la primera competencia Generative Red Team (GRT), considerada uno de los grandes éxitos en el uso de técnicas de crowdsourcing.

Los modelos son proporcionados por Anthropic, Cohere, Google, Hugging Face, Meta, Nvidia, OpenAI y Stability. Los participantes prueban modelos en una plataforma de evaluación desarrollada por Scale AI.

La estrategia del "equipo rojo" de IA de Anthropic

Al publicar sus métodos, Anthropic enfatizó la necesidad de procedimientos de prueba escalables, estandarizados y sistematizados. Según la empresa, la falta de estándares comunes es una barrera importante para las pruebas de modelos de IA en toda la industria.

Anthropic también propone cuatro métodos de prueba principales: pruebas realizadas por expertos en el dominio, uso de modelos de lenguaje para pruebas, pruebas con nuevos métodos y pruebas abiertas en general.

El punto notable del enfoque de Anthropic es la combinación perfecta de comprensión humana profunda y resultados cuantitativos de las técnicas de prueba. Por lo general, Anthropic se centra en el papel de un grupo de expertos por campo y prioriza la aplicación de pruebas de vulnerabilidad de políticas (PVT), una técnica cualitativa que ayuda a identificar e implementar medidas de protección de seguridad, especialmente en áreas sensibles que se explotan fácilmente, como. interferencia electoral, incitación al odio, pornografía,...

Como muchas otras empresas de tecnología, Anthropic tiene como objetivo automatizar el proceso de prueba mediante el uso de modelos de inteligencia artificial para realizar ataques simulados aleatorios, detectando así vulnerabilidades. "Creemos que cuanto más potentes sean los modelos de IA, más eficazmente podrán ayudar a los humanos a realizar pruebas y automatizar el proceso de prueba", compartió Anthropic.

Basado en el modelo de grupo rojo/grupo azul, Anthropic utiliza modelos de ataque, "provocando" que el modelo de IA objetivo realice el comportamiento deseado, recopilando así datos y ajustando y fortaleciendo el sistema.

Una de las áreas clave y desafiantes que persigue Anthropic son las pruebas multimodales. Probar modelos de IA con imágenes y sonidos es mucho más complicado que con texto, porque los atacantes pueden "disfrazar" completamente el código malicioso en imágenes y sonidos, evitando el sistema de seguridad. La prueba es que la línea de modelos Claude 3 de Anthropic, antes de ser lanzada, tuvo que pasar por un riguroso proceso de pruebas sobre su capacidad para procesar información multimedia, para minimizar riesgos potenciales como fraude e incitación hostil o que amenace la seguridad de los niños.

Concluir

Se puede decir que las pruebas de modelos de IA están mostrando gradualmente su posición como un escudo importante que protege el desarrollo sostenible de la industria de la IA. La participación de corporaciones tecnológicas líderes y agencias gubernamentales muestra el esfuerzo conjunto para crear un marco legal y técnico sólido, abriendo un futuro para que la IA prospere sin dejar de garantizar la integridad y la responsabilidad.