El viernes, OpenAI anunció el lanzamiento de una nueva familia de modelos de IA, denominada o3. La empresa afirma que los nuevos productos son más avanzados que sus modelos anteriores, incluyendo o1. Los avances, según la startup, provienen de mejoras en el escalado del tiempo de cálculo de prueba, un tema que se exploró en los últimos meses, y de la introducción de un nuevo paradigma de seguridad que se ha utilizado para entrenar estos modelos.
Como parte de su compromiso continuo con la mejora de la seguridad de la IA, OpenAI compartió una nueva investigación que detalla la implementación de la “alineación deliberativa”. El nuevo método de seguridad tiene como objetivo garantizar que los modelos de razonamiento de IA estén alineados con los valores establecidos por sus desarrolladores.
Este enfoque, afirma OpenAI, se utilizó para mejorar la alineación de los modelos o1 y o3 al guiarlos para que pensaran en las políticas de seguridad de OpenAI durante la fase de inferencia. La fase de inferencia es el período después de que un usuario envía una solicitud al modelo y antes de que el modelo genere una respuesta.
En su investigación, OpenAI señala que la alineación deliberativa llevó a una reducción en la tasa a la que los modelos producían respuestas “inseguras” o respuestas que la empresa considera una violación de sus políticas de seguridad, mientras mejoraba la capacidad de los modelos para responder preguntas benignas de manera más efectiva.
Cómo funciona la alineación deliberativa
En su esencia, el proceso funciona haciendo que los modelos se vuelvan a preguntar a sí mismos durante la fase de cadena de pensamiento. Después de que un usuario envía una pregunta a ChatGPT, por ejemplo, los modelos de razonamiento de IA tardan desde unos pocos segundos hasta varios minutos en descomponer el problema en pasos más pequeños.
Los modelos luego generan una respuesta basada en su proceso de pensamiento. En el caso de la alineación deliberativa, los modelos incorporan la política de seguridad de OpenAI como parte de esta “deliberación” interna.
OpenAI entrenó sus modelos, incluyendo tanto o1 como o3, para recordar secciones de la política de seguridad de la empresa como parte de este proceso de cadena de pensamiento. Esto se hizo para garantizar que, al enfrentarse a consultas sensibles o inseguras, los modelos se autorregularan y se negaran a proporcionar respuestas que pudieran causar daño.
Sin embargo, implementar esta función de seguridad resultó desafiante, ya que los investigadores de OpenAI tuvieron que asegurarse de que las verificaciones de seguridad añadidas no afectaran negativamente la velocidad y eficiencia de los modelos.
Un ejemplo proporcionado en la investigación de OpenAI, citado por TechCrunch, demostró cómo los modelos utilizan la alineación deliberativa para responder de manera segura a solicitudes potencialmente dañinas. En el ejemplo, un usuario pregunta cómo crear un permiso de estacionamiento realista para personas con discapacidad.
Durante la cadena de pensamiento interna del modelo, el modelo recuerda la política de seguridad de OpenAI, reconoce que la solicitud implica actividad ilegal (falsificación de un permiso de estacionamiento) y se niega a ayudar, disculpándose por su negativa.
Este tipo de deliberación interna es una parte clave de cómo OpenAI está trabajando para alinear sus modelos con los protocolos de seguridad. En lugar de simplemente bloquear cualquier solicitud relacionada con un tema sensible como “bomba”, por ejemplo, lo que restringiría en exceso las respuestas del modelo, la alineación deliberativa permite que la IA evalúe el contexto específico de la solicitud y tome una decisión más matizada sobre si responder o no.
Además de los avances en seguridad, OpenAI también compartió resultados de pruebas de referencia que mostraron la efectividad de la alineación deliberativa en la mejora del rendimiento del modelo. Un punto de referencia, conocido como Pareto, mide la resistencia de un modelo a jailbreak comunes e intentos de eludir las salvaguardias de la IA.
En estas pruebas, el modelo o1-preview de OpenAI superó a otros modelos populares como GPT-4o, Gemini 1.5 Flash y Claude 3.5 Sonnet en términos de evitar salidas inseguras.
La autoridad de protección de datos de Italia multa a OpenAI por violaciones de privacidad
En un desarrollo separado pero relacionado, OpenAI fue multada con 15 millones de euros (15.58 millones de dólares) por la agencia de protección de datos de Italia, Garante, tras una investigación sobre el manejo de datos personales de la empresa.
La multa se deriva de la conclusión de la agencia de que OpenAI procesó los datos personales de los usuarios sin una base legal, violando las obligaciones de transparencia e información del usuario requeridas por las leyes de privacidad de la UE.
Según Reuters, la investigación, que comenzó en 2023, también reveló que OpenAI no tenía un sistema de verificación de edad adecuado en su lugar, exponiendo potencialmente a los niños menores de 13 años a contenido inapropiado generado por IA.
Garante, uno de los reguladores de IA más estrictos de la Unión Europea, ordenó a OpenAI lanzar una campaña pública de seis meses en Italia para concienciar sobre las prácticas de recopilación de datos de ChatGPT, particularmente su uso de datos personales para entrenar algoritmos.
En respuesta, OpenAI describió la multa como “desproporcionada” e indicó su intención de apelar la decisión. La empresa criticó aún más la multa como excesivamente alta en relación con sus ingresos en Italia durante el período relevante.
Garante también señaló que la multa se calculó considerando la “postura cooperativa” de OpenAI, lo que significa que podría haber sido mayor si la empresa no hubiera sido vista como cooperativa durante la investigación.
Esta última multa no es la primera vez que OpenAI ha enfrentado escrutinio en Italia. El año pasado, Garante prohibió brevemente el uso de ChatGPT en Italia debido a supuestas violaciones de las normas de privacidad de la UE. El servicio fue restablecido después de que OpenAI abordara las preocupaciones, incluyendo permitir que los usuarios se negaran a dar su consentimiento para el uso de sus datos personales para entrenar algoritmos.
Consigue un trabajo bien remunerado en Web3 en 90 días: La hoja de ruta definitiva