Según Cointelegraph, un equipo de científicos de la Universidad de Carolina del Norte, Chapel Hill, publicó recientemente una investigación de inteligencia artificial (IA) preimpresa que destaca la dificultad de eliminar datos confidenciales de grandes modelos de lenguaje (LLM) como ChatGPT de OpenAI y Bard de Google. . Los investigadores descubrieron que, si bien es posible eliminar información de los LLM, verificar que la información se haya eliminado es tan desafiante como el proceso de eliminación en sí.
Esta dificultad surge de la forma en que se diseñan y capacitan los LLM. Están previamente capacitados en bases de datos y luego ajustados para generar resultados coherentes. Una vez que se entrena un modelo, sus creadores no pueden volver a la base de datos y eliminar archivos específicos para evitar que el modelo genere resultados relacionados. Esta es la 'caja negra' de la IA. Los problemas surgen cuando los LLM capacitados en conjuntos de datos masivos generan información confidencial, como información de identificación personal o registros financieros.
Para abordar este problema, los desarrolladores de IA utilizan barreras de seguridad, como indicaciones codificadas que inhiben comportamientos específicos o el aprendizaje reforzado a partir de la retroalimentación humana (RLHF). Sin embargo, los investigadores de la UNC argumentan que este método se basa en que los humanos encuentren todos los defectos que un modelo pueda presentar e, incluso cuando tiene éxito, no "borra" la información del modelo. Los investigadores concluyeron que incluso los métodos de edición de modelos más modernos, como la edición de modelos Rank-One (ROME), no logran eliminar completamente la información fáctica de los LLM, ya que los hechos aún se pueden extraer el 38% de las veces mediante ataques de caja blanca. y el 29% de las veces por ataques de caja negra.
Los investigadores pudieron desarrollar nuevos métodos de defensa para proteger a los LLM de algunos "ataques de extracción": intentos intencionados por parte de malos actores de utilizar indicaciones para eludir las barreras de seguridad de un modelo para que genere información confidencial. Sin embargo, señalaron que el problema de eliminar información confidencial puede ser un problema en el que los métodos de defensa siempre están tratando de ponerse al día con los nuevos métodos de ataque.