La sécurité de l'IA était autrefois considérée comme reposant sur des défenses complexes et des architectures neuronales. Cependant, les recherches d'Anthropic révèlent comment même des modèles d'IA avancés peuvent être manipulés par des astuces simples. En utilisant des variations de requêtes interdites qui transmettent le même sens de différentes manières, les filtres de sécurité de l'IA peuvent être contournés. Cette technique, connue sous le nom de 'Best-of-N (BoN) jailbreak,' exploite la compréhension sémantique de l'IA pour confondre ses protocoles de sécurité. Étonnamment, des modèles d'IA à la pointe de la technologie comme GPT-4o et Claude 3.5 Sonnet sont susceptibles à ces tactiques. La recherche met également en évidence une relation de loi de puissance entre le nombre de tentatives et la probabilité de percée. Au-delà du texte, des techniques similaires peuvent être appliquées pour confondre les systèmes de vision et d'audio de l'IA. Pliny the Liberator a démontré que la saisie créative peut perturber les modèles d'IA. Ces vulnérabilités ont également été observées dans le chatbot IA de Meta, montrant ainsi la nécessité de mesures de sécurité robustes pour l'IA. Lisez plus de nouvelles générées par l'IA sur : https://app.chaingpt.org/news