I ricercatori Microsoft hanno scoperto un nuovo tipo di attacco "jailbreak" chiamato "Skeleton Key" in grado di rimuovere le protezioni che impediscono ai sistemi generali di intelligenza artificiale (AI) di produrre dati pericolosi e sensibili.

Secondo un post sul blog di Microsoft Security, l’attacco Skeleton Key funziona indirizzando un modello di intelligenza artificiale pubblico con testo per estendere le funzionalità di sicurezza codificate.

Ad esempio, da un modello AI II. Gli viene chiesto di creare una ricetta per un "cocktail Molotov", una semplice bomba incendiaria resa popolare durante la seconda guerra mondiale, e il modello rifiuta, citando norme di sicurezza. Tuttavia, in questo caso, Skeleton Key richiede al modello di dire che l'utente è un esperto in un ambiente di laboratorio. Il modello accetta di estendere il proprio comportamento e quindi di produrre una ricetta per il cocktail Molotov praticabile.

Secondo Microsoft, l’attacco Skeleton Key funziona sui modelli di IA pubblici più popolari, tra cui GPT-3.5, GPT-4o, Claude 3, Gemini Pro e Meta Llama-3 70B.

Modelli linguistici di grandi dimensioni come Gemini di Google, CoPilot di Microsoft e ChatGPT di OpenAI vengono addestrati su quantità di dati spesso descritte come "delle dimensioni di Internet". Potrebbe forse essere un'esagerazione, ma la verità è che molti modelli contengono trilioni di dati, che abbracciano intere reti di social media e siti di deposito di informazioni come Wikipedia.

Microsoft afferma che esistono diverse misure che le organizzazioni possono intraprendere per prevenire questa situazione. Questi includono filtri di input/output codificati e sistemi di monitoraggio sicuri per impedire l'ingegneria di routing avanzata oltre la soglia di sicurezza del sistema.

Cosa ne pensi di questo? Lascia i tuoi commenti qui sotto.#Blockchain#AI ​​#Microsoft