Microsoft araştırmacıları, genel yapay zeka (AI) sistemlerinin tehlikeli ve hassas verileri çıktı olarak vermesini engelleyen korumaları kaldırabilen yeni bir "Skeleton Key" adlı "jailbreak" saldırısı türünü ortaya çıkardı.

Microsoft Güvenlik blog gönderisine göre, Skeleton Key saldırısı, bir genel AI modelini, kodlanmış güvenlik özelliklerini genişletmesi için metinle yönlendirerek çalışır.

Örneğin, bir AI modelinden II. Dünya Savaşı sırasında popüler hale gelen basit bir yangın bombası olan "Molotov Kokteyli" tarifi oluşturması istenir ve model, güvenlik kurallarını gerekçe göstererek reddeder. Ancak Skeleton Key, bu durumda modeli kullanıcının bir laboratuvar ortamında uzman olduğunu söyleyerek yönlendirir. Model, davranışını genişlettiğini kabul eder ve ardından çalışabilir bir Molotov Kokteyli tarifi çıktısını verir.

Microsoft'a göre, Skeleton Key saldırısı, GPT-3.5, GPT-4o, Claude 3, Gemini Pro ve Meta Llama-3 70B dahil olmak üzere en popüler genel AI modellerinde işe yarar.

Google'ın Gemini, Microsoft'un CoPilot ve OpenAI'nin ChatGPT gibi büyük dil modelleri, genellikle "internet boyutunda" olarak tanımlanan veri hazineleri üzerinde eğitilir. Bu belki bir abartı olabilir, ancak gerçek şu ki, birçok model, tüm sosyal medya ağlarını ve Wikipedia gibi bilgi depolama sitelerini kapsayan trilyonlarca veri noktası içerir.

Microsoft, bu durumun önlenmesi için organizasyonların atabileceği birkaç adım olduğunu belirtiyor. Bunlar arasında, sistemin güvenlik eşiğinin ötesinde gelişmiş yönlendirme mühendisliğini önlemek için sert kodlu giriş/çıkış filtreleme ve güvenli izleme sistemleri bulunmaktadır.

Bu konuda ne düşünüyorsunuz? Yorumlarınızı aşağıya bırakın. #Blockchain #AI #Microsoft