Antropická a "červený tým" strategie v oblasti bezpečnosti AI

Anthropic a mnoho dalších technologických gigantů tvoří „červený tým“, aby opravili bezpečnostní chyby a zabránili riziku zneužití modelu ke špatným účelům.
Během týdne vydala společnost Anthropic pokyny pro „červený tým“ a připojila se ke skupině prodejců, jako je Google, Microsoft, NIST, NVIDIA a OpenAI, kteří také vydali podobné rámce. Cílem těchto rámců je identifikovat a napravit rostoucí bezpečnostní zranitelnosti v modelech umělé inteligence (AI).
Přístup „červeného týmu“ se ukazuje jako účinný při odhalování zranitelností zabezpečení, které jiné metody zabezpečení nevidí, a pomáhá společnostem s umělou inteligencí vyhnout se tomu, aby jejich modely byly používány k vytváření nežádoucího obsahu.
Cíl a význam strategie „červeného týmu“ v oblasti AI
Obavy z bezpečnostních rizik z modelů umělé inteligence narůstají, což nutí tvůrce politik hledat řešení pro bezpečnou a důvěryhodnou platformu umělé inteligence. Výkonný příkaz (EO) o bezpečné, bezpečné a důvěryhodné umělé inteligenci (14110), podepsaný prezidentem Bidenem 30. října 2018, nařídil NIST, aby zavedla vhodné pokyny a procesy, které umožní vývojářům umělé inteligence, zejména s modely uzavřených platforem, jednat „Testování modelu AI“ – také možnost „červeného týmu“ AI pro nasazení bezpečných a spolehlivých systémů AI.
NIST vydal koncem dubna dva návrhy publikací, které mají pomoci řídit rizika generativní umělé inteligence. Tyto dokumenty jsou doplňkovými zdroji k AI ​​Risk Management Framework (AI RMF) a Secure Software Development Framework (SSDF).
Německý Spolkový úřad pro informační bezpečnost (BSI) nabízí strategii „červeného týmu“ jako součást jejich širšího rámce IT-Grundschutz. Austrálie, Kanada, Evropská unie, Japonsko, Nizozemsko a Singapur mají také prominentní rámce. Evropský parlament schválil zákon EU o umělé inteligenci letos v březnu.
Koncept umělé inteligence „červeného týmu“.
Ve skutečnosti model červeného týmu existuje od 60. let 20. století, kdy byly ve formě simulace vytvořeny nepřátelské útoky, které měly zajistit stabilní provoz počítačových systémů. „V počítačích neexistuje žádná koncepce ‚bezpečnosti‘. Místo toho mohou inženýři říci: zkusili jsme to, ale nedokázali jsme to prolomit,“ řekl Bruce Schneier, bezpečnostní expert a kolega z Berkman Klein Research Center Harvardské univerzity.
Dnes je „červený tým“ známý také jako technika testování modelů umělé inteligence simulací různých a nepředvídatelných útoků, aby se určily jejich silné a slabé stránky. Vzhledem k tomu, že generativní modely umělé inteligence jsou trénovány na obrovských datových skladech, tradiční metody zabezpečení obtížně hledají zranitelná místa.
Ale jako každý počítačový software mají tyto modely stále společné kybernetické zranitelnosti: mohou na ně útočit hanební aktéři, aby dosáhli různých cílů, včetně vytváření škodlivých odpovědí, pornografického obsahu, nezákonného používání materiálů chráněných autorským právem nebo zveřejňování osobních údajů, jako je např jméno, adresa a telefonní číslo. Cílem strategie je podporovat vzorce reakce a říkat věci, které ještě nejsou naprogramovány, včetně odhalování předsudků.
Zejména členové „červeného týmu“ budou používat velké jazykové modely (LLM) k automatizaci vytváření příkazů a útočných skriptů k nalezení a opravě slabin modelů AI generovaných v terénu.
Google například používá červené týmy k ochraně modelů umělé inteligence před hrozbami, jako jsou rychlé injekční útoky, útoky otravy dat a zadní vrátka. Jakmile jsou takové zranitelnosti identifikovány, mohou zúžit chyby v softwaru a zlepšit je.
Hodnota strategie „červeného týmu“ při zlepšování zabezpečení modelu umělé inteligence se i nadále prokazuje v soutěžích v celém odvětví. V loňském roce DEF CON – největší hackerská konference na světě – uspořádala první soutěž Generative Red Team (GRT), která je považována za jeden z velkých úspěchů v používání technik crowdsourcingu.
Modely poskytují Anthropic, Cohere, Google, Hugging Face, Meta, Nvidia, OpenAI a Stability. Účastníci testují modely na hodnotící platformě vyvinuté Scale AI.
Strategie „červeného týmu“ AI společnosti Anthropic
Při publikování svých metod společnost Anthropic zdůraznila potřebu škálovatelných systemizovaných a standardizovaných testovacích postupů. Podle společnosti je nedostatek společných standardů hlavní překážkou testování modelů AI v celém odvětví
Anthropic také navrhuje čtyři hlavní testovací metody: testování doménovými experty, používání jazykových modelů pro testování, testování v nových metodách a obecné otevřené testování.
Pozoruhodným bodem v přístupu Anthropic je bezproblémová kombinace hlubokého lidského porozumění a kvantitativních výsledků z testovacích technik. Typicky se Anthropic zaměřuje na roli skupiny odborníků podle oboru a upřednostňuje aplikaci Policy Vulnerability Testing (PVT) - kvalitativní techniku, která pomáhá identifikovat a nasazovat bezpečnostní ochranná opatření, zejména v citlivých oblastech, které jsou snadno zneužitelné, jako je např vměšování do voleb, podněcování k nenávisti, pornografie,...
Stejně jako mnoho jiných technologických společností se Anthropic snaží automatizovat proces testování pomocí modelů umělé inteligence k provádění náhodných simulovaných útoků, a tím odhalovat zranitelnosti. „Věříme, že čím výkonnější jsou modely umělé inteligence, tím efektivněji mohou podporovat lidi při testování a automatizaci testovacího procesu,“ uvedl Anthropic.
Na základě modelu červená skupina/modrá skupina využívá Anthropic modely útoků, které „vyprovokují“ cílový model umělé inteligence k provedení požadovaného chování, čímž shromažďuje data a upravuje a posiluje systém.
Jednou z klíčových a náročných oblastí, kterou Anthropic sleduje, je testování multimodality. Testování modelů AI s obrázky a zvuky je mnohem složitější než s textem, protože útočníci dokážou škodlivý kód zcela „zamaskovat“ do obrázků a zvuků a obejít tak bezpečnostní systém. Důkazem je, že modelová řada Claude 3 od společnosti Anthropic musela před uvedením na trh projít přísným testovacím procesem, zda je schopna zpracovávat multimediální informace, aby se minimalizovala možná rizika, jako jsou podvody a nepřátelské nebo ohrožující bezpečnost dětí.
Uzavřít
Dá se říci, že testování modelu AI postupně ukazuje svou pozici důležitého štítu, který chrání udržitelný rozvoj průmyslu AI. Účast předních technologických korporací a vládních agentur ukazuje společné úsilí o vytvoření pevného právního a technického rámce, který otevírá budoucnost pro prosperitu umělé inteligence a zároveň zajišťuje bezpečnost a odpovědnost.
Prozkoumat více od tvůrce

Nejnovější zprávy