Společnost Anthropic zabývající se umělou inteligencí nedávno zveřejnila nový výzkum identifikující řadu potenciálních „sabotážních“ hrozeb pro lidstvo, které představují pokročilé modely umělé inteligence. 

Podle společnosti se jejich výzkum zaměřil na čtyři konkrétní způsoby, jak by mohl škodlivý model umělé inteligence přimět člověka k nebezpečnému nebo škodlivému rozhodnutí. 

Anthropic oznamuje nový výzkum hrozeb na X.com. Zdroj: Antropický

Nakonec se nový výzkum ukázal jako dobrá/špatná zpráva. Špatnou zprávou podle průzkumu společnosti je, že moderní, nejmodernější velké jazykové modely – jako je ChatGPT od OpenAI a Claude-3 od Anthropic – prokazují jasnou schopnost sabotáže.

Podle papíru:

„Dostatečně schopné modely by mohly rozvrátit lidský dohled a rozhodování v důležitých souvislostech. Například v kontextu vývoje AI by modely mohly skrytě sabotovat úsilí o vyhodnocení vlastních nebezpečných schopností, sledování jejich chování nebo rozhodování o jejich nasazení.“

Dobrou zprávou však je, že antropičtí výzkumníci jsou přesvědčeni, že tato rizika lze zmírnit – alespoň prozatím. 

Sabotovat

Antropic identifikoval čtyři způsoby, jak by mohl model umělé inteligence sabotovat lidské rozhodování, a poté začal testovat své modely, aby zjistil, zda je dokážou překonat nevědomými testery.

Graf zobrazující čtyři různé „sabotážní“ vektory hrozeb, které představuje AI. Zdroj: Antropický 

Nejprve tým vyzval model, aby se pokusil sabotovat člověka tím, že je nasměroval k nesprávným informacím. Tato hrozba by se mohla objevit v situacích, kdy lidé spoléhají na systém AI, který za ně analyzuje obrovské množství dat. 

Dále tým testoval modely, aby zjistil, jak snadné by bylo pro systém umělé inteligence navržený tak, aby pomohl lidskému vývojáři vytvořit kód, aby tajně vkládal chyby nebo jinak sabotoval úsilí kodéra. 

Poslední dvě hrozby zahrnovaly „sandbagging“, termín popisující scénář, kdy umělá inteligence předstírá, že není schopna něco udělat, aby přesvědčila bezpečnostní testery, že není nebezpečná, a potenciál, aby systémy sledování umělé inteligence záměrně umožnily vyklouznutí škodlivého obsahu. skrz jako součást zlomyslného plánu.

I když to všechno může znít potenciálně nebezpečně, společnost ujistila veřejnost, že k ochraně lidstva před potenciálem sabotáže AI jsou zapotřebí „minimální zmírnění“. 

Podle příspěvku na firemním blogu: 

„Celkově lze říci, že i když naše demonstrace ukázaly, že v současných modelech pravděpodobně existují náznaky sabotážních schopností na nízké úrovni, soudíme, že k řešení rizik stačí minimální zmírnění. Pravděpodobně však budou nutné realističtější vyhodnocení a silnější zmírnění, až se schopnosti umělé inteligence zlepší.“

Magazine: Falešná peněženka Rabby Wallet spojená s dubajským generálním ředitelem kryptoměn a mnoha dalšími oběťmi