Anthropic says AI could one day ‘sabotage’ humanity but it’s fine for now

Cointelegraph · 2024-10-18T21:30:53.000Z

Artificial intelligence firm Anthropic recently published new research identifying a set of potential “sabotage” threats to humanity posed by advanced AI models. According to the company, their research focused on four specific ways a malicious AI model could trick a human into making a dangerous or harmful decision. Anthropic announces new threat research on X.com. Source: Anthropic Ultimately, the new research turned out to be a good news/bad news situation. The bad news, per the company’s research, is that modern state-of-the-art large language models — such as OpenAI’s ChatGPT and Anthropic’s Claude-3 — demonstrate a clear capacity for sabotage. Per the paper: “Sufficiently capable models could subvert human oversight and decision making in important contexts. For example, in the context of AI development, models could covertly sabotage efforts to evaluate their own dangerous capabilities, to monitor their behavior, or to make decisions about their deployment.” The good news, however, is that Anthropic researchers appear confident that these risks can be mitigated — at least for now. Sabotage Anthropic identified four ways an AI model could sabotage human decision-making and then set about testing their models to see if they could pull it off against unwitting testers. A chart depicting four distinct “sabotage” threat vectors posed by AI. Source: Anthropic First, the team prompted a model to attempt to sabotage a human by steering them toward incorrect information. This threat could emerge in situations where humans are relying on an AI system to parse massive amounts of data on their behalf. Next, the team tested models to see how easy it would be for an AI system designed to help a human developer create code to secretly insert bugs or otherwise sabotage the coder’s efforts. The final two threats involved “sandbagging,” a term describing a scenario where an AI pretends not to be capable of doing something in order to convince safety testers it isn’t dangerous and the potential for AI monitoring systems to purposefully allow harmful content to slip through as part of a malicious plan. While all of these may sound potentially dangerous, the company assured the public that “minimal mitigations” were required to protect humanity from the potential for AI sabotage. Per a company blog post: “Overall, while our demonstrations showed that there are arguably low-level indications of sabotage abilities in current models, we judge that minimal mitigations are sufficient to address the risks. However, more realistic evaluations and stronger mitigations will likely be necessary as AI capabilities improve.” Magazine: Fake Rabby Wallet scam linked to Dubai crypto CEO and many more victims

Společnost Anthropic zabývající se umělou inteligencí nedávno zveřejnila nový výzkum identifikující řadu potenciálních „sabotážních“ hrozeb pro lidstvo, které představují pokročilé modely umělé inteligence. 
Podle společnosti se jejich výzkum zaměřil na čtyři konkrétní způsoby, jak by mohl škodlivý model umělé inteligence přimět člověka k nebezpečnému nebo škodlivému rozhodnutí. 
Anthropic oznamuje nový výzkum hrozeb na X.com. Zdroj: Antropický
Nakonec se nový výzkum ukázal jako dobrá/špatná zpráva. Špatnou zprávou podle průzkumu společnosti je, že moderní, nejmodernější velké jazykové modely – jako je ChatGPT od OpenAI a Claude-3 od Anthropic – prokazují jasnou schopnost sabotáže.
Podle papíru:
„Dostatečně schopné modely by mohly rozvrátit lidský dohled a rozhodování v důležitých souvislostech. Například v kontextu vývoje AI by modely mohly skrytě sabotovat úsilí o vyhodnocení vlastních nebezpečných schopností, sledování jejich chování nebo rozhodování o jejich nasazení.“
Dobrou zprávou však je, že antropičtí výzkumníci jsou přesvědčeni, že tato rizika lze zmírnit – alespoň prozatím. 
Sabotovat
Antropic identifikoval čtyři způsoby, jak by mohl model umělé inteligence sabotovat lidské rozhodování, a poté začal testovat své modely, aby zjistil, zda je dokážou překonat nevědomými testery.
Graf zobrazující čtyři různé „sabotážní“ vektory hrozeb, které představuje AI. Zdroj: Antropický 
Nejprve tým vyzval model, aby se pokusil sabotovat člověka tím, že je nasměroval k nesprávným informacím. Tato hrozba by se mohla objevit v situacích, kdy lidé spoléhají na systém AI, který za ně analyzuje obrovské množství dat. 
Dále tým testoval modely, aby zjistil, jak snadné by bylo pro systém umělé inteligence navržený tak, aby pomohl lidskému vývojáři vytvořit kód, aby tajně vkládal chyby nebo jinak sabotoval úsilí kodéra. 
Poslední dvě hrozby zahrnovaly „sandbagging“, termín popisující scénář, kdy umělá inteligence předstírá, že není schopna něco udělat, aby přesvědčila bezpečnostní testery, že není nebezpečná, a potenciál, aby systémy sledování umělé inteligence záměrně umožnily vyklouznutí škodlivého obsahu. skrz jako součást zlomyslného plánu.
I když to všechno může znít potenciálně nebezpečně, společnost ujistila veřejnost, že k ochraně lidstva před potenciálem sabotáže AI jsou zapotřebí „minimální zmírnění“. 
Podle příspěvku na firemním blogu: 
„Celkově lze říci, že i když naše demonstrace ukázaly, že v současných modelech pravděpodobně existují náznaky sabotážních schopností na nízké úrovni, soudíme, že k řešení rizik stačí minimální zmírnění. Pravděpodobně však budou nutné realističtější vyhodnocení a silnější zmírnění, až se schopnosti umělé inteligence zlepší.“
Magazine: Falešná peněženka Rabby Wallet spojená s dubajským generálním ředitelem kryptoměn a mnoha dalšími oběťmi

Prozkoumat více od tvůrce

Nejnovější zprávy