Bezpečnost AI byla kdysi považována za závislou na složitých obranách a neuronových architekturách. Nicméně výzkum společnosti Anthropic odhaluje, jak mohou být i pokročilé AI modely manipulovány jednoduchými triky. Použitím variací zakázaných dotazů, které vyjadřují stejný význam různými způsoby, mohou být bezpečnostní filtry AI obejity. Tato technika, známá jako 'Best-of-N (BoN) jailbreak,' využívá sémantického porozumění AI k zmatení jejích bezpečnostních protokolů. Překvapivě jsou špičkové AI modely jako GPT-4o a Claude 3.5 Sonnet náchylné k těmto taktikám. Výzkum také ukazuje mocenský zákon vztahující se mezi počtem pokusů a pravděpodobností průlomu. Kromě textu lze podobné techniky použít ke zmatení AI vizuálních a audio systémů. Pliny Osvoboditel prokázal, že kreativní psaní může narušit AI modely. Tyto zranitelnosti byly pozorovány i u AI chatbotu společnosti Meta, což ukazuje na potřebu robustních bezpečnostních opatření pro AI. Přečtěte si více o zprávách generovaných AI na: https://app.chaingpt.org/news