Firma zajmująca się sztuczną inteligencją Anthropic ogłosiła 8 sierpnia uruchomienie rozszerzonego programu nagród za błędy, w którym uczestnicy, którzy zdołają „złamać” niewydany model sztucznej inteligencji „następnej generacji”, mogą liczyć na nagrody sięgające 15 000 dolarów.

Flagowy model AI firmy Anthropic, Claude-3, to generatywny system AI podobny do ChatGPT firmy OpenAI i Gemini firmy Google. W ramach wysiłków firmy mających na celu zapewnienie, że Claude i jej inne modele będą mogły działać bezpiecznie, przeprowadza ona tzw. „red teaming”.

Czerwony zespół

Red teaming to w zasadzie próba celowego zepsucia czegoś. W przypadku Claude’a celem red teamingu jest próba odkrycia wszystkich sposobów, w jakie można go skłonić, wymusić lub w inny sposób zakłócić, aby generował niepożądane wyniki.

Podczas działań związanych z red teamingiem inżynierowie mogą przeformułować pytania lub przeformułować zapytanie, aby oszukać sztuczną inteligencję i zmusić ją do podania informacji, których została zaprogramowana unikać.

Na przykład system AI trenowany na danych zebranych z Internetu prawdopodobnie będzie zawierał dane osobowe wielu osób. W ramach swojej polityki bezpieczeństwa Anthropic wprowadził zabezpieczenia, aby uniemożliwić Claude i jego innym modelom wyprowadzanie tych informacji.

W miarę jak modele sztucznej inteligencji stają się bardziej niezawodne i potrafią naśladować ludzką komunikację, zadanie polegające na próbie zrozumienia wszystkich możliwych niepożądanych wyników staje się wykładniczo trudniejsze.

Nagroda za błędy

Firma Anthropic wdrożyła w swoich modelach kilka nowatorskich interwencji w zakresie bezpieczeństwa, w tym paradygmat „Konstytucjonalnej sztucznej inteligencji”, ale zawsze miło jest spojrzeć świeżym okiem na problem, który od dawna istnieje.

Według wpisu na blogu firmy, najnowsza inicjatywa rozszerzy istniejące programy bug bounty, aby skupić się na uniwersalnych atakach typu jailbreak:

„Są to exploity, które mogą umożliwić stałe omijanie zabezpieczeń AI w szerokim zakresie obszarów. Poprzez ukierunkowanie uniwersalnych jailbreaków, chcemy zająć się niektórymi z najistotniejszych luk w krytycznych, wysokiego ryzyka domenach, takich jak CBRN (chemiczne, biologiczne, radiologiczne i jądrowe) i cyberbezpieczeństwo”.

Firma przyjmuje ograniczoną liczbę uczestników i zachęca doświadczonych badaczy AI oraz tych, którzy „wykazali się wiedzą specjalistyczną w zakresie identyfikowania jailbreaków w modelach językowych”, do składania zgłoszeń do piątku 16 sierpnia.

Nie każda osoba, która złoży wniosek, zostanie wybrana, ale firma planuje „w przyszłości szerzej rozszerzyć tę inicjatywę”.

Wybrani otrzymają wcześniejszy dostęp do nieopublikowanego modelu sztucznej inteligencji „następnej generacji” na potrzeby działań red teamingowych.

Powiązane: Firmy technologiczne piszą list do UE, prosząc o więcej czasu na dostosowanie się do ustawy o sztucznej inteligencji