Anthropic launches $15K jailbreak bounty program for its unreleased next-gen AI

Cointelegraph · 2024-08-09T21:18:25.000Z

Artificial intelligence firm Anthropic announced the launch of an expanded bug bounty program on Aug.8, with rewards as high as $15,000 for participants who can “jailbreak” the company’s unreleased, “next generation” AI model. Anthropic’s flagship AI model, Claude-3, is a generative AI system similar to OpenAI’s ChatGPT and Google’s Gemini. As part of the company’s efforts to ensure that Claude and its other models are capable of operating safely, it conducts what’s called “red teaming.” Red teaming Red teaming is basically just trying to break something on purpose. In Claude’s case, the point of red teaming is to try and figure out all of the ways that it could be prompted, forced, or otherwise perturbed into generating unwanted outputs. During red teaming efforts, engineers might rephrase questions or reframe a query in order to trick the AI into outputting information it’s been programmed to avoid. For example, an AI system trained on data gathered from the internet is likely to contain personally identifiable information on numerous people. As part of its safety policy, Anthropic has put guardrails in place to prevent Claude and its other models from outputting that information. As AI models become more robust and capable of imitating human communication, the task of trying to figure out every possible unwanted output becomes exponentially challenging. Bug bounty Anthropic has implemented several novel safety interventions in its models, including its “Constitutional AI” paradigm, but it’s always nice to get fresh eyes on a long-standing issue. According to a company blog post, it’s latest initiative will expand on existing bug bounty programs to focus on universal jailbreak attacks: “These are exploits that could allow consistent bypassing of AI safety guardrails across a wide range of areas. By targeting universal jailbreaks, we aim to address some of the most significant vulnerabilities in critical, high-risk domains such as CBRN (chemical, biological, radiological, and nuclear) and cybersecurity.” The company is only accepting a limited number of participants and encourages AI researchers with experience and those who “have demonstrated expertise in identifying jailbreaks in language models” to apply by Friday, Aug. 16. Not everyone who applies will be selected, but the company plans to “expand this initiative more broadly in the future.” Those who are selected will receive early access to an unreleased “next generation” AI model for red-teaming purposes. Related: Tech firms pen letter to EU requesting more time to comply with AI Act

Firma zajmująca się sztuczną inteligencją Anthropic ogłosiła 8 sierpnia uruchomienie rozszerzonego programu nagród za błędy, w którym uczestnicy, którzy zdołają „złamać” niewydany model sztucznej inteligencji „następnej generacji”, mogą liczyć na nagrody sięgające 15 000 dolarów.
Flagowy model AI firmy Anthropic, Claude-3, to generatywny system AI podobny do ChatGPT firmy OpenAI i Gemini firmy Google. W ramach wysiłków firmy mających na celu zapewnienie, że Claude i jej inne modele będą mogły działać bezpiecznie, przeprowadza ona tzw. „red teaming”.
Czerwony zespół
Red teaming to w zasadzie próba celowego zepsucia czegoś. W przypadku Claude’a celem red teamingu jest próba odkrycia wszystkich sposobów, w jakie można go skłonić, wymusić lub w inny sposób zakłócić, aby generował niepożądane wyniki.
Podczas działań związanych z red teamingiem inżynierowie mogą przeformułować pytania lub przeformułować zapytanie, aby oszukać sztuczną inteligencję i zmusić ją do podania informacji, których została zaprogramowana unikać.
Na przykład system AI trenowany na danych zebranych z Internetu prawdopodobnie będzie zawierał dane osobowe wielu osób. W ramach swojej polityki bezpieczeństwa Anthropic wprowadził zabezpieczenia, aby uniemożliwić Claude i jego innym modelom wyprowadzanie tych informacji.
W miarę jak modele sztucznej inteligencji stają się bardziej niezawodne i potrafią naśladować ludzką komunikację, zadanie polegające na próbie zrozumienia wszystkich możliwych niepożądanych wyników staje się wykładniczo trudniejsze.
Nagroda za błędy
Firma Anthropic wdrożyła w swoich modelach kilka nowatorskich interwencji w zakresie bezpieczeństwa, w tym paradygmat „Konstytucjonalnej sztucznej inteligencji”, ale zawsze miło jest spojrzeć świeżym okiem na problem, który od dawna istnieje.
Według wpisu na blogu firmy, najnowsza inicjatywa rozszerzy istniejące programy bug bounty, aby skupić się na uniwersalnych atakach typu jailbreak:
„Są to exploity, które mogą umożliwić stałe omijanie zabezpieczeń AI w szerokim zakresie obszarów. Poprzez ukierunkowanie uniwersalnych jailbreaków, chcemy zająć się niektórymi z najistotniejszych luk w krytycznych, wysokiego ryzyka domenach, takich jak CBRN (chemiczne, biologiczne, radiologiczne i jądrowe) i cyberbezpieczeństwo”.
Firma przyjmuje ograniczoną liczbę uczestników i zachęca doświadczonych badaczy AI oraz tych, którzy „wykazali się wiedzą specjalistyczną w zakresie identyfikowania jailbreaków w modelach językowych”, do składania zgłoszeń do piątku 16 sierpnia.
Nie każda osoba, która złoży wniosek, zostanie wybrana, ale firma planuje „w przyszłości szerzej rozszerzyć tę inicjatywę”.
Wybrani otrzymają wcześniejszy dostęp do nieopublikowanego modelu sztucznej inteligencji „następnej generacji” na potrzeby działań red teamingowych.
Powiązane: Firmy technologiczne piszą list do UE, prosząc o więcej czasu na dostosowanie się do ustawy o sztucznej inteligencji

Odkryj więcej od twórcy

Najnowsze wiadomości