A empresa de inteligência artificial Anthropic publicou recentemente uma nova pesquisa identificando um conjunto de potenciais ameaças de “sabotagem” à humanidade representadas por modelos avançados de IA.

De acordo com a empresa, sua pesquisa se concentrou em quatro maneiras específicas pelas quais um modelo de IA malicioso poderia enganar um humano e fazê-lo tomar uma decisão perigosa ou prejudicial.

Anthropic anuncia nova pesquisa de ameaças no X.com. Fonte: Anthropic

No final das contas, a nova pesquisa acabou sendo uma situação de boas/más notícias. A má notícia, de acordo com a pesquisa da empresa, é que os modernos modelos de linguagem de ponta — como o ChatGPT da OpenAI e o Claude-3 da Anthropic — demonstram uma clara capacidade de sabotagem.

De acordo com o artigo:

“Modelos suficientemente capazes poderiam subverter a supervisão e a tomada de decisões humanas em contextos importantes. Por exemplo, no contexto do desenvolvimento de IA, os modelos poderiam sabotar secretamente os esforços para avaliar suas próprias capacidades perigosas, monitorar seu comportamento ou tomar decisões sobre sua implantação.”

A boa notícia, no entanto, é que os pesquisadores antrópicos parecem confiantes de que esses riscos podem ser mitigados — pelo menos por enquanto.

Sabotar

A Anthropic identificou quatro maneiras pelas quais um modelo de IA poderia sabotar a tomada de decisões humanas e então começou a testar seus modelos para ver se conseguiriam fazer isso contra testadores desavisados.

Um gráfico que descreve quatro vetores distintos de ameaça de “sabotagem” representados pela IA. Fonte: Anthropic

Primeiro, a equipe levou um modelo a tentar sabotar um humano, direcionando-o para informações incorretas. Essa ameaça pode surgir em situações em que os humanos estão contando com um sistema de IA para analisar grandes quantidades de dados em seu nome.

Em seguida, a equipe testou modelos para ver o quão fácil seria para um sistema de IA projetado para ajudar um desenvolvedor humano a criar código para inserir bugs secretamente ou sabotar os esforços do codificador.

As duas últimas ameaças envolveram “sandbagging”, um termo que descreve um cenário em que uma IA finge não ser capaz de fazer algo para convencer os testadores de segurança de que não é perigoso e o potencial dos sistemas de monitoramento de IA de permitir propositalmente que conteúdo prejudicial passe despercebido como parte de um plano malicioso.

Embora tudo isso possa parecer potencialmente perigoso, a empresa garantiu ao público que “mitigações mínimas” eram necessárias para proteger a humanidade do potencial de sabotagem da IA.

De acordo com uma postagem do blog da empresa:

“No geral, enquanto nossas demonstrações mostraram que há indicações de baixo nível de habilidades de sabotagem nos modelos atuais, julgamos que mitigações mínimas são suficientes para lidar com os riscos. No entanto, avaliações mais realistas e mitigações mais fortes provavelmente serão necessárias à medida que as capacidades de IA melhoram.”

Revista: Golpe da carteira falsa Rabby Wallet vinculado ao CEO da criptomoeda de Dubai e muitas outras vítimas