De acordo com o Cointelegraph, uma equipe de cientistas da Universidade da Carolina do Norte, Chapel Hill, publicou recentemente uma pesquisa pré-impressa sobre inteligência artificial (IA) que destaca a dificuldade de remover dados confidenciais de grandes modelos de linguagem (LLMs), como ChatGPT da OpenAI e Bard do Google. . Os pesquisadores descobriram que, embora seja possível excluir informações dos LLMs, verificar se as informações foram removidas é tão desafiador quanto o próprio processo de remoção.
Esta dificuldade surge da forma como os LLMs são projetados e treinados. Eles são pré-treinados em bancos de dados e depois ajustados para gerar resultados coerentes. Depois que um modelo é treinado, seus criadores não podem voltar ao banco de dados e excluir arquivos específicos para evitar que o modelo produza resultados relacionados. Esta é a ‘caixa preta’ da IA. Os problemas ocorrem quando LLMs treinados em conjuntos de dados massivos produzem informações confidenciais, como informações de identificação pessoal ou registros financeiros.
Para resolver esse problema, os desenvolvedores de IA usam proteções, como prompts codificados que inibem comportamentos específicos ou aprendizagem por reforço a partir de feedback humano (RLHF). No entanto, os investigadores da UNC argumentam que este método depende de os seres humanos encontrarem todas as falhas que um modelo pode apresentar e, mesmo quando bem sucedido, ainda não “elimina” a informação do modelo. Os pesquisadores concluíram que mesmo os métodos de edição de modelos de última geração, como o Rank-One Model Editing (ROME), não conseguem excluir totalmente as informações factuais dos LLMs, já que os fatos ainda podem ser extraídos 38% das vezes por ataques de caixa branca. e 29% das vezes por ataques de caixa preta.
Os pesquisadores conseguiram desenvolver novos métodos de defesa para proteger os LLMs de alguns “ataques de extração” – tentativas intencionais de maus atores de usar prompts para contornar as barreiras de proteção de um modelo, a fim de fazê-lo produzir informações confidenciais. No entanto, eles observaram que o problema de exclusão de informações confidenciais pode ser aquele em que os métodos de defesa estão sempre tentando acompanhar os novos métodos de ataque.