根据 Cointelegraph 报导,北卡罗来纳大学教堂山分校的科学家团队最近发表了预印本人工智慧(AI)研究,强调从 OpenAI 的 ChatGPT 和谷歌的 Bard 等大型语言模型(LLM)中删除敏感资料的难度。研究人员发现,虽然可以从法学硕士中删除讯息,但验证资讯是否已被删除与删除过程本身一样具有挑战性。
这项困难源自于法学硕士的设计与训练方式。它们在资料库上进行预训练,然后进行微调以产生一致的输出。一旦模型经过训练,其创建者就无法返回资料库并删除特定档案以阻止模型输出相关结果。这就是人工智慧的「黑盒子」。当接受过大规模资料集训练的法学硕士输出敏感资讯(例如个人识别资讯或财务记录)时,就会出现问题。
为了解决这个问题,人工智慧开发人员使用护栏,例如抑制特定行为的硬编码提示或根据人类回馈进行强化学习(RLHF)。然而,北卡罗来纳大学的研究人员认为,这种方法依赖人类发现模型可能表现出的所有缺陷,即使成功,它仍然不会从模型中「删除」资讯。研究人员得出的结论是,即使是最先进的模型编辑方法,例如一级模型编辑(ROME),也无法完全删除法学硕士中的事实信息,因为事实仍然可以通过白盒攻击在38% 的情况下提取29% 的时间是透过黑盒攻击。
研究人员能够开发新的防御方法来保护法学硕士免受一些「提取攻击」——不良行为者有目的地尝试使用提示来绕过模型的护栏,以使其输出敏感资讯。然而,他们指出,删除敏感资讯的问题可能是防御方法总是追赶新攻击方法的问题。