小心,作弊者——人工智能探测器会当场抓住你和你的聊天机器人。
或者至少,这是人工智能开发人员用来作为卖点并希望我们相信的。当 ChatGPT 在 2022 年进入文化时代时,教师和教授们对人工智能生成的研究论文和家庭作业的激增感到犹豫不决。为了遏制人工智能在课堂上的使用,教育工作者一直在使用人工智能检测器,声称可以区分人工智能编写的文本和人类编写的文本。
但这些工具的准确性如何?波士顿营销分析公司 Trust Insights 的首席数据科学家 Christopher Penn 表示,“人工智能检测器简直就是个笑话。”他测试的一款人工智能检测器声称,美国《独立宣言》序言的 97.75% 都是人工智能生成的。
“促使我测试人工智能检测器的原因是看到同事们争论不休,争论某段内容是否由人工智能生成,”佩恩告诉 Decrypt。“我在 LinkedIn 上看到这种情况;一些人互相指责,说某某是个懒惰的营销人员,走捷径,只使用人工智能。”
争吵的话语?也许吧。佩恩说:“我们应该测试一下,看看这是否属实。”
佩恩决定用《独立宣言》测试几种人工智能探测器,结果令他感到沮丧:“我认为它们很危险,”他这样评价这些探测器。“它们既不先进又有害。”
他说:“这些工具被用来做诸如取消学生资格、让他们留校察看或停学之类的事情。”“在美国,大学教育每年花费数万美元,这是一个非常高风险的应用。”
我们决定自己做个测试,看看这些网站的表现如何。在第一个测试中,我们使用了 Penn 使用的《独立宣言》中的相同摘录,以确定哪些检测器错误地认为该文本是 AI 生成的。在第二个测试中,我们摘录了 E.M. Forrester 1909 年的科幻短篇小说《机器停止》的摘录,并让 ChatGPT 重写它,看看哪个检测器将该段落识别为 AI 编写的。以下是我们的结果:
采用 Penn 使用的相同文本,我们比较了几种 AI 检测器:Grammarly、GPTZero、QuillBot 和 Penn 在他的 LinkedIn 帖子中展示的 AI 检测器 ZeroGPT。
从最好到最差:检测人类书写的文本
Grammarly。在我们测试的四款应用当中,Grammarly 在检测人类和人工智能生成的文本方面表现最佳。它甚至提醒我引用我的作品。
Quillbot 的 AI 检测器还将《宣言》文本识别为“100% 人类书写的”。
GPTZero 给出的《独立宣言》由人类撰写的概率为 89%。
ZeroGPT 完全搞砸了,并表示《独立宣言》文本有 97.93% 是由人工智能生成的——甚至高于宾夕法尼亚大学本月早些时候的调查结果。
在接下来的测试中,我们通过 ChatGPT-4o 运行“机器停止”来重写文本,看看 AI 检测器是否可以发现假冒文字。
从最好到最差:检测人工智能书写的文本
在将《机器停止》与其 AI 版本进行比较时,Grammarly 在检测 AI 生成的内容方面最为有效。
GPTZero 认定原始故事有 97% 可能是人类撰写的,而 AI 版本有 95% 可能是 AI 生成的。
Quillbot 无法区分人类文本和人工智能文本,给出的概率均为 0%。
ZeroGPT 将“机器停止”文本识别为可能是人类书写的,概率为 4.27%,但错误地将 AI 生成的版本标记为人类书写的,概率为 6.35%。
Grammarly 发言人向 Decrypt 表示:“Grammarly 继续深化其在评估文本原创性和负责任的 AI 使用方面的专业知识”,并指出公司发布了一篇关于其 AI 检测软件的帖子。
该公司表示:“我们将人工智能检测功能添加到我们的原创功能中,这是我们对负责任地使用人工智能的承诺的一部分。”“尽管这项技术本身存在局限性,但我们优先考虑为用户(尤其是学生)提供尽可能透明的信息。”
Grammarly 发言人还重点介绍了该公司的最新更新 Grammarly Authorship,这是一款 Google Chrome 扩展程序,可让用户展示文档的哪些部分是人工创建的、AI 生成的或 AI 编辑的。
GPTZero 首席技术官 Alex Cui 告诉 Decrypt:“我们建议不要使用 AI 检测结果直接惩戒学生。”“我认为它作为诊断工具很有用,但需要我们的创作工具才能找到真正的解决方案。”
与 Grammarly 一样,GPTZero 也具有“作者身份”工具,崔建议使用该工具来验证未来提交的内容是否由人类撰写。
他说:“我们在 Google Docs 中的写作报告和我们自己的编辑器会分析文档上的打字模式,以判断该文档是否是人类编写的,从而大大降低得出错误结论的风险。”
崔强调了在多样化数据集上不断训练人工智能模型的重要性。
“我们使用大型自然语言处理 (NLP) 和机器学习模型,这些模型在数百万个人工智能和人工生成的文档数据集上进行训练,并在发布前经过测试,以确保错误率低,”他说。“我们在发布之前调整了我们的检测器,使其误报率低于 1%,以降低误报风险。”
佩恩指出,盲目依赖人工智能检测器发现抄袭和作弊行为与依赖人工智能撰写基于事实的报告一样危险。
“我对任何考虑使用这些工具的人的警告是,对于任何关键任务或高风险应用来说,它们的误报率都高得令人无法接受,”佩恩说。“如果你要开除某人或撤销其博士学位,误报率必须为零。就这样。故事结束了。如果机构进行了严格的测试,他们很快就会发现市场上没有一种工具可以购买。但这就是需要发生的事情。”
值得庆幸的是,这篇文章只有 5% 是由人工智能生成的。
ZeroGPT 和 Quillbot 尚未立即回应置评请求。
安德鲁·海沃德 (Andrew Hayward) 编辑