云服务公司 Cloudflare 刚刚推出了一款新工具,帮助防止人工智能机器人从网站非法收集数据。

在训练人工智能(AI)模型的数据需求不断增加的背景下,许多人工智能公司部署了机器人来从网站“抓取”数据,从而导致侵犯版权和未经授权使用信息的风险。

尽管谷歌、OpenAI和苹果等一些人工智能公司允许网站所有者通过robots.txt文件阻止机器人,但Cloudflare担心一些人工智能公司可能会想方设法“规避法律”来收集数据,尽管有内容控制。

该公司在接受 TechCrunch 采访时评论道:“客户不希望人工智能机器人访问他们的网站。”

robots.txt 文件中被阻止的用户代理的分布”

事实上,仅就 OpenAI 而言,多项研究表明,超过 600 家新闻出版商和排名前 1000 的网站中的 26% 已禁用其机器人。

面对这种情况,Cloudflare 研究和分析了 AI 机器人的活动,从而完善了自动机器人检测算法。该算法会考虑许多因素,包括人工智能机器人是否试图“冒充”网络用户。

Cloudflare 表示:“不良行为者经常使用工具和框架来大规模收集数据。”基于这些信号,我们的算法可以准确地标记人工智能机器人。”

对于使用 Cloudflare 平台的网站来说,这个新工具是完全免费的。网站所有者还可以报告可疑的 AI 机器人,Cloudflare 将对其进行审查并将其列入黑名单。

除了 Cloudflare 之外,Reddit 也采取了类似举措,宣布将阻止大多数自动化机器人在未经许可的情况下使用其数据。据 Mashable 称,Reddit 将修改 robots.txt 文件以限制网络抓取工具。

然而,阻止机器人并不总是有效。一些人工智能公司被指控忽视 robots.txt 规则以获得竞争优势。 AI搜索引擎Perplexity被指控冒充用户“抓取”内容,而OpenAI和Anthropic据称多次侵犯robots.txt。

如果 Cloudflare 之类的工具能够准确检测匿名 AI 机器人,那么它们可能会很有用。然而,它们并没有解决更大的问题,即发布商必须牺牲人工智能工具(如谷歌的人工智能概述)的流量,如果它们阻止特定的人工智能,这些工具就会将网站排除在列表之外。

Cloudflare 在最新发布的《2024 年应用程序安全状况》报告中表示,网络安全团队很难应对来自现代应用程序的威胁。

因此,软件供应链、DDoS 攻击和恶意机器人是专业应用安全团队面临的主要挑战。 Cloudflare 强调,它每天为客户防止 2090 亿次网络攻击。

Cloudflare 联合创始人兼首席执行官 Matthew Prince 表示,在线应用程序的构建通常很少考虑安全性,因此很容易受到攻击。