雲服務公司 Cloudflare 剛剛推出了一款新工具,幫助防止人工智能機器人從網站非法收集數據。

在訓練人工智能(AI)模型的數據需求不斷增加的背景下,許多人工智能公司部署了機器人來從網站“抓取”數據,從而導致侵犯版權和未經授權使用信息的風險。

儘管谷歌、OpenAI和蘋果等一些人工智能公司允許網站所有者通過robots.txt文件阻止機器人,但Cloudflare擔心一些人工智能公司可能會想方設法“規避法律”來收集數據,儘管有內容控制。

該公司在接受 TechCrunch 採訪時評論道:“客戶不希望人工智能機器人訪問他們的網站。”

robots.txt 文件中被阻止的用戶代理的分佈”

事實上,僅就 OpenAI 而言,多項研究表明,超過 600 家新聞出版商和排名前 1000 的網站中的 26% 已禁用其機器人。

面對這種情況,Cloudflare 研究和分析了 AI 機器人的活動,從而完善了自動機器人檢測算法。該算法會考慮許多因素,包括人工智能機器人是否試圖“冒充”網絡用戶。

Cloudflare 表示:“不良行爲者經常使用工具和框架來大規模收集數據。”基於這些信號,我們的算法可以準確地標記人工智能機器人。”

對於使用 Cloudflare 平臺的網站來說,這個新工具是完全免費的。網站所有者還可以報告可疑的 AI 機器人,Cloudflare 將對其進行審查並將其列入黑名單。

除了 Cloudflare 之外,Reddit 也採取了類似舉措,宣佈將阻止大多數自動化機器人在未經許可的情況下使用其數據。據 Mashable 稱,Reddit 將修改 robots.txt 文件以限制網絡抓取工具。

然而,阻止機器人並不總是有效。一些人工智能公司被指控忽視 robots.txt 規則以獲得競爭優勢。 AI搜索引擎Perplexity被指控冒充用戶“抓取”內容,而OpenAI和Anthropic據稱多次侵犯robots.txt。

如果 Cloudflare 之類的工具能夠準確檢測匿名 AI 機器人,那麼它們可能會很有用。然而,它們並沒有解決更大的問題,即發佈商必須犧牲人工智能工具(如谷歌的人工智能概述)的流量,如果它們阻止特定的人工智能,這些工具就會將網站排除在列表之外。

Cloudflare 在最新發布的《2024 年應用程序安全狀況》報告中表示,網絡安全團隊很難應對來自現代應用程序的威脅。

因此,軟件供應鏈、DDoS 攻擊和惡意機器人是專業應用安全團隊面臨的主要挑戰。 Cloudflare 強調,它每天爲客戶防止 2090 億次網絡攻擊。

Cloudflare 聯合創始人兼首席執行官 Matthew Prince 表示,在線應用程序的構建通常很少考慮安全性,因此很容易受到攻擊。