La société de services cloud Cloudflare vient de lancer un nouvel outil pour empêcher les robots IA de collecter illégalement des données sur des sites Web.

Dans le contexte d'une demande croissante de données pour former des modèles d'intelligence artificielle (IA), de nombreuses entreprises d'IA ont déployé des robots pour « extraire » les données des sites Web, ce qui entraîne un risque de violation des droits d'auteur et d'utilisation non autorisée des informations.

Bien que certaines sociétés d'IA telles que Google, OpenAI et Apple permettent aux propriétaires de sites Web de bloquer les robots via des fichiers robots.txt, Cloudflare craint que certaines sociétés d'IA puissent trouver des moyens de « contourner la loi » pour collecter des données, malgré les contrôles de contenu.

Partageant avec TechCrunch, la société a commenté : « Les clients ne veulent pas que les robots IA accèdent à leurs sites Web. »

Répartition des User-Agents bloqués dans le fichier robots.txt »

En fait, rien qu’avec OpenAI, plusieurs études ont montré que plus de 600 éditeurs de presse et 26 % des 1 000 principaux sites Web ont désactivé leurs robots.

Face à cette situation, Cloudflare a étudié et analysé les activités des robots IA, affinant ainsi l'algorithme de détection automatique des robots. L’algorithme prendra en compte de nombreux facteurs, notamment si le robot IA tente de « se faire passer pour » un internaute.

« Les acteurs malveillants utilisent souvent des outils et des frameworks pour collecter des données à grande échelle », a déclaré Cloudflare. Sur la base de ces signaux, notre algorithme peut signaler avec précision les robots IA.

Ce nouvel outil est entièrement gratuit pour les sites Web utilisant la plateforme Cloudflare. Les propriétaires de sites Web peuvent également signaler les robots IA suspects, que Cloudflare examinera et mettra sur liste noire.

Outre Cloudflare, Reddit a également pris une décision similaire en annonçant qu'il empêcherait la plupart des robots automatisés d'utiliser leurs données sans licence. Selon Mashable, Reddit modifiera le fichier robots.txt pour restreindre les robots d'exploration Web.

Cependant, bloquer les robots n’est pas toujours efficace. Certaines sociétés d’IA ont été accusées d’ignorer les règles du fichier robots.txt pour obtenir un avantage concurrentiel. Le moteur de recherche d’IA Perplexity est accusé d’usurper l’identité d’utilisateurs pour « gratter » du contenu, tandis qu’OpenAI et Anthropic auraient violé à plusieurs reprises le fichier robots.txt.

Des outils comme celui de Cloudflare pourraient être utiles s'ils s'avèrent précis dans la détection des robots IA anonymes. Cependant, ils ne résolvent pas le problème plus large des éditeurs qui doivent sacrifier le trafic des outils d'IA tels que les aperçus de l'IA de Google, qui excluent les sites des listes s'ils bloquent l'IA spécifique.

Dans le rapport « State of Application Security 2024 » récemment publié, Cloudflare a déclaré que les équipes de cybersécurité ont des difficultés à faire face aux menaces provenant des applications modernes.

En conséquence, les chaînes d’approvisionnement logicielles, les attaques DDoS et les robots malveillants constituent des défis majeurs pour les équipes professionnelles de sécurité des applications. Cloudflare souligne qu'il prévient chaque jour 209 milliards de cyberattaques pour ses clients.

Matthew Prince, co-fondateur et PDG de Cloudflare, a déclaré que les applications en ligne sont souvent conçues sans se soucier de la sécurité, ce qui les rend vulnérables aux attaques.