La società di servizi cloud Cloudflare ha appena lanciato un nuovo strumento per aiutare a impedire ai bot di intelligenza artificiale di raccogliere illegalmente dati dai siti web.

Nel contesto della crescente domanda di dati per addestrare modelli di intelligenza artificiale (AI), molte aziende di intelligenza artificiale hanno implementato bot per “cancellare” dati dai siti Web, con il rischio di violazioni del diritto d’autore e di utilizzo non autorizzato delle informazioni.

Sebbene alcune società di intelligenza artificiale come Google, OpenAI e Apple consentano ai proprietari di siti Web di bloccare i bot tramite file robots.txt, Cloudflare teme che alcune società di intelligenza artificiale possano trovare modi per "aggirare la legge" per raccogliere dati, nonostante i controlli sui contenuti.

Condividendo con TechCrunch, la società ha commentato: "I clienti non vogliono che i robot IA accedano ai loro siti web".

Distribuzione degli User-Agent bloccati nel file robots.txt”

Infatti, solo con OpenAI, numerosi studi hanno dimostrato che più di 600 editori di notizie e il 26% dei primi 1.000 siti Web hanno disabilitato i suoi bot.

Di fronte a questa situazione, Cloudflare ha ricercato e analizzato le attività dei bot IA, perfezionando così l'algoritmo di rilevamento automatico dei bot. L’algoritmo prenderà in considerazione molti fattori, incluso se il bot AI sta tentando di “impersonare” un utente web.

“I malintenzionati spesso utilizzano strumenti e strutture per raccogliere dati su larga scala”, ha affermato Cloudflare. Sulla base di questi segnali, il nostro algoritmo può segnalare con precisione i robot IA”.

Questo nuovo strumento è completamente gratuito per i siti Web che utilizzano la piattaforma Cloudflare. I proprietari di siti web possono anche segnalare bot IA sospetti, che Cloudflare esaminerà e inserirà nella lista nera.

Oltre a Cloudflare, anche Reddit ha fatto una mossa simile annunciando che avrebbe impedito alla maggior parte dei bot automatizzati di utilizzare i propri dati senza licenza. Secondo Mashable, Reddit modificherà il file robots.txt per limitare i web crawler.

Tuttavia, il blocco dei bot non è sempre efficace. Alcune aziende di intelligenza artificiale sono state accusate di ignorare le regole del file robots.txt per ottenere un vantaggio competitivo. Il motore di ricerca AI Perplexity è accusato di impersonare gli utenti per "scrapare" contenuti, mentre OpenAI e Anthropic avrebbero violato ripetutamente robots.txt.

Strumenti come quello di Cloudflare potrebbero essere utili se si dimostrassero accurati nel rilevare bot IA anonimi. Tuttavia, non risolvono il problema più ampio degli editori che devono sacrificare il traffico proveniente da strumenti di intelligenza artificiale come le panoramiche AI ​​di Google, che escludono i siti dagli elenchi se bloccano i crawler specifici.

Nel rapporto “State of Application Security 2024” appena pubblicato, Cloudflare ha affermato che i team di sicurezza informatica hanno difficoltà ad affrontare le minacce provenienti dalle applicazioni moderne.

Di conseguenza, le catene di fornitura del software, gli attacchi DDoS e i bot dannosi rappresentano le principali sfide per i team di sicurezza delle applicazioni professionali. Cloudflare sottolinea che ogni giorno previene 209 miliardi di attacchi informatici ai propri clienti.

Il co-fondatore e CEO di Cloudflare, Matthew Prince, ha affermato che le applicazioni online sono spesso realizzate con scarsa considerazione per la sicurezza, rendendole vulnerabili agli attacchi.