Compania de servicii cloud Cloudflare tocmai a lansat un nou instrument pentru a împiedica roboții AI să colecteze ilegal date de pe site-uri web.

În contextul creșterii cererii de date pentru antrenarea modelelor de inteligență artificială (AI), multe companii de inteligență artificială au implementat roboți pentru a „răzui” datele de pe site-uri web, ceea ce duce la riscul încălcării drepturilor de autor și a utilizării neautorizate a informațiilor.

Deși unele companii de inteligență artificială precum Google, OpenAI și Apple permit proprietarilor de site-uri web să blocheze roboții prin fișiere robots.txt, Cloudflare este îngrijorat de faptul că unele companii de inteligență artificială ar putea găsi modalități de a „ocoli legea” pentru a colecta date, în ciuda controalelor de conținut.

Distribuind cu TechCrunch, compania a comentat: „Clienții nu doresc ca roboții AI să le acceseze site-urile web”.

Distribuirea agenților utilizator blocați în fișierul robots.txt”

De fapt, numai cu OpenAI, mai multe studii au arătat că peste 600 de editori de știri și 26% din primele 1.000 de site-uri web și-au dezactivat roboții.

Confruntat cu această situație, Cloudflare a cercetat și analizat activitățile roboților AI, perfecționând astfel algoritmul de detectare automată a botului. Algoritmul va lua în considerare mulți factori, inclusiv dacă robotul AI încearcă să „uzurgă identitatea” unui utilizator web.

„Actorii răi folosesc adesea instrumente și cadre pentru a colecta date la scară largă”, a spus Cloudflare. Pe baza acestor semnale, algoritmul nostru poate semnala cu precizie roboții AI.”

Acest nou instrument este complet gratuit pentru site-urile web care utilizează platforma Cloudflare. Proprietarii de site-uri web pot raporta și roboții AI suspecti, pe care Cloudflare îi va examina și pe lista neagră.

Pe lângă Cloudflare, Reddit a făcut și o mișcare similară când a anunțat că va bloca majoritatea roboților automatizați să-și folosească datele fără licență. Potrivit Mashable, Reddit va modifica fișierul robots.txt pentru a restricționa crawlerele web.

Cu toate acestea, blocarea roboților nu este întotdeauna eficientă. Unele companii de AI au fost acuzate că ignoră regulile robots.txt pentru a obține un avantaj competitiv. Motorul de căutare AI Perplexity este acuzat că a uzurpat identitatea utilizatorilor pentru a „răzui” conținut, în timp ce OpenAI și Anthropic ar fi încălcat în mod repetat robots.txt.

Instrumente precum Cloudflare ar putea fi utile dacă se dovedesc exacte în detectarea roboților AI anonimi. Cu toate acestea, nu rezolvă problema mai mare a editorilor care trebuie să sacrifice traficul de la instrumentele AI, cum ar fi Prezentările generale AI de la Google, care exclud site-urile din listări dacă blochează crawlerele specifice.

În raportul recent lansat „State of Application Security 2024”, Cloudflare a spus că echipele de securitate cibernetică întâmpină dificultăți în a face față amenințărilor din aplicațiile moderne.

În consecință, lanțurile de aprovizionare cu software, atacurile DDoS și roboții rău intenționați sunt provocări majore pentru echipele profesionale de securitate a aplicațiilor. Cloudflare subliniază că previne 209 de miliarde de atacuri cibernetice în fiecare zi pentru clienții săi.

Cofondatorul și CEO-ul Cloudflare, Matthew Prince, a spus că aplicațiile online sunt adesea create cu puțină atenție pentru securitate, făcându-le vulnerabile la atacuri.