La empresa de servicios en la nube Cloudflare acaba de lanzar una nueva herramienta para ayudar a evitar que los robots de inteligencia artificial recopilen datos ilegalmente de sitios web.

En el contexto de la creciente demanda de datos para entrenar modelos de inteligencia artificial (IA), muchas empresas de IA han implementado robots para "extraer" datos de sitios web, lo que genera riesgo de violaciones de derechos de autor y uso no autorizado de la información.

Aunque algunas empresas de inteligencia artificial como Google, OpenAI y Apple permiten a los propietarios de sitios web bloquear bots a través de archivos robots.txt, a Cloudflare le preocupa que algunas empresas de inteligencia artificial puedan encontrar formas de "eludir la ley" para recopilar datos, a pesar de los controles de contenido.

En declaraciones a TechCrunch, la compañía comentó: "Los clientes no quieren que los robots de IA accedan a sus sitios web".

Distribución de User-Agents bloqueados en el archivo robots.txt”

De hecho, solo con OpenAI, múltiples estudios han demostrado que más de 600 editores de noticias y el 26% de los 1000 sitios web principales han desactivado sus bots.

Ante esta situación, Cloudflare ha investigado y analizado las actividades de los bots de IA, perfeccionando así el algoritmo de detección automática de bots. El algoritmo considerará muchos factores, incluido si el robot de IA está intentando "suplantar" a un usuario web.

"Los malos actores suelen utilizar herramientas y marcos para recopilar datos a gran escala", dijo Cloudflare. Basándose en estas señales, nuestro algoritmo puede señalar con precisión los robots de IA”.

Esta nueva herramienta es completamente gratuita para sitios web que utilizan la plataforma de Cloudflare. Los propietarios de sitios web también pueden informar sobre robots de inteligencia artificial sospechosos, que Cloudflare revisará y incluirá en la lista negra.

Además de Cloudflare, Reddit también hizo un movimiento similar cuando anunció que bloquearía a la mayoría de los bots automatizados para que no usen sus datos sin una licencia. Según Mashable, Reddit modificará el archivo robots.txt para restringir los rastreadores web.

Sin embargo, bloquear bots no siempre es eficaz. Algunas empresas de inteligencia artificial han sido acusadas de ignorar las reglas de robots.txt para obtener una ventaja competitiva. El motor de búsqueda de IA Perplexity está acusado de hacerse pasar por usuarios para "extraer" contenido, mientras que se dice que OpenAI y Anthropic han violado repetidamente el archivo robots.txt.

Herramientas como la de Cloudflare podrían resultar útiles si resultan precisas a la hora de detectar robots de IA anónimos. Sin embargo, no resuelven el problema más grande de que los editores tengan que sacrificar el tráfico de herramientas de inteligencia artificial como AI Overviews de Google, que excluyen sitios de las listas si bloquean rastreadores de inteligencia artificial específicos.

En el informe "Estado de la seguridad de las aplicaciones 2024" recién publicado, Cloudflare dijo que los equipos de ciberseguridad están teniendo dificultades para hacer frente a las amenazas de las aplicaciones modernas.

En consecuencia, la cadena de suministro de software, los ataques DDoS y los bots maliciosos son desafíos importantes para los equipos profesionales de seguridad de aplicaciones. Cloudflare destaca que previene 209 mil millones de ciberataques cada día a sus clientes.

El cofundador y director ejecutivo de Cloudflare, Matthew Prince, dijo que las aplicaciones en línea a menudo se crean sin tener en cuenta la seguridad, lo que las hace vulnerables a los ataques.