Cloudflare, una de las principales empresas de infraestructura de Internet, ha decidido plantar cara al uso indiscriminado de datos por parte de desarrolladores de inteligencia artificial. La compañía ha presentado una nueva funcionalidad llamada “Pay Per Crawl” (pago por rastreo), que permitirá a los operadores de sitios web cobrar a los bots de IA por acceder a sus contenidos.
La iniciativa, actualmente en fase de prueba privada, representa un giro significativo en la relación entre los generadores de contenido y las plataformas de IA. Hasta ahora, los bots de compañías que desarrollan modelos generativos como los LLM (Large Language Models) podían rastrear libremente millones de sitios web. Pero eso se acabó: Cloudflare bloqueará por defecto el acceso a los rastreadores de IA, salvo que cuenten con el permiso explícito del propietario del sitio.
Con este movimiento, más de un millón de clientes de Cloudflare que anteriormente optaron por restringir el acceso de estos bots ahora verán reforzada esa protección sin tener que intervenir.
Un nuevo modelo económico para la era de la IA
El sistema “Pay Per Crawl” permite a los editores definir una tarifa fija por cada solicitud realizada por un bot de IA. Incluso se puede establecer un precio diferente según el tipo de rastreador, o autorizar gratuitamente a algunos de ellos como parte de acuerdos comerciales específicos.
Los bots que quieran acceder deberán enviar una señal indicando cuánto están dispuestos a pagar. Si el precio ofrecido coincide con el establecido por el sitio web, se autoriza el acceso. En caso contrario, el bot queda bloqueado.
Además, la solución incorpora medidas de ciberseguridad para evitar suplantaciones de identidad. Gracias al uso de criptografía de clave pública (concretamente el algoritmo Ed25519), los bots deberán demostrar criptográficamente que tienen autorización para acceder al contenido. Cloudflare se apoya en esta tecnología para frenar a actores maliciosos que intentan hacerse pasar por bots legítimos de IA.
Consecuencias para la industria de la IA generativa
El cambio ha sido calificado de “desastre” por algunos expertos para muchas compañías de IA generativa, cuyo modelo de negocio se basa precisamente en entrenar modelos con grandes cantidades de contenido libremente disponible. Ahora deberán negociar, pagar por los datos o buscar alternativas, en un contexto en el que la competencia internacional —especialmente desde China— aprieta con fuerza.
“Si Internet quiere sobrevivir a la era de la IA, debemos dar a los editores el control que merecen y construir un nuevo modelo económico que funcione para todos”, declaró el CEO de Cloudflare, Matthew Prince, durante un reciente evento de Axios.
La legalidad del scraping de contenidos sigue siendo un terreno gris. En mayo de 2025, las autoridades irlandesas y alemanas no impidieron a Meta utilizar datos de Facebook e Instagram para entrenar su modelo LLaMA, pese a las críticas de grupos de privacidad. Mientras tanto, expertos como Ilia Kolochenko, CEO de ImmuniWeb, advierten de que en algunas jurisdicciones el scraping masivo puede incluso considerarse un delito penal, especialmente si se evita deliberadamente la protección contra bots.
Por ahora, Cloudflare ha tomado la delantera en una cuestión clave: quién controla los datos en la era de la inteligencia artificial.