Los bots automatizados llevan años formando parte del tráfico web: algunos con fines legítimos, como los motores de búsqueda o los asistentes de atención al cliente, y otros con objetivos claramente maliciosos. Pero entre ambos extremos existe una categoría intermedia cada vez más activa y preocupante: los gray bots. No son abiertamente dañinos, pero su comportamiento plantea serias dudas éticas y operativas. En particular, los scraper bots de inteligencia artificial generativa, que extraen grandes volúmenes de contenido de páginas web para entrenar modelos de IA, se están convirtiendo en una amenaza silenciosa y constante para muchas organizaciones.
Como resalta Rahul Gupta, de Barracuda Networks, en su reciente post Threat Spotlight: The good, the bad, and the ‘gray bots’, estos bots “grises” están difuminando los límites entre lo legítimo y lo abusivo. A diferencia de los bots maliciosos clásicos, no buscan dañar directamente, pero su actividad puede ser igual de disruptiva.
Bots hambrientos de datos
Según los datos de detección recopilados por Barracuda entre diciembre de 2024 y febrero de 2025, millones de solicitudes procedentes de bots de IA generativa —como ClaudeBot o Bytespider— impactaron directamente en aplicaciones web monitorizadas por la compañía. En un caso, una única aplicación recibió 9,7 millones de peticiones en 30 días. En otro, se registraron más de 500.000 solicitudes en un solo día.
Lo más sorprendente, según Gupta, fue el tráfico constante de algunos de estos bots: una aplicación analizada recibió una media de 17.000 solicitudes por hora, sin apenas variaciones a lo largo del día.
Esta actividad no sólo compromete el rendimiento de las aplicaciones, incrementando el consumo de CPU y ancho de banda, sino que también puede distorsionar las métricas web —clave para la toma de decisiones empresariales— y representar un riesgo legal en sectores regulados como la salud o las finanzas. “El scraping y posterior uso de datos protegidos por derechos de autor para entrenar modelos de IA puede infringir los derechos legales de los propietarios de esos datos”, advierte Gupta.
Además, la actividad de estos bots puede erosionar la confianza de los usuarios, sobre todo si detectan que sus datos se utilizan sin consentimiento o que el contenido de la web está inundado por información generada automáticamente.
ClaudeBot, Bytespider y compañía
Entre los bots más activos identificados por Barracuda en este inicio de 2025 se encuentran ClaudeBot, vinculado al modelo generativo Claude desarrollado por Anthropic, y Bytespider, utilizado por TikTok para afinar su motor de recomendaciones y sus capacidades publicitarias. Ambos han sido descritos como especialmente persistentes e incluso agresivos en su actividad de scraping.
Otros bots detectados incluyen PerplexityBot y DeepSeekBot, todos con el objetivo de recolectar datos para alimentar modelos de IA.
Gupta recuerda que, aunque existen mecanismos como el archivo robots.txt para limitar el acceso de bots, estos no siempre resultan efectivos, ya que los scraper bots pueden ignorarlos, ocultar su identidad o cambiar frecuentemente de nombre. “Para proteger las aplicaciones web frente a esta nueva amenaza, es imprescindible contar con soluciones específicas de protección frente a bots”, concluye.
Barracuda propone tecnologías como su Advanced Bot Protection, que emplea inteligencia artificial, aprendizaje automático y detección basada en comportamiento para identificar y bloquear estos bots en tiempo real.