Anthropic ha dado la voz de alarma sobre un punto de inflexión en la ciberseguridad: la compañía asegura haber detectado la primera campaña de ciberespionaje ejecutada mayoritariamente por una inteligencia artificial, utilizando su propio modelo Claude como motor operativo del ataque. El caso, atribuido a un grupo supuestamente patrocinado por el Estado chino, representa —según la firma— una muestra clara de cómo los agentes de IA pueden automatizar de forma casi autónoma operaciones ofensivas avanzadas.
La campaña habría tenido como objetivo a unas 30 organizaciones de sectores como tecnología, banca, industria química y administraciones públicas. Solo un número reducido de ataques llegó a materializarse, pero lo relevante no fue el impacto, sino la forma en la que se llevaron a cabo.
Anthropic afirma que los atacantes lograron que Claude y Claude Code ejecutaran entre el 80 % y el 90 % del flujo de ataque, desde el reconocimiento hasta la exfiltración de datos. Los operadores humanos se limitaron a supervisar el proceso y tomar decisiones en contados momentos críticos.
Según el informe, los ciberdelincuentes eludieron las salvaguardas del modelo mediante técnicas de ingeniería social: descomponiendo instrucciones maliciosas en tareas inocuas, presentando la actividad como pruebas de penetración y guiando a la IA a través de múltiples subtareas coordinadas.
Seis fases automatizadas
Anthropic describe una cadena de ataque en seis etapas donde el papel humano es mínimo:
- Preparación y selección de objetivos, incluyendo el “jailbreak” del modelo.
- Reconocimiento de infraestructuras y mapeo del ataque.
- Identificación de vulnerabilidades y generación de exploits.
- Robo de credenciales y movimiento lateral.
- Extracción de datos sensibles previamente identificados.
- Documentación completa del ataque, también generada por la IA, para facilitar su reutilización.
La compañía subraya que algunos pasos —como la validación de vulnerabilidades o la escritura de código malicioso— requerían antes equipos enteros de operadores, mientras que ahora un agente de IA puede completarlos en minutos.
Respuesta y preocupación creciente
Anthropic detectó la operación a mediados de septiembre, suspendió las cuentas implicadas y compartió la información con las entidades afectadas en un plazo de diez días. Además, ha desplegado nuevos sistemas de detección para identificar patrones de abuso similares.
Aun así, reconoce que esta campaña confirma una tendencia preocupante: los modelos avanzados permiten que atacantes con pocos recursos ejecuten operaciones complejas a gran escala.
“La barrera para realizar ciberataques sofisticados ha caído drásticamente, y seguirá haciéndolo”, advierte la compañía en su informe.
Aunque el análisis ha sido valorado por su transparencia, algunos expertos han criticado la falta de información accionable. Thomas Roccia, investigador senior de Microsoft, señalaba que el documento “deja casi nada práctico que usar”, sin indicadores de compromiso ni ejemplos de prompts maliciosos que ayuden a identificar o prevenir campañas similares.
Pese a la gravedad del caso, Anthropic insiste en que las mismas capacidades que permitieron esta operación también pueden fortalecer la defensa. La compañía anima a los equipos de ciberseguridad a experimentar con IA en SOCs, detección de amenazas, análisis de vulnerabilidades y respuesta a incidentes, señalando que los atacantes no tardarán en replicar este tipo de técnicas.
“Cuando estos ataques ocurran —y ocurrirán— el objetivo es que Claude ayude a detectarlos, interrumpirlos y prepararse para sus futuras variantes”, concluye el análisis.
















