Investigadores de la Universidad Carnegie Mellon han demostrado que los grandes modelos de lenguaje (LLM) pueden llegar a planear y ejecutar ciberataques complejos por sí mismos, sin necesidad de intervención humana. Un avance que obliga a replantearse el papel que la inteligencia artificial puede jugar en la ciberseguridad, tanto en el plano ofensivo como en el defensivo.
Tal como recoge la propia universidad en su artículo When LLMs autonomously attack, el experimento lo lideró Brian Singer, doctorando en ingeniería eléctrica e informática. Su equipo quiso comprobar si un LLM, con una estructura bien diseñada y una visión abstracta del comportamiento de los atacantes, sería capaz de organizar un ataque completo. “Queríamos saber si el modelo podía encargarse de la planificación a alto nivel que requiere una intrusión real, y nos sorprendió lo bien que funcionó”, afirma Singer.
Hasta ahora, la mayoría de pruebas con LLMs se limitaban a entornos de laboratorio o juegos tipo capture the flag, lejos de lo que ocurre en redes empresariales reales. En este caso, los investigadores fueron un paso más allá y recrearon el entorno de red que sufrió la famosa brecha de Equifax en 2017, replicando incluso las mismas vulnerabilidades descritas en informes del Congreso de Estados Unidos. El modelo logró identificar las debilidades, explotar fallos, instalar malware y robar datos sin que nadie le indicara los pasos a seguir.
Una de las claves del éxito fue no exigirle al modelo que ejecutara comandos concretos. En lugar de eso, le dieron capacidad de tomar decisiones estratégicas, mientras que las tareas técnicas las asumían agentes especializados. “El hecho de que lograra replicar el ataque de Equifax sin intervención humana demuestra que, en ciertos contextos, estos modelos pueden coordinar acciones muy complejas”, explica Singer.
Defensas también autónomas
Aunque los riesgos de este tipo de investigaciones son evidentes, el equipo también ve una gran oportunidad. Según Singer, ahora mismo sólo las grandes empresas pueden permitirse contratar equipos humanos de red teaming para probar su seguridad, y lo hacen una o dos veces al año. “Con IA podríamos automatizar esas pruebas, hacerlas continuas y accesibles incluso para empresas pequeñas”, señala.
El siguiente paso del equipo es explorar cómo usar estos sistemas para defender redes de forma autónoma. Ya están trabajando en escenarios donde una IA ofensiva se enfrenta a otra defensiva, con el objetivo de entender mejor cómo evolucionarán estos enfrentamientos.
El proyecto se llevó a cabo en colaboración con Anthropic, que aportó créditos para usar modelos y asesoramiento técnico, pero no financiación directa. Parte de los resultados ya se presentaron en un taller organizado por OpenAI y han empezado a citarse en informes de seguridad del sector.
Eso sí, Singer insiste en que este sistema es todavía un prototipo y que no representa una amenaza inmediata. “Solo funciona en condiciones muy concretas. No tenemos un modelo que pueda salir y atacar internet por su cuenta”, aclara.