En los últimos años, el enfoque Human-in-the-Loop (HITL) se ha consolidado como uno de los pilares de seguridad en los sistemas de inteligencia artificial con capacidad de actuar por sí mismos. La idea es sencilla: antes de que un agente ejecute acciones potencialmente arriesgadas—como modificar código, lanzar comandos en el sistema operativo o acceder a recursos críticos—, debe pedir la aprobación explícita de una persona.
Sin embargo, este principio se apoya en una suposición importante: que lo que el sistema muestra al usuario describe fielmente lo que realmente va a hacer. La técnica conocida como Lies-in-the-Loop (LITL) demuestra que esa confianza puede romperse con sorprendente facilidad.
Lies-in-the-Loop deja una lección incómoda pero crucial: en la era de la IA autónoma, ni siquiera el control humano es infalible.
El engaño no está en el código, sino en el consentimiento
A diferencia de otros ataques más clásicos, Lies-in-the-Loop no introduce código malicioso escondido entre líneas. Su estrategia es más sutil —y mucho más eficaz—: manipular lo que el usuario ve antes de dar su consentimiento.
Los investigadores de Checkmarx mostraron cómo un atacante puede alterar el contenido visible de los cuadros de aprobación HITL, de modo que la acción parezca inofensiva, mientras que la instrucción real ejecutada por el agente es otra completamente diferente. Esto puede lograrse inyectando texto aparentemente benigno, modificando metadatos o aprovechando fallos en la forma en que la interfaz muestra el Markdown.
El resultado es un consentimiento que, en realidad, no lo es. El usuario aprueba lo que cree que va a pasar, no lo que realmente ocurrirá.
Cuando la última línea de defensa se convierte en el vector de ataque
El riesgo es especialmente alto en agentes con amplios privilegios —como asistentes de programación o herramientas de automatización dentro de entornos de desarrollo—, ya que suelen operar con acceso directo al sistema operativo y dependen casi por completo de los diálogos HITL como principal (o única) barrera de seguridad.
No es casual que OWASP recomiende el uso de Human-in-the-Loop como medida frente a riesgos como la inyección de prompts o la autonomía excesiva. Precisamente por eso, su manipulación resulta tan alarmante. Cuando el propio canal de aprobación puede falsificarse, el factor humano deja de ser una garantía fiable.
Además, el ataque no tiene por qué producirse justo antes del consentimiento: puede originarse mucho antes, mediante inyecciones indirectas que contaminan el contexto del agente, lo que complica aún más su detección.
De advertencia puntual a problema de fondo
Cuando Checkmarx publicó su análisis, los agentes de IA aún estaban en una fase incipiente. Hoy, en cambio, operan en flujos de trabajo reales, con credenciales, APIs y permisos cada vez más amplios.
En este nuevo escenario, Lies-in-the-Loop deja de ser una curiosidad técnica para convertirse en una señal de alerta estructural: el problema no es sólo un bug, sino la forma en que entendemos la seguridad de estos sistemas. Hemos tratado el HITL como un sello de garantía en lugar de una superficie de ataque, confiando ciegamente en las interfaces y delegando en el usuario una responsabilidad que no siempre puede asumir.
Las pruebas de concepto de Checkmarx afectaron a herramientas ampliamente usadas, como Claude Code o Microsoft Copilot Chat en VS Code. En ambos casos se demostró que era posible alterar la información mostrada al usuario tras otorgar el consentimiento.
Las respuestas de los fabricantes reflejan la tensión creciente entre conveniencia y seguridad. Anthropic reconoció el informe, pero lo clasificó como “informativo”. Microsoft, en cambio, cerró el caso argumentando que no cumplía sus criterios para considerarse una vulnerabilidad.
Más allá de los nombres, el debate de fondo es otro: ¿dónde termina un fallo de seguridad y dónde empieza una decisión de diseño? En la IA agentiva, esa frontera sigue siendo difusa.
Hacia una defensa en profundidad
El estudio subraya que no hay una medida única para eliminar este tipo de amenazas. Blindar los diálogos HITL exige una estrategia de defensa en profundidad que combine medidas técnicas, decisiones de diseño y concienciación de los usuarios.
Entre las buenas prácticas destacan la validación de todas las entradas —incluido el Markdown—, el uso de APIs seguras que separen comandos de argumentos, la claridad visual en los cuadros de aprobación y límites razonables de longitud y complejidad.
Al final, Lies-in-the-Loop deja una lección incómoda pero crucial: en la era de la IA autónoma, ni siquiera el control humano es infalible. Si no se respalda con garantías técnicas verificables, la confianza —incluso la humana— se convierte en otro activo más que hay que proteger.
















