Un grupo de expertos de empresas como OpenAI, Google DeepMind, Anthropic o Meta cree que sí, o al menos algo parecido. Lo llaman Chain of Thought Monitoring, o monitorización de la cadena de pensamiento, y han publicado un documento hablando sobre ello titulado: Chain of Thought Monitorability: A New and Fragile Opportunity for AI Safety.
La idea es tan sencilla como poderosa: muchos modelos de inteligencia artificial actuales, especialmente los más avanzados, “piensan en voz alta”. Es decir, cuando resuelven tareas difíciles, lo hacen explicando paso a paso su razonamiento, en lenguaje natural. Y eso abre una oportunidad única: si podemos leer lo que están pensando, podemos saber si están a punto de hacer algo peligroso.
En lugar de vigilar sólo lo que la IA hace, podríamos vigilar lo que está planeando hacer
En su informe, los investigadores explican que ya hay ejemplos reales en los que este tipo de monitorización ha detectado frases como “vamos a hackear” o “haré esto porque así engaño al sistema”. Frases que, de haber pasado desapercibidas, habrían podido llevar a comportamientos no deseados. Y estamos hablando de sistemas que hoy ya están en uso o en fase de pruebas.
Pero no todo es tan esperanzador. Esta transparencia no está garantizada. A medida que los modelos se vuelven más sofisticados, podrían aprender a ocultar sus intenciones. Podrían dejar de razonar en voz alta o simplemente simular razonamientos inocentes para despistar a los humanos.
Por eso los expertos insisten: esta capacidad de “leer la mente” de la IA es una oportunidad frágil que debe protegerse. Piden a los desarrolladores que midan y publiquen la visibilidad de las cadenas de pensamiento, que integren esta monitorización como parte esencial de la seguridad de sus modelos y que no se limiten a supervisar los resultados finales.
Porque cuando las máquinas empiezan a tomar decisiones que afectan a nuestra seguridad, no basta con saber qué hacen. Necesitamos saber por qué lo hacen.