Detectar si un documento PDF ha sido manipulado ya no depende únicamente de firmas digitales o marcas de agua. Un equipo de investigadores de la Universidad de Pretoria (Sudáfrica) ha desarrollado un nuevo enfoque que permite identificar alteraciones en los documentos PDF, incluso cuando estas no son visibles a simple vista.
El sistema, presentado por Gabriel Grobler, Sheunesu Makura y Hein Venter, parte de una idea simple pero poderosa: aprovechar los “file page objects” o estructuras internas del PDF que contienen toda la información de cada página. A partir de estos objetos, el sistema genera hashes que se incrustan en el propio documento, de forma que cualquier cambio posterior —ya sea en el texto, en una imagen o en los metadatos— puede ser detectado con precisión.
El prototipo, desarrollado en Python, permite no solo verificar si ha habido una modificación, sino también señalar en qué página y en qué segmento exacto del contenido se ha producido. Este nivel de granularidad es especialmente útil en entornos donde la integridad de los documentos es crítica, como contratos, facturación, certificaciones o procedimientos administrativos.
“Sabemos que el PDF es un formato ampliamente utilizado en comunicaciones formales, pero también que existen herramientas que permiten alterarlo con facilidad”, explican los autores. “Nuestro enfoque ayuda a detectar esas alteraciones, incluso si no afectan a la parte visual del documento”.
Cambios en los metadatos
Uno de los puntos más interesantes del sistema es que también es capaz de identificar cambios en los metadatos del archivo, una capa muchas veces olvidada pero que puede ser utilizada para insertar información fraudulenta o manipular la procedencia del documento.
En las pruebas realizadas, el sistema demostró su capacidad para detectar adiciones, ediciones y eliminaciones de texto, así como inserciones o manipulaciones de imágenes. También identificó correctamente cambios en los metadatos. Eso sí, por el momento no es capaz de detectar modificaciones más sutiles como un cambio de tipografía o la inclusión de código JavaScript malicioso —una técnica habitual en algunos ataques avanzados con PDFs—.
Los autores destacan que esta solución es especialmente útil cuando se protege el PDF desde el inicio del proceso. El sistema crea una versión “protegida” del documento original, en la que los hashes están insertados. A partir de ahí, cualquier evaluación de integridad se basa en ese documento base.
Este desarrollo aporta una nueva herramienta a los profesionales de ciberseguridad que trabajan en contextos donde la manipulación documental puede tener consecuencias graves. Además, abre la puerta a futuras mejoras que permitan cubrir otras superficies de ataque en el ecosistema PDF, como las firmas digitales o las actualizaciones incrementales maliciosas.