Parece que fue ayer cuando ChatGPT irrumpió en escena, consiguiendo más de un millón de usuarios a los pocos días de su lanzamiento. De eso han pasado casi tres años, y en ese tiempo han cambiado muchas cosas.
El gran modelo de lenguaje (LLM) desarrollado por OpenAI es ahora un elemento fijo en entornos de trabajo de todo el mundo, con 71 millones de usuarios diarios. Pero cuando las empresas y los equipos de seguridad empezaron a familiarizarse con esta nueva aplicación generalizada, surgió DeepSeek en 2024 y, con ello, una enorme controversia.
La velocidad y el coste de su creación llevaron a muchos a cuestionar su capacidad y seguridad, además de plantear cuestiones de privacidad y censura. La rapidez con la que ha calado entre los usuarios también abre un debate de mayor alcance: ¿cómo pueden los equipos de seguridad seguir el ritmo de unos LLM de rápido crecimiento, fácil acceso y riesgos potenciales?
Lo que es seguro es que la IA generativa y los LLM han llegado aquí para quedarse, siendo muy probable que evolucionen más rápido que cualquier otra tecnología hasta la fecha. Su omnipresencia en entornos de trabajo es tal que imponer prohibiciones rotundas a los empleados suena poco realista y probablemente sea ineficaz. Por eso, las organizaciones deben esforzarse por comprender los riesgos que plantean estas aplicaciones y trabajar para asegurar su uso en la medida de lo posible sin afectar a la productividad de los empleados.
No conviertas tus datos en los suyos
No hay duda de que los LLM suponen un riesgo para una organización. Además, los ciberdelincuentes utilizan ChatGPT y otras herramientas para afinar sus mensajes, traducir señuelos para entrar en nuevos mercados internacionales y llegar a millones de víctimas potenciales con mucho menos esfuerzo que antes.
Mientras tanto, DeepSeek ya ha sido objeto de numerosos ciberincidentes, incluido un ataque a gran escala este año que expuso más de un millón de registros confidenciales, datos operativos y detalles del sistema.
Sin embargo, ChatGPT, DeepSeek y la larga lista de LLM que surgirán inevitablemente tienen poco acceso directo a los datos por sí solos. Únicamente cuando los usuarios copian y pegan información de un lado a otro o teclean instrucciones, esos datos pasan a ser suyos.
En el caso de DeepSeek puede recopilar entradas de texto, indicaciones, archivos, comentarios, historial de chat u otro contenidos proporcionados; y, con un número cada vez mayor de LLM en el mercado, quizá no es el único que lleva a cabo tales actividades.
Si no se supervisa activamente qué aplicaciones utiliza el personal de una organización, así como la información que comparte, no habrá forma de saber cuántos de sus datos están almacenados fuera de protección y, por tanto, potencialmente en peligro.
Mantener la productividad y la seguridad
El primer paso para proteger los datos es saber dónde están, adónde van y quién los mueve. Esto empieza por descubrir y clasificar los datos confidenciales mediante herramientas automatizadas para identificar información de identificación personal, propiedad intelectual y datos regulados en cualquier entorno.
A continuación, hay que establecer controles para rastrear y, si es necesario, limitar cómo se mueven estos datos por la organización, en particular cómo se comparten con aplicaciones de terceros, como los LLM. Esto podría significar poner límites de copiado y pegado en las solicitudes que se pueden introducir en ChatGPT, aunque otra posibilidad es bloquear completamente el pegado.
Con extensiones de navegador seguras, también se puede bloquear el uso compartido de archivos e imágenes con este tipo de aplicaciones. Se pueden activar alertas en tiempo real para advertir a los usuarios de que no realicen determinadas acciones y enlazar con las políticas de la empresa sobre uso aceptable.
Además, la captura de metadatos y capturas de pantalla cuando los usuarios interactúan con los LLM puede proporcionar visibilidad sobre el tipo de datos que se comparten y el contenido de las indicaciones.
Mantener control sobre la IA en la sombra
Es vital que cualquier control que se establezca sea efectivo en todos los LLM y aplicaciones de IA generativa, y no sólo en aquellos que se sabe que están en uso, sino teniendo además visibilidad de las aplicaciones de la IA en la sombra.
Hoy en día es posible supervisar la actividad por usuario, grupo o departamento en empresas con IA generativa, así como identificar cualquier aplicación que esté accediendo a datos de la empresa, correo electrónico, calendarios y similares.
Una vez que sepa dónde están los datos confidenciales y adónde van, se podrá dirigir la formación y la educación a los usuarios que presenten mayor riesgo de vulnerabilidad. Además de políticas de buenas prácticas sobre los usos permitidos de los LLM y los tipos de datos que pueden compartirse, también hay que asegurarse de que todos los miembros de una organización comprenden los riesgos que implica su uso.
En ciberseguridad, los datos no salen por la puerta. Las personas desempeñan un papel fundamental en su propagación. Pero con una formación continua de los usuarios, herramientas avanzadas y políticas claras, se podrá tomar medidas para mantener los datos de una organización allí donde deben estar.
Fernando Anaya, country manager de Proofpoint en España y Portugal