La Inteligencia Artificial (IA) generativa ha logrado situarse a la vanguardia del universo del aprendizaje automático. Sistemas como ChatGPT, Google Bard o Microsoft Bing se han convertido en herramientas fundamentales para creadores de contenido, arquitectos de sistemas y desarrolladores de software. En este artículo repasamos las principales amenazas a las que se enfrenta la IA generativa, así como los pasos a dar para evitarlas.
Primero, asegurar la infraestructura
La IA generativa abarca distintos activos que contribuyen a su funcionalidad y eficacia, incluyendo la infraestructura necesaria para prestar servicios, entrenar datos y modelos o poder interpretar y utilizar los resultados generados por esos modelos.
Esta infraestructura abarca servidores, GPUs, software para el desarrollo, capacitación e implementación de modelos. También incluye interfaces digitales para la entrega de outputs a los usuarios. Una infraestructura fiable, segura y de alto rendimiento es clave para lograr modelos sofisticados de IA generativa con valor.
Por ello es importante destacar algunas amenazas relacionadas con la infraestructura, como puede ser la denegación del servicio (DoS), donde el mal funcionamiento del hardware, los fallos del software o las interrupciones de la red pueden afectar notablemente al funcionamiento de los modelos de IA generativa. Para contrarrestar sus efectos es fundamental trabajar la redundancia del sistema, con servidores de respaldo y protocolos a prueba de fallos, a fin de garantizar la máxima disponibilidad. Por otro lado, la actualización periódica de los componentes de software y de los dispositivos de hardware también ayuda a evitar vulnerabilidades y aumentar la resiliencia. Además, una monitorización constante del rendimiento y de la capacidad del sistema puede permitir la detección temprana y la resolución rápida de problemas.
Por otra parte, las posibles intrusiones en la infraestructura también suponen una amenaza a tener en cuenta, ya que pueden provocar actividades maliciosas, como el robo de datos, la interrupción del servicio o la inserción de código malicioso. Aquí resulta crucial adoptar un enfoque de seguridad integral, incorporando protocolos de autenticación robustos, gestión proactiva de vulnerabilidades que incluyan actualizaciones periódicas de software, monitorización continua para la detección temprana, prevención de intentos de intrusión y una estrategia de respuesta de incidentes bien estructurada.
Segundo, mejorar la resiliencia de los datos
Los datos de entrenamiento constan, normalmente, de un conjunto diverso y representativo de ejemplos que el modelo puede utilizar para comprender los patrones, estilos o características subyacentes que debe capturar. La calidad, cantidad y diversidad de los datos de entrenamiento moldean significativamente las capacidades de los modelos de IA generativa.
- Calidad y sesgo de los datos. La calidad y el sesgo de los datos de entrenamiento impactan directamente en los modelos de IA generativa, incluyendo riesgos asociados con el envenenamiento de los datos de entrenamiento, así como problemas en los que existe una dependencia excesiva del contenido generado (tal y como documenta OWASP en su proyecto “OWASP Top 10 for LLM”. Abordar la calidad y el sesgo de los datos requiere un procesamiento previo riguroso, que debe incluir medidas como la limpieza, la normalización y el aumento de los datos. Otras medidas fundamentales son las técnicas específicas para la detección y mitigación de sesgos, así como la implementación de mecanismos sólidos de gestión de errores. Asimismo, es importante adoptar un enfoque de supervisión del modelo por parte de humanos «human-in-the-loop», que proporcione una capa adicional de monitorización y ajuste que asegure la calidad y el control del sesgo.
- Infracciones de propiedad intelectual. El uso no autorizado o la obtención inadecuada de datos de entrenamiento pueden dar lugar a infracciones de propiedad intelectual, violando los derechos de autor. Esto expone a las organizaciones a consecuencias legales, riesgos para su reputación y pérdida de datos confidenciales. Implementar políticas claras de uso de datos, obtener los derechos y permisos adecuados para el entrenamiento de los datos y realizar los procedimientos necesarios para garantizar el cumplimiento de las leyes de derechos de autor, son medidas cruciales para mitigar los riesgos de infracción de propiedad intelectual y proteger los intereses legales de todas las partes involucradas.
- Fugas de datos. Al igual que con otros datos críticos para el negocio, el almacenamiento y la gestión de los datos de entrenamiento del modelo de IA conlleva riesgos de vulneración de datos, incluida la fuga de datos o revelación de información confidencial. Aquí es donde el acceso no autorizado o los ataques maliciosos pueden comprometer la seguridad de la información confidencial. Para contrarrestar estos riesgos se necesitan medidas robustas de seguridad de datos. Las técnicas de cifrado y los controles de acceso estrictos ayudan a proteger los datos, mientras que las auditorías de seguridad periódicas identifican vulnerabilidades potenciales para una resolución rápida. Los métodos avanzados, como la privacidad diferencial y el aprendizaje federado, añaden capas adicionales de protección, manteniendo la privacidad sin obstaculizar el entrenamiento de la IA.
Tercero, proteger el corazón de los modelos de IA generativa
Los modelos son un componente fundamental y un activo esencial en la IA generativa. Estos modelos, como las redes generativas adversarias (GAN) o los modelos basados en Transformer, están diseñados para aprender patrones y relaciones dentro de los datos de entrenamiento y generar nuevos resultados basados en esa comprensión. La arquitectura, los parámetros y la estructura de estos modelos son componentes fundamentales que permiten la generación de contenidos novedosos. Existe una serie de peligros específicos que amenazan directamente a los modelos de IA generativa, como pueden ser:
Ataques de adversarios. Los ataques de adversarios como “Prompt Injections”, SSRF (Server Side Request Forgery) y la ejecución de código no autorizado representan amenazas importantes para los modelos de IA generativa.
- Las inyecciones de prompt permiten a los actores maliciosos manipular las entradas del modelo inyectando indicaciones cuidadosamente diseñadas que hacen que el modelo ignore instrucciones previas o realice acciones no deseadas.
- SSRF permite a los atacantes realizar solicitudes no deseadas o acceder a recursos restringidos, logrando, posiblemente, el acceso a interfaces del sistema restringidas para uso interno.
- La ejecución de código no autorizado implica explotar el modelo para ejecutar código o acciones maliciosas en los sistema internos.
Para mitigar estas amenazas es esencial un enfoque de defensa de múltiples capas o niveles. Así, para evitar inyecciones de prompt, técnicas como la validación de entradas y el filtrado y limpieza de prompts garantizan que el modelo no sea manipulado por prompts creados con fines malintencionados, salvaguardando la integridad de los resultados generados.
La mitigación de las vulnerabilidades SSRF debería implicar la validación y limpieza cuidadosa de las solicitudes entrantes y fuertes medidas de seguridad de red, incluyendo el aislamiento de la red y configuraciones de firewall adecuadas que restrinjan las solicitudes salientes.
Por último, los riesgos de ejecución de código no autorizado se pueden reducir empleando prácticas de codificación segura, realizando revisiones exhaustivas del código y utilizando defensas en tiempo de ejecución como el sanboxing de código. Estas medidas garantizan que el modelo de IA se ejecute con código seguro y se restrinjan las acciones no autorizadas, proporcionando una protección mejorada del sistema.
Robo o replicación de modelos. La duplicación no autorizada o el robo de modelos de IA pueden ocurrir cuando hay acceso no autorizado a los parámetros, la arquitectura o los datos de entrenamiento del modelo, lo que potencialmente socava su propiedad intelectual y su ventaja competitiva. Una combinación de controles robustos de acceso, métodos de cifrado y almacenamiento seguro puede ayudar a proteger contra el robo o la replicación de los modelos. Además, técnicas como las marcas de agua o la gestión de derechos digitales pueden salvaguardar aún más la propiedad intelectual del modelo. El seguimiento y las auditorías periódicas desempeñan un papel crucial a la hora de detectar y responder rápidamente a intentos de acceso no autorizados.
Cuarto, proteger los resultados generados
Los resultados generados por los modelos de IA generativa pueden influir en una amplia gama de sectores empresariales, pero también son susceptibles a numerosas amenazas.
- Manipulación de agentes. La manipulación de modelos o aplicaciones de generación aumentada de recuperación (RAG), creadas sobre frameworks como Langchain, presenta riesgos complejos para la integridad y fiabilidad de las aplicaciones. Esto incluye la manipulación de una o más de las facetas involucradas en el proceso de recuperación de información, la inyección de información sesgada o engañosa o, en algunos casos, la ejecución intencional del código devuelto por los modelos de IA. Para contrarrestar la manipulación de los agentes es necesario un enfoque de defensa por niveles, que incluya la implementación de controles de acceso sólidos, mecanismos de auditoría y el empleo de sistemas efímeros para el aislamiento y la gestión de recursos. Estas medidas previenen manipulaciones no autorizadas, garantizan la trazabilidad del sistema y frenan la posible propagación de código malicioso.
- Cadena de suministro comprometida. El uso de modelos previamente entrenados en sistemas de IA introduce muchos riesgos potenciales para la cadena de suministro, incluyendo la posibilidad de que se incorporen modelos comprometidos o maliciosos en los sistemas de IA. Las organizaciones deben implementar procesos de investigación estrictos para seleccionar modelos de fuentes fiables y realizar un proceso de análisis exhaustivo para evaluar las prácticas de seguridad. Como siempre, se necesitan medidas de seguridad sólidas, incluida la transmisión y el almacenamiento seguros de los modelos, controles de acceso estrictos y auditorías de seguridad periódicas. Se debe promover la transparencia documentando el modelo, revisando los códigos y llevando a cabo auditorías independientes, a fin de permitir a todas las partes implicadas en la cadena de suministro tomar decisiones informadas.
- Desinformación y contenido falso. La generación de resultados a través de modelos de IA generativa introduce el riesgo de crear contenido falso convincente y la posibilidad de resultados que contengan inyecciones de prompts maliciosos. Esto puede ser aprovechado por actores maliciosos para engañar y manipular a la población, lo que plantea riesgos importantes para la confianza, la reputación y la integridad de las fuentes de información. A medida que los sistemas de IA crean más contenido de Internet, se convierten en un circuito de retroalimentación en el que el contenido generado por IA entrena los modelos del mañana. Mecanismos robustos de verificación de contenido, procesos de verificación de hechos y prácticas de difusión responsables, incluyendo el control de la inyección de prompts, son cruciales para combatir la difusión de información errónea y de contenido falso generado por modelos de IA.
Mirando hacia el futuro
La IA generativa ha surgido indiscutiblemente como una fuerza poderosa capaz de revolucionar todos los sectores empresariales. Al mismo tiempo, su potencial disruptivo también saca a la superficie desafíos de seguridad que deben ser considerados adecuadamente.
De cara al futuro, es esencial que nos mantengamos alerta, nos anticipemos proactivamente a las posibles amenazas y sigamos construyendo sistemas resilientes. Sólo comprendiendo plenamente nuestros activos podremos mantenerlos seguros. Y con la seguridad como cimiento podremos allanar éticamente el camino para una implementación segura y confiable de la IA generativa.
Daniel Romero, Solutions Engineer de F5