Cuando los investigadores de la empresa de gestión de software JFrog realizaron un escaneo rutinario de modelos de inteligencia artificial (IA) y aprendizaje automático (ML) subidos a Hugging Face a principios de 2024, el descubrimiento de un centenar de modelos maliciosos puso el foco en una categoría subestimada de problemas de ciberseguridad: el envenenamiento y la manipulación de datos.
El problema con el envenenamiento de datos, que afecta a los datos de entrenamiento utilizados para construir modelos de IA y ML, es que es poco ortodoxo en comparación con otros ciberataques y, en algunos casos, puede ser difícil de detectar o detener. Atacar la IA de esta manera es relativamente fácil y no requiere hackeo para envenenar o manipular los datos de entrenamiento de los que dependen los modelos populares de lenguaje grande como ChatGPT.
Puedes usar el envenenamiento de datos para hacer que el modelo de IA cumpla tus órdenes o convencer a un modelo de IA de que dé resultados erróneos modificando los datos que envías a un modelo entrenado. Se trata de dos tipos diferentes de ataque: uno se produce antes de que el modelo de IA se despliegue y el otro, después. Ambos son increíblemente difíciles de detectar y proteger, según Ken Urquhart, vicepresidente global del equipo de Tecnología Emergente/5G de Zscaler.
En su análisis, JFrog señaló que la carga útil «intrigante» incrustada dentro del modelo parecía algo que los investigadores subirían para demostrar vulnerabilidades o pruebas de concepto. Este no era el caso de los nefastos modelos subidos al repositorio de colaboración de IA de Hugging Face. Por tanto, los investigadores pueden haber estado detrás porque las cargas útiles tenían enlaces a direcciones IP de KREOnet y Korea Research Environment Open Network.
Problemas inherentes a la IA que agravan la detección mientras fertilizan los ‘exploits’
Los ejemplos de manipulación de datos de entrenamiento se remontan a los orígenes del aprendizaje automático. Hace una década, los investigadores demostraron que los ataques sutiles a los datos de entrada provocaban que un modelo diera una respuesta incorrecta con un alto grado de confianza. Incluso es posible que los modelos de IA generativa que extraen información de Internet se «envenenen» a sí mismos a medida que sus salidas se conviertan en entradas para futuros conjuntos de entrenamiento, en un proceso conocido como «colapso degenerativo del modelo».
Lo que complica aún más la situación es que la reproducibilidad de modelos de IA es en sí misma un desafío, ya que hay enormes cantidades de datos utilizados para entrenar modelos, y los analistas y científicos de datos pueden incluso no entender exactamente qué entró en un modelo y qué está saliendo. Esta situación agrava la detección y trazabilidad del código malicioso.
Por incómodo que suene todo esto, en la fiebre del oro de la IA, hacer la vista gorda ante el envenenamiento y manipulación de datos puede envalentonar a los atacantes para centrarse en exploits furtivos de puerta trasera en el software de IA. Los resultados pueden ser la ejecución de código malicioso, como en el caso de Hugging Face, nuevos vectores para llevar a cabo exitosamente ataques de phishing y salidas de modelos mal clasificadas que conducen a comportamientos inesperados, dependiendo de los objetivos del atacante.
De hecho, en un mundo cada vez más cubierto por un ecosistema de IA interconectada, GenIA, LLM y API, la industria global de ciberseguridad debería temblar colectivamente y tomar medidas para protegerse contra el aumento de ataques a modelos de IA.
La industria global de ciberseguridad debería tomar medidas para protegerse contra el aumento de ataques a modelos de IA
Protegerse contra lo «indefendible»
Los expertos aconsejan varias técnicas para proteger los sistemas impulsados por IA de campañas de envenenamiento o manipulación de datos. La mayoría se enfoca en la etapa de entrenamiento de datos y en los propios algoritmos.
En su lista Top 10 para Aplicaciones LLM, la Fundación de Código Abierto para la Seguridad de Aplicaciones (OWASP) recomienda medidas para prevenir este envenenamiento, comenzando con prestar atención a la cadena de suministro de datos de entrenamiento internos y externos, con verificación continua de las fuentes de datos en las fases de preentrenamiento, ajuste e incrustación y señalización de cualquier sesgo o anomalía.
OWASP también recomienda «desinfectar» los datos con métodos de detección de anomalías y valores atípicos estadísticos para buscar cualquier dato adverso que pueda introducirse en el proceso de ajuste.
De este modo, si descubres que algún dato de entrenamiento está corrupto, alterna los algoritmos de IA utilizados para desplegar el modelo afectado. «Usa más de un algoritmo, compara los resultados y recurre a salidas predefinidas o promedios cuando todo lo demás falle», apunta Urquhart. Recomienda que los desarrolladores que examinen de cerca los algoritmos de IA/ML que interactúan o se alimentan de otros, ya que esto puede conducir a una cascada de predicciones inesperadas.
Los expertos de la industria también sugieren que los equipos de ciberseguridad verifiquen la solidez y resiliencia de sus sistemas de IA mediante pruebas de penetración y simulación de un ataque de envenenamiento de datos. «Puedes construir un modelo de IA cien por ciento ciberseguro y envenenarlo usando datos de entrenamiento. No hay defensa, aparte de validar toda la salida predictiva, lo cual es muy costoso», añade Urquhart.
Construir un futuro resiliente para la IA
Sin confianza y fiabilidad, la mayor innovación en tecnología puede frenarse. Las empresas necesitan prevenir amenazas de puerta trasera en la generación de código de IA, tratando todo el ecosistema y las cadenas de suministro que sustentan a GenIA, LLM, etcétera, como parte del universo de amenazas globales.
Al monitorizar las entradas y salidas de estos sistemas y detectar anomalías con inteligencia de amenazas, los hallazgos y datos de estos esfuerzos pueden ayudar a los desarrolladores a promover y usar controles y protecciones en el ciclo de vida del desarrollo de software de IA.
En general, examinando los riesgos de los sistemas de IA dentro de los procesos empresariales más amplios, incluyendo la verificación de todo el periodo de la gobernanza de datos y monitorizando cómo se comporta la IA en aplicaciones específicas, puedes mantenerte un paso adelante de uno de los problemas más desafiantes que enfrenta la ciberseguridad.