El desarrollo de la inteligencia artificial (IA) y del aprendizaje automático (ML) ha impactado en la transformación digital como ninguna otra tecnología en la última década. En este tiempo se han alcanzado hitos significativos desde los inicios del aprendizaje supervisado y se ha avanzado con paso firme en el desarrollo del aprendizaje no supervisado, del semisupervisado y del aprendizaje profundo o deep learning. En esta línea, la última frontera alcanzada por la inteligencia artificial ha sido la IA generativa, y concretamente los modelos de IA generativa basados en LLM (Large Language Models), para el aprendizaje automático a partir de un conjunto masivo de datos de texto y código. Algunos ejemplos incluyen la traducción de idiomas, la escritura de contenido creativo o técnico y la generación de conversaciones.
Pero, sin duda, el factor que ha cambiado las reglas del juego ha sido la democratización del acceso a modelos LLM con soluciones como ChatGPT, Bard o Llama, combinadas con técnicas de procesamiento del lenguaje natural (NLP).
Ante estos hechos, resulta innegable que los modelos LLM aceleran la digitalización y la evolución de los procesos de negocio empresariales, reemplazando las tareas tradicionales basadas en el desarrollo mediante reglas. No obstante, su adopción también plantea aspectos negativos por su utilización por colectivos con intereses opuestos, así como efectos colaterales en la ética, la privacidad y, por supuesto, la ciberseguridad.
Lado negativo del LLM
En el lado negativo, los LLM pueden sofisticar e industrializar los ciberataques y así dificultar su detección por el usuario final. Algunos ejemplos son:
- Ataques de ingeniería social. Comprenden el contexto e imitan la forma humana de elaborar textos, generando comunicaciones interactivas de forma industrializada que las personas fácilmente pueden confundir con interacciones humanas.
- Ataques de phishing. Aprenden patrones habituales en las comunicaciones desde entidades legítimas para crear emails personalizados altamente convincentes, imitando tales comunicaciones (spear phishing) y explotando en ellas principios psicológicos clave como la urgencia o el miedo.
- Hacking industrializado. Despliegan aplicaciones automatizadas para identificar vulnerabilidades de los sistemas e idear estrategias para explotarlas (por ejemplo, usando PentestGPT en conjunción con LLM).
- Generación de payloads para ataques. Generan payloads en inyecciones SQL o ataques de bypass en sistemas WAF de forma que puedan ser utilizados en ataques automatizados.
- Generación de malware y ransomware. Crean código malicioso de forma automatizada y en un tiempo reducido.
- Generación de malware polimórfico. Generan un código base y un motor polimórfico que modula el código del malware en cada ejecución, evadiendo así los sistemas de detección y sus capacidades de erradicación.
Lado positivo del LLM
En otro lado de la balanza, los LLM pueden ser aprovechados para mejorar la productividad y la eficiencia de los equipos de ciberdefensa y de los sistemas de protección. Algunos ejemplos son:
- Automatización de la ciberdefensa. Reducen la carga de los analistas del SOC, analizando de forma automática incidentes de ciberseguridad y realizando recomendaciones de remediación.
- Informes de ciberseguridad. Generan informes en lenguaje natural a partir de eventos de ciberseguridad, reduciendo el tiempo de proceso.
- Detección o generación de código seguro. Utilizan modelos avanzados como GPT-4 en los procesos de revisión de código o generan ejemplos de código seguro para los desarrolladores, actuando como asesor automatizado.
- Identificación de ciberataques. Generan descripciones en lenguaje natural de patrones de ataque, comportamientos, vectores de entrada, técnicas y motivaciones y las comparan con los logs de la infraestructura afectada.
- Desarrollo de guías éticas. Proporcionan guías éticas de uso para sistemas de IA, generando explicaciones y recomendaciones en lenguaje natural basadas en los principios y marcos de trabajo éticos existentes. También elaboran casos de estudio y escenarios éticos para la educación y entrenamiento de desarrolladores y usuarios.
- Mejora de la efectividad de las tecnologías de ciberseguridad. Se integran con sistemas de detección de intrusos para detectar y alertar amenazas en tiempo real, generando en lenguaje natural descripciones de los patrones de ataque y su comportamiento.
- Detección de malware. Entrenadas en los malware existentes y sus variantes, clasifican un elemento de código como malware y generan el reporte y los métodos de contención correspondientes.
En conclusión, los LLM y la IA generativa son tecnologías prometedoras y cuentan con una extensa lista de casos de usos ya operativos para mejorar significativamente la ciberseguridad. Sin embargo, es importante ser conscientes de los retos y desafíos que plantean estas tecnologías para su implementación, así como de los riesgos inherentes de su potencial uso inadecuado. Su adopción masiva y su incorporación al SOC moderno y los equipos de ciberdefensa permitirá en un futuro cercano alcanzar nuevos retos en cuanto a eficacia, velocidad y mejora de la postura de seguridad de las organizaciones.
Gestión integral
Conscientes de esta necesidad, en Mnemo hemos comenzado a dotar a nuestra plataforma de gestión integral de ciberseguridad, EagleSight, de un abanico de funcionalidades apoyadas en IA, ML y NLP que incluyen en su roadmap para 2024 y 2025 capacidades como las siguientes:
- Mejorar la fiabilidad de los procesos de análisis y detección de vulnerabilidades desde múltiples orígenes mediante modelos de IA/ML supervisada.
- Calcular el índice de riesgo total de cada activo mediante un modelo de IA/ML sobre sus vulnerabilidades y la inteligencia de amenazas relacionadas.
- Threat Intelligence: Consultar mediante NLP la probabilidad de existencia de vulnerabilidades en las soluciones de los principales fabricantes de seguridad del mercado, analizando mediante técnicas de ML toda su información pública relevante.
- Recopilar datos de configuración y uso de los activos aplicando técnicas de descubrimiento pasivo de vulnerabilidades sobre la información semántica de configuración de cada activo.
- Algoritmos avanzados para la identificación de phishing, los cuales, mediante comparación de imágenes, permitirán la identificación de webs fraudulentas de forma automática mediante dos métodos de ML: uno visual y otro semántico.
- Guiar y automatizar la respuesta a incidentes: Acelerar los procesos de respuesta y ejecutar acciones automáticas de generación de defensas.
Mientras tanto, seguiremos observando de forma activa y contrarrestando de forma efectiva los nuevos casos de uso de los ciberdelincuentes que con la progresiva adopción de estas tecnologías irán apareciendo.