A medida que el ML se integra profundamente en los procesos cotidianos, es crucial adoptar medidas de seguridad sólidas para mantener la confianza, la integridad y el éxito a largo plazo. Sectores vitales como la sanidad, las finanzas y las infraestructuras dependen de algoritmos de ML, lo que los hace susceptibles de sufrir graves consecuencias en caso de ataques basados en ML.
Reconocer las vulnerabilidades de los modelos de ML permite el desarrollo proactivo de sólidos mecanismos de defensa para proteger a las organizaciones y a las personas.
¿Qué es el Adversarial Machine Learning?
El Adversarial Machine Learning es un campo emergente del machine learning que se ocupa de comprender y prevenir los ataques a los modelos de ML. El término “adversarial” proviene de los atacantes que intentan encontrar debilidades en el modelo. Su objetivo es manipular el modelo para producir resultados erróneos. Lo consiguen introduciendo cambios furtivos en los datos de entrada que pueden provocar cambios significativos en los resultados del modelo.
A medida que crecen las aplicaciones en el mundo real y el uso industrial del ML, el ML adversario se vuelve cada vez más crucial. Revela la vulnerabilidad de los modelos de ML, especialmente en entornos críticos para la seguridad. Comprender estos puntos débiles permite a los investigadores e ingenieros construir modelos de ML más sólidos y seguros, protegiéndose eficazmente contra los ataques de adversarios.
Tipos de ataques de adversarios
Existen varios tipos de ataques de adversarios. A continuación se enumeran algunos de ellos.
- Ataques de evasión
Los ataques de evasión manipulan los puntos débiles de los modelos ML, como los spammers que alteran el contenido para evadir los filtros, como el spam basado en imágenes. Investigadores de la Universidad de Washington manipularon un coche autónomo con pegatinas en las señales de tráfico, lo que provocó una clasificación errónea.
En otro caso, se engañó a los sistemas de reconocimiento facial utilizando gafas impresas a medida con patrones imperceptibles. Los ataques de evasión se clasifican en cajas blancas o cajas negras en función del conocimiento del modelo por parte del atacante.
- Ataques de envenenamiento
En este ataque, los datos de entrenamiento de ML se manipulan introduciendo muestras maliciosas para sesgar el resultado del modelo. Por ejemplo, etiquetar erróneamente correos electrónicos normales como spam confunde al clasificador de spam, lo que lleva a una clasificación errónea de los correos legítimos.
Los ataques de envenenamiento de datos en los sistemas de recomendación son un problema creciente, en el que actores maliciosos manipulan las calificaciones y reseñas de productos para favorecer sus productos o perjudicar a los competidores. Esta manipulación puede afectar significativamente a la confianza de los usuarios y a su toma de decisiones.
- Ataques de inversión de modelos
Estos ataques pretenden obtener información sensible de un modelo de ML observando sus resultados y formulando preguntas. La “extracción de modelos” es un tipo en el que los atacantes intentan acceder a los datos de entrenamiento sensibles utilizados para entrenar el modelo, lo que puede llevar al robo completo del modelo.
A medida que más empresas utilizan modelos disponibles públicamente, el problema se agrava, ya que los atacantes pueden acceder fácilmente a información sobre la estructura del modelo, lo que lo hace más preocupante.
- Ataques bizantinos
A medida que crece el ML, a menudo utiliza múltiples máquinas para el entrenamiento. En el aprendizaje federado, varios dispositivos de borde trabajan con un servidor central para entrenar un modelo. En esta situación, algunos dispositivos pueden comportarse de forma extraña, causando problemas como algoritmos sesgados o daños al modelo del servidor central.
Utilizar una sola máquina para el entrenamiento puede ser arriesgado, ya que se convierte en un único punto de fallo y podría tener puertas traseras ocultas.
Técnicas de Adversarial Machine Learning
El objetivo del amachine learning adversarial es reforzar la resistencia de los modelos de machine learning frente a los ataques. Aunque no elimine la posibilidad de ataques, ayuda a reducir significativamente su impacto y a mejorar la seguridad general de los sistemas de machine learning en aplicaciones del mundo real.
A continuación se describen las formas en que el ML adversarial puede hacer frente a los ataques adversariales:
- Entrenamiento adversarial
El entrenamiento adversarial es una técnica utilizada para mejorar la resistencia de los modelos de machine learning frente a los ataques adversariales, especialmente los ataques de evasión. En esta técnica, el modelo ML se entrena deliberadamente con ejemplos adversos, lo que permite que el modelo sea más generalizado y adaptable contra las manipulaciones adversas.
Aunque la técnica resulta muy eficaz para contrarrestar los ataques de evasión, su éxito depende de la cuidadosa construcción de ejemplos adversarios.
- Defensive Distillation
Esta técnica se inspira en el método de destilación de conocimientos de la IA. La idea clave consiste en emplear un modelo ML, denominado modelo “maestro”, entrenado en un conjunto de datos estándar sin ejemplos adversos, para instruir a otro modelo, denominado modelo “alumno”, utilizando un conjunto de datos ligeramente alterado. El objetivo último del profesor es mejorar la robustez del alumno frente a entradas desafiantes.
Al aprender de la orientación proporcionada por el modelo maestro, el modelo alumno se vuelve menos susceptible a las manipulaciones de los atacantes.
- Detección de ejemplos adversarios
Se centra en el desarrollo de métodos robustos para identificar ejemplos adversos: entradas maliciosas creadas para engañar a los modelos de IA. Al detectar eficazmente estas entradas engañosas, los sistemas de IA pueden tomar las medidas adecuadas, como rechazar o reprocesar la entrada, minimizando así el riesgo de predicciones incorrectas basadas en datos adversos.
- Reducción de características
La compresión de características es una técnica que reduce el espacio de búsqueda de posibles perturbaciones adversas alterando los datos de entrada. Consiste en aplicar diversas transformaciones, como la reducción de la profundidad de los bits de color o la adición de ruido a los datos de entrada, lo que dificulta al atacante la creación de ejemplos adversos eficaces.
- Métodos conjuntos
Aprovecha los métodos de conjunto, en los que se utilizan varios modelos para realizar predicciones de forma colaborativa. Al combinar los resultados de diferentes modelos, resulta más difícil para un atacante crear ejemplos adversos coherentes que engañen a todos los modelos, lo que aumenta la solidez del sistema.
- Aprendizaje federado
El aprendizaje federado es un enfoque de machine learning distribuido que da prioridad a la privacidad y la seguridad en entornos colaborativos, especialmente en la defensa contra ataques bizantinos. Este método protege la privacidad individual entrenando modelos en dispositivos periféricos sin necesidad de compartir datos brutos. Se emplean técnicas robustas de preservación de la privacidad y protocolos criptográficos para mejorar aún más la seguridad.
Además, el sistema gestiona eficazmente a los participantes adversarios para mantener la integridad del modelo durante el entrenamiento colaborativo.
Retos del Adversarial Machine Learning
- Evolución de los ejemplos adversarios: Los ataques adversarios evolucionan constantemente, por lo que resulta difícil anticiparse y defenderse de ataques nuevos y sofisticados.
- Robustez limitada: Aunque el entrenamiento adversarial mejora la resistencia, puede que no cubra todos los posibles escenarios de ataque, dejando el modelo vulnerable a ciertos tipos de entradas adversariales.
- Limitación de datos y recursos: Adquirir suficientes ejemplos adversarios diversos y representativos para un entrenamiento robusto puede ser un reto, especialmente para dominios especializados o cuando se trata de datos sensibles a la privacidad.
- Generalización entre modelos: Las técnicas que funcionan bien para un modelo pueden no ser tan eficaces para otro, lo que requiere defensas específicas para cada modelo, que pueden requerir muchos recursos y tiempo.
- Complejidad de la evaluación: Para evaluar correctamente la eficacia de las defensas contra adversarios se necesitan parámetros de evaluación sólidos y estandarizados, que aún se están desarrollando.
Orientaciones futuras
- Transferibilidad de las defensas: La investigación sobre el desarrollo de defensas que puedan transferirse a distintos modelos y arquitecturas ahorraría tiempo y esfuerzo en la aplicación de defensas individualizadas.
- Defensas contra adversarios explicables: Comprender los mecanismos y decisiones que subyacen a las defensas contra adversarios es crucial para generar confianza y garantizar la interpretabilidad de los sistemas de ML.
- Robustez frente a los ataques del mundo real: Centrarse en el desarrollo de defensas que tengan en cuenta la complejidad y variabilidad de los ataques del mundo real es fundamental para desplegar el adversarial machine learning en aplicaciones prácticas de ciberseguridad.
- Detección y supervisión de adversarios: El desarrollo de métodos sólidos para detectar y supervisar continuamente el comportamiento de los adversarios ayudará a responder y adaptarse a tiempo a los ataques en evolución.
- Investigación colaborativa e intercambio de conocimientos: Fomentar la colaboración entre el mundo académico, la industria y los expertos en ciberseguridad puede acelerar el desarrollo de defensas eficaces y fomentar el intercambio de mejores prácticas.
Conclusión
El rápido auge del machine learning en diversos sectores pone de manifiesto la necesidad de medidas de ciberseguridad sólidas. El adversarial machine learning es crucial para prevenir los ataques a los modelos de ML, como la evasión, el envenenamiento, la inversión de modelos y los ataques bizantinos. Técnicas como el entrenamiento adversarial, la destilación defensiva y los métodos de ensemble mejoran la resistencia de los modelos.
El aprendizaje federado garantiza la privacidad y la seguridad en entornos colaborativos, especialmente contra los ataques bizantinos. Para garantizar el éxito a largo plazo de las aplicaciones de ML, es imprescindible abordar las vulnerabilidades e implantar mecanismos de defensa avanzados.