La Inteligencia Artificial (IA) ya se ha hecho muy popular en campos como las finanzas y el comercio electrónico, ya que puede aprender mucho a partir de grandes conjuntos de datos.
Para que la IA funcione bien, necesitamos formas de procesar datos rápidamente y manejar grandes cantidades de ellos. Los centros de procesamiento de datos centralizados, también conocidos como data centers, suelen utilizarse para aprender de los conjuntos de datos.
Sin embargo, al requerir reunir los datos en un único lugar, existe el riesgo de comprometer la privacidad de la información sensible. Esta preocupación ha limitado el uso generalizado de la IA en muchos ámbitos, especialmente en el sector sanitario.
Para resolver el problema, un planteamiento prometedor es trasladar las tareas de los grandes centros de datos a dispositivos más pequeños, como teléfonos inteligentes u otros aparatos que estén más cerca de donde se generan los datos. De este modo, no es necesario enviar los datos a otro lugar.
Este nuevo enfoque se conoce comúnmente como aprendizaje federado.
¿Qué es el aprendizaje federado?
El término aprendizaje federado fue acuñado por Google en 2016. Se ha hecho ampliamente conocido poco después, ya que el uso indebido de datos sensibles se había convertido en un tema muy preocupante tras una serie de escándalos como el de Cambridge Analytica.
El aprendizaje federado, también conocido como aprendizaje colaborativo, consiste en entrenar un algoritmo de IA de forma colaborativa utilizando múltiples dispositivos de borde, cada uno con su propio conjunto de datos. Esto contrasta con los métodos tradicionales, en los que los conjuntos de datos se fusionan en un lugar centralizado para el entrenamiento colectivo.
En el aprendizaje federado, se crea un modelo de IA en un lugar centralizado y se da acceso a él a los dispositivos participantes. Los participantes descargan el modelo desde una ubicación central y lo entrenan utilizando sus datos privados. Los modelos entrenados localmente se envían de vuelta a la ubicación central, donde se combinan para producir un único modelo global de IA. Este proceso se repite varias veces para producir un modelo final de IA.
Al final, el modelo de IA finalizado se comparte con todos los dispositivos participantes para realizar predicciones.
Aprendizaje federado: Transformar la sanidad a través de la privacidad de los datos
La sanidad podría beneficiarse enormemente del aprendizaje federado, ya que los institutos del sector cuentan con grandes cantidades de conjuntos de datos que se mantienen aislados o “en silos” debido a la naturaleza sensible de los datos. Este aislamiento dificulta la extracción de información significativa de los datos.
Sin embargo, con el aprendizaje federado, las instituciones sanitarias pueden hacerlo garantizando la máxima seguridad dentro de su propia infraestructura. La combinación de la extracción de información valiosa y la protección de la privacidad de los datos hace que el aprendizaje federado cambie las reglas del juego del sector.
El aprendizaje federado permite a hospitales, instituciones sanitarias y centros de investigación colaborar en el desarrollo de modelos que puedan beneficiar a todas las partes.
Un ejemplo de la vida real
Consideremos un ejemplo en el que distintos hospitales pretenden crear un modelo para el análisis automatizado de tumores cerebrales. Con un enfoque de aprendizaje federado cliente-servidor, un servidor centralizado mantiene el modelo global de IA (por ejemplo, una red neuronal artificial), mientras que cada hospital recibe una copia del mismo para entrenarlo en sus conjuntos de datos individuales.
Este marco de colaboración garantiza que los hospitales puedan compartir sus conocimientos y experiencia, al tiempo que mantienen la privacidad de sus respectivos datos clínicos. Al compartir de forma segura las actualizaciones de los modelos en lugar de los datos brutos, el aprendizaje federado logra un equilibrio entre colaboración y privacidad. Esto permite a las instituciones realizar progresos colectivos sin comprometer la confidencialidad de los pacientes.
Además de preservar la privacidad, el aprendizaje federado también fomenta la colaboración entre instituciones sanitarias. Las instituciones que antes operaban de forma independiente pueden ahora aportar sus conjuntos de datos y conocimientos únicos para construir colectivamente modelos de IA sólidos.
Este esfuerzo colectivo podría aumentar la precisión y la generalizabilidad de los modelos resultantes, lo que mejoraría la capacidad de diagnóstico, los planes de tratamiento y los resultados para los pacientes.
Privacidad de datos a varios niveles en el aprendizaje federado
La principal ventaja del aprendizaje federado es que las organizaciones ya no están obligadas a compartir sus datos sensibles fuera de sus instalaciones seguras para la aplicación de la IA. Al restringir los datos a sus organizaciones, el aprendizaje federado reduce las posibilidades de que se produzcan filtraciones de datos o accesos no autorizados.
Esto es especialmente importante en ámbitos como la sanidad, donde mantener la privacidad de los datos confidenciales de los pacientes es de suma importancia.
En lugar de compartir los datos, el aprendizaje federado se ocupa de compartir las actualizaciones de los modelos entrenados localmente. Para asegurar aún más esta comunicación, incorpora varias técnicas:
- La anonimización se aplica para eliminar la información personal identificable (IPI) de los datos con el fin de proteger las identidades individuales.
- El cifrado se utiliza para proteger los datos durante la transmisión y garantizar que no puedan acceder a ellos personas no autorizadas.
Además, para proporcionar una capa adicional de protección de la privacidad, el aprendizaje federado emplea métodos de agregación seguros para combinar las actualizaciones del modelo sin comprometer la privacidad individual. Para ello, también podría utilizarse la técnica de privacidad diferencial. El ruido se añade a las actualizaciones del modelo para evitar la reidentificación de puntos de datos específicos.
La privacidad del aprendizaje federado se suele clasificar en dos aspectos principales: privacidad local y privacidad global.
- La privacidad local se ocupa de proteger la privacidad de los datos locales a nivel individual. Esto se consigue compartiendo las actualizaciones del modelo en lugar de los datos.
- La privacidad global garantiza que las actualizaciones realizadas en el modelo durante cada ronda se mantengan privadas e inaccesibles para terceros que no sean de confianza, excepto el servidor central.
Para la privacidad global se utilizan principalmente métodos como la anonimización, la encriptación (o el cálculo seguro multipartito), la privacidad diferencial y la agregación segura.
Por último, las consideraciones éticas son vitales para la aplicación del aprendizaje federado. Las organizaciones que participan en el aprendizaje federado deben obtener el consentimiento informado de las personas para utilizar sus datos en el entrenamiento de modelos.
Las directrices éticas y las normativas legales se siguen estrictamente para garantizar el mantenimiento de la privacidad durante todo el proceso.
Retos del aprendizaje federado
Uno de los principales inconvenientes del aprendizaje federado es que no se adapta bien a los desarrollos de IA a gran escala. Esto se debe a los importantes costes de comunicación y computación que conlleva. Por ello, el principal objetivo del aprendizaje federado es ofrecer un marco de bajo coste computacional y de comunicación eficiente sin comprometer el rendimiento de los modelos de IA.
Otra deficiencia del aprendizaje federado es el coste informático y de comunicación adicional que supone la incorporación de los mecanismos de privacidad.
Por último, los mecanismos de privacidad -como añadir ruido a las actualizaciones de los modelos para proteger las identidades individuales- pueden afectar a la precisión de los modelos.
Conclusión
Con el auge de la IA y la aplicación de políticas de protección de datos como el GDPR y la CCPA, salvaguardar la privacidad de los datos se ha vuelto crucial. El aprendizaje federado aborda eficazmente estas preocupaciones mediante el entrenamiento de modelos de IA en dispositivos descentralizados utilizando conjuntos de datos locales, garantizando así la privacidad de los datos.
Una de sus principales ventajas es su sólido mecanismo de protección de la privacidad de los datos en múltiples capas. Con estos mecanismos de protección de la privacidad, el aprendizaje federado es muy prometedor, sobre todo en ámbitos como la sanidad.