La crucial habilidad de entrenar a la IA para que olvide datos

Fiabilidad
Resumen

Todos somos culpables alguna vez de tener información falsa en nuestras mentes y basar nuestras acciones en ella. En el cambiante mundo de la IA, hay una habilidad importante que la gente tiende a olvidar: la capacidad de enseñar a la IA a borrar datos cuando sea apropiado.

Desaprender u olvidar lo aprendido es una acción importante a la que la inteligencia artificial (IA) debe someterse de vez en cuando.

El desaprendizaje también se conoce como amnesia selectiva en IA y puede ser necesario por todo tipo de razones, como la eliminación de sesgos, la corrección de imprecisiones o la actualización de la información.

A lo largo de un periodo de tiempo, la IA aprende de cantidades variadas y enormes de conjuntos de datos e inevitablemente aprende a manifestar sesgos, inexactitudes y discriminaciones. Estas manifestaciones pueden ser peligrosas y pueden ser objetivo de entidades maliciosas.

Sin embargo, la tarea de desaprender es difícil, por ejemplo, los datos pueden afectar a muchos conjuntos de datos diferentes, y se necesitan herramientas diferentes para los distintos modelos de aprendizaje automático.

Aun así, el desaprendizaje es una de las formas importantes de mejorar la IA.

¿Qué es el desaprendizaje de la IA?

Intentemos entender el desaprendizaje de la IA con un ejemplo del imaginario John Smith.

John ha estado expuesto a aprender sobre los hábitos alimenticios de la gente de una región, lo que le hace pensar que la gente demuestra malos hábitos alimenticios.

Ha aprendido de oídas, de experiencias de segunda mano de la gente, de los medios de comunicación y de Internet, y toda esta información ha conformado su opinión.

Se puede decir que el aprendizaje de John ha hecho que su opinión sea sesgada, falsa e incluso difamatoria.

Ahora bien, las personas que conocen de primera mano los hábitos alimentarios de esa región comprueban que gran parte de lo que John cree es falso y carece de fundamento.

Cuando John visita por fin la zona durante un periodo prolongado, come su comida y experimenta sus hábitos alimentarios, regresa con una nueva perspectiva. Descubre que sus recientes experiencias cuestionan o actualizan sus antiguas creencias y pensamientos. Ha desaprendido muchas cosas que sabía.

En otras palabras, los nuevos datos han sustituido a los antiguos.

El desaprendizaje de la IA es similar. La IA puede estar expuesta a conjuntos de datos incorrectos y sesgados durante algún tiempo y ampliar sus conocimientos inexactos durante un periodo de tiempo.

En ocasiones, la IA debe tener la capacidad de someterse a un programa de desaprendizaje que sustituya o actualice los conjuntos de datos antiguos por otros nuevos y más precisos. Se trata de un proceso continuo que puede ser necesario realizar con regularidad.

Circunstancias en las que se basa el desaprendizaje de la IA

El objetivo principal es eliminar los resultados imprecisos y sesgados, sin embargo, otra preocupación puede ser que la IA pueda filtrar datos privados y, por lo tanto, ese conocimiento debe ser «desaprendido».

Varias autoridades reguladoras ya han estado pidiendo a las empresas que eliminen los datos que violan la privacidad.

En 2018, el regulador de datos del Reino Unido advirtió que las empresas que utilizan IA podrían estar sujetas al GDPR. La Comisión Federal de Comercio de Estados Unidos (FTC) obligó a Paravision, una empresa de software de reconocimiento facial, a eliminar una colección de fotos que habían recopilado sin seguir el protocolo y también a alterar los datos del programa de IA que se había entrenado con las fotos.

Desaprender es una propuesta compleja

Desde la perspectiva de las empresas que entrenan sistemas de IA, las circunstancias que llevan al desaprendizaje crean una situación problemática.

Una, la necesidad de proteger la privacidad impulsa cambios continuos en diversas leyes como el GDPR, y las empresas deben hacer que sus sistemas de IA se adapten a las regulaciones, lo que puede ser costoso y llevar mucho tiempo.

Dos, actualmente, desaprender significa que se eliminan los datos de los sistemas de IA y se vuelve a entrenar el sistema desde cero. A esto se añade el esfuerzo de eliminar los datos de otros métodos que se ven afectados por los datos.

Esto significa que te enfrentas a la posibilidad de volver a entrenar.

En la medida de lo posible, es más sencillo eliminar los datos impugnados pero evitar volver a entrenar el sistema de IA.

¿Se puede olvidar pero evitar reentrenar un modelo de IA?

Según Aron Roth, investigador sobre el desaprendizaje de la IA en la Universidad de Pensilvania, «¿podemos eliminar toda influencia de los datos de alguien cuando pide borrarlos, pero evitar todo el coste de volver a entrenar desde cero?». Se están haciendo muchos esfuerzos en esa dirección.

Un ejemplo es un proyecto de investigadores de las universidades de Toronto y Wisconsin-Madison en el que crearon múltiples proyectos más pequeños con conjuntos de datos y los combinaron en un proyecto mayor.

El documento de investigación describe el proyecto como «un marco que agiliza el proceso de desaprendizaje limitando estratégicamente la influencia de un punto de datos en el procedimiento de entrenamiento».

«Aunque nuestro marco es aplicable a cualquier algoritmo de aprendizaje, está diseñado para lograr las mayores mejoras para algoritmos con estado, como el descenso de gradiente estocástico para redes neuronales profundas.

«El entrenamiento reduce la sobrecarga computacional asociada al desaprendizaje, incluso en el peor de los casos, cuando las solicitudes de desaprendizaje se realizan de manera uniforme en todo el conjunto de entrenamiento».

¿Hay alguna limitación?

Como señalan los investigadores de las universidades de Harvard, Pensilvania y Stanford, el método tiene una limitación: si el borrado de datos se produce en una secuencia determinada, ya sea por parte de un actor malicioso o de cualquier otra entidad por casualidad, el programa podría romperse.

Aparte de esto, existe otro problema de verificar si el sistema de IA ha sido desaprendido con éxito.

No se trata de cuestionar la intención de la empresa, sino de averiguar si el esfuerzo por desaprender ha tenido pleno éxito.

Según Gautam Kamath, catedrático de la Universidad de Waterloo, «parece que queda un poco lejos, pero quizá acaben existiendo auditores para este tipo de cosas».

Otras ideas son la privacidad diferencial, una técnica que puede poner límites matemáticos a la cantidad de datos privados que puede filtrar realmente un sistema de IA. La técnica aún debe ser examinada por distintos expertos antes de que pueda implantarse con éxito.

Conclusión

El desaprendizaje se encuentra en una fase incipiente, y pasará un tiempo antes de que se considere un sistema maduro y probado que puede permitir a los sistemas de IA no sólo desaprender, sino también volver a entrenarse con un esfuerzo mínimo.

La presión constante de los organismos reguladores, las leyes, los reglamentos y los litigios mantendrán en vilo a las empresas que utilizan sistemas de IA, especialmente en regiones como la Unión Europea (UE), donde se aplican leyes estrictas como el GDPR.

Desaprender es una propuesta extremadamente compleja, y será necesario profundizar en cómo aprenden los sistemas de IA para averiguar cómo pueden potencialmente desaprender.

Temas relacionados

Artículos relacionados

Kaushik Pal
Technology writer
Kaushik Pal
Editor

Kaushik es un arquitecto técnico y consultor de software con más de 23 años de experiencia en análisis de software, desarrollo, arquitectura, diseño, pruebas e industria de capacitación. Tiene interés en nuevas tecnologías y áreas de innovación, centrándose en arquitectura web, tecnologías web, Java/J2EE, código abierto, WebRTC, big data y tecnologías semánticas. Ha demostrado su experiencia en análisis de requisitos, diseño e implementación de arquitecturas, preparación de casos de uso técnico y desarrollo de software. Su experiencia ha abarcado diferentes sectores como seguros, banca, aerolíneas, envíos, gestión de documentos y desarrollo de productos, entre otros. Ha trabajado con una amplia…