Empresas y organizaciones de todo el mundo se están asentando rápidamente en la dura realidad de desplegar con seguridad la inteligencia artificial.
Tras irrumpir en la escena mundial alimentando el mayor revuelo tecnológico de la última década, la IA se presentó como una mágica caja negra que podía hacer casi cualquier cosa, aunque caja negra conlleva algunas connotaciones negativas, como la de no saber lo que ocurre en su interior.
Aun así, el progreso avanza y la revolución para integrar la IA en las operaciones de todo el mundo es irresistible.
Pero las empresas están aprendiendo, a menudo por las malas, que los riesgos de la IA son abundantes y -cuando se gestiona mal- los riesgos superan con creces los beneficios.
¿Los mayores problemas de la IA? Cumplimiento, consentimiento de datos, cuestiones de derechos de autor, datos de formación y sesgo. Los datos sintéticos -creados artificialmente- pueden imitar los datos del mundo real y podrían ser la clave para liberar todo el potencial de la IA. Pero, ¿pueden salvar a la IA?
Puntos clave
- Los datos sintéticos ofrecen varias ventajas sobre los datos tradicionales. Son más baratos, personalizables, evitan sesgos y problemas de privacidad, y permiten probar diversos escenarios.
- Sin embargo, requiere una cuidadosa validación y supervisión humana para garantizar resultados realistas y consideraciones éticas.
- Los datos sintéticos son valiosos en diversos campos como la sanidad (ensayos clínicos más rápidos), los vehículos autónomos (simulación de sucesos raros) y las finanzas (preservación de la privacidad de los datos).
- También pueden ayudar a mitigar la deriva de los modelos al incorporar una gama más amplia de escenarios en el entrenamiento.
Otra carta de advertencia, cómo responde Synthetic Data
El 4 de junio de 2024, antiguos y actuales empleados de OpenAI y Google DeepMind publicaron una carta en la que instaban a las principales empresas de IA a permitir que sus trabajadores opinen libremente sobre los riesgos de la IA.
Bloqueados por Acuerdos de No Divulgación, y trabajando en un limbo legal donde las actuales leyes de denunciantes no se aplican porque la mayoría de los riesgos de la IA aún no están regulados como un delito, los trabajadores -la mayoría de los cuales firmaron la carta de forma anónima por temor a represalias- dicen que los riesgos de la IA pueden degradar aún más las desigualdades, manipular a las personas y las sociedades, e impulsar la desinformación.
La parcialidad, la desviación de los modelos, los datos utilizados en el entrenamiento, el consentimiento y la gestión de los derechos de autor son los principales riesgos.
Los datos sintéticos, que ganaron popularidad antes de que los principales modelos de IA se hicieran virales, ofrecen varias ventajas sobre los datos del mundo real. Son más baratos, abundantes, accesibles, se pueden adaptar y personalizar para diferentes necesidades, pueden ser diversos para evitar sesgos, no requieren consentimiento y no infringen leyes como las normativas sobre derechos de autor.
Los avances en datos sintéticos también permiten generar datos artificiales hiperrealistas que se ajustan a los datos del mundo real.
The Brainy Insights estima que el mercado mundial de generación de datos sintéticos crecerá de 316,11 millones de dólares en 2023 a más de 6.200 millones de dólares en 2033 impulsado por su potencial para impactar en innumerables aplicaciones en la era de la IA.
Pero si los datos sintéticos tienen tantos beneficios, ¿por qué no forman parte de la conversación más amplia sobre la IA?
Ilia Badeev, Director de Ciencia de Datos del Grupo Trevolution, que innova en el sector de los viajes con nuevas tecnologías, habló con Techopedia sobre cómo utilizan los datos sintéticos.
“Utilizamos la IA para generar datos de entrenamiento sintéticos que se asemejan a los datos reales sin involucrar la información de nuestros clientes”, explica Badeev. “Esto nos permite entrenar modelos de IA de forma eficaz sin el más mínimo riesgo de comprometer la privacidad de nuestros usuarios”.
“Sin embargo, los datos sintéticos aún pueden heredar o incluso amplificar los sesgos si los propios algoritmos de generación están sesgados”.
Badeev explicó que, por ejemplo, las redes generativas adversariales (GAN) pueden producir imágenes de alta calidad, pero si los datos sintéticos de entrenamiento de las GAN están sesgados, los datos generados reflejarán esos sesgos.
“Lograr la misma riqueza y variabilidad que los datos del mundo real es todo un reto”, añade Badeev. ¿La solución? Validarlos meticulosamente. “Igual que se haría con los datos del mundo real”, dijo Badeev.
¿La buena noticia? La limpieza, la deduplicación y la verificación pueden ser realizadas por la propia IA.
Cuando la anonimización de datos frena la innovación en IA
Los estudios advierten de que la IA en la atención sanitaria es un arma de doble filo: permite avances revolucionarios, pero también la posibilidad de que varias personas puedan acceder a los historiales médicos personales de un paciente.
La sanidad no es el único sector que se enfrenta a este problema. Desde los gobiernos hasta las finanzas y la investigación, numerosas industrias luchan por desplegar la IA debido a los altos estándares de anonimización de datos y las exigencias de precisión de datos que deben cumplir para operar.
Torsten Staab, ingeniero principal y responsable de Innovación e IA en Nightwing, una empresa de servicios de inteligencia que trabaja para promover los intereses de la seguridad nacional, habló con Techopedia sobre este asunto.
“Los datos sintéticos también pueden diseñarse algorítmicamente para excluir la información de identificación personal, que de todos modos podría ser irrelevante para determinadas tareas de entrenamiento de modelos, eliminando así posibles problemas de privacidad.”
Al evitar la clonación de materiales potencialmente protegidos por derechos de autor, también puede reducirse significativamente el riesgo de infracción de estos derechos, explicó Staab.
“Los datos sintéticos también pueden utilizarse para ayudar a entrenar modelos de una manera más ética y controlada, evitando que los modelos se dirijan injustamente o favorezcan un conjunto específico de resultados”.
Staab advirtió que, a pesar de este potencial, los datos sintéticos no son una bala de plata.
“Deben establecerse controles y equilibrios, en forma de supervisión humana, para garantizar que los algoritmos utilizados para generar datos sintéticos sean imparciales y produzcan resultados realistas”.
Introducir datos sintéticos no representativos y poco realistas en un modelo de aprendizaje automático podría crear aún más daños. “Para reducir los sesgos, el consentimiento, los derechos de autor y los conflictos de privacidad, debe haber un equilibrio entre el uso de datos sintéticos y los del mundo real”, dijo Staab.
Datos sintéticos en la industria farmacéutica: Mejores, más rápidos, más baratos
Amber Gosney, directora ejecutiva deldepartamento de Gobierno de la Información, Privacidad y Seguridad de FTI Consulting, habló con Techopedia sobre los datos sintéticos en la industria farmacéutica.
Gosney se refirió a estudios que demuestran que en el espacio de los ensayos clínicos un conjunto de datos sintéticos puede ser más útil o valioso que los datos anonimizados.
El informe de Accenture “Ensayos clínicos más rápidos y baratos” afirma que un modelo operativo que integre eficazmente los datos sintéticos en el diseño de los ensayos clínicos es esencial para que las empresas farmacéuticas se mantengan a la vanguardia.
“Los datos sintéticos pueden permanecer en el mismo formato (es decir, estructurados) que el conjunto de datos original, y a menudo son más rápidos de producir que si se utilizan las técnicas de anonimización habituales”, afirma Gosney.
“También puede ayudar con problemas de escala, como en el caso de enfermedades raras en las que el número de participantes para un ensayo clínico puede ser muy bajo”.
Gosney explicó que el conjunto de datos de un ensayo clínico también podría hacerse “más justo” para los grupos infrarrepresentados en el ensayo que, de otro modo, podrían experimentar resultados desproporcionados de un fármaco o producto.
Deriva del modelo: Datos del mundo real frente a datos sintéticos
La “deriva del modelo” es un término de aprendizaje automático (AM) que se refiere a la degradación del rendimiento y la precisión de un sistema de AM o IA, normalmente causada por la ampliación de las diferencias entre los datos de entrenamiento, los datos de la base de conocimientos y los datos de salida de los modelos.
Por ejemplo, cuando se produjo la pandemia mundial, las organizaciones de todo el mundo pronto descubrieron que sus modelos de IA iban a la deriva, proporcionando resultados inexactos o engañosos.
La razón fue el inesperado cambio de datos y de comportamientos generado por la COVID-19 a nivel mundial. Esta nueva oleada inesperada de datos diferentes hizo que los modelos dejaran de ser eficaces. Naturalmente, todos los sistemas de IA, si no se gestionan, actualizan y supervisan, tienden a desviarse a medida que se presenta constantemente nueva información al mundo.
Badeev, de Trevolution, reconoció que los datos sintéticos pueden carecer de la complejidad y riqueza que ofrecen los datos del mundo real.
Badeev dijo que, por ejemplo, en la conducción autónoma, los datos sintéticos pueden simular condiciones meteorológicas adversas y situaciones de conducción inusuales o extremas, que podrían faltar en los datos del mundo real pero que son fundamentales para un funcionamiento más seguro.
Staab, de Nightwing, añadió que los datos sintéticos pueden aumentar los limitados conjuntos de datos del mundo real con una gama más amplia de escenarios, mejorando la precisión y solidez de un modelo y reduciendo significativamente los costes de formación.
Y añade:
Sin embargo, pueden generarse datos sintéticos para incluir sucesos poco frecuentes, lo que garantiza que los modelos estén expuestos a escenarios que podrían estar infrarrepresentados o ser inexistentes en los datos del mundo real.”
Sin embargo, entrenar un modelo con datos de entrenamiento sintéticos sesgados o poco representativos de las condiciones del mundo real podría reducir la precisión de los resultados del modelo hasta el punto de hacerlo inútil o incluso perjudicial. Staab advirtió que un modelo podría desviarse en la dirección equivocada, desvinculándolo de la realidad.
Lo esencial
Los datos sintéticos brillan en la elaboración de experimentos controlados para modelos de IA. Permiten a los investigadores sondear la respuesta de un modelo a entradas específicas, ofreciendo una ventana a su proceso de toma de decisiones.
Y lo que es aún más valioso, los datos sintéticos permiten probar modelos en diversos escenarios, garantizando un comportamiento coherente y predecible. Esto es fundamental en campos sensibles a la seguridad como la sanidad, las finanzas y los vehículos autónomos, donde la fiabilidad de los modelos es primordial.
Sin embargo, aunque los datos sintéticos son una herramienta poderosa, no son una solución mágica. Sigue siendo esencial un enfoque equilibrado que incorpore datos del mundo real y supervisión humana.
Los datos del mundo real fundamentan el modelo en las complejidades del entorno real en el que operará. La experiencia humana sirve de control crucial, garantizando que los objetivos del modelo se ajustan a las consideraciones éticas y a las aplicaciones del mundo real.