La preocupación por los datos dudosos ha estado con nosotros desde los albores de las hojas de cálculo. Ahora que la GenAI ha irrumpido en escena, se culpa a los datos cuestionables de las alucinaciones y otros comportamientos extraños que asolan habitualmente a los LLM.
La calidad de los datos determina la fiabilidad de los resultados de la IA. Si no se tiene plena confianza en las cadenas, flotadores, bools, chars, enums y matrices que se introducen en un modelo de aprendizaje automático, no se puede estar seguro al 100% de las respuestas que escupe o de las inferencias que hace.
Para confiar en la IA, se necesitan datos fiables. ¿Cómo pueden los equipos de MLOps garantizar que sus conjuntos de entrenamiento sean siempre adecuados?
Puntos clave
- A los conjuntos de datos con información incompleta, obsoleta o ilegible se les atribuyen disfunciones de la IA de gran repercusión: alucinaciones, hechos inventados o retractación cuando se cuestionan las falsedades.
- Con la llegada del análisis de Big Data, se podría pensar que ya habríamos resuelto el problema de la calidad de los datos. Pero los problemas persisten.
- Esta misma semana, el fundador adolescente de Scale AI cerró una ronda de financiación de 1.000 millones de dólares respaldada por Nvidia para su startup de limpieza de datos.
- Una mejor tecnología para gestionar los datos podría ayudar, pero las herramientas no pueden hacer mucho. Los Directores de Datos y los equipos de Ciencia de Datos deben trabajar juntos y crear una cultura de garantía de la calidad de los datos en toda la empresa.
Basura dentro. Basura fuera.
El problema de la verosimilitud de la GenAI es cada vez más difícil de ignorar.
Un estudio realizado en noviembre de 2023 por Vectara, una startup de IA fundada por ex-empleados de Google, descubrió que la frecuencia de las alucinaciones de la GenAI oscilaba entre el 3% de ChatGPT, el 5% de los sistemas de IA de Meta y el 8% de Claude 2 de Anthropic. El PaLM de Google alcanzó el porcentaje más alto con un exorbitante 27%.
Las cifras de la plataforma de aprendizaje automático Aporia sugieren que esto puede ser la punta del iceberg.
Casi el 90% de los profesionales de MLOps que trabajan en proyectos de IA dijeron a los investigadores que sus modelos muestran signos de alucinación. La encuesta de Aporia también reveló que el 93% de los ingenieros experimentan problemas diaria o semanalmente.
Eso son muchas inferencias poco fiables. Aunque parte de la culpa recae en los propios modelos, los expertos afirman que los datos de entrenamiento deficientes suelen ser el punto de fallo.
Lorraine Barnes, directora de IA Generativa del Reino Unido en Deloitte, dijo a Techopedia que las herramientas de GenAI leen patrones y «a veces estos patrones conducen a resultados inesperados o inexactos, incluso si los propios datos de entrenamiento son de alta calidad».
Pero añade que la importancia de que los datos sean adecuados «no puede exagerarse, especialmente en las aplicaciones de IA». A diferencia de las aplicaciones tradicionales, la IA a menudo toma decisiones o genera contenidos que pueden afectar directamente a los resultados empresariales.
“Si los datos introducidos en el modelo de IA son erróneos, sesgados o incompletos, las decisiones o resultados resultantes también lo serán”.
Por qué los datos dudosos están detrás de esas alucinaciones sobre la IA
«Se suele suponer que los datos que (las empresas) han acumulado a lo largo de los años están preparados para la IA, pero no es así», escribe Joseph Ours, socio de Centric Consulting. «La realidad es que nadie tiene datos verdaderamente preparados para la IA, al menos de momento».
Dice que las empresas suelen recopilar datos principalmente para necesidades operativas inmediatas o para alimentar herramientas analíticas manejadas por humanos. “Esto a menudo conduce a conjuntos de datos limitados y llenos de lagunas. Pueden ser ricos en aspectos operativos concretos, pero carecer de otras dimensiones potenciales».
En términos sencillos, eso significa que los conjuntos de datos corporativos pueden estar plagados de duplicados, información obsoleta o almacenados en formatos difíciles de leer.
También pueden estar incompletos, ser de procedencia incierta o recopilarse de formas que eluden la normativa sobre privacidad de datos.
Los datos defectuosos son un riesgo tanto para la IA como para el negocio.
Un asesino de la innovación
Si un LLM contiene datos inexactos, incomprensibles o faltan detalles clave, es fácil ver cómo puede cometer errores. Para complicar aún más las cosas, el modelo de IA tiende a “sobreajustarse”, lo que significa que memoriza las entradas y salidas que ha realizado utilizando un conjunto de datos que no es el óptimo.
Su capacidad para generalizar nuevos datos se ve comprometida, lo que crea la base para las alucinaciones.
Sue Daley, Directora de Tecnología e Innovación de techUK, declaró a Techopedia que la eficacia de la IA Generativa “depende de la calidad de los datos con los que se entrena”.
“Los datos incompletos o inexactos pueden dar lugar a una menor precisión del modelo, a una mayor probabilidad de sesgo y a resultados incorrectos o inexactos en cuanto a los hechos”.
Eso convertiría a los malos datos en un asesino de la innovación. Ya en 2018, Gartner predijo que el 85% de los proyectos de IA fracasarían debido a la parcialidad de los datos o los algoritmos.
El año pasado, la Harvard Business Review dijo sin rodeos que «la mayoría de los proyectos de IA fracasan», siendo un obstáculo clave «la disponibilidad, cantidad, frescura y calidad general de los datos».
Aunque el monstruo de la IA sigue dominando los titulares tecnológicos a nivel corporativo, la falta de confianza podría seguir obstaculizando las inversiones en I+D.
Mantener la calidad de los datos es difícil
Con todo el énfasis que se ha puesto en la inteligencia y la analítica empresarial en las dos últimas décadas, ¿por qué sigue preocupando la calidad de los datos?
George Johnston, responsable de datos, privacidad y analítica de Deloitte, dijo a Techopedia que existen varios retos para conseguir una buena calidad de los datos, pero destacan cuatro:
- Hay demasiados: «El gran volumen y variedad de formatos de datos disponibles hoy en día dificultan su gestión, limpieza y mantenimiento.»
- Los silos dificultan la unificación de datos: «Integrar datos de diversas fuentes y sistemas a menudo implica resolver incoherencias, tratar con valores que faltan y compatibilidad de datos.»
- Los sistemas heredados no pueden seguir el ritmo: «Muchas organizaciones dependen de sistemas anticuados que no se diseñaron para mantener la calidad de los datos a la escala y complejidad observadas en el panorama de sistemas actual.»
- Es posible que falten presupuestos, herramientas y competencias: “Conseguir una buena calidad de los datos requiere recursos, experiencia y herramientas. Muchas organizaciones luchan por conseguir la financiación necesaria para sus iniciativas de datos. A menudo esto se debe a prioridades contrapuestas, con otras inversiones que prometen rendimientos más inmediatos.”
La IA necesita datos. ¿Los datos necesitan IA?
Entonces, ¿cuál es la solución? Algunos dicen que la relación simbiótica entre los datos y la IA apunta a una solución.
Los proveedores de gestión y gobernanza de datos han empezado a añadir “impulsado por IA” a sus descripciones. Estas plataformas automatizan las tareas de limpieza, extracción, integración, catalogación, etiquetado y protección de datos, que requieren mucho tiempo y trabajo.
La adición de un motor de IA amplía sus capacidades para satisfacer las intensas demandas de datos y computación de los LLM.
Los inversores también se han dado cuenta del problema. A principios de esta semana, Scale AI, una startup especializada en la calidad de datos para aplicaciones de IA, anunció una ronda de financiación de 1.000 millones de dólares respaldada por Nvidia (NVDA) y Amazon (AMZN).
Nuevas y mejores soluciones para la gestión de datos son parte de la respuesta, pero las personas y los procesos también influyen.
Daley, de TechUK, afirma que esto exige un enfoque holístico:
“Implica una inversión significativa en mejores infraestructuras y herramientas, pero también cambios en la cultura organizativa, las prácticas de gobierno de datos y la orientación normativa. Dada la naturaleza sistémica de estos problemas, abordarlos requerirá que la gobernanza y la gestión de datos se sitúen en lo más alto de la agenda de cada organización, y debería contar con el apoyo de la agenda política del próximo gobierno.”
Johnston, de Deloitte, apunta a una coordinación más centrada entre los Directores de Datos (CDO) y los equipos de Operaciones de Aprendizaje Automático (MLOps) como forma de integrar la calidad de los datos en la cultura corporativa. Dice:
“Un punto clave de intersección entre el CDO y el equipo de MLOps reside en el proceso iterativo de identificar y priorizar la calidad de los datos donde realmente importa para proyectos específicos de IA. En lugar de embarcarse en un programa exhaustivo de corrección de la calidad de los datos en toda la empresa, un enfoque más eficaz es centrarse en mejorar la calidad de los datos directamente relevantes para casos de uso específicos.”
Lo esencial
Lorraine Barnes, de Deloitte, afirma que es esencial garantizar que los modelos de aprendizaje automático sean eficaces y fiables en las aplicaciones del mundo real.
“Al igual que un chef selecciona cuidadosamente los ingredientes más frescos y de mayor calidad para crear una obra maestra culinaria, los desarrolladores de IA deben curar y preprocesar los datos para garantizar su precisión, relevancia y representatividad.”
De un modo u otro, los vendedores de tecnología, los CDO y los equipos de ciencia de datos tienen que enfrentarse al dilema de los datos de GenAI. Esos memes de HAL 9000 no van a desaparecer por sí solos.
Preguntas frecuentes
¿Por qué es importante la calidad de los datos en la IA generativa?
¿Dónde puedo obtener datos de entrenamiento para el aprendizaje automático?
¿Qué tipo de datos se utilizan para entrenar los modelos generativos de IA?
Referencias
- (PDF) Information and Data Quality in Spreadsheets (Researchgate)
- Cut the Bull…. Detecting Hallucinations in Large Language Models (Vectara)
- 2024 AI & ML Report Evolution of Models & Solutions – Aporia (Aporia)
- Lorraine Barnes | Deloitte UK (Www2.deloitte)
- No One’s Data is Ready for AI – Yet (Centricconsulting)
- Sue Daley – techUK | LinkedIn (Uk.linkedin)
- Gartner Says Nearly Half of CIOs Are Planning to Deploy Artificial Intelligence (Gartner)
- Keep Your AI Projects on Track (Hbr)
- George Johnston (Uk.linkedin)
- How AI Is Improving Data Management (Sloanreview.mit)
- Accelerate the Development of AI Applications | Scale AI (Scale)
- Scale AI valued at $14 bln in Nvidia, Amazon-backed funding round (Reuters)
- I’m sorry Dave (Reddit)