A medida que más empresas implementan la inteligencia artificial (IA) en el lugar de trabajo, la compilación de conjuntos de datos históricos precisos para entrenar los modelos de IA es cada vez más esencial.
Aunque la IA puede ofrecer ventajas significativas a las empresas que desarrollan productos digitales de vanguardia, deben centrarse en la calidad de los datos que utilizan para el entrenamiento.
Con buenos datos, los modelos pueden ayudar en muchas tareas de ingeniería de productos, como la investigación, la codificación, la creación de prototipos y la colaboración. Pero, ¿con datos malos? Como dice el refrán, “basura entra, basura sale”.
Techopedia habló con Nitesh Bansal, CEO de R Systems, una empresa de ingeniería de productos y servicios digitales, sobre cómo los conjuntos de datos impulsarán un nuevo nivel de personalización en las experiencias de producto, mejorarán la toma de decisiones sobre productos y conducirán a una implementación más amplia de los bucles de retroalimentación continua.
¿Ayudarán los circuitos de retroalimentación a reforzar la fiabilidad de la IA? ¿Cuál será su impacto en los servicios sanitarios y financieros? Explora el papel de la curación de datos y la IA en 2025.
Puntos clave
- El éxito de la IA en 2025 depende de que los conjuntos de datos sean precisos y estén bien seleccionados.
- La mala calidad de los datos conduce a resultados de IA poco fiables y sesgados.
- Los bucles de retroalimentación continua y los enfoques HITL mejoran la fiabilidad de la IA.
- Sectores como la sanidad y las finanzas se benefician de datos diversos y bien conservados.
- Una sólida gobernanza de los datos garantiza la precisión y el cumplimiento a largo plazo.
- Ver más
Sobre Nitesh Bansal
Nitesh Bansal es el Director General y Consejero Delegado (CEO) de R Systems, con 25 años de experiencia en servicios digitales y de ingeniería de productos. Se incorporó a R Systems tras 23 años en Infosys, donde ocupó varios puestos de liderazgo.
En Infosys, fue Vicepresidente Senior y Director Global de Servicios de Ingeniería, con responsabilidades directas sobre ventas, entrega, consultoría e I+D.
La importancia de la curación de datos de IA
P: ¿Por qué la curación de datos para la IA será una tarea clave para las empresas durante el próximo año?
R: Los datos bien organizados, limpios y elaborados nunca han sido tan importantes.
Las empresas que den prioridad a la curación de datos obtendrán una ventaja competitiva, lo que les permitirá descubrir información precisa y valiosa que puede utilizarse para impulsar el crecimiento y la optimización del negocio.
Por el contrario, aquellas que empleen prácticas deficientes de curación de datos obtendrán resultados de IA sesgados o imprecisos, lo que tendrá consecuencias perjudiciales para sus negocios.
Aunque las organizaciones deben evaluar sus procesos de conservación de datos a corto plazo, la conservación y gestión de datos debe seguir siendo una «prioridad para siempre». No debería ser algo que se hace una vez y nunca se vuelve a discutir o actuar sobre ello.
En esta coyuntura, muchas empresas no disponen de la gran cantidad de datos necesarios para crear modelos de IA generalizados, por lo que veremos cómo se utiliza más el aprendizaje curricular.
Sin embargo, este enfoque requerirá datos muy desinfectados y estructurados, de ahí la importancia de la curación de datos en el futuro.
P: ¿Cómo impulsará la curación de conjuntos de datos exhaustivos un nuevo nivel de personalización?
R: En el panorama empresarial actual, la construcción generalizada de grandes modelos lingüísticos no tiene sentido para muchos contextos específicos, por lo que disponer de conjuntos de datos exhaustivos que potencien un modelo es como tener el poder definitivo para su negocio.
Los conjuntos de datos amplios y completos permiten a las organizaciones personalizar los productos y servicios para satisfacer las necesidades de sus clientes, lo que en última instancia puede conducir a un aumento de la satisfacción del cliente, la lealtad y el crecimiento de los ingresos.
Por ejemplo, la IA puede analizar numerosos puntos de datos de diversas fuentes, lo que puede ayudar a una empresa a descubrir conexiones que podrían haber pasado desapercibidas. A continuación, con bucles de retroalimentación continuos, la empresa puede perfeccionar y mejorar sus procesos, lo que permite menos interrupciones en casos futuros.
Independientemente de la ruta arquitectónica, es fundamental recordar el viejo adagio de «basura entrante, basura saliente» a la hora de crear o aumentar un modelo de IA. La limpieza, el filtrado, el formateo y la preparación de los datos son sin duda los elementos más importantes para la calidad de un modelo.
La formación continua y el aumento requieren un alto nivel de gobernanza en todas las entradas y, en última instancia, es fundamental para construir modelos que la mayoría de los casos de uso desearán.
Mantener los datos en movimiento hacia la precisión
P: ¿Cómo refuerzan los bucles de retroalimentación continua la fiabilidad de los modelos de IA?
R: Los bucles de retroalimentación continua y el «bucle humano» (HITL) son importantes para que los sistemas generativos de IA refuercen la fiabilidad y mitiguen los riesgos.
Al igual que los MLOps han sido fundamentales para mantener la fiabilidad y la confianza en los modelos tradicionales de aprendizaje automático, los AIOps deben hacer lo mismo con los sistemas de IA.
En AIOps, las prácticas de integración y entrega continuas (similares a DevOps) tendrán que ser más fluidas y en tiempo real.
A medida que fluyen nuevos datos, todo debe comprobarse o iterarse para garantizar que el modelo funciona con entradas de la máxima calidad.
La incorporación de la supervisión y los comentarios humanos puede mejorar la solidez, la fiabilidad y el rendimiento general de los modelos generativos de IA.
Por ejemplo, en la atención sanitaria, los modelos de evaluación de preautorización de seguros impulsados por IA pueden beneficiarse tanto de los bucles de retroalimentación como de los procesos HITL.
Con estas dos fuentes de información, los modelos pueden ser más precisos y fiables, al tiempo que garantizan que las decisiones son justas y cumplen las políticas de la compañía de seguros y otros precedentes.
Esto puede conducir a una autorización previa más rápida, lo que en última instancia puede tener un impacto significativo en la experiencia del paciente.
No se trata sólo de sus clientes: Mantenga la diversidad de datos para obtener una imagen más completa
P: ¿Cómo pueden garantizar las empresas que sus conjuntos de datos son lo suficientemente diversos como para mejorar el rendimiento de la IA en diversas aplicaciones?
R: A la hora de entrenar la IA, es fundamental que las organizaciones comprendan cómo un subconjunto o población de datos dentro de una empresa representa o no a su base de usuarios objetivo.
Al dar prioridad a diversos conjuntos de datos, ya sean estacionales, geográficos, demográficos o de otro tipo, las empresas pueden reducir la necesidad de intervención manual, minimizar el riesgo de sesgo y permitir que los modelos gestionen escenarios y anomalías inesperados.
Esto puede ser beneficioso cuando se busca que los humanos se centren en tareas de mayor valor.
Además, las organizaciones deben estar atentas para comprender y prevenir los sesgos en los modelos. En muchos casos, tendrán que confiar en proveedores de datos externos junto con el modelado inferencial (en algunos casos de uso) para asegurarse de que utilizan un conjunto de entrenamiento sólido y representativo en la construcción de sus modelos y aplicaciones de IA.
Hacia dónde se dirigen los datos de IA
P: ¿Qué sectores pueden beneficiarse más de los conjuntos de datos conservados y por qué?
R : La conservación de datos es crucial en todos los sectores. Sin embargo, los sectores con normativas importantes, como la sanidad, los seguros, las finanzas, la abogacía y los servicios públicos (incluidas las telecomunicaciones), pueden beneficiarse enormemente de la inclusión de datos de fuentes externas para ayudar a garantizar datos precisos y diversos en sus modelos.
Por ejemplo, los proveedores de atención sanitaria pueden utilizar casos de uso de salud de la población para mejorar significativamente los resultados clínicos al tiempo que reducen el coste de la atención sanitaria. Los gobiernos pueden utilizar los datos conservados para realizar un seguimiento del crecimiento económico, controlar las tendencias de la salud pública y optimizar la asignación de recursos.
Al dar prioridad a la conservación de datos, las organizaciones de todos los sectores pueden liberar todo el potencial de sus datos, impulsar la innovación y alcanzar sus objetivos empresariales.
P: ¿Qué medidas pueden ayudar a mantener la exactitud y pertinencia de los datos a lo largo del tiempo, especialmente en sectores como la sanidad y las finanzas?
R: Es esencial que las organizaciones establezcan un marco sólido de gobernanza de datos, que debe incluir una supervisión mejorada de los datos y una aplicación coherente de los protocolos de gobernanza cada vez que se añadan nuevos datos a los modelos.
El marco de gobernanza debe definir normas, políticas y procedimientos de datos, así como aplicar controles de calidad de los datos y reglas de validación. Esto podría incluir el seguimiento y la evaluación de la calidad de los datos, la identificación y el tratamiento de las discrepancias de datos, y la aplicación de procesos de limpieza y normalización de datos.
También es importante que estas organizaciones garanticen la seguridad de los datos y el cumplimiento de los requisitos normativos, actualicen y refresquen los datos con regularidad y ofrezcan formación y educación sobre las mejores prácticas de gestión de datos.
Además, garantizar que los analistas de datos, los científicos de datos y otros profesionales de los datos dispongan de conjuntos de datos diseñados con los que se pueda trabajar a medida que aumenta la complejidad evitará el uso inadvertido y la aplicación incorrecta de los datos en los modelos a medida que su construcción sea más rápida y accesible.
Los retos y la evolución de los datos de IA
P: ¿Cuáles son los mayores retos a la hora de conservar conjuntos de datos para aplicaciones de IA y cómo pueden abordarse?
R: Uno de los principales retos de la IA es la latencia de la entrega y la rigurosidad de las pruebas de casos límite y la prevención de sesgos.
Muchas aplicaciones de IA requerirán que el acceso a los datos y la velocidad de entrega cumplan las expectativas, por lo que los conductos de ingeniería que las alimentan deben ser rápidos y fiables. Esto hace que las pruebas sean especialmente importantes para evitar ataques de adversarios contra la IA.
Otro reto importante es conseguir que la industria acepte los conjuntos de datos para garantizar la precisión y el reflejo de los escenarios del mundo real.
Para resolver estos problemas, es imperativo colaborar con expertos del sector para validar la exactitud de los conjuntos de datos, aplicar políticas sólidas de gobernanza de datos para garantizar que los datos confidenciales se manejan adecuadamente, y técnicas como el aumento de datos y el aprendizaje por transferencia para personalizar los datos disponibles públicamente para casos de uso específicos de la empresa.
Además, el uso de herramientas avanzadas de procesamiento y análisis de datos puede ayudar a eliminar los factores que causan variaciones, mientras que la inversión en procesos de calidad y validación de datos puede garantizar la coherencia y precisión del conjunto de datos.
P: ¿Cómo cree que evolucionará el papel de la conservación de datos a medida que avancen las tecnologías de IA?
R: A medida que avancen los grandes modelos lingüísticos y la IA generativa, la importancia de la conservación de datos seguirá creciendo. A medida que la IA avance, los elementos de la gestión de datos maestros y la gobernanza obtendrán sus propias aplicaciones de IA.
Sin embargo, en lo que respecta a la curación de datos, veremos una «IA asociada» en un futuro próximo. Los retos de la conservación de datos requieren una comprensión profunda y contextual de cómo se obtienen los datos, qué significan y cómo se utilizan.
Esto requiere un nivel de Inteligencia Artificial General [IAG] para modelos a menor escala que aún no se ha visto, por lo que serán los profesionales de datos, potencialmente aumentados por la IA, los que lleven a cabo la curación de datos.
En general, las organizaciones que den prioridad a la curación de datos estarán mejor equipadas para aprovechar el poder de estas tecnologías en el futuro.
Al mismo tiempo, veremos cómo las industrias se alinean en las certificaciones de calidad de datos en sus dominios cuando utilizan conjuntos de datos externos gestionados por colaboraciones específicas de la industria.