Fiabilidad

Las trampas de entrenar la IA con datos inventados

Resumen

Dado que la inteligencia artificial (IA) a menudo se ve obstaculizada por la falta de acceso a datos del mundo real, los modelos suelen entrenarse utilizando datos generados por la IA. Aunque las impresionantes capacidades de la IA se basan en el aprendizaje profundo a partir de datos, a menudo se utilizan datos sintéticos, que no son una combinación perfecta, pero siguen siendo el método más eficaz para entrenar modelos de IA en diversas tareas.

La IA está creciendo, entrando en nuestras vidas y en el lugar de trabajo a medida que se van abriendo paso las posibilidades de un Einstein en tu bolsillo.

Ya sea escribiendo un ensayo, creando obras de arte complejas, revisando políticas, creando código personalizado o escribiendo un discurso de sobremesa por ti, ya está empezando a transformar nuestra forma de trabajar y de vivir.

Sin embargo,la inteligencia artificial (IA) depende exclusivamente de los datos para hacer lo que hace.

Pongamos un ejemplo: “Créame una imagen de una rosa”. Antes de ponerse manos a la obra, la IA debe conocer los distintos datos que se le ofrecen.

Tiene que conocer la forma típica de una rosa, sus colores, su diseño, la disposición de sus pétalos… todas las características que hacen que una rosa sea una rosa.

¿Cuál es la fuente de los datos de los que aprende? Los datos proceden de datos generados por la IA o de datos sintéticos.

Entrenamiento de una inteligencia artificial

Aunque hoy nos centramos en el entrenamiento de un sistema de IA con datos generados por la IA, por lo general, un sistema de IA se entrena con una mezcla de datos generados por la IA y datos del mundo real.

El proceso se diseña teniendo en cuenta las limitaciones legales, éticas y de confidencialidad a la hora de adquirir datos del mundo real.

Pero los datos son fundamentales si se quiere generar sistemas de IA realistas -lectores sintéticos de noticias, por ejemplo- y, dada la falta de datos del mundo real, la generación de datos sintéticos, que imitan los datos del mundo real, se convierte en algo vital.

Por ejemplo, un sistema de IA puede ser capaz de generar una imagen detallada de la cabina de un avión, pero no coincidirá exactamente con la imagen de una cabina del mundo real.

Paso 1: Generación de datos sintéticos

El sistema de IA de origen genera datos sintéticos que se utilizan para entrenar el modelo de IA de destino, que puede ser una red neuronal u otro algoritmo de aprendizaje automático.

Los datos sintéticos son lo más parecidos posible a los del mundo real y permiten al sistema de IA de destino aprender sobre el objeto del que tratan los datos. Conoce cosas como formas, colores y detalles de configuración.

Paso 2: Preparación de los datos de entrenamiento

Los datos sintéticos se mezclan con datos reales adecuados. Por ejemplo, la imagen generada por la IA del salpicadero de un avión se combina con la imagen real de un salpicadero.

De este modo, el modelo de aprendizaje de IA puede aprender de los datos. No sólo puede identificar los componentes de los datos, por ejemplo, el medidor de combustible y el altímetro, sino también distinguir entre los datos sintéticos y los del mundo real.

Paso 3: Entrenamiento del modelo de IA

El modelo de IA objetivo aprende del conjunto de datos mixtos.

Por ejemplo, el objetivo es que el modelo de IA aprenda sobre distintos tipos de imágenes de perros. La respuesta aceptable es que pueda identificar los nombres de los perros y clasificarlos como perros pastores, perros sabuesos, etc.

El modelo de IA proporciona una colección limitada de imágenes de perros reales y una colección más amplia de datos sintéticos.

El modelo de aprendizaje estudia y comprende las distintas características y parámetros y aprende a extraer inferencias y patrones.

Por ejemplo, los perros con cola corta pueden identificarse como dobermans, o los que tienen orejas prominentes y agudamente triangulares, como pastores alemanes.

El modelo de aprendizaje también aprende a no generalizar basándose en los parámetros. Por ejemplo, los Doberman tienen la cola corta, pero no todos los perros con cola corta son Doberman.

Uso de datos en el mundo real

Uno de los ejemplos reales más notables de IA entrenada por datos generados por IA es PilotNet, el proyecto de coche autoconducido de NVIDIA.

PilotNet es un sistema de aprendizaje profundo que aprende sobre la conducción en tiempo real a partir tanto de datos sintéticos como de la observación de conductores humanos que conducen un coche especial diseñado para recopilar datos sobre la conducción, las condiciones de la carretera, las señales de tráfico, las marcas de los carriles, los vehículos y los peatones.

Conducir es una tarea compleja porque implica tanto habilidades como toma de decisiones en un periodo de tiempo extremadamente corto. Mientras el conductor humano conduce el coche, PilotNet recopila datos, y los datos relevantes se marcan como píxeles resaltados.

El sistema de aprendizaje profundo que hay detrás del coche autoconducido debe controlar la conducción basándose en los píxeles resaltados que identifican diversos objetos en la carretera, como peatones, señales de tráfico y vehículos.

Ventajas de los datos sintéticos

Los principales beneficios de entrenar IA con datos sintéticos son:

  • Como se ha dicho, los datos de la vida real son difíciles de adquirir debido a diversas limitaciones, por lo que los datos sintéticos son su mejor apuesta. Los datos sintéticos de calidad que pueden acercarse lo más posible a los datos reales son la mejor fuente de aprendizaje para los modelos de aprendizaje de IA.
  • Con los datos sintéticos, no se corren los riesgos de violación de la confidencialidad o el secreto que conllevan los datos reales. Los datos reales, cuando se obtienen legalmente con consentimiento, vienen con condiciones.
  • Los datos sintéticos permiten explorar múltiples escenarios diferentes. Por ejemplo, en un coche autoconducido, los datos sintéticos pueden ayudar a explorar la conducción en una calle congestionada o en una autopista, sin necesidad de salir a la carretera.

Limitaciones y problemas

Los datos sintéticos son a la vez una ventaja y una limitación porque no son datos del mundo real, independientemente de su calidad.

Un modelo de IA tarda más en aprender sobre objetos del mundo real con datos sintéticos.

Es probable que los datos sintéticos contengan datos erróneos y sesgados que podrían conducir a resultados de entrenamiento no deseados porque los datos no coinciden con los casos de uso del mundo real.

Por ejemplo, los datos sintéticos sobre puntuaciones de crédito y solicitudes de préstamo pueden contener datos erróneos y sesgados contra comunidades específicas o ser inexactos porque no están sincronizados con los últimos cambios en las leyes de datos.

El resultado podría ser no sólo involuntario, sino también peligroso.

Sin embargo, los datos sintéticos, a pesar de sus límites, siguen siendo la mejor fuente de datos disponible sobre la que pueden aprender los modelos de IA.

Sin embargo, las organizaciones empresariales podrían ser extremadamente cautelosas a la hora de utilizar la IA en casos de uso sensibles, como el tratamiento médico, las cuestiones sociales y las solicitudes de préstamos.

Lo esencial

La adquisición de datos del mundo real parece ser un obstáculo importante en el aprendizaje de modelos de IA, y la adquisición de datos se enfrenta a muchos obstáculos de muchas formas.

Teniendo en cuenta que la IA puede hacer cosas extraordinarias, las principales instituciones, como gobiernos, empresas e institutos de investigación, tienen que encontrar la manera de permitir que los sistemas de IA analicen los datos en tiempo real y eliminen las partes que, si se procesan, podrían causar problemas en el mundo real.

Sin embargo, mientras tanto, los datos sintéticos -utilizados con cuidado- son mejor que nada.

Temas relacionados

Kaushik Pal
Editor

Kaushik es un arquitecto técnico y consultor de software con más de 23 años de experiencia en análisis de software, desarrollo, arquitectura, diseño, pruebas e industria de capacitación. Tiene interés en nuevas tecnologías y áreas de innovación, centrándose en arquitectura web, tecnologías web, Java/J2EE, código abierto, WebRTC, big data y tecnologías semánticas. Ha demostrado su experiencia en análisis de requisitos, diseño e implementación de arquitecturas, preparación de casos de uso técnico y desarrollo de software. Su experiencia ha abarcado diferentes sectores como seguros, banca, aerolíneas, envíos, gestión de documentos y desarrollo de productos, entre otros. Ha trabajado con una amplia…