La inteligencia artificial (IA) es capaz de hacer cosas que antes eran inimaginables.
Puede distinguir entre un peatón y una señal de tráfico para guiar un coche autoconducido, revisar el tono de un artículo y proporcionar comentarios, proporcionar datos útiles sobre un paciente a un médico y realizar miles de otras tareas que ahorran tiempo y reflexión.
Sin embargo, para hacer lo que hace, la IA depende a menudo de datos estructurados, y esa dependencia puede convertirse en su talón de Aquiles.
Fuentes de datos no estructurados
La IA puede manejar todo tipo de datos de diversas fuentes, estructurados o no estructurados. Algunos ejemplos son:
- Datos de texto de medios sociales, entradas de blog, tweets, documentos, páginas web, artículos de noticias y foros comunitarios. El texto de las páginas web suele estar ligado a hojas de estilo, etiquetas y scripts. El texto de estas fuentes rara vez sigue directrices o estructuras estándar.
- Datos de audio de grabaciones, vídeos y podcasts. Estos datos se obtienen tras convertir el audio en texto mediante conversores de voz a texto.
- Dependiendo de la calidad de los conversores y de la entrada, la calidad de la salida varía.
- Datos visuales de imágenes, vídeos, diagramas, capturas de pantalla e infografías que el sistema de IA debe analizar para comprenderlos.
- Datos de sensores de varios dispositivos IoT, por ejemplo, cambios de temperatura en el congelador de la cocina de un gran hotel en función de los tipos de alimentos crudos almacenados.
- Datos geoespaciales obtenidos de diversos sistemas y herramientas como GPS, teléfonos inteligentes y brújulas.
Limitaciones de los datos no estructurados
Los sistemas de IA necesitan un formato de datos coherente, al menos para las tareas a gran escala, pero aplicar la uniformidad es un reto cuando los datos de distintas fuentes son obstinadamente variados y difíciles de encajar en una estructura.
Para dar forma a los datos, el proceso de preprocesamiento -como la eliminación de errores, espacios no deseados y valores atípicos- es un proceso que lleva mucho tiempo.
Los datos también pueden venir en varios formatos, introducidos por API, archivos JSON u hojas de cálculo, y con el tiempo surgen nuevos formatos de datos que pueden complicar aún más el problema.
La confidencialidad de los datos también puede añadirse a la complejidad, y los proveedores deben ser extremadamente cautelosos para evitar fugas de datos.
Un estudio de caso: Uso de la IA en la atención al paciente
Utilicemos la IA y las imágenes médicas para comprender cómo los datos no estructurados dificultan la adopción de la IA, utilizando radiografías, tomografías computarizadas y resonancias magnéticas como casos de prueba.
Lo ideal sería que la IA analizara los informes de diagnóstico por imagen y permitiera a los radiógrafos y médicos diagnosticar la enfermedad con precisión y rapidez. Sin embargo, los siguientes factores limitan seriamente la capacidad de la IA para interpretar correctamente los resultados de las imágenes:
- Variabilidad de las imágenes
La variabilidad en términos de calidad, ángulo, iluminación y posición del paciente dificulta la comprensión de las imágenes por parte de la IA, lo que puede generar errores o resultados erróneos.
- Variación anatómica
La variabilidad anatómica de los distintos pacientes es un reto para los sistemas de IA. A la inteligencia artificial le encanta la uniformidad y aún no se ha acostumbrado a la diversidad de la anatomía humana.
- Falta de anotaciones
Las anotaciones permiten a la IA comprender mejor las imágenes, y su ausencia hace que la IA tenga que descifrar las placas de imágenes por sí sola, lo que, sin ningún recurso útil, supone un reto.
- Casos raros o poco comunes
La IA requiere uniformidad y consistencia de los datos, pero la obtención de imágenes sobre afecciones médicas poco comunes o poco frecuentes limita seriamente su capacidad para procesar los datos. La comprensión de tales condiciones requiere que los sistemas de IA aprendan sobre la marcha.
- Ruido y artefactos
Las imágenes pueden contener ruido, artefactos y distorsiones debidos a diversos factores, como problemas de la máquina, incumplimiento de los protocolos de obtención de imágenes o cambios en la posición del cuerpo del paciente. Los datos desestructurados son el resultado de estos problemas y dificultan la comprensión por parte de la IA.
Conclusión
La IA tiene un largo camino por recorrer para resolver múltiples casos de uso debido a su dependencia de los datos estructurados. Mientras tanto, para las organizaciones, proporcionar datos estructurados sigue siendo una tarea costosa y que requiere mucho tiempo.
El aprovisionamiento y análisis de datos debe mejorar para liberar todo el potencial de la IA y, al mismo tiempo, hay que trabajar mucho para equipar a los sistemas de IA para manejar datos no estructurados.