¿Qué son los datos no estructurados?
Los datos no estructurados son información digital que no puede almacenarse eficazmente en una base de datos relacional (SGBDR) porque no utiliza modelos o esquemas de datos preestablecidos.
Los datos no estructurados, que pueden ser brutos, suelen almacenarse en un lago de datos o Data Lake. Las fuentes de datos no estructurados incluyen sensores y actuadores, correo electrónico y mensajes de texto, documentos de Word, presentaciones de PowerPoint, historiales médicos, imágenes digitales, archivos de audio y vídeos.
En las empresas centradas en el cliente, los datos que se encuentran de forma no estructurada pueden analizarse para mejorar el marketing relacional y la gestión de las relaciones con los clientes (CRM).
Definición de datos no estructurados
Los datos no estructurados hacen referencia a los datos que siguen una forma menos ordenada que elementos como las páginas de las hojas de cálculo, las tablas de las bases de datos u otros conjuntos de datos lineales u ordenados. De hecho, el término “conjunto de datos” es útil porque se asocia a datos que están en matrices ordenadas y accesibles, sin ningún contenido extra, y que están enlazados o etiquetados en una estructura específica.
Otros ejemplos de datos textuales no estructurados son los documentos de Word, las presentaciones de PowerPoint, los mensajes instantáneos, el software de colaboración, los documentos, los libros, las publicaciones en redes sociales y los historiales médicos. Los datos no estructurados no textuales suelen crearse en soportes, como archivos de audio MP3, imágenes JPEG y archivos de vídeo Flash, etc.
Los datos no estructurados no suelen incluir un modelo de datos predefinido y es posible que no se ajusten bien a las tablas relacionales. Los datos no estructurados suelen contener mucho texto, sin embargo, pueden incluir números y fechas, así como hechos. Esto da lugar a ambigüedades difíciles de identificar con los programas de software convencionales.
El almacenamiento de grandes volúmenes de datos no estructurados generados en una empresa, si se gestiona mal, puede acarrear mayores gastos. Los datos en documentos impresos o en formato electrónico deben escanearse para que una aplicación de búsqueda pueda analizar las ideas en función de las palabras utilizadas en determinados contextos. Es lo que se conoce como búsqueda empresarial o semántica.