Cosa significa dati non strutturati?
I dati non strutturati (Unstructured Data) sono informazioni digitali che non possono essere archiviate in modo efficiente in un database relazionale (RDMS) perché non utilizzano modelli di dati o schemi predefiniti.
I dati non strutturati, che possono essere grezzi, sono spesso archiviati in un “data lake” o in un Data Warehouse. Le fonti di dati non strutturati includono sensori e attuatori, e-mail e messaggi di testo, documenti word, presentazioni PowerPoint, cartelle cliniche elettroniche (EHR), immagini digitali, file audio e video.
Nelle aziende incentrate sul cliente, i dati non strutturati possono essere analizzati per migliorare il marketing e la gestione delle relazioni con i clienti (CRM).
Techopedia spiega i dati non strutturati
Il termine dati non strutturati (Unstructured Data) si riferisce a dati che seguono una forma meno ordinata rispetto ad elementi come fogli di calcolo, tabelle di database o altri insiemi di dati lineari o ordinati. In effetti, il termine “insieme di dati” è utile perché è associato a dati che si trovano in array ordinati e accessibili, senza alcun contenuto aggiuntivo, e che sono collegati o etichettati in una struttura specifica.
Altri esempi di dati testuali non strutturati sono i documenti Word, le presentazioni PowerPoint, i messaggi istantanei, i software di collaborazione, i documenti, i libri, i post sui social media e le cartelle cliniche. I dati non strutturati non testuali sono generalmente creati nei media, come i file audio MP3, le immagini JPEG e i file video Flash, ecc.
I dati non strutturati di solito non includono un modello di dati predefinito e potrebbero non essere compatibili con le tabelle relazionali. I dati non strutturati sono in genere ricche di testo. Tuttavia, possono includere numeri e date, oltre a fatti. Ciò comporta ambiguità difficili da identificare con i programmi software convenzionali.
L’archiviazione di enormi volumi di dati non strutturati generati all’interno di un’azienda, se mal gestita, può comportare spese maggiori. I dati contenuti in documenti cartacei o in formato elettronico devono essere scansionati per consentire a un’applicazione di ricerca di analizzare le idee, in base alle parole utilizzate in determinati contesti. Si tratta della cosiddetta ricerca aziendale o semantica.