Wat betekent ongestructureerde data?
Ongestructureerde data zijn digitale gegevens die niet efficiënt kunnen worden opgeslagen in een relationele database (RDB) omdat ze geen gebruik maken van vooraf ingestelde datamodellen of schema’s.
Ongestructureerde data, die onbewerkt kunnen zijn, worden vaak opgeslagen in een data warehouse. Bronnen voor ongestructureerde data zijn onder andere sensoren en actuatoren, e-mail en tekstberichten, tekstdocumenten, PowerPoint-presentaties, elektronische patiëntendossiers (EHR’s), digitale afbeeldingen, audiobestanden en video’s.
In klantgerichte bedrijven kunnen de ongestructureerde data worden geanalyseerd om relatiemarketing en klantrelatiebeheer (CRM) te verbeteren.
Techopedia legt ongestructureerde data uit
Ongestructureerde data is data dat een minder geordende vorm hebben dan spreadsheetpagina’s, databasetabellen of andere lineaire of geordende datasets. In feite is de term “dataset” nuttig omdat het wordt geassocieerd met data die in nette, toegankelijke matrices staan, zonder extra inhoud, en die zijn gekoppeld of getagd in een specifieke structuur.
Andere voorbeelden van ongestructureerde tekstuele data zijn Word-documenten, PowerPoint-presentaties, instant messages, samenwerkingssoftware, documenten, boeken, posts op sociale media en medische dossiers. Niet-tekstuele ongestructureerde data worden meestal aangemaakt in media, zoals MP3-audiobestanden, JPEG-afbeeldingen en Flash-videobestanden, enz.
Ongestructureerde data heeft meestal geen vooraf gedefinieerd datamodel en passen mogelijk niet goed bij relationele tabellen. Ongestructureerde data heeft meestal veel tekst. Ze kunnen echter ook getallen en datums bevatten, evenals feiten. Dit leidt tot dubbelzinnigheden die moeilijk te identificeren zijn met conventionele softwareprogramma’s.
De opslag van enorme hoeveelheden ongestructureerde data dat binnen een bedrijf worden gegenereerd, kan, als deze slecht wordt beheerd, leiden tot hogere kosten. Gegevens in papieren documenten of in een elektronisch formaat moeten worden gescand zodat een zoekapplicatie ideeën kan ontleden, afhankelijk van woorden die in bepaalde contexten worden gebruikt. Dit staat bekend als enterprise of semantisch zoeken.