Was sind unstrukturierte Daten?
Unstrukturierte Daten sind digitale Informationen, die nicht effizient in einer relationalen Datenbank (RDMS) gespeichert werden können, da sie keine vordefinierten Datenmodelle oder Schemata verwenden.
Unstrukturierte Daten, bei denen es sich um Rohdaten handeln kann, werden häufig in einem Data Lake gespeichert. Zu den Quellen für unstrukturierte Daten gehören Sensoren und Aktoren, E-Mails und Textnachrichten, Word-Dokumente, PowerPoint-Präsentationen, elektronische Gesundheitsakten (EHR), digitale Bilder, Audiodateien und Videos.
In kundenorientierten Unternehmen können die in unstrukturierter Form vorliegenden Daten analysiert werden, um das Beziehungsmarketing und das Kundenbeziehungsmanagement (CRM) zu verbessern.
Techopedia erklärt unstrukturierte Daten
Unstrukturierte Daten sind Daten, die in einer weniger geordneten Form vorliegen als beispielsweise Tabellenkalkulationsseiten, Datenbanktabellen oder andere lineare oder geordnete Datensätze.
In der Tat ist der Begriff “Datensatz” hilfreich, da er mit Daten assoziiert wird, die in übersichtlichen, zugänglichen Arrays ohne zusätzlichen Inhalt vorliegen und die in einer bestimmten Struktur verknüpft oder gekennzeichnet sind.
Weitere Beispiele für unstrukturierte Textdaten sind Word-Dokumente, PowerPoint-Präsentationen, Sofortnachrichten, Software für die Zusammenarbeit, Dokumente, Bücher, Beiträge in sozialen Medien und medizinische Unterlagen. Nicht-textuelle unstrukturierte Daten werden in der Regel in Medien erstellt, z. B. MP3-Audiodateien, JPEG-Bilder und Flash-Videodateien usw.
Unstrukturierte Daten enthalten in der Regel kein vordefiniertes Datenmodell und passen möglicherweise nicht gut zu relationalen Tabellen. Unstrukturierte Daten sind meist textlastig. Sie können jedoch auch Zahlen und Daten sowie Fakten enthalten. Dies führt zu Mehrdeutigkeiten, die mit herkömmlichen Softwareprogrammen nur schwer zu erkennen sind.
Die Speicherung großer Mengen unstrukturierter Daten, die in einem Unternehmen anfallen, kann, wenn sie schlecht verwaltet werden, zu höheren Kosten führen. Daten in gedruckten Dokumenten oder in elektronischem Format müssen gescannt werden, damit eine Suchanwendung Ideen herausfiltern kann, die von den in bestimmten Kontexten verwendeten Wörtern abhängen. Dies wird als unternehmensweite oder semantische Suche bezeichnet.