Utforsk hva ustrukturerte data er, og lær hvordan det fungerer. I denne artikkelen vil du få innsikt i hvordan ustrukturerte data skiller seg fra strukturerte data
Hva betyr ustrukturerte data?
Ustrukturerte data er digital informasjon som ikke kan lagres effektivt i en relasjonsdatabase (RDMS) fordi den ikke følger forhåndsdefinerte datamodeller eller skjemaer.
Ustrukturerte data, som ofte kan være rå, blir i flere tilfeller lagret i en datalagringssjø eller datahavn (data lake). Kilder for ustrukturerte data inkluderer sensorer og aktuatorer, e-post- og tekstmeldinger, ord-dokumenter, PowerPoint-presentasjoner, elektroniske helsejournaler (EHRs), digitale bilder, lydfiler og videoer.
I bedrifter som fokuserer på kundene, kan data som finnes i ustrukturert form, analyseres for å forbedre forholdsmarkedsføring og kunderelasjonsstyring (CRM).
Techopedia forklarer ustrukturerte data
Ustrukturerte data refererer til data som følger en mindre ordnet form enn elementer som regnearksider, databasetabeller eller andre lineære eller ordnede datamengder. Faktisk er begrepet “datamengde” nyttig fordi det er knyttet til data som er i ryddige, tilgjengelige matriser, uten ekstra innhold, og som er koblet eller merket i en spesifikk struktur.
Andre eksempler på ustrukturerte tekstdata inkluderer Word-dokumenter, PowerPoint-presentasjoner, øyeblikkelige meldinger, samarbeidsprogramvare, dokumenter, bøker, innlegg i sosiale medier og medisinske journaler. Ustrukturerte data som ikke er tekst, blir vanligvis opprettet i medier, som MP3-lydfiler, JPEG-bilder og Flash-videoer, osv.
Ustrukturerte data inkluderer vanligvis ikke en forhåndsdefinert datamodell, og det kan ikke passe godt med relasjonstabeller. Ustrukturerte data er vanligvis teksttungt. Imidlertid kan det inkludere tall og datoer, samt fakta. Dette fører til tvetydigheter som er vanskelig å identifisere ved hjelp av konvensjonelle programvareprogrammer.
Lagringen av enorme mengder ustrukturerte data som genereres i en bedrift, hvis den ikke forvaltes godt, kan føre til økte kostnader. Data i hardkopidokumenter eller i elektronisk format må skannes for at en søknad skal kunne analysere ideer avhengig av ord som brukes i visse sammenhenger. Dette kalles bedrifts- eller semantisk søk.