Big Data

Hva er big data?

Big Data er et samlebegrep som brukes for å beskrive ekstremt store datasett som er vanskelige å behandle og analysere på en rimelig tid med tradisjonelle metoder.

Oftest består big data av strukturerte, ustrukturerte og semistrukturerte data. Det kjennetegnes formelt av sine fem V’er: volum, velocity, variety, veracity og value.

  • Volume beskriver den enorme skalaen og størrelsen på datasett som inneholder terabyte, petabyte eller exabyte med data.
  • Velocity beskriver den høye hastigheten som store mengder nye data genereres.
  • Variety beskriver det brede utvalget av datatyper og formater som genereres.
  • Veracity beskriver kvaliteten og integriteten til dataene i et ekstremt stort datasett.
  • Value beskriver dataenes evne til å bli omdannet til handlingsrettet innsikt.

Eksempler

Big Data kommer fra en rekke kilder på tvers av ulike bransjer og domener. Nedenfor er noen eksempler på kilder til store datasett og typene data de inkluderer.

Big Data Kilde Beskrivelse
Kundedata Data samlet gjennom CRM-systemer, inkludert kundeprofiler, salgsopptegnelser og kundeinteraksjoner.
E-commerce transaksjoner

Data generert fra nettbaserte handelsplattformer, inkludert kundeordrer, produktdetaljer, betalingsinformasjon og kundeanmeldelser.

Finansielle transaksjoner Data hentet fra banksystemer, kredittkorttransaksjoner, aksjemarkeder og andre finansielle plattformer.
Offentlige data Data levert av offentlige etater, folketellingsdata, offentlig transportdata og værdata.
Helse- og Medisinske Register Data fra elektroniske pasientjournaler (EHR), medisinsk bildebehandling, bærbare helseenheter, kliniske studier og pasientovervåkingssystemer.
Internet of Things (IoT) enheter Data samlet fra ulike IoT-enheter som intelligente sensorer, smarte apparater, bærbare enheter og tilkoblede kjøretøy.
Forskning og Vitenskapelige Data Data fra forskningseksperimenter, akademiske studier, vitenskapelige observasjoner, digitale tvilling-simuleringer og genomsekvensering.
Sensor Nettverk Data samlet fra miljøsensorer, industriell maskineri, trafikkovervåkingssystemer og andre trådløse sensornettverk
Sosiale Medieplattformer Data generert fra sosiale medieplattformer som Facebook, Twitter, Instagram og LinkedIn, inkludert innlegg, kommentarer, likes, delinger og brukerprofiler.
Nett- og Mobilapplikasjoner Data produsert av brukere under interaksjon med nettsteder, mobilapper og nettbaserte tjenester, inkludert klikk, sidevisninger og brukeratferd.

Betydning

Big Data er viktig på grunn av sitt potensiale til å avdekke mønstre, trender og andre innsikter som kan brukes til å ta datadrevne beslutninger.

Fra et forretningsperspektiv hjelper Big Data organisasjoner med å forbedre operasjonell effektivitet og optimalisere ressurser. For eksempel, ved å aggregere store datasett og bruke dem til å analysere kundeatferd og markeds trender, kan en e-handelsbedrift ta beslutninger som vil føre til økt kundetilfredshet, lojalitet – og til slutt, inntekter.

Fremgang innen åpen kildekodeverktøy som kan lagre og behandle store datasett har betydelig forbedret Big Data-analyse. Apaches aktive fellesskap har ofte blitt kreditert med å gjøre det lettere for nykommere å bruke Big Data til å løse virkelige problemer.

Ulike typer Big Data

Big Data kan kategoriseres i tre hovedtyper: strukturerte, ustrukturerte og semistrukturerte data.

  • Strukturert Big Data: Det er svært organisert og følger et forhåndsdefinert skjema eller format. Det lagres vanligvis i regneark eller relasjonsdatabaser. Hvert datavare har en spesifikk datatype og er assosiert med forhåndsdefinerte felt og tabeller. Strukturert data kjennetegnes av sin konsistens og ensartethet, noe som gjør det lettere å spørre, analysere og behandle ved hjelp av tradisjonelle databasestyringssystemer.
  • Ustrukturert Big Data: Det har ikke en forhåndsdefinert struktur og kan eller ikke etablere tydelige relasjoner mellom forskjellige dataenheter. Identifisering av mønstre, følelser, relasjoner og relevant informasjon innen ustrukturerte data krever vanligvis avanserte AI-verktøy som naturlig språkbehandling (NLP), naturlig språkforståelse (NLU) og datavisjon.
  • Semistrukturert Big Data: inneholder elementer av både strukturerte og ustrukturerte data. Det besitter en delvis organisatorisk struktur, som XML- eller JSON-filer, og kan inkludere loggfiler, sensordata med tidsstempel og metadata.

I de fleste tilfeller er en organisasjons data en blanding av alle tre datatyper. For eksempel kan et stort datasett for en e-handelsleverandør inkludere strukturerte data fra kundedemografi og transaksjonsopptegnelser, ustrukturerte data fra kundetilbakemeldinger på sosiale medier og semistrukturerte data fra intern e-postkommunikasjon.

Utfordringer

Utviklingen av big data siden begynnelsen av århundret har vært en berg-og-dalbane av utfordringer etterfulgt av løsninger.

I starten var et av de største problemene med de enorme mengdene data som ble generert på internett, at tradisjonelle databasestyringssystemer ikke var designet for å lagre den rene datamengden produsert av bedrifter som digitaliserte seg.

Omtrent samtidig ble dataenes variasjon en betydelig utfordring. I tillegg til tradisjonell strukturert data, introduserte sosiale medier og IoT semi-strukturerte og ustrukturerte data i blandingen. Som et resultat måtte selskaper finne måter å effektivt prosessere og analysere disse varierte datatypene, en annen oppgave som tradisjonelle verktøy var dårlig egnet for.

Ettersom datavolumet vokste, økte også mengden av feilaktige, inkonsistente eller ufullstendige informasjoner, og datamaskinering ble en betydelig hindring.

Det tok ikke lang tid før nye bruksområder for ekstremt store datasett reiste en rekke nye spørsmål om databeskyttelse og informasjonssikkerhet. Organisasjoner måtte være mer transparente om hvilke data de samlet inn, hvordan de beskyttet dem, og hvordan de brukte dem.

Ulike datatyper må typisk kombineres til et enkelt, konsistent format for dataanalyse. Variasjonen av datatyper og formater i store semi-strukturerte datasett gir fortsatt utfordringer for dataintegrasjon, analyse og tolkning.

For eksempel kan et selskap måtte blande data fra en tradisjonell relasjonsdatabase (strukturerte data) med data skrapt fra sosiale medieinnlegg (ustrukturerte data). Prosessen med å transformere disse to datatypene til et enhetlig format som kan brukes til analyse kan være tidkrevende og teknisk vanskelig.

Fremskritt innen maskinlæring og kunstig intelligens (AI) har bidratt til å adressere mange av disse utfordringene, men de er ikke uten sine egne sett med vanskeligheter.

Big Data Verktøy

Å håndtere store datasett som inneholder en blanding av datatyper krever spesialiserte verktøy og teknikker skreddersydd for å håndtere og prosessere varierte dataformater og distribuerte datastrukturer. Populære verktøy inkluderer:

  • Azure Data Lake: En Microsoft skytjeneste kjent for å forenkle kompleksiteten av å innta og lagre store mengder data.
  • Beam: En åpen kildekode-unifisert programmeringsmodell og sett av API-er for batch- og strømprosessering på tvers av forskjellige big data-rammeverk.

    Cassandra: En åpen kildekode, svært skalerbar, distribuert NoSQL-database designet for å håndtere store mengder data over flere vanlige servere.

  • Databricks: En enhetlig analyseplattform som kombinerer dataingeniør- og datavitenskapsfunksjoner for behandling og analyse av store datasett.
  • Elasticsearch: En søke- og analyseplattform som muliggjør rask og skalerbar søking, indeksering og analyse for ekstremt store datasett.
  • Google Cloud: En samling av big data-verktøy og -tjenester tilbudt av Google Cloud, slik som Google BigQuery og Google Cloud Dataflow.
  • Hadoop: Et mye brukt åpen kildekode-rammeverk for behandling og lagring av ekstremt store datasett i et distribuert miljø.
  • Hive: Et åpen kildekode-datahotell og SQL-lignende spørringsverktøy som kjører på toppen av Hadoop for å legge til rette for spørring og analyse av store datasett.
  • Kafka: En åpen kildekode distribuert strømningsplattform som tillater sanntids databehandling og meldinger.
  • KNIME Big Data Extensions: Integrerer kraften til Apache Hadoop og Apache Spark med KNIME Analytics Platform og KNIME Server.
  • MongoDB: En dokumentorientert NoSQL-database som gir høy ytelse og skalering for big data-applikasjoner.
  • Pig: Et åpen kildekode høynivå dataflyt-skriptspråk og utførelsesrammeverk for behandling og analyse av store datasett.
  • Redshift: Amazons fullt administrerte, petabyte-skala datahotell-tjeneste.
  • Spark: En åpen kildekode dataprosesseringsmotor som gir raske og fleksible analyse- og databehandlingskapasiteter for ekstremt store datasett.
  • Splunk: En plattform for søking, analyse og visualisering av maskin-genererte data, slik som logger og hendelser.
  • Tableau: Et kraftig data-visualiseringsverktøy som hjelper brukere med å utforske og presentere innsikt fra store datasett.
  • Talend: Et åpen kildekode dataintegrerings- og ETL (Extract, Transform, Load) verktøy som legger til rette for integrering og behandling av ekstremt store datasett.

Big Data og AI 

Big data har vært nært knyttet til fremskritt innen kunstig intelligens som generativ AI fordi, inntil nylig, måtte AI-modeller  bli matet med enorme mengder treningsdata slik at de kunne lære å oppdage mønstre og gjøre nøyaktige forutsigelser.

I fortiden ble aksiomet “Big data er for maskiner. Små data er for mennesker.” ofte brukt for å beskrive forskjellen mellom big data og små data, men den analogien holder ikke lenger. Ettersom AI- og ML-teknologier fortsetter å utvikle seg, reduseres behovet for big data for å trene enkelte typer AI- og ML-modeller, spesielt i situasjoner der aggregasjon og håndtering av big data-sett er tidkrevende og dyrt.

I mange praktiske scenarioer er det ikke gjennomførbart å samle store mengder data for hver mulig klasse eller konsept som en modell kan møte. Følgelig har det vært en trend mot å bruke big data grunnleggende modeller for forhåndstrening og små datasett for finjustering.

Skiftet bort fra big data til bruk av små data for å trene AI- og ML-modeller drives av flere teknologiske fremskritt, inkludert transfer learning og utviklingen av zero-shot, one-shot og few-shot læringsmodeller.

Relaterte begreper

Margaret Rouse

Margaret Rouse er en prisbelønt teknisk skribent og lærer som er kjent for sin evne til å forklare kompliserte tekniske emner for et ikke-teknisk, forretningsmessig publikum. I løpet av de siste tjue årene har forklaringene hennes blitt publisert på TechTarget-nettsteder, og hun har blitt sitert som en autoritet i artikler i New York Times, Time Magazine, USA Today, ZDNet, PC Magazine og Discovery Magazine. Margarets idé om en morsom dag er å hjelpe IT- og forretningsfolk med å lære å snakke hverandres høyt spesialiserte språk. Hvis du har forslag til en ny definisjon eller ønsker å forbedre en teknisk forklaring,…