10 ting du bør, og ikke bør, gjøre med stordata – “Big Data”

VIKTIGE KONKLUSJONER

Stordata - “Big data” på engelsk, er et nytt og fremvoksende område for de fleste selskaper. For å få det til å fungere kreves det nøye finjustering og bruk av beste praksis. Her er 10 viktige tips.

Big data brukes og anvendes på tvers av flere forretningsområder etter hvert som dataanalyse, kunstig intelligens og maskinlæring blir stadig mer vanlig. Med stordata analyse kan man hente ut den virkelige verdien av denne mengden data, og disse dataene kan være strukturerte, ustrukturerte eller halvstrukturerte.

Fremveksten av sosiale medier har gitt mange nye muligheter til å samle inn data om kundeatferd. Her er noen eksempler:

  • Clickstream-data kommer fra interaksjoner på nettstedet, for eksempel museklikk og skrolling på nettsiden.
  • Sosiale bedriftsnettsteder er nettsamfunn med kunder som er villige til å dele informasjon om kjøpsatferden sin.
  • Sensorer gir data om kundenes fysiske omgivelser, for eksempel temperatur, luftfuktighet og trafikkmønster.

Innsikten fra dataanalyse kan hjelpe organisasjoner i beslutningsprosessen. Men den virkelige fordelen med stordata oppnås bare hvis de håndteres på riktig måte. Organisasjoner kan unngå å gå seg vill i stordataområdet ved å sikre at de identifiserer utgangspunktet med enkle brukstilfeller og implementerer det for å kontrollere resultatene raskt.

Det første steget før man setter i gang et big data -initiativ, er god planlegging. En organisasjon må være klar over formålet med prosjektet. De bør også identifisere hvilken verdi de ønsker å hente ut, og hvordan det vil påvirke forretningsbeslutningene. Det mest lovende området bør velges til å begynne med.

I denne artikkelen skal vi se nærmere på hva man bør og ikke bør gjøre i forbindelse med stordatainitiativer.

1. Kjenn formålet og utgangspunktet

Formålet med datainnsamlingen og identifisering av utgangspunktet er helt avgjørende for at et stordata prosjekt skal lykkes. Til å begynne med bør målet være å identifisere de mest lovende bruksområdene for virksomheten. Det vil hjelpe organisasjonen med å identifisere komponentene for disse bruksområdene.

Deretter bør man planlegge hvordan man kan bruke Big Data -teknikker på disse bruksområdene og hente ut verdifull innsikt som kan bidra til virksomhetens vekst. Prioriteringen av utførelsen bør avhenge av faktorer som f.eks:

  • Kostnad for implementering.
  • Forventet innvirkning på virksomheten.
  • Hvor lang tid det tar å starte opp.
  • Rask implementering.

Organisasjoner bør alltid starte med en enkel og lett implementerbar applikasjon som et pilotprosjekt.

2. Evaluer datalisenser på riktig måte

Data er drivkraften i alle stordata- og analyseprosjekter. Det er derfor svært viktig å beskytte dataene mot misbruk. Før du gir datatilgang til en leverandør eller tredjepartsbruker, må du sørge for at lisensvilkårene er på plass. Datalisensen bør inneholde følgende grunnleggende punkter. Merk at lisensavtalen inneholder også mange andre viktige parametere.

  • Hvem skal bruke dataene?
  • Hvilke data vil være tilgjengelige?
  • Hvordan skal dataene brukes?

Dersom lisensieringen svikter, vil tap og misbruk av data utvilsomt ha en negativ innvirkning på virksomheten.

3. Tillat demokratisering av data

Datademokratisering kan defineres som en kontinuerlig prosess der alle i en organisasjon får tilgang til dataene. Medarbeiderne i en organisasjon bør være komfortable med å jobbe med dataene og uttrykke sin mening på en trygg måte.

Datademokratisering hjelper organisasjoner med å bli mer fleksible og ta datainformerte forretningsbeslutninger. Dette kan oppnås ved å etablere en god prosess. For det første bør dataene være tilgjengelige for alle nivåer, uavhengig av organisasjonsstruktur. For det andre bør det etableres én enkelt sannhetskilde (kalt “den gylne kilden”) etter at dataene er validert. For det tredje bør alle ha mulighet til å sjekke dataene og komme med innspill. For det fjerde kan de nye ideene testes ved å ta kalkulert risiko. Hvis den nye ideen er vellykket, kan organisasjonen gå videre, hvis ikke kan den anses som en lærdom.

4. Bygg opp en samarbeidskultur

Når det gjelder stordata, er samarbeid mellom ulike avdelinger og grupper i en organisasjon svært viktig. Et stordata initiativ kan bare lykkes når det bygges en god organisasjonskultur på tvers av alle lag, uavhengig av roller og ansvarsområder.

Ledelsen i en organisasjon bør ha en klar visjon for fremtiden og oppmuntre til nye ideer. Alle ansatte og deres avdelinger bør få lov til å finne muligheter og utvikle konsepter for å validere dem. Det skal ikke være noen politikk som klandrer og stopper spillet. Det er alltid en læringsprosess, og både suksess og fiasko må aksepteres i like stor grad.

5. Evaluer infrastrukturen for stordata

Infrastrukturdelen av ethvert projekt med big data er like viktig. Datavolumet måles i petabyte, og dataene behandles for å gi innsikt. Derfor må både lagrings- og prosesseringsinfrastrukturen evalueres på riktig måte.

Datasentre brukes til lagringsformål og må derfor evalueres med tanke på kostnadskomponenter, administrasjon, back-up, pålitelighet, sikkerhet, skalerbarhet og mange andre faktorer. (Les også: 6 viktige risikoer ved offentlige nettskyer).

På samme måte må behandlingen av stordata og den tilhørende teknologiske infrastrukturen kontrolleres nøye før avtalen inngås. Skytjenester er generelt svært fleksible når det gjelder bruk og kostnader. Blant de etablerte skyleverandørene finner vi store aktører som AWS, Azure og GCP, men det finnes mange flere på markedet.

6. Ikke gå deg vill i mengden av data

God datastyring er svært viktig for å lykkes med stordata prosjekter. En god strategi for datainnsamling bør planlegges før implementeringen. Generelt er det en tendens til å samle inn alle eldre data i en virksomhet. Men det er ikke sikkert at alle disse dataene passer godt inn i dagens forretningsscenarioer. Derfor er det viktig å først identifisere virksomhetens bruksområder og finne ut hvor dataene skal brukes.

Når datastrategien er veldefinert og direkte koblet til forretningsapplikasjonen, kan neste trinn i implementeringen planlegges. Etter dette kan nye data legges til for å forbedre modellen og dens effektivitet.

7. Ikke glem åpen kildekode

Nytten av teknologien du vurderer, bør vurderes ut fra prosjektets størrelse og organisasjonens budsjett. Mange plattformer med åpen kildekode er gratis tilgjengelige for pilotprosjekter. Små og mellomstore organisasjoner kan utforske disse open sourc e-løsningene for å komme i gang med stordata. Organisasjonens fokus bør være på resultatet og avkastningen.

Hadoop er et rammeverk for programvare med åpen kildekode som bruker HDFS (Hadoop Distributed File System) og MapReduce til å analysere stordata på klynger av maskinvare – det vil si i et distribuert databehandlingsmiljø. (Les: Hvordan kan jeg bruke Hadoop til å analysere stordata?)

Big Data -bevegelsen har modnet til et punkt der Hadoop har blitt de facto-standarden for behandling av stordata. MapReduce er en programmeringsmodell for å distribuere data og behandle dem parallelt i en klynge av datamaskiner ved hjelp av enkle programmeringsmodeller. Den ble utviklet av Google for effektiv behandling av store datamengder på store dataklynger.

8. Ikke start uten skikkelig planlegging

Det er en svært farlig trend å starte alle stordataprosjekter på én gang. Denne tilnærmingen vil sannsynligvis bare føre til delvis suksess eller total fiasko. Organisasjoner bør planlegge skikkelig før de setter i gang med stordatainitiativer, i stedet for å satse alt på én gang. Det anbefales alltid å starte med en enkel, liten og målbar applikasjon.

Når pilotprosjektet er vellykket, kan det implementeres i større skala. Det er viktig å ta seg tid til å utvikle en plan og velge pilotprosjektet med omhu.

9. Ikke forsøm sikkerheten

Datasikkerhet er et annet viktig aspekt ved stordata prosjekter. I et stordata scenario hentes petabytevis med data fra ulike kildesystemer, som deretter behandles. De bearbeidede dataene er input til analysemodellen. Resultatet av analysen er verdifull innsikt for virksomheten. Når rådataene er bearbeidet og meningsfull informasjon er hentet ut fra rådataene, er det viktig å sikre konfidensialitet, integritet og tilgjengelighet (CIA) for denne informasjonen.

Når dataene inneholder kritisk forretningsinformasjon, blir de verdifulle for organisasjonen. Derfor må disse dataene sikres mot eksterne trusler. Datasikkerhet må planlegges som en del av livssyklusen for implementering av stordata. (Les også: Sikkerhet i nettskyen: 5 vanlige cybertrusler).

10.  Ikke fokuser på isolerte forretningsenheter

I dagens komplekse forretningsscenario hjelper det ikke å fokusere på én enkelt forretningsenhet. Organisasjoner bør ha et overordnet syn på virksomheten som helhet og tenke i et globalt perspektiv. Den beste tilnærmingen er å ta små skritt av gangen og beholde et globalt perspektiv. Fokuset bør være helhetlig når det gjelder forretningsenheter. Det vil gi positive effekter og bedre avkastning.

Konklusjon

Det finnes ingen spesifikk vei til suksess for implementering av stordata. Det er en kombinasjon av planlegging, strategi, tilnærming og en rekke andre faktorer som fører til suksess.

Hver organisasjon har et spesifikt mål å oppnå, så strategien bør planlegges deretter, pilotprosjektet må velges med omhu, og den resulterende informasjonen må beskyttes og behandles på riktig måte. Det er også en rekke aktører som kan hjelpe med big data og big data analytics er en stadig voksende bransje, med en rekke programmer som kan hjelpe deg.

Kaushik Pal

Kaushik er en teknisk arkitekt og programvarekonsulent med over 23 års erfaring innen programvareanalyse, utvikling, arkitektur, design, testing og opplæring. Han har interesse for nye teknologier og innovasjonsområder. Han fokuserer på webarkitektur, webteknologier, Java/J2EE, åpen kildekode, WebRTC, stordata og semantiske teknologier. Han har demonstrert ekspertise innen kravsanalyse, arkitektonisk design og implementering, tekniske bruksmønstre og programvareutvikling. Hans erfaring dekker forskjellige bransjer som forsikring, bank, flyselskaper, shipping, dokumenthåndtering og produktutvikling, osv. Han har jobbet med et bredt spekter av teknologier som spenner fra stor skala (IBM S/390), medium skala (AS/400), webteknologier, åpen kildekode og stordata. Kaushik er hovedsakelig involvert i Java/J2EE/Open Source/Web/WebRTC/Hadoop…