Big Data tarkastelussa – 10 vinkkiä massadataan liittyen

Tiivistelmä

Big data on uusi ja nouseva toimialue useimmille yrityksille. Massadatan hyödyntäminen vaatii huolellista suunnittelua ja parhaiden käytäntöjen käyttöä.

Big data näyttelee nykyään yhä suurempaa osaa yritysten toiminnassa. Suuria tietomassoja käytetään ja sovelletaan useilla liiketoiminnan alueilla samalla kun data-analytiikka, tekoäly ja koneoppiminen jatkavat kasvavaa suosiotaan. Suurten tietomassojen analysoimisella voi löytää todellisen arvon valtavista tietokannoista riippumatta siitä, onko data jäsenneltyä, jäsentämätöntä tai puolijäsenneltyä.

Sosiaalisen median esiinmarssi on antanut aihetta monille uusille mahdollisuuksille kerätä tietoa asiakaskäyttäytymisestä. Tässä listassa on joitakin esimerkkejä:

  • Klikkauksiin liittyvää dataa tulee käyttäjien ollessa vuorovaikutuksessa verkkosivustojen kanssa, kuten klikkauksista ja verkkosivun pelkästä selaamisesta
  • Sosiaalisuuteen perustuvat sivustot ovat käyttäjien verkko-yhteisöjä, jotka ovat valmiita jakamaan tietoa ostokäyttäytymisestään.
  • Sensorit tarjoavat tietoa käyttjien fyysisestä ympäristöstä, kuten lämpötilasta, kosteudesta ja liikennemalleista.

Data-analytiikan tarjoamat oivallukset voivat auttaa organisaatioita päätöksentekoprosessissaan. Suurten tietomassojen todellinen hyöty saavutetaan vain, jos sitä hallitaan asianmukaisesti. Organisaatiot voivat välttää hukkumisen suurten tietomassojen kanssa varmistamalla, että datan analysointi tehdään asianmukaisella tavalla.

Ensimmäinen askel ennen massadataan liittyvän projektin aloittamista on tietysti hyvä suunnittelu. Organisaation on selkeästi tiedettävä projektin tarkoitus ja määriteltävä sen tiekartta. Suunnittelijoiden tulisi myös tunnistaa, minkälaista lisäarvoa he haluavat muodostaa ja kuinka se vaikuttaa liiketoimintapäätöksiin.

Tässä artikkelissa tutkimme tekijöitä, joita kannattaa ottaa huomioon massadatan analysoimisessa ja tutkimisessa.

Lue myös: Kestävä kehitys IT-alalla – kohti parempaa tulevaisuutta

1. Mikä on big datan tarkoitus ja lähtökohta

Tietojen keräämisen tarkoituksen ja lähtökohdan tunnistaminen on erittäin kriittistä minkä tahansa suuren tietomassaprojektin menestyksen kannalta. Ensimmäisenä organisaation tulisi tunnistaa liiketoiminnalle tärkeimmät käyttötapaukset, joita projektissa halutaan tarkastella. Tämä auttaa organisaatiota tunnistamaan kyseisiä käyttötapauksia varten tarvittavat komponentit.

Sen jälkeen tulisi tehdä asianmukaista ja tarkkaa suunnittelua, jotta suurten tietomassojen tekniikoita voidaan soveltaa näihin käyttötapauksiin ja saada tätä kautta arvokasta näkemystä liiketoiminnan kasvun edistämiseksi.

Prioriteettien tulisi riippua tekijöistä, kuten:

  • Kustannukset
  • Odotettu vaikutus liiketoimintaan
  • Tarvittava aika projektin aloittamiseen
  • Toteutuksen nopeus

Organisaatioiden tulisi aina aloittaa yksinkertaisesta ja helposti toteutettavasta sovelluksesta, joka toimii pilottiprojektina.

2. Tutki luvat huolellisesti

Big data on nykyään se varsinainen polttoaine kaikille suurille analytiikkaprojekteille. Siksi on erittäin tärkeää suojata data mahdollisilta väärinkäytöksiltä.

Ennen datan käyttöoikeuden myöntämistä millekään kolmannen osapuolen käyttäjälle tulisi olla paikallaan tarkistaa ja luoda asianmukaiset lisenssiehdot. Ehdoissa tulisi selvästi mainita seuraavat perusasiat.

  • Kuka tulee käyttämään dataa?
  • Minkälaista dataa tulee olemaan saatavilla?
  • Miten dataa tullaan käyttämään?

Jos lisenssissä on puutteita, siitä voi pahimmillaan seurata datan menetys tai mahdollisia väärinkäytöksiä, jotka tulevat väistämättä vaikuttamaan liiketoimintaan negatiivisesti.

3. Salli big datan demokratisointi

Datan demokratisointi voidaan määritellä jatkuvaksi prosessiksi, jossa jokainen organisaation työntekijä pääsee käsiksi dataan. Yritykseen kuuluvat ihmiset tulisi olla mukavuusalueellaan työskennellessään datan kanssa, joten sen helppo saatavuus sekä koulutus ovat keskeisessä asemassa.

Datan demokratisointi auttaa organisaatioita muuttumaan ketterämmiksi ja tekemään tietoon perustuvia liiketoimintapäätöksiä. Tämä voidaan saavuttaa perustamalla asianmukainen prosessi. Ensinnäkin datan tulisi olla saatavilla kaikilla toimintatasoilla – organisaation rakenteesta riippumatta. Toiseksi yksittäinen lähde tulisi perustaa heti datan validoinnin jälkeen.

Kolmanneksi kaikkien tulisi saada tarkistaa tiedonlähde ja antaa oma panoksensa sen kehittämisessä. On myös hyvä muistaa, että uusia ideoita voidaan testata ottamalla laskelmoituja riskejä. Jos uusi idea on toimiva, organisaatiot voivat kehittyä eteenpäin helpommin.

4. Rakenna yhteistyöhön perustuva työkulttuuri

Suurten tietomassojen osalta eri osastojen ja ryhmien välinen yhteistyö organisaatiossa on erittäin tärkeää. Niihin liittyvät kehitysideat voivat olla menestyksiä vain silloin, kun organisaatiossa on rakennettu asianmukainen kulttuuri kaikilla tasoilla – rooleista ja vastuista riippumatta.

Organisaation johtajilla tulisi olla selvä visio tulevaisuudesta, ja heidän tulee kannustaa työntekijöitä luomaan uusia ideoita. Kaikkien työntekijöiden ja heidän osastojensa tulisi saada mahdollisuus löytää tilaisuuksia ja rakentaa prosesseja niiden validointiin. Mahdollisia esteitä uusien ajatuksien ja toiminnan kehittämiselle ei tulisi olla.

Kannattaa muistaaa, että toimiva organisaatio on samalla myös oppimisprosessi, joka on hyväksyttävä yhtä lailla sekä menestyksen että epäonnistumisen kohdatessa.

5. Tutki suurten tietomassojen infrastruktuuria

Mikä tahansa suurten tietomassojen projekti on yhtä tärkeä myös infrastruktuurin osalta. Datan määrä mitataan petatavuissa, joten sitä on tarjolla valtavat määrät. Tämän vuoksi datan tallentamiseen ja sen käsittelyyn liittyvät infrastruktuurit tulee olla asianmukaisessa kunnossa.

Tietokeskuksia käytetään datan tallennustarkoituksiin, joten niiden on oltava kunnossa esimerkiksi komponenttien, tiedonhallinnan, varmuuskopioiden, luotettavuuden, turvallisuuden, skaalautuvuuden ja monien muiden tekijöiden suhteen.

Samoin suurten tietomassojen käsittely ja siihen liittyvä teknologia-infrastruktuuri on tarkistettava huolellisesti ja kehitettävä tarvittavalle tasolle. Pilvipalvelut ovat yleensä erittäin joustavia niiden käytön ja kustannusten suhteen. Vakiintuneisiin pilvipalveluiden tarjoajiin kuuluvat suuret toimijat kuten AWS, Azure ja GCP, mutta markkinoilla on myös monia muita palveluntarjoajia.

6. Älä hukuttaudu tietomassoihin

Hyvä tietohallinto on erittäin tärkeää suuriin tietomassoihin perustuvien projektien onnistumisen kannalta. Asianmukainen tietojen kerääminen tulisi suunnitella ennen toteutusta.

Yleensä organisaatioilla on taipumus kerätä jokainen yritykseen liiketoimintaan liittyvä tiedonpalanen. Kaikki tämä data ei kuitenkaan välttämättä sovi nykyisiin liiketoimintaskenaarioihin. Siksi on tärkeää tunnistaa ensin liiketoiminnan käyttötapaukset ja määrittää se, missä kerättyä dataa voidaan soveltaa.

Kun tietostrategia on hyvin määritelty ja se on suoraan yhteydessä liiketoiminnan soveltamiseen, seuraava askel voidaan suunnitella tarkemmin. Tämän jälkeen uutta dataa voidaan lisätä parantamaan liiketoimintamallia ja sen tehokkuutta.

7. Älä unohda avoimen lähdekoodin ratkaisuja

Teknologian hyödyllisyyttä ja siihen liittyviä eri vaihtoehtoja tulisi arvioida projektin koon ja organisaation budjetin perusteella. Monia avoimen lähdekoodin alustoja on saatavilla ilmaiseksi pilottiprojektien toteuttamiseen. Pienet ja keskisuuret organisaatiot voivat tutkia näitä avoimen lähdekoodin ratkaisuja aloittaakseen projektinsa suuriin tietomassoihin liittyen. Siksi organisaation fokus tulisi olla tuloksessa ja sijoitetun pääoman tuotossa.

Esimerkiksi Hadoop on avoimen lähdekoodin ohjelmistoympäristö, joka käyttää HDFS:ää (Hadoop Distributed File System) ja MapReducea suurten tietomassojen analysoimiseen tavallisen laitteiston klustereissa – eli hajautetussa laskentaympäristössä.

Suurten tietomassojen käsittely on kehittynyt siihen pisteeseen, että Hadoopista on tullut de facto -standardi suurten tietomassojen käsittelyyn. MapReduce on ohjelmointimalli datan jakamiseen ja sen käsittelyyn tietokoneita käyttäen.

Sen kehitti alun perin Google tehokkaaseen suurten tietomäärien käsittelyyn suurilla tietokoneklustereilla.

8. Älä aloita ilman asianmukaista suunnittelua

On erittäin vaarallista aloittaa useita massadata-projekteja samaan aikaan. Tämä lähestymistapa johtaa todennäköisesti vain osittaiseen menestykseen tai täydelliseen epäonnistumiseen.

Siksi organisaatioiden tulisi tehdä tarkkoja suunnitelmia ennen suurien Big Data -projektien käynnistämistä – sen sijaan ne aloitettaisiin hätiköiden. On aina suositeltavaa aloittaa yksinkertaisella, pienellä ja helposti mitattavalla sovelluksella.

Kun pilottiprojekti on onnistuneesti saatettu päätökseen, sitä voidaan soveltaa laajamittaisissa sovelluksissa. On tärkeää käyttää aikaa suunnitelman kehittämiseen ja pilottiprojektin valintaan huolellisesti.

9. Älä laiminlyö turvallisuutta

Tietoturva on yksi tärkeä osa-alue Big Data -projekteissa. Useissa suurten tietomassojen skenaariossa petatavujen verran dataa käsitellään eri lähteistä. Käsitelty data toimii sen jälkeen syötteenä analyyttiselle mallille. Analytiikan tuloksena on parhaillaan arvokkaita vinkkejä liiketoiminnan kehittämiseen.

Kun raakadata on jalostettu ja merkityksellistä tietoa on louhittu raakadatasta, seuraa koko projektin kenties tärkein vaihe.

On myös hyvä muistaa, että kun data sisältää kriittistä liiketoimintatietoa, siitä tulee arvokasta organisaatiolle. Siksi tämän datan on oltava suojattu ulkoisilta uhilta. Tietoturvan on oltava suunniteltu osaksi suurten tietomassojen toteutuksen elinkaarta.

10. Älä keskity eristettyihin liiketoimintayksiköihin

Nykyaikaisissa ja usein monimutkaisissa liiketoiminnoissa yhteen liiketoimintayksikköön keskittyminen ei välttämättä ole viisainta. Organisaatioiden tulisi ottaa kattava näkökulma koko liiketoimintaan ja ajatella toimintaa laajemmasta näkökulmasta.

Paras lähestymistapa on ottaa pieniä askeleita kerrallaan ja muistaa pitää kokonaisuus jatkuvasti mielessä. Fokus tulisi olla kokonaisvaltainen liiketoimintayksiköiden osalta. Tällä on positiivinen vaikutus ja parempi sijoitetun pääoman tuotto.

Big data vinkit – yhteenveto

Suurten tietomassojen projekteille ja niiden toteuttamisille ei ole olemassa jotain tiettyä menestyspolkua. Viime kädessä se on yhdistelmä suunnittelua, strategiaa, erilaisia lähestymistapoja ja useita muita tekijöitä, jotka johtavat parhaassa tapauksessa myös organisaation liiketoiminnan menestykseen.

Jokaisella organisaatiolla on tietty tavoite saavutettavaksi, joten strategian tulisi olla suunniteltu sen mukaisesti. Esimerkiksi pilottiprojekti olisi valittava huolellisesti, jotta tuloksena oleva tieto olisi mahdollisimman relevanttia.

Kaushik Pal

Kaushik on tekninen arkkitehti ja ohjelmistokonsultti, jolla on yli 23 vuoden kokemus ohjelmistoanalyysista, kehityksestä, arkkitehtuurista, suunnittelusta, testauksesta ja koulutusalalta. Hänellä on kiinnostus uusiin teknologioihin ja innovaatioalueisiin. Hän keskittyy web-arkkitehtuuriin, verkkoteknologioihin, Java/J2EE:hen, avoimen lähdekoodin ohjelmistoihin, WebRTC:hen, suuriin tietoihin ja semanttisiin teknologioihin. Hän on osoittanut asiantuntemuksensa vaatimusanalyysissä, arkkitehtuurin suunnittelussa ja toteutuksessa, teknisten käyttötapausten laatimisessa ja ohjelmistokehityksessä. Hänen kokemuksensa on kattanut eri toimialat, kuten vakuutus, pankki, lentoyhtiöt, merenkulku, asiakirjahallinta ja tuotekehitys, jne. Hän on työskennellyt laajan valikoiman teknologioiden parissa aina suurten tietokonejärjestelmien (IBM S/390), keskisuuren tason (AS/400), web-teknologioiden, avoimen lähdekoodin ja suurten tietojen alueille. Kaushik on pääasiassa mukana Java/J2EE/avoimen lähdekoodin/verkko/WebRTC/Hadoop- ja suurten tietojen…