Mitä on Big Data (Massadata)?

Avoin toiminta

Massadata, eli paremmin tunnettu nimellä Big Data, tulee tehostamaan toimintoja monipuolisesti ja useilla eri aloilla. Miten? Se selviää tästä artikkelista.

Mitä on big data?

Big data on kattotermi, jolla kuvataan erittäin suuria tietojoukkoja, joita on vaikea käsitellä ja analysoida kohtuullisessa ajassa perinteisillä menetelmillä, kuten kuluttajatason tietokoneilla.

Pähkinänkuoressa big data koostuu strukturoidusta, strukturoimattomasta ja puolistrukturoidusta datasta. Sille on muodollisesti tunnusomaista niin sanotut viisi V:tä: tilavuus (volume), nopeus (velocity), vaihtelu (variation), todenmukaisuus (veracity) ja arvo (value).

  • Tilavuus kuvaa teratavuja, petatavuja tai eksatavuja, eli dataa sisältävien tietojoukkojen valtavaa mittakaavaa ja kokoa.
  • Nopeus kuvaa sitä suurta nopeutta, jolla valtavia määriä uutta dataa tuotetaan.
  • Vaihtelu kuvaa laajaa valikoimaa erilaisia tietotyyppejä ja -muotoja, joita luodaan.
  • Todenmukaisuus kuvaa tietojen laatua ja eheyttä erittäin suuressa tietojoukossa.
  • Arvo kuvaa tietojen kykyä muuntaa käyttökelpoisiksi oivalluksiksi.

Big Data esimerkkejä

Big Data lähde Kuvaus
Asiakastiedot CRM-järjestelmien kautta kerätyt tiedot, mukaan lukien asiakasprofiilit, myyntitietueet ja vuorovaikutustiedot.
Verkkokauppojen tilaustiedot Verkkokaupan alustoilta kerätyt tiedot, mukaan lukien asiakkaiden tilaukset, tuotetiedot, maksutiedot ja asiakasarvostelut.
Rahaliikenne Tiedot, jotka on saatu pankkijärjestelmistä, luottokorttitapahtumista, osakemarkkinoilta ja muilta rahoitusalustoilta.
Valtiolliset tiedot Valtion virastojen toimittamat tiedot, väestönlaskentatiedot, joukkoliikennetiedot ja säätiedot.
Terveysalan tiedot Tiedot sähköisistä terveystietueista (EHR), lääketieteellisestä kuvantamisesta, puettavista terveyslaitteista, kliinisistä kokeista ja potilaiden seurantajärjestelmistä.
Esineiden Internet (IoT) Tietoa kerätään eri IoT-laitteista, kuten älykkäistä antureista, älylaitteista, puettavista laitteista ja yhdistetyistä ajoneuvoista.
Tutkimustieto Tietoa tutkimuskokeista, akateemisista tutkimuksista, tieteellisistä havainnoista, digitaalisista kaksoissimulaatioista ja genomista sekvensoinnista.
Anturiverkot Tiedot kerätään ympäristöantureista, teollisuuskoneista, liikenteenvalvontajärjestelmistä ja muista langattomista anturiverkoista.
Sosiaalisen median alustat Tiedot, jotka on kerätty sosiaalisen median alustoista, kuten Facebookista, Twitteristä, Instagramista ja LinkedInistä, mukaan lukien viestit, kommentit, tykkäykset, jaot ja käyttäjäprofiilit.
Verkko- ja mobiilisovellukset Tiedot, jotka käyttäjät tuottavat ollessaan vuorovaikutuksessa verkkosivustojen, mobiilisovellusten ja verkkopalvelujen kanssa, mukaan lukien klikkaukset, näyttökerrat ja käyttäjien käyttäytyminen.

Big Datan merkitys

Big data on tärkeä osa tätä päivää ja tulevaisuutta, koska se voi paljastaa malleja, trendejä ja muita oivalluksia, joita voidaan käyttää parempien datalähtöisten päätösten tekemiseen eri aloilla.

Liiketoiminnan näkökulmasta big data auttaa organisaatioita parantamaan toiminnan tehokkuutta ja optimoimaan resursseja. Esimerkiksi yhdistämällä suuria tietojoukkoja ja käyttämällä niitä analysoimaan asiakkaiden käyttäytymistä ja markkinatrendejä, verkkokauppayritys voi tehdä päätöksiä, jotka lisäävät asiakastyytyväisyyttä, uskollisuutta, ja viime kädessä myös tuloja.

Kehittyneet avoimen lähdekoodin työkalut, jotka voivat tallentaa ja käsitellä suuria tietojoukkoja, ovat parantaneet merkittävästi big datan analytiikkaa. Esimerkiksi Apachen aktiiviset yhteisöt ovat usein saaneet tunnustusta siitä, että uusien tulokkaiden on helpompi käyttää big dataa todellisten ongelmien ratkaisemiseen.

Big Datan tyypit

Massadata voidaan luokitella kolmeen päätyyppiin: strukturoitu, strukturoimaton ja puolistrukturoitu data.

  • Strukturoitu big data: Se on hyvin organisoitua ja noudattaa ennalta määritettyä teemaa tai muotoa. Se on yleensä tallennettu laskentataulukoihin tai relaatiotietokantoihin. Jokaisella tietoelementillä on tietty tietotyyppi, ja se liittyy ennalta määritettyihin kenttiin ja taulukoihin. Strukturoidulle tiedolle on ominaista sen johdonmukaisuus ja yhtenäisyys, mikä helpottaa kyselyiden tekemistä, analysointia ja käsittelyä perinteisillä tietokannan hallintajärjestelmillä.
  • Strukturoimaton massadata: Sillä ei ole ennalta määritettyä rakennetta ja se voi luoda tai olla luomatta selkeitä suhteita eri tietokokonaisuuksien välille. Mallien, tunteiden, suhteiden ja olennaisten tietojen tunnistaminen jäsentelemättömästä tiedosta vaatii yleensä kehittyneitä tekoälytyökaluja, kuten luonnollisen kielen käsittelyä (NLP), luonnollisen kielen ymmärtämistä (NLU) ja tietokonenäköä.
  • Puolistrukturoitu big data: sisältää sekä strukturoidun että strukturoimattoman datan elementtejä. Sillä on osittainen organisaatiorakenne, kuten XML- tai JSON-tiedostot, ja se voi sisältää lokitiedostoja, anturitietoja aikaleimoineen, sekä metatietoja.

Useimmissa tapauksissa organisaation käyttämässä big datassa tiedot ovat kaikkien kolmen tietotyypin yhdistelmä. Esimerkiksi suuri tietojoukko verkkokaupan toimittajalle voi sisältää strukturoitua dataa asiakkaiden demografisista tiedoista ja tapahtumatietueista, strukturoimatonta dataa sosiaalisen median asiakaspalautteesta ja osittain strukturoitua dataa sisäisestä sähköpostiviestinnästä.

Massadatan haasteet

Big datan kehitys vuosisadan alusta lähtien on ollut haasteiden vuoristorataa. Haasteet tuovat kuitenkin mukanaan mahdollisuuksia, kunhan niistä osataan ottaa oppia.

Aluksi yksi suurimmista Internetissä tuotettujen tietomäärien suurimmista ongelmista oli se, että perinteisiä tietokantojen hallintajärjestelmiä ei oltu suunniteltu tallentamaan niin valtavaa määrää yritysten tuottamaa dataa samaa tahtia, kuin ne digitalisoituivat.

Samoihin aikoihin datan monipuolisuudesta tuli huomattava haaste. Perinteisen strukturoidun datan lisäksi sosiaalinen media ja IoT toivat yhdistelmään puolistrukturoitua ja strukturoimatonta dataa yhtälöön. Tämän seurauksena yritysten oli löydettävä tapoja käsitellä ja analysoida tehokkaasti näitä erilaisia tietotyyppejä, mikä oli toinen tehtävä, johon perinteiset työkalut eivät soveltuneet.

Tietojen määrän kasvaessa virheellisen, epäjohdonmukaisen tai puutteellisen tiedon määrä kasvoi, ja tiedonhallinnasta tuli merkittävä este. Ei kestänyt kauan, kun erittäin suurten tietokokonaisuuksien uudet käyttötavat herättivät useita uusia kysymyksiä tietosuojasta ja tietoturvasta. Organisaatioiden oli oltava avoimempia sen suhteen, mitä tietoja ne keräävät, miten ne suojelevat niitä ja miten ne käyttivät niitä.

Erilaiset tietotyypit on yleensä yhdistettävä yhdeksi yhtenäiseksi tiedostoksi tietojen analysointia varten. Tietotyyppien ja -muotojen monimuotoisuus suurissa puolistrukturoiduissa tietokokonaisuuksissa asettaa edelleen haasteita tiedon integroinnissa, analysoinnissa ja tulkinnassa, mihin big data voi tuoda ratkaisun.

Yrityksen on esimerkiksi ehkä yhdistettävä tiedot perinteisestä relaatiotietokannasta (strukturoitu data) sosiaalisen median viesteistä kaavittuihin tietoihin (strukturoimaton data). Näiden kahden tietotyypin muuntaminen yhtenäiseen muotoon, jota voidaan käyttää analysoinnissa, voi olla aikaa vievää ja teknisesti vaikeaa.

Koneoppimisen ja tekoälyn (AI) edistyminen auttoi ratkaisemaan monia näistä haasteista, mutta vielä on paljon kysymyksiä vailla vastausta.

Big Data-työkalut

Sekalaisia tietotyyppejä sisältävien suurten tietojoukkojen käsittely vaatii erikoistyökaluja ja tekniikoita, jotka on räätälöity erilaisten tietomuotojen ja hajautettujen tietorakenteiden käsittelyyn ja analysointiin. Suosittuja tällaisia työkaluja ovat:

Azure Data Lake: Microsoftin pilvipalvelu, joka tunnetaan yksinkertaistaa valtavien tietomäärien käsittelyä ja tallentamista.

Beam: Avoimen lähdekoodin yhtenäinen ohjelmointimalli ja API-sarja erä- ja stream-käsittelyyn eri big data -kehysten välillä.

Cassandra: Avoimen lähdekoodin, erittäin skaalautuva, hajautettu NoSQL-tietokanta, joka on suunniteltu käsittelemään valtavia tietomääriä useiden hyödykepalvelimien välillä.

Databricks: Yhtenäinen analytiikka-alusta, joka yhdistää tietotekniikan ja datatieteen ominaisuudet valtavien tietojoukkojen käsittelyyn ja analysointiin.

Elasticsearch: Haku- ja analytiikkakone, joka mahdollistaa nopean ja skaalautuvan haun, indeksoinnin ja analyysin erittäin suurille tietojoukoille.

Google Cloud: Kokoelma Google Cloudin tarjoamia big data -työkaluja ja -palveluita, kuten Google BigQuery ja Google Cloud Dataflow.

Hadoop: Laajalti käytetty avoimen lähdekoodin kehys erittäin suurten tietojoukkojen käsittelyyn ja tallentamiseen hajautetussa ympäristössä.

Hive: Avoimen lähdekoodin tietovarastointi ja SQL:n kaltainen kyselytyökalu, joka toimii Hadoopin päällä helpottaakseen suurten tietojoukkojen kyselyä ja analysointia.

Kafka: Avoimen lähdekoodin hajautettu suoratoistoalusta, joka mahdollistaa reaaliaikaisen tietojenkäsittelyn ja viestinnän.

KNIME Big Data Extensions: Integroi Apache Hadoopin ja Apache Sparkin tehon KNIME Analytics -alustaan ja KNIME-palvelimeen.

MongoDB: Dokumenttisuuntautunut NoSQL-tietokanta, joka tarjoaa korkean suorituskyvyn ja skaalautuvuuden suurdatasovelluksiin.

Pig: Avoimen lähdekoodin korkean tason tietovirran komentosarjakieli ja suorituskehys suurten tietojoukkojen käsittelyyn ja analysointiin.

Redshift: Amazonin täysin hallittu, petatavun mittakaavainen tietovarastopalvelu.

Spark: Avoimen lähdekoodin tietojenkäsittelymoottori, joka tarjoaa nopeat ja joustavat analytiikka- ja tietojenkäsittelyominaisuudet erittäin suurille tietojoukoille.

Splunk: Alusta koneella luotujen tietojen, kuten lokien ja tapahtumien, etsimiseen, analysointiin ja visualisointiin.

Tableau: Tehokas tietojen visualisointityökalu, joka auttaa käyttäjiä tutkimaan ja esittämään oivalluksia suurista tietojoukoista.

Talend: Avoimen lähdekoodin tietojen integrointi ja ETL (Extract, Transform, Load) -työkalu, joka helpottaa erittäin suurten tietojoukkojen integrointia ja käsittelyä.

Big Data ja AI 

Massadata on yhdistetty tiiviisti tekoälyn, kuten generatiivisen tekoälyn, kehitykseen. Tämä johtuu siitä, että vielä äskettäin tekoälymalleille piti syöttää valtavia määriä koulutusdataa, jotta ne voisivat oppia havaitsemaan kuvioita ja tekemään tarkkoja ennusteita.

On myös kuultu sanottavan, että “Big data on koneille. Pienet tiedot ovat ihmisiä varten.” Sitä käytettiin usein kuvaamaan big datan ja pienen datan eroa, mutta tämä analogia ei enää pidä paikkaansa. Tekoäly- ja ML-teknologioiden kehittyessä big datan tarve joidenkin tyyppisten tekoäly- ja ML-mallien kouluttamiseen vähenee, etenkin tilanteissa, joissa suurten tietojoukkojen yhdistäminen ja hallinta on aikaa vievää ja kallista.

Monissa tosielämän skenaarioissa ei ole mahdollista kerätä suuria tietomääriä jokaisesta mahdollisesta luokasta tai käsitteestä, jonka malli saattaa kohdata. Tästä johtuen on ollut nähtävissä suuntaus käyttää big data-pohjaisia malleja tekoälyn esikoulutuksessa ja pieniä tietojoukkoja niiden hienosäätämisessä.

Siirtyminen AI- ja ML-mallien koulutuksessa massadatasta pieneen dataan johtuu useista teknologisista edistysaskeleista, mukaan lukien siirto-oppiminen ja nolla-, yhden- ja muutaman otoksen oppimismallien kehittäminen.

Samankaltaiset termit

Margaret Rouse
Technology expert
Margaret Rouse
Teknologia-asiantuntija

Margaret Rouse on palkittu teknologiatoimittaja ja opettaja, joka tunnetaan hänen kyvyistään selittää vaikeitakin teknologisia konsepteja aiheesta vähemmän tietävälle finanssialan yleisölle. Viimeisen 20 vuoden ajan hänen selityksensä ovat ilmestyneet TechTargetin nettisivuille, minkä lisäksi häntä ovat siteeranneet asiantuntijana New York Times, Time Magazine, USA Today, ZDNet, PC Magazine ja Discovery Magazine. Margaretin mielestä mikään ei ole hauskempaa kuin opettaa IT-alan ja finanssialan ammattilaisille, kuinka toisen alan hyvin spesifillä kielellä puhutaan. Jos sinulla on ideoita selitettävistä termeistä tai parannuksista aikaisempiin selityksiin, lähetä sähköpostia Margaretille tai ota yhteyttä häneen LinkedInissä tai Twitterissä.