Vad innebär data mining?
Data mining är processen att analysera dolda mönster i data utifrån olika perspektiv för att omvandla dessa data till användbar och ofta hanterbar information. Data samlas in och sammanställs i gemensamma utrymmen, exempelvis datalager, och algoritmer för datautvinning letar efter mönster som företagen kan använda för att fatta bättre beslut, till exempel beslut som hjälper till att sänka kostnader, öka intäkter eller ge bättre service till kunder eller klienter.
Data mining är även känt som data discovery eller knowledge discovery. Det är avgörande inom business intelligence för att kunna fatta datadrivna beslut.
Techopedia förklarar datautvinning
De viktigaste stegen i en datautvinningsprocess är:
- Extrahera, transformera och ladda data i ett datalager
- Lagra och hantera data i en multidimensionell databas
- Ge affärsanalytiker tillgång till data med hjälp av applikationsprogramvara
- Presentera analyserade data i lättförståeliga former, t.ex. grafer
Det första steget i data mining eller datautvinning är att samla in relevanta data som är kritiska för verksamheten. Företagsdata är antingen transaktionsdata, icke-operativa data eller metadata. Transaktionsdata handlar om den dagliga verksamheten som försäljning, lager och kostnader.
Icke-operationella data är normalt prognoser, medan metadata handlar om logisk databasdesign. Mönster och relationer mellan dataelement kan ofta ge relevant information för att förbättra affärsprocesser. Organisationer med ett starkt konsumentfokus arbetar med datautvinningstekniker som ger tydliga bilder av sålda produkter, pris, konkurrens och kunddemografi.
Detaljhandelsjätten Walmart överför till exempel all relevant information till ett datalager med terabyte av data. Leverantörerna kan enkelt få tillgång till dessa data och identifiera kundernas köpmönster. De kan generera mönster för shoppingvanor, mest shoppade dagar, mest eftertraktade produkter och andra insikter med hjälp av data mining-tekniker.
Det andra steget i datautvinning är att välja en lämplig algoritm – en mekanism som producerar en datautvinningsmodell. Algoritmens allmänna funktion innebär att identifiera trender i en uppsättning data och använda resultatet för parameterdefinition.
De mest populära algoritmerna för data mining är klassificeringsalgoritmer och regressionsalgoritmer, som används för att identifiera relationer mellan dataelement. Stora databasleverantörer som Oracle och SQL införlivar data mining-algoritmer, som klustring och regressionsträd, för att möta efterfrågan på data mining.