Hva betyr datautvinning?
Data mining, eller datautvinning, er prosessen med å analysere skjulte mønstre i data fra ulike perspektiver for å gjøre dataen nyttig og ofte handlingsrettet. Data samles og sammenstilles i felles områder, som for eksempel datavarehus, og data mining-algoritmer ser etter mønstre som bedrifter kan bruke til å ta bedre beslutninger, for eksempel beslutninger som kan bidra til å redusere kostnader, øke inntektene eller betjene kunder eller klienter bedre.
Datautvinning er også kjent som dataoppdagelse eller kunnskapsoppdagelse. Det er avgjørende innenfor forretningsinnsikt for å etablere datadrevne beslutninger.
Datautvinning forklart av Techopedia
De viktigste stegene i en datautvinningsprosess er:
- Ekstrahere, transformere og laste data inn i et datavarehus.
- Lagre og administrere data i flerdimensjonale databaser.
- Gi tilgang til data for forretningsanalytikere ved hjelp av applikasjonsprogramvare.
- Presentere analysert data på en enkelt forståelig måte, for eksempel i grafer.
Det første trinnet i datautvinning er å samle relevant data som er avgjørende for virksomheten. Bedriftsdata kan være transaksjonsdata, ikke-operasjonelle data eller metadata. Transaksjonsdata omhandler daglige operasjoner som salg, lager og kostnader. Ikke-operasjonelle data brukes normalt til prognoser, mens metadata handler om logisk databasesignering. Mønstre og forhold mellom dataelementer kan ofte gi relevant informasjon for å forbedre forretningsprosesser. Organisasjoner med fokus på forbrukerdata bruker ofte datautvinningsmetoder for å få klar innsikt i produkter som selges, priser, konkurranse og kundedemografi.
For eksempel overfører den store detaljhandelsgiganten Walmart all relevant informasjon til et datavarehus med terabyte data. Leverandører kan enkelt få tilgang til disse dataene og identifisere kundens kjøpsmønstre. De kan generere mønstre for handlevaner, mest populære dager, mest etterspurte produkter og annen innsikt ved hjelp av datautvinningsmetoder.
Det andre trinnet i data mining er å velge en egnet algoritme – en mekanisme som produserer en datautvinningsmodell. Algoritmens generelle funksjon innebærer å identifisere trender i en datasett og bruke resultatet for parameterdefinisjon. De mest populære algoritmene som brukes for datautvinning er klassifiseringsalgoritmer og regresjonsalgoritmer, som brukes til å identifisere forhold mellom dataelementer. De største databaseleverandørene som Oracle og SQL inkluderer datautvinningsalgoritmer som klynging og regresjonstrær for å imøtekomme etterspørselen etter datautvinning.