Hva betyr Machine Learning Bias?
Maskinskjevhet, eller maskin bias, på engelsk “machine learning bias”, er tendensen til at en maskinlæringsmodell (ML) gir unøyaktige eller urettferdige prediksjoner fordi det er systematiske feil i ML-modellen eller de dataene som brukes til å trene modellen.
Skjevheter i maskinlæring kan skyldes en rekke faktorer. Noen av de vanligste årsakene er
- Begrensede opplæringsdata.
- Valg av en maskinlæringsmodell som ikke er egnet for problemet, eller som ikke har tilstrekkelig kapasitet til å fange opp kompleksiteten i dataene.
- Menneskelig partiskhet i forbindelse med datainnsamling, merking eller konstruksjon av funksjoner.
Maskinskjevhet er ofte et resultat av at en dataforsker eller -ingeniør over- eller undervurderer betydningen av en bestemt hyperparameter i løpet av feature engineering og den algoritmiske innstillingsprosessen.
En hyperparameter er en maskinlæringsparameter hvis verdi velges før læringsalgoritmen trenes opp. Tuning er prosessen med å velge hvilke hyperparametere som minimerer læringsalgoritmens tapsfunksjoner og gir de mest nøyaktige resultatene.
Det er viktig å merke seg at machine bias kan brukes til å forbedre tolkningen av en ML-modell i visse situasjoner. For eksempel vil en enkel lineær modell med høy skjevhet være lettere å forstå og forklare enn en kompleks modell med lav skjevhet.
Når en maskinlæringsmodell skal lage prediksjoner og ta beslutninger, kan skjevheter imidlertid føre til at maskinlæringsalgoritmer produserer suboptimale resultater som potensielt kan være skadelige. Dette gjelder spesielt i forbindelse med kredittvurdering, ansettelser, rettssystemet og helsevesenet. I disse tilfellene kan skjevheter føre til urettferdig eller diskriminerende behandling av visse grupper og få alvorlige konsekvenser i den virkelige verden.
Techopedia forklarer maskinbias
Bias i maskinlæring er et komplisert tema fordi bias ofte henger sammen med andre faktorer, for eksempel datakvalitet. For å sikre at en ML-modell forblir rettferdig og upartisk, er det viktig å kontinuerlig evaluere modellens ytelse i produksjon.
Maskinlæringsalgoritmer bruker det de lærer under opplæringen til å forutsi ny input. Når noen typer informasjon feilaktig tillegges større – eller mindre – betydning enn de fortjener, kan algoritmens resultater bli skjeve, og slik oppstår machine bias.
Et praktisk eksempel på problematikken rundt bias i machine learning er hvordan det i noen deler av verden brukes maskinlæringsprogramvare i rettsvesenet til å anbefale hvor lenge en dømt forbryter bør sitte i fengsel. Studier har vist at når data om en forbryters rase, utdanning og sivilstatus vektes for høyt, er det sannsynlig at algoritmiske resultater blir skjeve, og at programvaren vil anbefale svært forskjellige straffer for forbrytere som er dømt for samme forbrytelse.
Eksempler på maskinell skjevhet
Bias i machine learning kan komme til uttrykk på ulike måter:
- Prediktiv skjevhet: Modellen er mer tilbøyelig til å gi spesifikke prediksjoner for visse demografiske grupper av individer.
- Representasjons-skjevhet: Under opplæringen er visse demografiske data underrepresentert eller ekskludert.
- Målefeil: modellen er trent på upålitelige, ufullstendige eller skjeve data.
- Algoritmisk skjevhet: Modellens design eller algoritmen som brukes til å trene den, er iboende skjev på grunn av menneskelige feil.
Her er noen eksempler der mennesker eller selskaper har blitt skadet av kunstig intelligens:
En undersøkelse utført av ProPublica i 2016 viste at COMPAS, et KI-system som ble tatt i bruk av delstaten Florida, hadde dobbelt så stor sannsynlighet for å flagge svarte tiltalte som fremtidige gjengangere som hvite tiltalte. Dette vakte bekymring for bruken av kunstig intelligens i politi- og strafferettspleien.
I 2018 ble det rapportert at Amazons teknologi for ansiktsgjenkjenning, kjent som Rekognition, hadde en høyere andel unøyaktigheter for kvinner med mørkere hudfarge. Dette vakte bekymring for at teknologien kunne brukes på måter som kunne skade marginaliserte grupper.
I 2020 ble det oppdaget at en chatbot som ble brukt av National Health Service (NHS) i Storbritannia til å triagere pasienter under covid-19-pandemien, ga feil informasjon og henviste folk til å søke behandling på feil sted. Dette vakte bekymring for sikkerheten ved bruk av kunstig intelligens til å ta medisinske beslutninger.
I 2021 viste en undersøkelse utført av The Markup at långivere hadde 80% større sannsynlighet for å avslå boliglån til fargede enn til hvite personer med lignende økonomiske egenskaper. Dette vakte bekymring for hvordan black box KI-algoritmer ble brukt til å godkjenne boliglån.
I 2022 ble det oppdaget at iTutorGroup, en samling bedrifter som tilbyr engelskspråklige veiledningstjenester til studenter i Kina, hadde programmert sin nettbaserte rekrutteringsprogramvare til automatisk å avvise kvinnelige søkere som var 55 år eller eldre, og mannlige søkere som var 60 år eller eldre. Dette skapte bekymring for aldersdiskriminering og resulterte i et søksmål fra U.S. Equal Employment Opportunity Commission (EEOC).
Hvordan oppdage skjevheten – machine learning bias?
Det finnes flere metoder som kan brukes til å oppdage skjevheter i en maskinlæringsmodell:
- Dataanalyse: Dataene som brukes til å trene modellen, analyseres for å avdekke eventuelle feilkilder, for eksempel ubalanserte klasser eller manglende data.
- Rettferdighetsmål: Rettferdighetsmål, som demografisk paritet eller like muligheter, brukes til å evaluere modellens prediksjoner for ulike grupper av individer.
- Kontrafaktisk analyse: Kontrafaktisk analyse brukes til å evaluere hvordan modellens prediksjoner ville endret seg hvis visse trekk ved modellen var annerledes.
- Inspeksjon av modellen: Modellens parametere og beslutningsgrenser inspiseres for å avdekke mønstre som kan indikere skjevheter.
- Evaluering av ytelsen: Modellens ytelse evalueres ved hjelp av et variert datasett for å avdekke forskjeller i ytelse på tvers av ulike grupper.
- Tilnærmingen med mennesker i loopen: Menneskelige eksperter evaluerer modellens prediksjoner og ser etter skjeve utfall.
Hvordan forebygge maskinbias
Det finnes flere teknikker som kan brukes for å fremme responsiv KI og forhindre maskinskjevhet i maskinlæringsmodeller. Det anbefales å bruke flere metoder og kombinere dem ved å gjøre følgende:
- Diversifiser opplæringsdataene.
- Bruk rettferdighetsbegrensninger som demografisk paritet og like muligheter.
- Bruk algoritmer for korrigering av skjevheter.
- Bruk regulariseringsteknikker som L1- og L2-regularisering for å redusere modellens kompleksitet og fremme generalisering.
- Revider og tolk modellens prediksjoner regelmessig for å oppdage og korrigere skjevheter.
- Innlemme menneskelig tilbakemelding og inngripen i modellens prediksjonsprosess for å sikre objektive beslutninger.
Maskinskjevhet vs. varians
Bias og varians er to begreper som brukes til å beskrive ytelsen og nøyaktigheten til en maskinlæringsmodell. En modell med lav skjevhet og lav varians vil sannsynligvis fungere godt på nye data, mens en modell med høy skjevhet og høy varians sannsynligvis vil fungere dårlig.
- Bias-feil introduseres ved å tilnærme seg et reelt problem med en for enkel ML-modell. En modell med høy skjevhet undervurderer ofte data fordi modellen ikke er i stand til å fange opp kompleksiteten i problemet.
- Med varians menes feil som oppstår når en ML-modell tar så mye hensyn til treningsdataene at den ikke kan generalisere nøyaktig om nye data. En modell med høy varians overtilpasser ofte data.
I praksis kan det være utfordrende å finne den optimale balansen mellom skjevhet og varians. Teknikker som regularisering og kryssvalidering kan brukes til å håndtere modellens skjevhet og varians og bidra til å forbedre ytelsen.