Vi lär dig om maskinbias, vilket innebär felaktiga förutsägelser i maskininlärningsmodeller på grund av systematiska fel. Det kan orsakas av begränsad träningsdata eller mänskliga fel. Maskinbias påverkar viktiga beslut inom kreditbedömning och anställning.
Vi förklarar hur man upptäcker och förhindrar bias genom diversifiering av data och regelbunden granskning av modeller.
Vad betyder maskinbias?
Maskinbias är tendensen hos en maskininlärningsmodell att göra felaktiga eller orättvisa förutsägelser eftersom det finns systematiska fel i ML-modellen eller de data som används för att träna modellen.
Bias i maskininlärning kan orsakas av en mängd olika faktorer. Några vanliga orsaker är
- Begränsad mängd träningsdata.
- Att välja en maskininlärningsmodell som inte är väl lämpad för problemet eller som inte har tillräcklig kapacitet för att fånga komplexiteten i data.
- Mänsklig partiskhet som introduceras i datainsamlingen, märkningen eller funktionstekniska processer.
Maskinbias är ofta resultatet av att en datavetare eller ingenjör överskattar eller underskattar vikten av en viss hyperparameter under funktionsteknik och den algoritmiska inställningsprocessen. En hyperparameter är en maskininlärningsparameter vars värde väljs innan inlärningsalgoritmen tränas. Inställning är processen att välja vilka hyperparametrar som minimerar en inlärningsalgoritms förlustfunktioner och ger de mest exakta utdata.
Det är viktigt att notera att maskinbias kan användas för att förbättra tolkningsbarheten hos en ML-modell i vissa situationer. En enkel linjär modell med hög bias är t.ex. lättare att förstå och förklara än en komplex modell med låg bias.
När en maskininlärningsmodell ska göra förutsägelser och fatta beslut kan dock bias leda till att maskininlärningsalgoritmer producerar suboptimala resultat som potentiellt kan vara skadliga. Detta är särskilt sant när det gäller kreditbedömning, anställning, domstolssystemet och hälso- och sjukvård. I dessa fall kan partiskhet leda till orättvis eller diskriminerande behandling av vissa grupper och få allvarliga konsekvenser i den verkliga världen.
Techopedia förklarar maskinbias
Bias i maskininlärning är ett komplicerat ämne eftersom bias ofta är sammanflätat med andra faktorer som datakvalitet. För att säkerställa att en ML-modell förblir rättvis och opartisk är det viktigt att kontinuerligt utvärdera modellens prestanda i produktionen.
Maskininlärningsalgoritmer använder det de lärt sig under träningen för att göra förutsägelser om ny input. När vissa typer av information felaktigt tilldelas större – eller mindre – betydelse än de förtjänar kan algoritmens utdata bli partisk.
Till exempel används maskininlärningsprogram av domstolar i vissa delar av världen för att rekommendera hur länge en dömd brottsling ska sitta i fängelse. Studier har visat att när data om en brottslings ras, utbildning och civilstånd viktas för högt är det sannolikt att algoritmens resultat blir partiskt och att programvaran kommer att rekommendera väsentligt olika straff för brottslingar som har dömts för samma brott.
Exempel på maskinell partiskhet
Maskinpartiskhet kan yttra sig på olika sätt, t.ex:
- Prediktiv bias: modellen är mer benägen att göra specifika förutsägelser för vissa demografiska grupper av individer.
- Representationsbias: under träningen är vissa demografiska data underrepresenterade eller uteslutna.
- Mätningsbias: modellen tränas med hjälp av otillförlitliga, ofullständiga eller skeva data.
- Algoritmisk bias: modellens utformning eller den algoritm som används för att träna den är naturligt partisk på grund av mänskliga misstag.
Här är några exempel på nyheter där personer eller företag har skadats av AI:
En undersökning från 2016 av ProPublica visade att COMPAS, ett AI-system som antagits av delstaten Florida, var dubbelt så sannolikt att flagga svarta åtalade som framtida återfallsförbrytare som vita åtalade. Detta väckte frågor om AI:s användning inom polisväsende och straffrätt.
2018 rapporterades det att Amazons teknik för ansiktsigenkänning, så kallad Rekognition, hade en högre andel felaktigheter för kvinnor med mörkare hudfärg. Detta väckte farhågor om att tekniken skulle kunna användas på sätt som kan skada marginaliserade grupper.
År 2020 upptäcktes att en chattbot som användes av Storbritanniens nationella hälsovårdsmyndighet (NHS) för att triagera patienter under covid-19-pandemin gav felaktig information och hänvisade människor till att söka vård på fel ställen. Detta väckte frågor om säkerheten i att använda AI för att fatta medicinska beslut.
År 2021 visade en undersökning av The Markup att långivare var 80 % mer benägna att neka bostadslån till mörkhyade personer än till vita personer med liknande ekonomiska egenskaper. Detta väckte oro för hur black box AI-algoritmer användes i godkännanden av hypotekslån.
År 2022 visade det sig att iTutorGroup, en samling företag som tillhandahåller engelskspråkiga handledningstjänster till studenter i Kina, hade programmerat sitt rekryteringsprogram online för att automatiskt avvisa kvinnliga sökande som var 55 år eller äldre och manliga sökande som var 60 år eller äldre. Detta väckte farhågor om åldersdiskriminering och ledde till att den amerikanska jämställdhetsmyndigheten EEOC (Equal Employment Opportunity Commission) lämnade in en stämningsansökan.
Hur man upptäcker maskinbias
Det finns flera metoder som kan användas för att upptäcka maskinpartiskhet i en maskininlärningsmodell:
- Dataanalys: De data som används för att träna modellen analyseras för att upptäcka eventuella källor till partiskhet, t.ex. obalanserade klasser eller saknade data.
- Rättvisemått: Rättvisemått, t.ex. demografisk paritet eller lika möjligheter, används för att utvärdera modellens förutsägelser för olika grupper av individer.
- Kontrafaktisk analys: Kontrafaktisk analys används för att utvärdera hur modellens förutsägelser skulle förändras om vissa funktioner i modellen var annorlunda.
- Inspektion av modellen: Modellens parametrar och beslutsgränser inspekteras för att upptäcka mönster som kan tyda på partiskhet.
- Utvärdering av prestanda: Modellens prestanda utvärderas med hjälp av en varierad uppsättning data för att upptäcka skillnader i prestanda mellan olika grupper.
- Mänsklig in the loop-metod: Mänskliga experter utvärderar modellens förutsägelser och letar efter partiska resultat.
Hur man förhindrar maskinpartiskhet
Det finns flera tekniker som kan användas för att främja responsiv AI och förhindra maskinpartiskhet i maskininlärningsmodeller. Vi rekommenderar att du använder flera metoder och kombinerar dem genom att göra följande:
- Diversifiera träningsdata.
- Använd rättvisebegränsningar som demografisk paritet och lika möjligheter.
- Använd algoritmer för korrigering av fördomar.
- Använd regulariseringstekniker som L1- och L2-regularisering för att minska modellens komplexitet och främja generalisering.
- Regelbundet granska och tolka modellens förutsägelser för att upptäcka och åtgärda bias.
- Införliva mänsklig feedback och ingripande i modellens förutsägelseprocess för att säkerställa opartiska beslut.
Maskinens bias kontra varians
Bias och varians är två begrepp som används för att beskriva prestanda och noggrannhet hos en maskininlärningsmodell. En modell med låg bias och låg varians kommer sannolikt att prestera bra på nya data, medan en modell med hög bias och hög varians sannolikt kommer att prestera dåligt.
- Bias-fel uppstår när man approximerar ett verkligt problem med en ML-modell som är för enkel. En modell med hög bias underskattar ofta data eftersom modellen inte kan fånga problemets komplexitet.
- Varians är ett fel som uppstår när en ML-modell ägnar så mycket uppmärksamhet åt träningsdata att den inte kan göra korrekta generaliseringar om nya data. En modell med hög varians överanpassar ofta data.
I praktiken kan det vara svårt att hitta den optimala balansen mellan bias och varians. Tekniker som regularisering och korsvalidering kan användas för att hantera modellens bias och varians och bidra till att förbättra dess prestanda.