Tekoälyn koneharha

Avoin toiminta

Koneharha on käsite, jolla kuvataan sen taipumusta sortua samantyyppisiin virheisiin ja epätarkkuuksiin, kuin ihmiselläkin on. Tekoäly on kuitenkin loppupeleissä ihmisen kouluttamaa teknologiaa

Mitä koneharha tarkoittaa?

Koneharha on esimerkiksi tekoälyssä käytetyn koneoppimismallin taipumus tehdä epätarkkoja tai epäreiluja ennusteita. Tämä johtuu useimmiten siitä, että koneoppimisessa, eli ML-mallissa (Machine Learning), tai mallin harjoittamiseen käytetyissä tiedoissa on systemaattisia virheitä.

Koneoppimisen harha voi näin ollen johtua useista tekijöistä. Joitakin yleisiä tällaisia tekijöitä ovat:

  • Rajoitettu määrä harjoitteludataa.
  • Koneoppimismallin valitseminen, joka ei sovellu kyseisen ongelman ratkaisemiseen tai jolla ei ole tarpeeksi kapasiteettia tietojen monimutkaisuuden käsittelemiseen.
  • Tiedonkeruu-, merkintä- tai ominaisuuksien suunnitteluprosesseissa mukaan tullut inhimillinen harha.

Koneharha johtuu usein siitä, että datatieteilijä tai insinööri yliarvioi tai aliarvioi tietyn hyperparametrin tärkeyden tekoälysovelluksen ominaisuuksien suunnittelun ja algoritmisen viritysprosessin aikana. Hyperparametri on koneoppimisparametri, jonka arvo valitaan ennen oppimisalgoritmin harjoittamisen aloittamista. Viritys on prosessi, jossa valitaan, mitkä hyperparametrit minimoivat oppimisalgoritmin häviöfunktiot ja tarjoavat tarkimmat tulokset.

On tärkeää kuitenkin huomata, että koneharhalla voidaan parantaa ML-mallin tulkittavuutta tietyissä tilanteissa. Esimerkiksi yksinkertainen lineaarinen malli, jossa on suuri harhapotentiaali, on helpompi ymmärtää ja selittää kuin monimutkainen malli, jossa on pieni harhan mahdollisuus.

Kun koneoppimismallin on tehtävä ennusteita ja päätöksiä, harha voi saada koneoppimisalgoritmit tuottamaan optimaalista huonompia tuloksia, jotka voivat olla haitallisia. Tämä riski koskee erityisesti luottoluokitusten tekemistä, palkkaamista, tuomioistuinjärjestelmää ja terveydenhuoltoa. Näissä tapauksissa esimerkiksi tekoälyn puolueellisuus voi johtaa tiettyjen ryhmien epäoikeudenmukaiseen tai syrjivään kohteluun, ja sillä voi olla vakavia seurauksia tosielämässä.

Techopedia selittää koneharhan

Koneharha on monimutkainen aihe, koska harha on usein kietoutunut muihin tekijöihin, kuten tiedon laatuun. Jotta ML-malli pysyy oikeudenmukaisena ja puolueettomana, on tärkeää arvioida jatkuvasti mallin suorituskykyä käytännössä.

Koneoppimisalgoritmien koulutuksen aikana käytetään niiden oppimia ennusteita uusista syötteestä. Kun tietyntyyppisille tiedoille annetaan virheellisesti enemmän tai vähemmän tärkeyttä, kuin ne ansaitsevat, algoritmin tulokset voivat sen seurauksena olla vääristyneitä.

Esimerkiksi oikeusjärjestelmät käyttävät joissain osissa maailmaa koneoppimisohjelmistoja suosittelemaan, kuinka kauan tuomitun rikollisen tulisi olla vangittuna. Tutkimukset ovat osoittaneet, että kun rikollisen rotua, koulutusta ja siviilisäätyä koskevia tietoja painotetaan tekoälyn analysoimassa datassa liikaa, algoritmin antama tulos on todennäköisesti puolueellinen. Tämän seurauksena ohjelmisto suosittelee huomattavan erilaisia tuomioita rikollisille, jotka on esimerkiksi tuomittu aiemmin samasta rikoksesta.

Koneharha esimerkkejä

Koneharha voi ilmetä usein eri tavoin. Tässä muutama käytännös esimerkki yleisistä koneharhan esiintymismuodoista:

  • Ennustava harha: malli tekee todennäköisemmin tietynlaisia ennusteita tietyille väestöryhmille.
  • Edustusharha: koulutuksen aikana tietyt demografiset tiedot ovat aliedustettuina tai jopa jätetty pois.
  • Mittausharha: mallia opetetaan käyttämällä epäluotettavaa, epätäydellistä tai virheellistä dataa.
  • Algoritminen harha: mallin suunnittelu tai sen harjoittamiseen käytetty algoritmi on luonnostaan puolueellinen inhimillisen virheen vuoksi.

Tässä on myös muutamia esimerkkejä uutisissa kerrotuista tarinoista, joissa tekoäly on toiminut vahingollisesti ihmisiä tai yrityksiä kohtaan:

ProPublican vuonna 2016 tekemässä tutkimuksessa havaittiin, että COMPAS, Floridan osavaltion hyväksymä tekoälyjärjestelmä, näytti kaksi kertaa todennäköisemmin tummaihoiset henkilöt tulevina rikosten uusijoina, kuin valkoihoiset henkilöt. Tämä herätti huolta tekoälyn käytöstä poliisitoiminnassa ja rikosoikeudessa.

Vuonna 2018 kerrottiin, että Amazonin Rekognition-nimisellä kasvojentunnistusteknologialla oli suurempi määrä epätarkkuuksia naisten kohdalla, joilla on tummempi ihonsävy. Tämä herätti huolta mahdollisuuksista käyttää tätä teknologiaa tavoilla, jotka voivat vahingoittaa syrjäytyneitä yhteisöjä.

Vuonna 2020 Ison-Britannian kansallisen terveyspalvelun (NHS) käyttämän chatbotin havaittiin tarjoavan vääriä tietoja ja ohjaavan ihmisiä hakeutumaan hoitoon vääriin paikkoihin. Tämä koneharha herätti huolta tekoälyn käytön turvallisuudesta lääketieteellisten päätösten tekemiseen.

Vuonna 2021 The Markupin tutkimuksessa todettiin, että tekoälyyn perustuvat lainapalvelut kieltäytyivät myöntämästä asuntolainaa värillisille ihmisille 80 prosenttia todennäköisemmin kuin valkoisille, vaikka molemmilla oli samanlaiset taloudelliset ominaisuudet. Tämä herätti huolta siitä, kuinka black box AI -algoritmeja voitaisiin käyttää väärin asuntolainojen hyväksynnässä.

Vuonna 2022 iTutorGroupin, englanninkielisiä tutorointipalveluja Kiinan opiskelijoille tarjoavien yritysten kokoelman havaittiin ohjelmoineen online-rekrytointiohjelmistonsa automaattisesti hylkäämään 55-vuotiaat tai sitä vanhemmat naishakijat ja 60-vuotiaat mieshakijat. Tämä herätti huolta ikäsyrjinnästä ja johti siihen, että Yhdysvaltain tasa-arvoisten työmahdollisuuksien komissio (EEOC) nosti asiasta kanteen.

​Kuinka havaita koneharha

Onneksi on olemassa useita menetelmiä, joilla voidaan havaita koneharha koneoppimismallissa. Näistä yleisimpiä ovat:

  • Data-analyysi: Mallin harjoittamiseen käytetyt tiedot analysoidaan mahdollisten harhalähteiden, kuten epätasapainoisten luokkien tai puuttuvien tietojen havaitsemiseksi.
  • Reiluusmittarit: Reiluusmittareita, kuten demografista pariteettia tai yhtäläisiä mahdollisuuksia, käytetään arvioimaan mallin ennusteita eri henkilöryhmille.
  • Kontrafaktuaalinen analyysi: Kontrafaktuaalista analyysiä käytetään arvioimaan, kuinka mallin ennusteet muuttuisivat, jos mallin tietyt ominaisuudet olisivat erilaisia.
  • Mallin tarkastus: Mallin parametrit ja päätösrajat tarkastetaan sellaisten kuvioiden havaitsemiseksi, jotka voivat viitata harhaan.
  • Suorituskyvyn arviointi: Mallin suorituskykyä arvioidaan käyttämällä erilaisia ​​tietoja eri ryhmien suorituskyvyn erojen havaitsemiseksi.
  • Ihminen silmukassa -lähestymistapa: Ihmisasiantuntijat arvioivat mallin ennusteita ja etsivät puolueellisia tuloksia.

Kuinka estää koneharhaa?

On myös olemassa useita tekniikoita, joilla voidaan edistää reagoivaa tekoälyä ja estää koneharhaa koneoppimismalleissa. On suositeltavaa käyttää useita menetelmiä ja yhdistää ne seuraavasti:

  1. Monipuolista harjoitusdataa.
  2. Käytä oikeudenmukaisuuden rajoituksia, kuten demografista pariteettia ja yhtäläisiä mahdollisuuksia.
  3. Valitse oikeanlaiset harhankorjausalgoritmit.
  4. Käytä regularisointitekniikoita, kuten L1- ja L2-regulointia, vähentääksesi mallin monimutkaisuutta ja edistääksesi yleistämistä.
  5. Tarkastele ja tulkitse aina mallin ennusteita säännöllisesti havaitaksesi ja korjataksesi koneharhan.
  6. Sisällytä ihmisten palaute ja puuttuminen mallin ennustusprosessiin varmistaaksesi puolueettomat päätökset.

Koneharha vs. varianssi

Koneharha ja varianssi ovat kaksi käsitettä, joita käytetään kuvaamaan koneoppimismallin suorituskykyä ja tarkkuutta. Malli, jossa on pieni poikkeama ja pieni varianssi, toimii todennäköisesti hyvin uusilla tiedoilla, kun taas malli, jossa on suuri harha ja suuri varianssi, toimii todennäköisesti huonosti.

  • Harhasta johtuvat virheet otetaan käyttöön approksimoimalla todellisen ongelman ML-malli, joka on liian yksinkertainen. High Bias -malli ei useinkaan sovi dataan, koska se ei pysty kuvaamaan ongelman monimutkaisuutta.
  • Varianssilla tarkoitetaan virhettä, joka syntyy, kun ML-malli kiinnittää niin paljon huomiota harjoitustietoihin, ettei se pysty tekemään tarkkoja yleistyksiä uudesta tiedosta. Suuren varianssin malli sovittaa usein dataa liikaa.

Käytännössä optimaalisen tasapainon löytäminen harhan ja varianssin välillä voi olla haastavaa. Tekniikoita, kuten regularisointia ja ristiinvalidointia, voidaan käyttää mallin harhan ja varianssin hallintaan ja sen suorituskyvyn parantamiseen.

Samankaltaiset termit

Margaret Rouse
Technology expert
Margaret Rouse
Teknologia-asiantuntija

Margaret Rouse on palkittu teknologiatoimittaja ja opettaja, joka tunnetaan hänen kyvyistään selittää vaikeitakin teknologisia konsepteja aiheesta vähemmän tietävälle finanssialan yleisölle. Viimeisen 20 vuoden ajan hänen selityksensä ovat ilmestyneet TechTargetin nettisivuille, minkä lisäksi häntä ovat siteeranneet asiantuntijana New York Times, Time Magazine, USA Today, ZDNet, PC Magazine ja Discovery Magazine. Margaretin mielestä mikään ei ole hauskempaa kuin opettaa IT-alan ja finanssialan ammattilaisille, kuinka toisen alan hyvin spesifillä kielellä puhutaan. Jos sinulla on ideoita selitettävistä termeistä tai parannuksista aikaisempiin selityksiin, lähetä sähköpostia Margaretille tai ota yhteyttä häneen LinkedInissä tai Twitterissä.