Machine bias

Dlaczego warto zaufać Techopedii

Co oznacza machine bias?

Machine bias to tendencja modelu uczenia maszynowego (ML) do dokonywania nieprecyzyjnych lub niesprawiedliwych prognoz z powodu systematycznych błędów w modelu ML lub w danych użytych do jego trenowania.

Stronniczość w uczeniu maszynowym może być spowodowana różnymi czynnikami. Do najpopularniejszych z nich należą:

  1. Ograniczone dane treningowe.
  2. Wybór modelu uczenia maszynowego, który nie jest odpowiedni do danego problemu lub nie ma wystarczającej pojemności, aby uchwycić złożoność danych.
  3. Ludzka stronniczość wprowadzona na etapie zbierania danych, ich oznaczania lub procesu inżynierii cech.

Machine bias często wynika z przeszacowania lub niedoszacowania przez naukowca albo inżyniera znaczenia konkretnego hiperparametru podczas inżynierii cech i procesu dostrajania algorytmu.

Osobom niezaznajomionym z tematem wyjaśniamy, że hiperparametr to parametr uczenia maszynowego, którego wartość jest wybierana przed trenowaniem algorytmu.

Z kolei dostrajanie to proces wyboru takich hiperparametrów, które zminimalizują funkcje straty algorytmu uczącego się i zapewnią najdokładniejsze wyniki.

Warto zauważyć, że w niektórych sytuacjach machine bias może służyć do poprawy interpretowalności modelu uczenia maszynowego.

Na przykład prosty model liniowy o dużej stronniczości będzie łatwiejszy do zrozumienia i wyjaśnienia, niż złożony model o niskiej stronniczości.

Jeśli jednak model uczenia maszynowego ma dokonywać prognoz i podejmować decyzje, stronniczość może powodować, że algorytmy uczenia maszynowego będą generować suboptymalne wyniki, które mogą być szkodliwe.

Jest to szczególnie istotne w przypadkach ocen kredytowych, rekrutacji, systemu sądowego i opieki zdrowotnej. W takich sytuacjach stronniczość może prowadzić do niesprawiedliwego lub dyskryminującego traktowania niektórych grup i mieć poważne konsekwencje w rzeczywistym świecie.

Techopedia wyjaśnia pojęcie “machine bias”

Stronniczość w uczeniu maszynowym to skomplikowany temat, ponieważ często jest powiązana z innymi czynnikami, takimi jak np. jakość danych. Dlatego aby zapewnić, że model uczenia maszynowego pozostaje sprawiedliwy i bezstronny, ważne jest ciągłe monitorowanie jego wydajności w produkcji.

Algorytmy uczenia maszynowego wykorzystują wiedzę zdobytą podczas treningu do dokonywania prognoz dotyczących nowych danych wejściowych. Gdy pewnym rodzajom informacji błędnie przypisuje się większą (lub mniejszą) wagę, niż na to zasługują, wyniki algorytmu mogą być stronnicze.

Na przykład oprogramowanie do uczenia maszynowego jest wykorzystywane przez systemy sądowe w niektórych częściach świata do rekomendowania długości kary więzienia dla skazanego przestępcy.

Badania wykazały, że gdy dane dotyczące rasy, wykształcenia i stanu cywilnego przestępcy są nadmiernie uwzględniane, wyniki algorytmu prawdopodobnie będą stronnicze, a oprogramowanie będzie rekomendować bardzo różne wyroki dla przestępców skazanych za to samo przestępstwo.

Przykłady machine bias

Machine bias może objawiać się na różne sposoby, takie jak:

  • Stronniczość predykcyjna — Model częściej dokonuje określonych prognoz dla niektórych grup demograficznych.
  • Stronniczość reprezentacyjna — Podczas treningu niektóre dane demograficzne są niedostatecznie reprezentowane lub wykluczone.
  • Stronniczość pomiarowa — Model jest trenowany przy użyciu niewiarygodnych, niekompletnych lub przekłamanych danych.
  • Stronniczość algorytmiczna — Projekt modelu lub algorytm użyty do jego trenowania są z natury stronnicze z powodu błędów ludzkich.

Oto kilka przykładów z życia, gdy ludzie lub firmy ucierpieli z powodu AI:

W 2016 roku śledztwo przeprowadzone przez ProPublica wykazało, że COMPAS, system AI przyjęty przez stan Floryda, dwukrotnie częściej oznaczał czarnoskórych oskarżonych jako przyszłych recydywistów w porównaniu do białych oskarżonych. Wzbudziło to obawy dotyczące użycia AI w policji i systemie sprawiedliwości karnej.

W 2018 roku doniesiono, że technologia rozpoznawania twarzy Amazona, znana jako Rekognition, miała wyższy wskaźnik błędów w przypadku kobiet o ciemniejszym odcieniu skóry. Wzbudziło to obawy dotyczące potencjalnego wykorzystania tej technologii w sposób szkodliwy dla marginalizowanych społeczności.

W 2020 roku chatbot używany przez Narodową Służbę Zdrowia Wielkiej Brytanii (NHS) do segregacji pacjentów podczas pandemii COVID-19 okazał się dostarczać nieprawidłowe informacje i kierować ludzi do niewłaściwych miejsc leczenia. Wzbudziło to obawy dotyczące bezpieczeństwa korzystania z AI w podejmowaniu decyzji medycznych.

W 2021 roku śledztwo przeprowadzone przez The Markup wykazało, że pożyczkodawcy byli o 80% bardziej skłonni do odmawiania kredytów hipotecznych osobom kolorowym, niż białym o podobnych cechach finansowych. Wzbudziło to obawy dotyczące wykorzystania algorytmów AI w zatwierdzaniu kredytów hipotecznych.

W 2022 roku odkryto, że iTutorGroup, zbiór firm oferujących usługi nauczania języka angielskiego studentom w Chinach, zaprogramował swoje oprogramowanie rekrutacyjne tak, aby automatycznie odrzucało kobiety w wieku 55 lat i starsze oraz mężczyzn w wieku 60 lat i starszych. Wzbudziło to obawy dotyczące dyskryminacji ze względu na wiek i doprowadziło do wniesienia pozwu przez Amerykańską Komisję ds. Równych Szans Zatrudnienia (EEOC).

Jak wykryć machine bias?

Istnieje kilka metod, które można zastosować do wykrywania machine bias w modelu uczenia maszynowego:

  1. Analiza danych — Dane użyte do trenowania modelu są analizowane w celu wykrycia potencjalnych źródeł stronniczości, takich jak niezbalansowane klasy lub brakujące dane.
  2. Metryki sprawiedliwości — Do oceny prognoz modelu dla różnych grup osób służą metryki sprawiedliwości, takie jak parytet demograficzny czy równość szans.
  3. Analiza kontrfaktyczna — Aby sprawdzić, jak zmieniłyby się prognozy modelu, gdyby jego niektóre cechy były inne, stosuje się analizę kontrfaktyczną.
  4. Inspekcja modelu — Inspekcji parametrów i granic decyzyjnych modelu dokonuje się w celu wykrycia wzorców, które mogą wskazywać na stronniczość.
  5. Ocena wydajności — Ocena wydajności modelu przy użyciu zróżnicowanego zestawu danych jest pomocna przy wykrywaniu różnic wydajności w różnych grupach.
  6. Metoda “z udziałem człowieka” — Polega na zaangażowaniu ekspertów, którzy oceniają prognozy modelu i szukają stronniczych wyników.

Jak zapobiec machine bias?

Istnieje kilka technik, które można zastosować, aby wspierać odpowiedzialną sztuczną inteligencję i zapobiegać machine bias w modelach uczenia maszynowego. Zazwyczaj zaleca się używanie wielu metod jednocześnie i ich łączenie poprzez:

  1. Dywersyfikację danych treningowych.
  2. Stosowanie ograniczeń sprawiedliwości, takich jak parytet demograficzny i równość szans.
  3. Używanie algorytmów korygujących stronniczość.
  4. Wykorzystywanie technik regularyzacji, takich jak regularyzacja L1 i L2, w celu zmniejszenia złożoności modelu i promowania uogólnienia.
  5. Regularne audytowanie i interpretowanie prognoz modelu, aby wykrywać i eliminować stronniczość.
  6. Włączanie opinii i interwencji ludzi w proces prognozowania modelu, aby zapewnić bezstronne decyzje.

Machine bias vs. variance

Bias oraz variance (stronniczość i wariancja) to dwa pojęcia używane do opisu wydajności i dokładności modelu uczenia maszynowego.

Model o niskiej stronniczości i niskiej wariancji prawdopodobnie dobrze poradzi sobie z nowymi danymi, podczas gdy model o wysokiej stronniczości i wysokiej wariancji prawdopodobnie poradzi sobie słabo.

  • Błędy stronniczości pojawiają się, gdy problem z prawdziwego świata jest przybliżany za pomocą zbyt prostego modelu uczenia maszynowego. Dlatego model o wysokiej stronniczości często niedoszacowuje dane, ponieważ nie potrafi uchwycić złożoności zagadnienia.
  • Z kolei wariancja odnosi się do błędu występującego, gdy model uczenia maszynowego zwraca zbyt dużą uwagę na dane treningowe, przez co nie potrafi trafnie uogólniać nowych danych. W efekcie model o wysokiej wariancji często nadmiernie doszacowuje dane.

W praktyce znalezienie optymalnej równowagi między stronniczością a wariancją może być wyzwaniem.

Aby mu podołać, stosuje się techniki takie jak regularyzacja i walidacja krzyżowa. Służą one do zarządzania stronniczością i wariancją modelu, co pomaga poprawić jego wydajność.

Related Terms

Tim Keary
Technology Specialist
Tim Keary
specjalista ds. technologii

Tim Keary pracuje jako freelancer. Jest autorem publikacji z dziedziny nowych technologii oraz reporterem. W swojej pracy dziennikarskiej zajmuje się takimi tematami jak sztuczna inteligencja, cyberbezpieczeństwo, czy najnowsze technologie biznesowe. W 2023 toku dołączył w pełnym wymiarze czasowym do zespołu Techopedii, przedtem zaś publikował swoje teksty w serwisach takich jak VentureBeat, Forbes Advisor i kilka innych renomowanych platform technologicznych. Tim najczęściej publikował teksty, w których analizowal najnowsze trendy i badał innowacje w świecie technologii. Tim ma dyplom magistra historii, który uzyskał na Uniwersytecie w Kent. Podczas studiów zdobył umiejętność rozbijania trudnych tematów na proste koncepty. Kiedy nie jest zajęty pisaniem…