Maschinelle Verzerrung

Was ist maschinelle Verzerrung?

Maschinelle Verzerrung ist die Tendenz eines maschinellen Lernmodells, ungenaue oder unfaire Vorhersagen zu treffen, weil systematische Fehler im ML-Modell oder in den zum Trainieren des Modells verwendeten Daten vorliegen.

Verzerrungen beim maschinellen Lernen können durch eine Vielzahl von Faktoren verursacht werden. Einige häufige Ursachen sind:

  • Begrenzte Trainingsdaten.
  • Auswahl eines maschinellen Lernmodells, das für das Problem nicht geeignet ist oder nicht genug Kapazität hat, um die Komplexität der Daten zu erfassen.
  • Menschliche Verzerrungen bei der Datenerfassung, der Kennzeichnung oder dem Feature-Engineering-Prozess.

Maschinelle Verzerrungen sind oft das Ergebnis davon, dass ein Datenwissenschaftler oder Ingenieur die Bedeutung eines bestimmten Hyperparameters während des Feature-Engineerings und des algorithmischen Abstimmungsprozesses über- oder unterschätzt.

Ein Hyperparameter ist ein Parameter des maschinellen Lernens, dessen Wert ausgewählt wird, bevor der Lernalgorithmus trainiert wird. Bei der Abstimmung werden die Hyperparameter ausgewählt, die die Verlustfunktionen eines Lernalgorithmus minimieren und die genauesten Ergebnisse liefern.

Es ist wichtig anzumerken, dass die maschinelle Verzerrung dazu verwendet werden kann, die Interpretierbarkeit eines ML-Modells in bestimmten Situationen zu verbessern. So ist beispielsweise ein einfaches lineares Modell mit hoher Verzerrung leichter zu verstehen und zu erklären als ein komplexes Modell mit geringer Verzerrung.

Wenn ein maschinelles Lernmodell jedoch Vorhersagen und Entscheidungen treffen soll, kann eine Verzerrung dazu führen, dass maschinelle Lernalgorithmen suboptimale Ergebnisse produzieren, die möglicherweise schädlich sind.

Dies gilt insbesondere für Kreditwürdigkeitsprüfungen, Einstellungen, das Gerichtssystem und das Gesundheitswesen. In diesen Fällen kann die Voreingenommenheit zu einer ungerechten oder diskriminierenden Behandlung bestimmter Gruppen führen und schwerwiegende Folgen für die Praxis haben.

Techopedia erklärt maschinelle Verzerrungen

Voreingenommenheit beim maschinellen Lernen ist ein kompliziertes Thema, da Voreingenommenheit oft mit anderen Faktoren wie der Datenqualität verwoben ist. Um sicherzustellen, dass ein ML-Modell fair und unvoreingenommen bleibt, ist es wichtig, die Leistung des Modells in der Produktion kontinuierlich zu bewerten.

Algorithmen für maschinelles Lernen verwenden das, was sie beim Training gelernt haben, um Vorhersagen über neue Eingaben zu treffen. Wenn einigen Informationsarten fälschlicherweise mehr oder weniger Bedeutung beigemessen wird, als ihnen zusteht, können die Ergebnisse des Algorithmus verzerrt sein.

So wird beispielsweise Software für maschinelles Lernen in einigen Teilen der Welt von Gerichtssystemen verwendet, um zu empfehlen, wie lange ein verurteilter Straftäter inhaftiert werden sollte.

Studien haben ergeben, dass die Ergebnisse des Algorithmus wahrscheinlich verzerrt sind, wenn Daten über die Rasse, die Bildung und den Familienstand eines Straftäters zu stark gewichtet werden, und dass die Software für Straftäter, die wegen desselben Verbrechens verurteilt wurden, sehr unterschiedliche Strafen empfiehlt.

Beispiele für maschinelle Verzerrungen

Maschinelle Voreingenommenheit kann sich auf verschiedene Weise manifestieren, z. B.:

  • Prädiktive Verzerrung: Das Modell trifft mit größerer Wahrscheinlichkeit spezifische Vorhersagen für bestimmte demografische Gruppen von Personen.
  • Repräsentationsverzerrung: Während des Trainings sind bestimmte demografische Daten unterrepräsentiert oder ausgeschlossen.
  • Messverzerrung: Das Modell wird mit unzuverlässigen, unvollständigen oder verzerrten Daten trainiert.
  • Algorithmische Verzerrung: Das Design des Modells oder der zum Training verwendete Algorithmus ist aufgrund menschlicher Fehler von Natur aus verzerrt.

Hier einige Beispiele aus den Nachrichten, in denen Menschen oder Unternehmen durch KI geschädigt wurden:

Eine Untersuchung von ProPublica aus dem Jahr 2016 ergab, dass COMPAS, ein vom Staat Florida eingeführtes KI-System, schwarze Angeklagte mit doppelt so hoher Wahrscheinlichkeit als künftige Wiederholungstäter einstufte wie weiße Angeklagte. Dies führte zu Bedenken hinsichtlich des Einsatzes von KI in der Polizeiarbeit und der Strafjustiz.

Im Jahr 2018 wurde berichtet, dass Amazons Gesichtserkennungstechnologie, bekannt als Rekognition, eine höhere Fehlerquote bei Frauen mit dunklerer Hautfarbe aufweist. Dies gab Anlass zur Sorge, dass die Technologie in einer Weise eingesetzt werden könnte, die marginalisierten Gemeinschaften schaden könnte.

Im Jahr 2020 stellte sich heraus, dass ein Chatbot, den der britische National Health Service (NHS) während der COVID-19-Pandemie zur Triage von Patienten eingesetzt hatte, falsche Informationen lieferte und die Menschen zur Behandlung an die falschen Stellen verwies. Dies weckte Bedenken hinsichtlich der Sicherheit des Einsatzes von KI für medizinische Entscheidungen.

Im Jahr 2021 stellte eine Untersuchung von The Markup fest, dass Kreditgeber farbigen Menschen mit 80 % höherer Wahrscheinlichkeit einen Hauskredit verweigern als weißen Menschen mit ähnlichen finanziellen Merkmalen. Dies gab Anlass zur Besorgnis darüber, wie Blackbox-KI-Algorithmen bei der Vergabe von Hypotheken eingesetzt werden.

Im Jahr 2022 wurde festgestellt, dass die iTutorGroup, eine Gruppe von Unternehmen, die Nachhilfe in englischer Sprache für Schüler in China anbietet, ihre Online-Rekrutierungssoftware so programmiert hat, dass sie weibliche Bewerber ab 55 Jahren und männliche Bewerber ab 60 Jahren automatisch ablehnt. Dies gab Anlass zu Bedenken wegen Altersdiskriminierung und führte dazu, dass die U.S. Equal Employment Opportunity Commission (EEOC) Klage einreichte.

Wie man maschinelle Voreingenommenheit erkennt

Es gibt mehrere Methoden, um maschinelle Verzerrungen in einem maschinellen Lernmodell zu erkennen:

  1. Datenanalyse: Die Daten, die zum Trainieren des Modells verwendet werden, werden analysiert, um mögliche Quellen von Verzerrungen wie unausgewogene Klassen oder fehlende Daten zu erkennen.
  2. Fairness-Metriken: Fairness-Metriken, wie z. B. demografische Parität oder Chancengleichheit, werden verwendet, um die Vorhersagen des Modells für verschiedene Gruppen von Personen zu bewerten.
  3. Kontrafaktische Analyse: Die kontrafaktische Analyse wird verwendet, um zu bewerten, wie sich die Vorhersagen des Modells ändern würden, wenn bestimmte Merkmale des Modells anders wären.
  4. Modellüberprüfung: Die Parameter des Modells und die Entscheidungsgrenzen werden untersucht, um Muster zu erkennen, die auf Verzerrungen hinweisen könnten.
  5. Bewertung der Leistung: Die Leistung des Modells wird anhand einer Vielzahl von Daten bewertet, um Leistungsunterschiede zwischen verschiedenen Gruppen zu erkennen.
  6. Der Mensch im Kreislauf: Menschliche Experten bewerten die Vorhersagen des Modells und suchen nach verzerrten Ergebnissen.

Wie man maschinelle Verzerrungen verhindert

Es gibt mehrere Techniken, die eingesetzt werden können, um eine reaktionsfähige KI zu fördern und maschinelle Verzerrungen in maschinellen Lernmodellen zu verhindern. Es wird empfohlen, mehrere Methoden anzuwenden und sie wie folgt zu kombinieren:

  1. Diversifizieren Sie die Trainingsdaten.
  2. Verwenden Sie Fairness-Bedingungen wie demografische Parität und Chancengleichheit.
  3. Verwendung von Algorithmen zur Korrektur von Verzerrungen.
  4. Verwenden Sie Regularisierungstechniken wie L1- und L2-Regularisierung, um die Komplexität des Modells zu reduzieren und die Generalisierung zu fördern.
  5. Regelmäßige Überprüfung und Interpretation der Modellvorhersagen, um Verzerrungen zu erkennen und zu beseitigen.
  6. Einbeziehung von menschlichem Feedback und Eingriffen in den Vorhersageprozess des Modells, um unvoreingenommene Entscheidungen zu gewährleisten.

Bias vs. Varianz von Maschinen

Bias und Varianz sind zwei Konzepte, die zur Beschreibung der Leistung und Genauigkeit eines maschinellen Lernmodells verwendet werden. Ein Modell mit geringer Verzerrung und geringer Varianz wird bei neuen Daten wahrscheinlich gut abschneiden, während ein Modell mit hoher Verzerrung und hoher Varianz wahrscheinlich schlecht abschneiden wird.

  • Bias-Fehler werden durch die Annäherung eines realen Problems mit einem zu einfachen ML-Modell verursacht. Ein Modell mit einer hohen Verzerrung passt oft nicht zu den Daten, weil das Modell nicht in der Lage ist, die Komplexität des Problems zu erfassen.
  • Varianz bezieht sich auf Fehler, die entstehen, wenn ein ML-Modell den Trainingsdaten so viel Aufmerksamkeit schenkt, dass es keine genauen Verallgemeinerungen über neue Daten machen kann. Ein Modell mit hoher Varianz übererfüllt oft die Daten.

In der Praxis kann es schwierig sein, das optimale Gleichgewicht zwischen Verzerrung und Varianz zu finden. Techniken wie Regularisierung und Kreuzvalidierung können eingesetzt werden, um die Verzerrung und Varianz des Modells zu steuern und seine Leistung zu verbessern.

Verwandte Begriffe

Margaret Rouse

Margaret Rouse ist eine preisgekrönte technische Autorin und Dozentin. Sie ist für ihre Fähigkeit bekannt, komplexe technische Themen simpel und nachvollziehbar zu erklären. In den letzten zwanzig Jahren sind ihre Erklärungen auf TechTarget-Websites erschienen und sie wurde in Artikeln der New York Times, des Time Magazine, USA Today, ZDNet, PC Magazine und Discovery Magazine als Quelle und Expertin zitiert. Wenn Sie einen Vorschlag für eine neue Definition haben oder eine technische Erklärung verbessern möchten, schicken Sie einfach Margaret eine E-Mail oder kontaktieren Sie sie auf LinkedIn oder Twitter.