Biais de machine

Qu’est-ce que le biais de machine ?

Le biais de machine est la tendance d’un modèle d’apprentissage automatique à faire des prédictions inexactes ou injustes. Cela en raison d’erreurs systématiques dans le modèle d’apprentissage automatique ou dans les données utilisées pour le former.

Les biais dans l’apprentissage automatique peuvent être causés par une variété de facteurs. Parmi les causes les plus courantes, citons

  1. Des données d’entraînement limitées.
  2. Le choix d’un modèle d’apprentissage automatique qui n’est pas bien adapté au problème ou qui n’a pas la capacité suffisante pour saisir la complexité des données.
  3. Les biais humains introduits dans la collecte des données, l’étiquetage ou les processus d’ingénierie des caractéristiques.

Le biais machine survient fréquemment lorsque, au cours de l’ingénierie des caractéristiques et du processus de réglage algorithmique, un scientifique ou un ingénieur des données surestime ou sous-estime l’importance d’un hyperparamètre spécifique. Un hyperparamètre est un paramètre d’apprentissage automatique dont la valeur est choisie avant que l’algorithme d’apprentissage ne soit formé. Le réglage est le processus de sélection des hyperparamètres qui minimiseront les fonctions de perte d’un algorithme d’apprentissage. Et qui fourniront les résultats les plus précis.

Il est important de noter que le biais de la machine peut être utilisé pour améliorer l’interprétabilité d’un modèle ML dans certaines situations. Par exemple, un modèle linéaire simple avec un biais élevé sera plus facile à comprendre et à expliquer qu’un modèle complexe avec un biais faible.

Cependant, lorsqu’un modèle d’apprentissage automatique doit faire des prédictions et prendre des décisions, les biais peuvent amener les algorithmes d’apprentissage automatique à produire des résultats sous-optimaux qui peuvent être nuisibles. Cela est particulièrement vrai dans le cas de l’évaluation du crédit, de l’embauche, du système judiciaire et des soins de santé. Dans ces cas, les biais peuvent conduire à un traitement injuste ou discriminatoire de certains groupes et avoir de graves conséquences dans le monde réel.

Techopedia explique les biais de l’apprentissage automatique

Les biais dans l’apprentissage automatique sont un sujet complexe car ils sont souvent liés à d’autres facteurs tels que la qualité des données. Pour s’assurer qu’un modèle d’apprentissage automatique reste juste et impartial, il est important d’évaluer en permanence les performances du modèle en production.

Les algorithmes d’apprentissage automatique utilisent ce qu’ils ont appris au cours de la formation pour faire des prédictions sur de nouvelles données. Lorsque certains types d’informations se voient attribuer par erreur plus ou moins d’importance qu’ils n’en méritent, les résultats de l’algorithme peuvent être biaisés.

Par exemple, les logiciels d’apprentissage automatique sont utilisés par les systèmes judiciaires dans certaines parties du monde. Cela pour recommander la durée d’incarcération d’un criminel condamné. Des études ont montré que lorsque les données relatives à la race, à l’éducation et à l’état civil d’un criminel sont trop pondérées, alors les résultats de l’algorithme risquent d’être biaisés et le logiciel recommandera des peines sensiblement différentes pour des criminels qui ont été condamnés pour le même délit.

Exemples de partialité des machines

Les biais de la machine peuvent se manifester de différentes manières, notamment

  • Biais prédictif : le modèle est plus susceptible de faire des prédictions spécifiques pour certains groupes démographiques d’individus.
  • Biais de représentation : pendant la formation, certaines données démographiques sont sous-représentées ou exclues.
  • Biais de mesure : le modèle est formé à partir de données peu fiables, incomplètes ou biaisées.
  • Biais algorithmique : la conception du modèle ou l’algorithme utilisé pour l’entraîner est intrinsèquement biaisé en raison d’une erreur humaine.

Voici quelques exemples d’histoires qui ont fait la une de l’actualité et dans lesquelles des personnes ou des entreprises ont été lésées par l’IA :

Une enquête menée en 2016 par ProPublica a révélé que COMPAS, un système d’IA adopté par l’État de Floride, était deux fois plus susceptible de signaler des accusés noirs comme futurs récidivistes que des accusés blancs. Cela a suscité des inquiétudes quant à l’utilisation de l’IA dans le maintien de l’ordre et la justice pénale.

En 2018, il a été signalé que la technologie de reconnaissance faciale d’Amazon, connue sous le nom de Rekognition, présentait un taux d’inexactitude plus élevé pour les femmes à la peau plus foncée. Cela a suscité des inquiétudes quant à la possibilité d’utiliser cette technologie de manière à nuire aux communautés marginalisées.

En 2020, on a découvert qu’un chatbot utilisé par le Service national de santé britannique (NHS) pour trier les patients pendant la pandémie de COVID-19 fournissait des informations erronées et orientait les gens vers des traitements inappropriés. Cette découverte a suscité des inquiétudes quant à la sécurité de l’utilisation de l’IA pour prendre des décisions médicales.

En 2021, une enquête menée par The Markup a révélé que les prêteurs étaient 80 % plus susceptibles de refuser des prêts immobiliers à des personnes de couleur qu’à des personnes blanches présentant des caractéristiques financières similaires. Cette enquête a suscité des inquiétudes quant à l’utilisation d’algorithmes d’IA de type “boîte noire” pour l’octroi de prêts hypothécaires.

En 2022, il a été constaté que le iTutorGroup, un groupe d’entreprises fournissant des services de tutorat en anglais à des étudiants en Chine, avait programmé son logiciel de recrutement en ligne de manière à rejeter automatiquement les candidates âgées de 55 ans ou plus et les candidats âgés de 60 ans ou plus. Cette découverte a suscité des inquiétudes quant à la discrimination fondée sur l’âge et a conduit la Commission américaine pour l’égalité des chances en matière d’emploi (EEOC) à intenter une action en justice.

Comment détecter les biais de la machine

Plusieurs méthodes peuvent être utilisées pour détecter les biais de la machine dans un modèle d’apprentissage automatique :

  1. Analyse des données : Les données utilisées pour former le modèle sont analysées afin de détecter toute source potentielle de biais, comme des classes déséquilibrées ou des données manquantes.
  2. Mesures d’équité : Les mesures d’équité, telles que la parité démographique ou l’égalité des chances, sont utilisées pour évaluer les prédictions du modèle pour différents groupes d’individus.
  3. Analyse contrefactuelle : L’analyse contrefactuelle est utilisée pour évaluer comment les prédictions du modèle changeraient si certaines caractéristiques du modèle étaient différentes.
    Inspection du modèle : Les paramètres et les limites de décision du modèle sont inspectés afin de détecter les schémas susceptibles d’indiquer un biais.
  4. Évaluation des performances : Les performances du modèle sont évaluées à l’aide d’un ensemble diversifié de données afin de détecter les disparités de performances entre différents groupes.
  5. Approche humaine dans la boucle : Des experts humains évaluent les prédictions du modèle et recherchent des résultats biaisés.

Comment prévenir les biais de la machine

Plusieurs techniques peuvent être utilisées pour favoriser une IA réactive et prévenir les biais dans les modèles d’apprentissage automatique. Il est recommandé d’utiliser plusieurs méthodes et de les combiner en procédant comme suit :

  • Diversifier les données d’apprentissage.
  • Utiliser des contraintes d’équité telles que la parité démographique et l’égalité des chances.
  • Utiliser des algorithmes de correction des biais.
  • Utiliser des techniques de régularisation telles que la régularisation L1 et L2 pour réduire la complexité du modèle et favoriser la généralisation.
  • Vérifier et interpréter régulièrement les prédictions du modèle pour détecter et corriger les biais.
  • Incorporer un retour d’information et une intervention humaine dans le processus de prédiction du modèle afin de garantir des décisions impartiales.

Biais et variance des machines

Le biais et la variance sont deux concepts utilisés pour décrire les performances et la précision d’un modèle d’apprentissage automatique. Un modèle présentant un faible biais et une faible variance est susceptible d’obtenir de bons résultats avec de nouvelles données, tandis qu’un modèle présentant un biais élevé et une forte variance est susceptible d’obtenir de mauvais résultats.

  • Les erreurs de biais sont introduites par l’approximation d’un problème réel à l’aide d’un modèle d’apprentissage automatique trop simple. Un modèle à biais élevé est souvent sous-adapté aux données parce qu’il n’est pas en mesure de saisir la complexité du problème.
  • La variance fait référence à l’erreur qui est introduite lorsqu’un modèle ML accorde tellement d’attention aux données d’apprentissage qu’il ne peut pas faire de généralisations précises sur les nouvelles données. Un modèle à forte variance surfait souvent sur les données.

Dans la pratique, trouver l’équilibre optimal entre le biais et la variance peut s’avérer difficile. Des techniques telles que la régularisation et la validation croisée peuvent être utilisées pour gérer le biais et la variance du modèle et contribuer à améliorer ses performances.

Termes connexes

Margaret Rouse

Margaret Rouse est une écrivaine technique primée et enseignante reconnue pour sa capacité à expliquer des sujets techniques complexes à un public non technique et commercial. Au cours des vingt dernières années, ses explications ont été publiées sur les sites Web de TechTarget et elle a été citée comme une autorité dans des articles du New York Times, du Time Magazine, de USA Today, de ZDNet, de PC Magazine et de Discovery Magazine. L'idée que Margaret se fait d'une journée amusante est d'aider les professionnels de l'informatique et des affaires à apprendre à parler leurs langages hautement spécialisés respectifs. Si…