Cosa significa Machine Bias?
Il machine bias è la tendenza di un modello di apprendimento automatico (machine learning – ML) a fare previsioni imprecise o errate a causa di errori sistematici o nei dati utilizzati per addestrare il modello.
I bias nell’apprendimento automatico possono essere causati da diversi fattori, ma in genere le cause più comuni sono:
- Dati di addestramento limitati;
- Scelta di un modello di apprendimento automatico inadatto al compito o che non ha una capacità sufficiente per acquisire la complessità dei dati.
- Pregiudizi umani introdotti nei processi di raccolta, etichettatura o ingegnerizzazione dei dati.
Queste distorsioni sono spesso il risultato di una sovrastima o di una sottovalutazione da parte di un data scientist o di un ingegnere di un particolare iperparametro durante l’ingegnerizzazione delle caratteristiche o il processo di messa a punto dell’algoritmo.
Un iperparametro è un parametro di apprendimento automatico il cui valore viene scelto prima dell’addestramento dell’algoritmo di apprendimento, mentre la messa a punto è il processo di selezione degli iperparametri che minimizzano le funzioni di perdita di un algoritmo di apprendimento e forniscono risultati più accurati.
È tuttavia importante precisare che i machine bias possono anche essere utilizzati per migliorare l’interpretabilità di un modello di ML in determinate situazioni. Ad esempio, un modello lineare semplice con un bias elevato sarà più facile da capire e spiegare rispetto a un modello complesso con un bias basso.
Allo stesso modo, quando un modello di apprendimento automatico deve fare previsioni e prendere decisioni, i bias possono indurre gli algoritmi di ML a produrre risultati non ottimali o potenzialmente dannosi.
In particolare, nel caso del credit scoring, delle assunzioni, del sistema giudiziario e dell’assistenza sanitaria, questi errori possono portare a un trattamento ingiusto o discriminatorio nei confronti di determinati gruppi di persone e avere gravi conseguenze nel mondo reale.
Techopedia spiega i Machine Bias
Il bias nell’apprendimento automatico è un argomento complicato perché spesso si intreccia con altri fattori, come la qualità dei dati.
Per garantire che un modello di ML rimanga corretto e imparziale, è importante valutarne continuamente le prestazioni in fase di produzione.
Gli algoritmi di apprendimento automatico utilizzano quanto appreso durante l’addestramento per fare previsioni su nuovi input. Quando ad alcuni tipi di informazioni viene erroneamente assegnata un’importanza maggiore o minore di quella che meritano, i risultati dell’algoritmo possono risultare falsati.
Ad esempio, in alcune parti del mondo i sistemi giudiziari utilizzano software di apprendimento automatico per consigliare la durata della detenzione di un criminale condannato. Tuttavia, alcuni studi hanno rilevato che quando i dati relativi alla razza, all’istruzione e allo stato civile di un criminale vengono ponderati in modo eccessivo, è probabile che i risultati dell’algoritmo siano falsati e che il software raccomandi sentenze significativamente diverse per criminali che sono stati condannati per lo stesso reato.
Esempi di Machine Bias
I Machine Bias possono manifestarsi in vari modi, come ad esempio:
- Pregiudizio predittivo: il modello ha maggiori probabilità di fare previsioni specifiche per determinati gruppi demografici di individui.
- Bias di rappresentazione: durante l’addestramento, alcuni dati demografici sono sottorappresentati o esclusi.
- Bias di misurazione: il modello viene addestrato utilizzando dati inaffidabili, incompleti o distorti.
- Bias algoritmico: il design del modello o l’algoritmo utilizzato per addestrarlo è intrinsecamente distorto a causa di un errore umano.
Ecco alcuni esempi reali in cui persone o aziende sono state danneggiate dall’IA:
- Un’indagine del 2016 di ProPublica ha rilevato che COMPAS, un sistema di intelligenza artificiale adottato dallo Stato della Florida, aveva il doppio delle probabilità di segnalare gli imputati neri come futuri recidivi rispetto agli imputati bianchi. Ciò ha sollevato preoccupazioni sull’uso dell’IA da parte delle forze dell’ordine e della giustizia penale.
- Nel 2018 è stato riportato che la tecnologia di riconoscimento facciale di Amazon, nota come Rekognition, presentava un tasso di imprecisioni più elevato per le donne con la carnagione più scura.
- Nel 2020, si è scoperto che un chatbot utilizzato dal Servizio sanitario nazionale (NHS) del Regno Unito per il triage dei pazienti durante la pandemia di COVID-19 forniva informazioni errate e indirizzava le persone a cercare cure nei luoghi sbagliati. Ciò ha sollevato preoccupazioni sulla sicurezza dell’uso dell’intelligenza artificiale per prendere decisioni mediche.
- Nel 2021, un’indagine di The Markup ha rilevato che gli istituti di credito avevano l’80% di probabilità in più di negare i mutui alle persone di colore rispetto ai bianchi con caratteristiche finanziarie simili.
- Nel 2022, iTutorGroup, un gruppo di aziende che fornisce servizi di tutoraggio in lingua inglese agli studenti in Cina, ha scoperto di aver programmato il proprio software di reclutamento online per rifiutare automaticamente le candidate di sesso femminile di età pari o superiore a 55 anni e quelli di sesso maschile di età pari o superiore a 60 anni. Ciò ha sollevato preoccupazioni in merito alla discriminazione per età dell’IA e ha portato la Commissione statunitense per le pari opportunità di impiego (EEOC) a intentare una causa contro la compagnia.
Come prevenire i Machine Bias
Esistono diverse tecniche che si possono utilizzare per migliorare l’intelligenza artificiale e prevenire i machine bias nei modelli di apprendimento automatico. In particolare, è consigliabile utilizzare più metodi e combinarli tra loro come segue:
- Diversificare i dati di addestramento.
- Utilizzare vincoli di equità come la parità demografica e le pari opportunità.
- Utilizzare algoritmi di correzione dei bias.
- Utilizzare tecniche di regolarizzazione come la L1 e la L2 per ridurre la complessità del modello e promuovere la generalizzazione.
- Verificare e interpretare regolarmente le previsioni del modello per individuare e correggere i bias.
- Incorporare il feedback e l’intervento umano nel processo di previsione del modello per garantire decisioni imparziali.
Machine Bias vs. Varianza
Bias e varianza sono due concetti utilizzati per descrivere le prestazioni e l’accuratezza di un modello di apprendimento automatico.
Un modello con un basso bias e una bassa varianza ha buone probabilità di funzionare bene su nuovi dati, mentre un modello con un alto bias e un’alta varianza ha scarse probabilità di ottenere risultati ottimali.
- Gli errori di bias sono causati dall’approssimazione di un problema del mondo reale in un modello di ML troppo semplice. Un modello con un elevato bias spesso non si adatta ai dati perché non è in grado di comprendere la complessità del problema.
- La varianza, invece, si riferisce all’errore introdotto quando un modello ML presta così tanta attenzione ai dati di addestramento da non riuscire a fare generalizzazioni accurate sui nuovi dati. Un modello ad alta varianza spesso si adatta troppo ai dati.
In pratica, trovare l’equilibrio ottimale tra bias e varianza può essere difficile. Tecniche come la regolarizzazione e la convalida incrociata si rivelano utili per gestire il bias e la varianza del modello, contribuendo a migliorarne le prestazioni.