기계 편향

테코피디아 신뢰성

기계 편향이란?

기계 편향 (Machine Bias) 또는 머신러닝 편향이란 머신러닝 모델 또는 모델 학습에 사용된 데이터에 체계적인 오류가 있기 때문에 머신러닝 모델이 부정확하거나 불공정한 예측을 하는 경향을 말한다.

기계 편향은 다양한 요인으로 인해 발생할 수 있다. 몇 가지 일반적인 원인은 다음과 같다:

  1. 제한된 훈련 데이터.
  2. 문제에 적합하지 않거나 데이터의 복잡성을 포착하기에 충분한 용량을 갖추지 못한 머신러닝 모델을 선택하는 경우.
  3. 데이터 수집, 분류 과정 또는 기능 엔지니어링 프로세스에서 인적 편향이 발생할 수 있다.

기계 편향은 데이터 과학자나 엔지니어가 기능 엔지니어링 및 알고리즘 튜닝 과정에서 특정 하이퍼파라미터의 중요성을 과대평가하거나 과소평가한 결과 발생하는 경우가 많다. 하이퍼파라미터는 학습 알고리즘이 학습되기 전에 값이 선택되는 머신 러닝 매개변수다. 튜닝은 학습 알고리즘의 손실 함수를 최소화하고 가장 정확한 출력을 제공하는 하이퍼파라미터를 선택하는 프로세스다.

특정 상황에서 머신러닝 모델의 해석 가능성을 개선하기 위해 기계 편향을 활용할 수 있다는 점에 유의해야 힌다. 예를 들어, 편향성이 높은 단순한 선형 모델은 편향성이 낮은 복잡한 모델보다 이해하고 설명하기가 더 쉽다. 그러나 머신러닝 모델이 예측과 결정을 내릴 때 편견으로 인해 머신러닝 알고리즘이 해로울 수 있는 차선의 결과물을 생성할 수 있다.

특히 신용 평가, 채용, 법원 시스템, 의료 분야에서 이러한 기계 편향이 발생할 수 있다. 이러한 경우 편견은 특정 그룹에 대한 불공정하거나 차별적인 대우로 이어질 수 있으며, 이는 현실에서 심각한 결과를 초래할 수 있다.

테코피디아가 설명하는 기계 편향

기계 편향은 데이터 품질과 같은 다른 요소와 얽혀 있는 경우가 많기 때문에 복잡한 주제다. ML 모델이 공정하고 편향되지 않도록 하려면 프로덕션 환경에서 모델의 성능을 지속적으로 평가하는 것이 중요하다.

머신 러닝 알고리즘은 학습 중에 학습한 내용을 사용하여 새로운 입력에 대한 예측을 한다. 일부 유형의 정보가 실수로 실제보다 더 중요하거나 덜 중요하게 할당되면 알고리즘의 출력에 편향이 생길 수 있다.

예를 들어, 전 세계 일부 지역의 법원 시스템에서는 유죄 판결을 받은 범죄자의 수감 기간을 추천하기 위해 머신러닝 소프트웨어를 사용한다. 연구에 따르면 범죄자의 인종, 학력, 결혼 여부에 대한 데이터에 지나치게 높은 가중치를 부여하면 알고리즘의 결과가 편향될 가능성이 높으며, 같은 범죄로 유죄 판결을 받은 범죄자에게도 소프트웨어가 상당히 다른 형을 추천할 수 있다.

기계 편향의 예시

기계 편향은 다음과 같은 다양한 방식으로 나타날 수 있다:

  • 예측 편향: 특정 인구통계학적 개인 그룹에 대해 특정 예측을 할 가능성이 높은 모델.
  • 대표성 편향: 학습 중에 특정 인구통계학적 데이터가 과소 대표되거나 제외되는 경우가 있다.
  • 측정 편향: 신뢰할 수 없거나 불완전하거나 왜곡된 데이터를 사용하여 모델을 학습한다.
  • 알고리즘 편향: 모델의 설계 또는 학습에 사용된 알고리즘이 사람의 실수로 인해 본질적으로 편향되어 있다.

다음은 인공지능으로 인해 사람이나 기업이 피해를 입은 뉴스 속 사례의 몇 가지 예시다:

2016년 프로퍼블리카의 조사에 따르면 플로리다 주에서 채택한 인공지능 시스템인 COMPAS는 흑인 피고인을 향후 재범자로 분류할 가능성이 백인 피고인보다 두 배나 높았다. 이로 인해 치안과 형사사법 분야에서 AI의 활용에 대한 우려가 제기되었다.

2018년에는 아마존의 얼굴 인식 기술인 Rekognition이 피부색이 어두운 여성의 경우 부정확한 인식률이 높다는 보고가 있었다. 이로 인해 이 기술이 소외된 커뮤니티에 해를 끼칠 수 있는 방식으로 사용될 가능성에 대한 우려가 제기되었다.

2020년, 코로나19 팬데믹 기간 동안 영국 국민보건서비스(NHS)에서 환자 분류에 사용한 챗봇이 잘못된 정보를 제공하고 사람들이 잘못된 곳에서 치료를 받도록 유도하는 것으로 밝혀졌다. 이로 인해 의료 결정을 내리는 데 AI를 사용하는 것의 안전성에 대한 우려가 제기되었다.

2021년 The Markup의 조사에 따르면 대출 기관이 비슷한 재정적 특성을 가진 백인보다 유색인종에 대한 주택 대출을 거부할 가능성이 80% 더 높은 것으로 나타났다. 이로 인해 블랙박스 AI 알고리즘이 모기지 승인에 어떻게 사용되고 있는지에 대한 우려가 제기되었다.

2022년, 중국에서 학생들에게 영어 과외 서비스를 제공하는 업체들의 모임인 iTutorGroup은 55세 이상의 여성 지원자와 60세 이상의 남성 지원자를 자동으로 거부하도록 온라인 채용 소프트웨어를 개발한 것으로 밝혀졌다. 이로 인해 연령 차별에 대한 우려가 제기되었고 미국 평등고용기회위원회(EEOC)가 소송을 제기했다.

머신 러닝에서 편향을 탐지하는 법

머신러닝 모델에서 기계 편향을 감지하는 데 사용할 수 있는 몇 가지 방법이 있다:

  1. 데이터 분석: 모델 학습에 사용된 데이터를 분석하여 불균형한 클래스 또는 누락된 데이터와 같은 잠재적인 편향의 원인을 감지한다.
  2. 공정성 지표: 인구통계학적 평등 또는 기회 균등과 같은 공정성 지표는 다양한 개인 그룹에 대한 모델의 예측을 평가하는 데 사용된다.
  3. 반대 사실 분석: 반대 사실 분석: 반대 사실 분석은 모델의 특정 기능이 다를 경우 모델의 예측이 어떻게 달라지는지 평가하는 데 사용된다.
  4. 모델 검사: 모델의 매개변수와 의사 결정 경계를 검사하여 편향성을 나타낼 수 있는 패턴을 감지한다.
  5. 성능 평가: 다양한 데이터 세트를 사용하여 여러 그룹 간의 성능 차이를 감지하여 모델의 성능을 평가한다.
  6. Human in the loop 접근법: 인간 전문가가 모델의 예측을 평가하고 편향된 결과를 찾아낸다.

기계 편향을 방지하는 법은?

반응형 AI를 육성하고 머신러닝 모델에서 기계 편향을 방지하는 데 사용할 수 있는 몇 가지 기술이 있다. 여러 가지 방법을 사용하여 다음과 같이 결합하는 것이 좋다:

  1. 훈련 데이터를 다양화.
  2. 인구통계학적 평등 및 기회 균등과 같은 공정성 제약 조건의 사용.
  3. 편향 보정 알고리즘을 사용.
  4. L1 및 L2 정규화와 같은 정규화 기법을 사용하여 모델의 복잡성을 줄이고 일반화를 촉진.
  5. 정기적으로 모델의 예측을 감사하고 해석하여 편향성을 감지하고 해결.
  6. 모델의 예측 프로세스에 사람의 피드백과 개입을 통합하여 편향되지 않은 결정의 유도.

기계 편향 그리고 분산

편향과 분산은 머신러닝 모델의 성능과 정확도를 설명하는 데 사용되는 두 가지 개념이다. 기계 편향이 낮고 분산이 낮은 모델은 새로운 데이터에서 좋은 성능을 발휘하는 반면, 기계 편향이 높고 분산이 높은 모델은 성능이 저하될 가능성이 높다.

  • 편향 오류는 너무 단순한 ML 모델로 실제 문제를 근사화할 때 발생한다. 편향성이 높은 모델은 문제의 복잡성을 포착할 수 없기 때문에 데이터에 적합하지 않은 경우가 많다.
  • 분산은 ML 모델이 학습 데이터에 너무 많은 주의를 기울여 새로운 데이터에 대해 정확한 일반화를 할 수 없을 때 발생하는 오류를 말한다. 분산이 높은 모델은 종종 데이터를 과도하게 맞춘다.

실제로 편향과 분산 사이의 최적의 균형을 찾는 것은 어려울 수 있다. 정규화교차 검증과 같은 기술을 사용하여 모델의 편향과 분산을 관리하고 성능을 개선할 수 있다.

관련 용어

Margaret Rouse
Technology expert
Margaret Rouse
기술 전문가

본 작가는 수상 경력에 빛나는 기술 작가이자 강사로, 복잡한 기술 주제를 비전문가인 비즈니스 청중에게 설명하는 능력으로 유명합니다. 지난 20년 동안 그녀의 설명은 TechTarget 웹사이트에 게재되었으며, 뉴욕 타임즈, 타임 매거진, USA 투데이, ZDNet, PC 매거진, 디스커버리 매거진의 기사에서 권위자로 인용되었습니다. 마가렛은 IT 및 비즈니스 전문가가 서로의 고도로 전문화된 언어를 사용하는 법을 배우도록 돕는 것을 즐겨합니다. 새로운 정의에 대한 제안이 있거나 기술 설명을 개선할 방법이 있으면 다음과 같이 알려주세요. 이메일, LinkedIn, Twitter.