기계 편향이란 무엇인가?


 

기계 편향이란?

기계 편향 (Machine Bias) 또는 머신러닝 편향(machine learning bias)은 머신러닝 모델의 체계적인 오류 또는 모델 훈련에 사용되는 데이터로 인해 머신러닝 모델이 부정확하거나 부당한 예측을 하는 경향을 말합니다.

기계의 편향은 다양한 요인에 의해 발생할 수 있습니다. 일반적인 원인은 다음과 같습니다:

  1. 교육 데이터가 제한되어 있습니다.
  2. 문제에 적합하지 않거나 데이터의 복잡성을 포착할 수 있는 용량이 부족한 기계 학습 모델을 선택한 경우.
  3. 인간의 편향은 데이터 수집, 분류 프로세스 또는 기능 엔지니어링 프로세스에서 발생할 수 있습니다.

기계 편향은 종종 기능 공학 및 알고리즘 튜닝 과정에서 데이터 과학자 또는 엔지니어가 특정 하이퍼파라미터의 중요성을 과대 또는 과소평가하여 발생합니다. 하이퍼파라미터는 학습 알고리즘이 훈련되기 전에 값이 선택되는 기계 학습 파라미터입니다. 튜닝은 학습 알고리즘의 손실 함수를 최소화하고 가장 정확한 출력을 제공하는 하이퍼파라미터를 선택하는 과정입니다.

기계 편향은 특정 상황에서 머신러닝 모델의 해석 가능성을 향상하기 위해 활용될 수 있다는 점에 유의해야 합니다. 예를 들어, 편향이 높은 단순 선형 모델은 편향이 낮은 복잡한 모델보다 이해하고 설명하기가 더 쉽습니다. 그러나 기계 학습 모델이 예측과 결정을 내릴 때 편향으로 인해 기계 학습 알고리즘에 해로울 수 있는 차선의 결과를 생성할 수 있습니다.

특히 이러한 기계편향은 신용평가, 채용, 법원제도, 헬스케어 등의 분야에서 발생할 수 있습니다. 이 경우 편견은 특정 집단에 대한 부당한 대우나 차별적 대우를 초래하여 현실적으로 심각한 결과를 초래할 수 있습니다.

 

테크허브가 설명하는 기계 편향

기계 편향은 데이터 품질과 같은 다른 요소와 종종 얽혀 있기 때문에 복잡한 주제입니다. ML 모델이 공정하고 편향되지 않도록 하려면 생산 환경에서 성능을 지속적으로 평가하는 것이 중요합니다.

기계 학습 알고리즘은 학습 중의 학습한 내용을 사용하여 새로운 입력에 대해 예측합니다. 일부 유형의 정보가 실제보다 더 중요하거나 덜 중요하게 잘못 할당되면 알고리즘의 출력에 편향이 발생할 수 있습니다.

예를 들어, 세계 일부 지역의 법원 시스템은 기계 학습 소프트웨어를 사용하여 유죄 판결을 받은 범죄자의 수감 기간을 권장합니다. 연구에 따르면 범죄자의 인종, 학력 및 결혼 상태에 대해 지나치게 높은 가중치 데이터는 알고리즘의 결과를 편향시킬 가능성이 높으며, 소프트웨어는 동일한 범죄로 유죄 판결을 받은 범죄자에게 상당히 다른 형량을 권장할 수 있습니다.

 

기계 편향의 예

기계 편향은 다음과 같은 여러 가지 방법으로 나타날 수 있습니다:

  • 예측 편향(prediction bias): 특정 인구통계학적 그룹에 대해 특정 예측을 할 가능성이 높은 모델입니다.
  • 표현 편향: 특정 인구 통계 데이터는 학습 중에 과소 표현되거나 제외되는 경우가 있습니다.
  • 측정 편향: 신뢰할 수 없거나 불완전하거나 왜곡된 데이터를 사용하여 모형을 학습합니다.
  • 알고리즘 편향: 모델의 설계나 학습에 사용되는 알고리즘은 본질적으로 인간의 오류로 인해 편향되어 있습니다.

다음은 인공지능이 사람이나 기업에 피해를 준 뉴스의 몇 가지 예입니다:

2016년 프로퍼블리카(ProPublica) 조사에 따르면 플로리다주가 채택한 인공지능 시스템인 COMPAS는 향후 흑인 피고인을 재범으로 분류할 가능성이 백인 피고인보다 2배 높았습니다. 이에 따라 보안 및 형사 사법 분야에서 AI 활용에 대한 우려가 제기되었습니다.

2018년 아마존의 안면 인식 기술인 인식(Recognition)이 어두운 피부를 가진 여성의 부정확한 인식률이 높다는 보고가 있었습니다. 이에 따라 소외된 지역 사회에 해를 끼칠 수 있는 방식으로 기술이 사용될 가능성에 대한 우려가 제기되었습니다.

2020년 코로나19 팬데믹 기간 영국 국민보건서비스(NHS)가 환자 분류를 위해 사용한 챗봇이 잘못된 정보를 제공하고 사람들이 잘못된 장소에서 진료를 받도록 장려하는 것으로 밝혀졌습니다. 이에 따라 의료 결정에 AI를 사용하는 것의 안전성에 대한 우려가 제기되었습니다.

마크업의 2021년 조사에 따르면 유사한 재무적 특성을 가진 백인보다 대출 기관이 유색인종에 대한 주택담보 대출을 거부할 우려가 80% 더 높았습니다. 이에 따라 블랙박스 AI 알고리즘이 모기지 승인에 어떻게 사용되고 있는지에 대한 우려가 제기되었습니다.

2022년, 중국에서 학생들에게 영어 과외 서비스를 제공하는 회사들의 그룹인 아이튠즈 그룹이 55세 이상의 여성 지원자들과 60세 이상의 남성 지원자들을 자동으로 거절하기 위한 온라인 채용 소프트웨어를 개발했다는 것이 밝혀졌습니다. 이것은 나이 차별에 대한 우려를 제기했고 EEOC은 소송을 제기했습니다.

 

기계 학습에서 편향을 감지하는 방법

기계 학습 모델에서 기계 편향을 감지하는 데 사용할 수 있는 몇 가지 방법이 있습니다:

  1. 데이터 분석: 모델 교육에 사용되는 데이터를 분석하여 불균형 클래스 또는 누락된 데이터와 같은 잠재적인 편향 소스를 탐지합니다.
  2. 공정성 지표: 인구 통계학적 평등 또는 기회균등과 같은 공정성 지표는 다양한 개별 그룹에 대한 모델의 예측을 평가하는 데 사용됩니다.
  3. 반사실적 분석: 반사실적 분석: 반사실적 분석은 모델의 특정 특징이 다를 때 모델의 예측이 어떻게 변하는지 평가하는 데 사용됩니다.
  4. 모델 검사: 편향을 나타낼 수 있는 패턴을 감지하기 위해 모델의 매개 변수와 결정 경계를 검사합니다.
  5. 성능 평가: 서로 다른 데이터 세트를 사용하여 여러 그룹 간의 성능 차이를 감지하여 모델의 성능을 평가합니다.
  6. Human in the loop approach: 인간 전문가는 모델의 예측을 평가하고 편향된 결과를 찾습니다.

 

기계 편향을 방지하는 방법은 무엇입니까?

기계 학습 모델에서 반응형 AI를 육성하고 기계 편향을 방지하기 위해 사용할 수 있는 여러 기술이 있습니다. 여러 가지 방법을 사용하여 다음과 같이 결합하는 것이 좋습니다:

  1. 교육 데이터를 다양화합니다.
  2. 인구통계학적 평등과 기회균등과 같은 공정성 제약을 이용합니다.
  3. 편향 보정 알고리즘을 사용합니다.
  4. 모델의 복잡성을 줄이고 일반화를 촉진하기 위해 L1 및 L2 정규화와 같은 정규화 기법이 사용됩니다.
  5. 편향을 탐지하고 해결하기 위해 모형의 예측을 정기적으로 감사하고 해석합니다.
  6. 인간의 피드백과 개입을 모델의 예측 과정에 통합함으로써 편견 없는 결정을 유도합니다.

 

기계 편향 및 분산

편향과 분산은 기계 학습 모델의 성능과 정확도를 설명하는 데 사용되는 두 가지 개념입니다. 기계 편향이 낮고 분산이 낮은 모델은 새로운 데이터에서 성능이 좋지만, 기계 편향이 높고 분산이 높은 모델은 성능이 떨어질 가능성이 높습니다.

  • 편향 오류는 너무 간단한 ML 모델로 실제 문제를 근사할 때 발생합니다. 고도로 편향된 모델은 문제의 복잡성을 포착할 수 없기 때문에 데이터에 적합하지 않은 경우가 많습니다.
  • 분산은 ML 모델이 새로운 데이터에 대한 정확한 일반화를 위해 훈련 데이터에 너무 많은 주의를 기울일 때 발생하는 오류를 말합니다. 분산이 높은 모델은 종종 데이터를 과적합니다.

실제로 편향과 분산 사이의 최적 균형을 찾는 것은 어려울 수 있습니다. 정규화 및 교차 검증과 같은 기술을 사용하여 모델의 편향과 분산을 관리하고 성능을 향상할 수 있습니다.

 

편집 과정
테크허브의 편집 과정은 정확성과 신뢰성을 최우선으로 합니다. 다양한 IT 분야의 전문가와 애호가로 구성된 참여자들이 콘텐츠를 작성하며, 엄격한 편집 과정을 거칩니다. 업계 전문가와 영향력 있는 현직자들의 검증을 통해 정보의 정확성을 보장합니다. 또한 최신 기술 동향과 산업 표준을 반영하기 위해 정기적으로 콘텐츠를 업데이트하고, 이러한 철저한 품질 관리 프로세스를 통해 테크허브는 사용자에게 신뢰할 수 있는 최신 IT 정보를 제공합니다.
위로 스크롤