테코피디아 신뢰성

머신러닝

머신러닝이란?

머신러닝 (ML)은 데이터의 패턴과 관계를 식별하는 알고리즘 모델을 구축하는 인공 지능(AI) 의 하위 범주다. 여기서 기계라는 단어는 컴퓨터 프로그램의 동의어이며, 학습이라는 단어는 ML 알고리즘이 추가 데이터를 수신함에 따라 더 정확해지는 방식을 설명한다.

머신러닝의 개념은 새로운 것은 아니지만, 인터넷이 등장하고 최근 빅데이터 분석과 클라우드 컴퓨팅이 발전하기 전까지는 비즈니스에 실제로 적용하는 것이 경제적으로 실현 가능하지 않았다. 데이터에서 패턴을 찾기 위해 머신러닝 알고리즘을 훈련하려면 많은 컴퓨팅 리소스와 빅 데이터에 대한 액세스가 필요하기 때문이다.

인공지능과 머신러닝이라는 용어는 때때로 동의어로 사용되기도 하는데, 그 이유는 최근까지 대부분의 인공지능 이니셔티브가 협소했고, 대부분의 머신러닝 모델이 단일 작업을 수행하도록 구축되었으며, 지도 학습을 사용하고, 학습을 위해 레이블이 지정된 대규모 데이터 세트가 필요했기 때문이다. 오늘날에는 로보틱 프로세스 자동화(RPA)를 사용하여 데이터 전처리 프로세스를 자동화하고 머신러닝 알고리즘을 훨씬 빠르게 학습시킬 수 있다.

테코피디아가 설명하는 머신러닝

고품질 머신 러닝 모델은 지정된 비즈니스 목표와 가장 관련성이 높은 특징을 추출하고 의미 있는 연관성을 파악하기 위해 고품질 학습 데이터와 대규모 데이터 세트에 대한 액세스가 필요하다.

머신러닝 모델이란?

머신 러닝 모델은 단순히 데이터에 대해 실행된 ML 알고리즘의 결과물이다. 머신 러닝 모델을 구축하는 단계는 다음과 같다:

  • 학습 데이터를 수집.
  • 훈련용 데이터 준비.
  • 사용할 학습 알고리즘 결정.
  • 학습 알고리즘 훈련.
  • 학습 알고리즘의 결과 평가하기.
  • 필요한 경우 학습 프로세스를 제어하는 변수(하이퍼파라미터)를 조정하여 학습 결과를 개선하기.

일반적인 머신러닝 환경에서 지도 머신러닝 알고리즘은 각 예제가 입력과 출력으로 구성된 예제로 구성된 데이터 세트가 필요하다. 이러한 환경에서 ML 알고리즘 학습의 일반적인 목표는 예측 모델의 파라미터를 업데이트하여 모델의 의사 결정 트리가 원하는 결과를 일관되게 생성하도록 하는 것이다. 이때 엔트로피가 필요하다.

엔트로피는 닫힌 시스템에서 무질서와 무작위성을 정량화하는 데 사용되는 수학 공식이다. 머신 러닝 프로젝트에서 중요한 목표는 엔트로피를 가능한 한 낮게 유지하는 것이다. 이 측정값은 모델의 결정 트리가 데이터를 분할하는 방법을 결정하기 때문이다.

머신러닝 훈련 방법

머신러닝 모델을 훈련하는 데 사용되는 알고리즘에는 지도 학습, 비지도 학습 및 강화 학습의 세 가지 주요 유형이 있다.

  • 지도 학습 – 알고리즘에 레이블이 지정된 학습 데이터(입력)가 주어지고 정답(출력)이 표시된다. 이 유형의 학습 알고리즘은 과거 데이터 세트의 결과를 사용하여 새로 들어오는 데이터의 출력 값을 예측한다.
  • 비지도 학습 – 알고리즘에 레이블이 지정되지 않은 학습 데이터가 제공된다. 이 유형의 학습 알고리즘은 올바른 출력을 예측하도록 요청 받는 대신 학습 데이터를 사용하여 패턴을 감지한 다음 유사한 동작을 보이는 다른 데이터 그룹에 적용할 수 있다. 일부 상황에서는 학습 중에 소량의 레이블이 지정된 데이터와 더 많은 양의 레이블이 지정되지 않은 데이터를 사용해야 할 수도 있다. 이러한 유형의 학습을 종종 준지도 (semi-supervised) 머신 러닝이라고 한다.
  • 강화 학습 – 학습 데이터가 주어지는 대신 알고리즘에 보상 신호가 주어지고 데이터에서 보상을 줄 수 있는 패턴을 찾는다. 이러한 유형의 학습 알고리즘의 입력은 종종 학습 알고리즘과 물리적 또는 디지털 환경의 상호 작용에서 파생된다.

머신러닝에서 편향을 유발하는 원인은?

인공지능, 특히 머신 러닝 알고리즘의 투명성에 대한 설명과 공개을 원하는 일반 대중의 요구가 증가하고 있지만, 머신러닝 알고리즘의 투명성은 단순히 특정 예측에 어떤 알고리즘이 사용되었는지 공유하는 것보다 더 복잡한 경우가 많다.

머신러닝을 처음 접하는 많은 사람들은 수학적 알고리즘 자체는 비밀이 아니라는 사실에 놀란다. 사실 오늘날 사용되는 대부분의 인기 있는 머신러닝 알고리즘은 무료로 사용할 수 있다. 독점적인 가치를 지닌 것은 사용된 알고리즘이 아니라 학습 데이터에 있다.

안타깝게도 학습 알고리즘을 훈련하는 데 사용되는 데이터는 사람이 선택하기 때문에 구축 중인 ML 모델에 의도치 않은 편향을 도입할 수 있다. 또한 학습 알고리즘의 반복적인 특성으로 인해 ML 엔지니어가 특정 예측의 이면에 있는 로직(Logic)을 추적하기가 어려울 수 있다.

데이터 과학자나 ML 엔지니어가 특정 예측이 어떻게 이루어졌는지 설명할 수 있는 경우, ML 모델을 설명 가능한 AI이라고 부르기도 한다. 수학이 너무 복잡해지거나 학습 데이터가 독점적이어서 특정 예측이 어떻게 이루어졌는지 밝힐 수 없는 경우, ML 모델을 블랙박스 AI라고 할 수 있다.

MLops

머신 러닝 프로젝트는 일반적으로 데이터 과학자와 머신 러닝 엔지니어가 감독한다. 데이터 과학자의 업무는 일반적으로 가설을 세우고 그 가설이 사실임을 증명할 수 있는 코드를 작성하는 것이다. 머신 러닝 엔지니어의 업무는 머신 러닝 연산(MLOps)에 중점을 둔다.

머신 러닝 운영은 머신 러닝 모델의 학습, 튜닝, 프로덕션 환경에서의 일상적인 사용, 최종 폐기 등 전체 수명 주기를 관리하는 접근 방식이다. 그렇기 때문에 머신러닝 엔지니어는 수학과 통계에 대한 탄탄한 배경 지식과 더불어 데이터 모델링, 기능 엔지니어링 및 프로그래밍에 대한 실무 지식을 갖춰야 한다.

특정 비즈니스 문제를 해결하는 데 가장 적합한 학습 알고리즘 유형을 결정할 때 같은 조직에 속한 데이터 과학자와 ML 엔지니어가 협업하는 것이 이상적이지만, 일부 산업에서는 ML 엔지니어의 업무가 학습에 사용할 데이터와 머신러닝 모델 결과의 검증 방법을 결정하는 것으로 제한되어 있다.

관련 용어

Margaret Rouse
기술 전문가

본 작가는 수상 경력에 빛나는 기술 작가이자 강사로, 복잡한 기술 주제를 비전문가인 비즈니스 청중에게 설명하는 능력으로 유명합니다. 지난 20년 동안 그녀의 설명은 TechTarget 웹사이트에 게재되었으며, 뉴욕 타임즈, 타임 매거진, USA 투데이, ZDNet, PC 매거진, 디스커버리 매거진의 기사에서 권위자로 인용되었습니다. 마가렛은 IT 및 비즈니스 전문가가 서로의 고도로 전문화된 언어를 사용하는 법을 배우도록 돕는 것을 즐겨합니다. 새로운 정의에 대한 제안이 있거나 기술 설명을 개선할 방법이 있으면 다음과 같이 알려주세요. 이메일, LinkedIn, Twitter.