데이터 마이닝

테코피디아 신뢰성

데이터 마이닝이란?

데이터 마이닝(Data Mining)은 데이터를 유용하고 종종 실행 가능한 정보로 전환하기 위해 다양한 관점에 따라 데이터의 숨겨진 패턴을 분석하는 프로세스다. 데이터 웨어하우스와 같은 공통 영역에서 데이터를 수집 및 조합하며, 데이터 마이닝 알고리즘은 기업이 비용 절감, 매출 증대, 고객 또는 고객에게 더 나은 서비스를 제공하는 데 도움이 되는 결정 등 더 나은 의사 결정을 내리는 데 사용할 수 있는 패턴을 찾는다.

데이터 마이닝은 데이터 발견 또는 지식 발견이라고도 한다. 비즈니스 인텔리전스에서는 데이터 기반 의사 결정을 내리는 것이 매우 중요하다.

테코피디아가 설명하는 데이터 마이닝

데이터 마이닝 프로세스의 주요 단계는 다음과 같다:

  • 데이터 추출, 변환 및 데이터 웨어하우스로 로드
  • 다차원 데이터베이스에 데이터 저장 및 관리
  • 애플리케이션 소프트웨어를 활용하여 비즈니스 분석가에게 데이터 액세스 제공
  • 분석된 데이트를 그래프와 같이 이해하기 쉬운 형태로 제시

데이터 마이닝의 첫 번째 단계는 비즈니스에 중요한 관련 데이터를 수집하는 것이다. 기업 데이터는 트랜잭션 데이터, 비운영 데이터 또는 메타데이터로 나뉜다. 트랜잭션 데이터는 매출, 재고, 비용과 같은 일상적인 운영을 다룬다. 비운영 데이터는 일반적으로 예측 데이터이며, 메타데이터는 논리적 데이터베이스 설계와 관련이 있다. 데이터 요소 간의 패턴과 관계를 통해 비즈니스 프로세스를 개선하기 위한 관련 정보를 얻을 수 있다. 소비자에 중점을 두는 조직은 판매된 제품, 가격, 경쟁사 및 고객 인구 통계에 대한 명확한 그림을 제공하는 데이터 마이닝 기법을 활용한다.

예를 들어, 대형 유통업체인 월마트 (Walmart)는 모든 관련 정보를 테라바이트 규모의 데이터 웨어하우스로 전송한다. 공급업체는 이 데이터에 쉽게 액세스할 수 있으므로 고객의 구매 패턴을 파악할 수 있다. 공급업체는 데이터 마이닝 기법을 활용하여 쇼핑 습관, 가장 많이 쇼핑하는 날, 가장 많이 찾는 제품 및 기타 인사이트에 대한 패턴을 생성할 수 있다.

데이터 마이닝의 두 번째 단계는 데이터 마이닝 모델을 생성하는 메커니즘인 적합한 알고리즘을 선택하는 것이다. 알고리즘의 일반적인 작업에는 데이터 집합의 추세를 파악하고 그 결과를 매개변수 정의에 사용하는 것이 포함된다. 데이터 마이닝에 가장 많이 사용되는 알고리즘은 분류 알고리즘과 회귀 알고리즘으로, 데이터 요소 간의 관계를 식별하는 데 사용된다. 오라클 (Oracle) 및 에스큐엘 (SQL)과 같은 주요 데이터베이스 공급업체는 데이터 마이닝에 대한 수요를 충족하기 위해 클러스터링 및 회귀 트리와 같은 데이터 마이닝 알고리즘을 통합하고 있다.

관련 용어

Margaret Rouse
Technology Specialist
Margaret Rouse
기술 전문가

본 작가는 수상 경력에 빛나는 기술 작가이자 강사로, 복잡한 기술 주제를 비전문가인 비즈니스 청중에게 설명하는 능력으로 유명합니다. 지난 20년 동안 그녀의 설명은 TechTarget 웹사이트에 게재되었으며, 뉴욕 타임즈, 타임 매거진, USA 투데이, ZDNet, PC 매거진, 디스커버리 매거진의 기사에서 권위자로 인용되었습니다. 마가렛은 IT 및 비즈니스 전문가가 서로의 고도로 전문화된 언어를 사용하는 법을 배우도록 돕는 것을 즐겨합니다. 새로운 정의에 대한 제안이 있거나 기술 설명을 개선할 방법이 있으면 다음과 같이 알려주세요. 이메일, LinkedIn, Twitter.