비정형 데이터

테코피디아 신뢰성

비정형 데이터란?

비정형 데이터(Unstructured Data)는 미리 설정된 데이터 모델이나 스키마를 사용하지 않기 때문에 관계형 데이터베이스 (RDMS)에 효율적으로 저장할 수 없는 디지털 정보다.

원시 데이터일 수 있는 비정형 데이터는 데이터 레이크에 저장되는 경우가 많다. 비정형 데이터의 소스에는 센서 및 액추에이터, 이메일 및 문자 메시지, 워드 문서, PowerPoint 프레젠테이션, 전자 건강 기록 (EHRs), 디지털 이미지, 오디오 파일 및 비디오가 포함된다.

고객 중심 비즈니스에서는 비정형 데이터를 분석하여 관계 마케팅과 고객 관계 관리 (CRM)를 개선할 수 있다.

테코피디아가 설명하는 비정형 데이터

비정형 데이터는 스프레드시트 페이지, 데이터베이스 테이블 또는 기타 선형 또는 정렬된 데이터 집합과 같은 항목보다 덜 정렬된 형태를 따르는 데이터를 의미한다. 실제로 ‘데이터 세트’라는 용어는 추가 콘텐츠 없이 깔끔하고 접근하기 쉬운 배열로 되어 있으며 특정 구조로 링크되거나 태그가 지정된 데이터와 연관되어 있기 때문에 유용하다.

데이터의 유형

비정형 텍스트 데이터의 다른 예로는 Word 문서, PowerPoint 프레젠테이션, 인스턴트 메시지, 협업 소프트웨어, 문서, 책, 소셜 미디어 게시물, 의료 기록 등이 있다. 비텍스트 비정형 데이터는 일반적으로 MP3 오디오 파일, JPEG 이미지, 플래시 비디오 파일 등과 같은 미디어에서 생성된다.

비정형 데이터는 일반적으로 미리 정의된 데이터 모델을 포함하지 않으며 관계형 테이블과 잘 일치하지 않을 수 있다. 비정형 데이터는 일반적으로 텍스트가 많다. 그러나 숫자, 날짜는 물론 팩트도 포함될 수 있다. 이 때문에 기존 소프트웨어 프로그램으로는 식별하기 어려운 모호성이 발생한다.

기업 내에서 생성되는 많은 양의 비정형 데이터를 제대로 관리하지 않으면 비용 증가로 이어질 수 있다. 검색 애플리케이션이 특정 문맥에서 사용된 단어에 따라 아이디어를 구문 분석하려면 하드 카피 문서나 전자 형식의 데이터를 스캔해야 한다. 이를 엔터프라이즈 또는 시맨틱 검색이라고 한다.

관련 용어

Margaret Rouse
기술 전문가

본 작가는 수상 경력에 빛나는 기술 작가이자 강사로, 복잡한 기술 주제를 비전문가인 비즈니스 청중에게 설명하는 능력으로 유명합니다. 지난 20년 동안 그녀의 설명은 TechTarget 웹사이트에 게재되었으며, 뉴욕 타임즈, 타임 매거진, USA 투데이, ZDNet, PC 매거진, 디스커버리 매거진의 기사에서 권위자로 인용되었습니다. 마가렛은 IT 및 비즈니스 전문가가 서로의 고도로 전문화된 언어를 사용하는 법을 배우도록 돕는 것을 즐겨합니다. 새로운 정의에 대한 제안이 있거나 기술 설명을 개선할 방법이 있으면 다음과 같이 알려주세요. 이메일, LinkedIn, Twitter.