비정형 데이터란?
비정형 데이터(Unstructured Data)는 미리 설정된 데이터 모델이나 스키마를 사용하지 않기 때문에 관계형 데이터베이스 (RDMS)에 효율적으로 저장할 수 없는 디지털 정보다.
원시 데이터일 수 있는 비정형 데이터는 데이터 레이크에 저장되는 경우가 많다. 비정형 데이터의 소스에는 센서 및 액추에이터, 이메일 및 문자 메시지, 워드 문서, PowerPoint 프레젠테이션, 전자 건강 기록 (EHRs), 디지털 이미지, 오디오 파일 및 비디오가 포함된다.
고객 중심 비즈니스에서는 비정형 데이터를 분석하여 관계 마케팅과 고객 관계 관리 (CRM)를 개선할 수 있다.
테코피디아가 설명하는 비정형 데이터
비정형 데이터는 스프레드시트 페이지, 데이터베이스 테이블 또는 기타 선형 또는 정렬된 데이터 집합과 같은 항목보다 덜 정렬된 형태를 따르는 데이터를 의미한다. 실제로 ‘데이터 세트’라는 용어는 추가 콘텐츠 없이 깔끔하고 접근하기 쉬운 배열로 되어 있으며 특정 구조로 링크되거나 태그가 지정된 데이터와 연관되어 있기 때문에 유용하다.
비정형 텍스트 데이터의 다른 예로는 Word 문서, PowerPoint 프레젠테이션, 인스턴트 메시지, 협업 소프트웨어, 문서, 책, 소셜 미디어 게시물, 의료 기록 등이 있다. 비텍스트 비정형 데이터는 일반적으로 MP3 오디오 파일, JPEG 이미지, 플래시 비디오 파일 등과 같은 미디어에서 생성된다.
비정형 데이터는 일반적으로 미리 정의된 데이터 모델을 포함하지 않으며 관계형 테이블과 잘 일치하지 않을 수 있다. 비정형 데이터는 일반적으로 텍스트가 많다. 그러나 숫자, 날짜는 물론 팩트도 포함될 수 있다. 이 때문에 기존 소프트웨어 프로그램으로는 식별하기 어려운 모호성이 발생한다.
기업 내에서 생성되는 많은 양의 비정형 데이터를 제대로 관리하지 않으면 비용 증가로 이어질 수 있다. 검색 애플리케이션이 특정 문맥에서 사용된 단어에 따라 아이디어를 구문 분석하려면 하드 카피 문서나 전자 형식의 데이터를 스캔해야 한다. 이를 엔터프라이즈 또는 시맨틱 검색이라고 한다.