빅데이터에서 해야 할 것과 하지 말아야 할 것 10가지

테코피디아 신뢰성
핵심 내용

빅데이터는 많은 기업에게 새롭게 떠오르는 분야이다. 이를 성공적으로 구현하려면 세심한 보정과 모범 사례의 적용이 요구된다.

빅데이터는 데이터 분석, 인공 지능, 머신 러닝이 점차 주류 업무에 통합됨에 따라 다양한 비즈니스 부문에서 활용되고 있다. 기업은 빅데이터 분석을 통해 정형, 비정형, 반정형 데이터로 구성된 이 방대한 데이터 저장소에서 진정한 가치를 추출해낼 수 있다.

소셜 미디어의 부상으로 고객 행동에 대한 인사이트를 수집할 수 있는 다양한 기회가 생겨났다. 다음은 몇 가지 예시이다:

  • 클릭스트림(Clickstream) 데이터는 마우스 클릭과 웹페이지 스크롤을 포함한 웹사이트 상호 작용에서 발생한다.
  • 소셜 비즈니스 사이트에는 구매 행동에 대한 세부 정보를 기꺼이 공유하는 고객들의 온라인 커뮤니티가 포함된다.
  • 센서는 온도, 습도, 교통 패턴 등 고객의 물리적 환경에 관한 정보를 제공한다.

데이터 분석을 통해 도출된 인사이트는 기업의 의사 결정 과정에 큰 도움이 될 수 있다. 하지만 빅데이터의 진정한 이점을 누리려면 효과적인 관리가 필수적이다. 방대한 빅데이터 공간에서 길을 잃지 않으려면 기업은 간단한 사용 사례부터 파악하고 그 결과물을 신속하게 평가하는 것부터 시작해야 한다.

빅데이터 작업을 시작하기 전에 철저한 계획은 필수적이다. 기업은 프로젝트의 목표와 그것이 비즈니스 의사 결정에 어떤 영향을 미칠지 명확히 이해하고 있어야 한다. 그리고 시작하기에 가장 유망한 영역을 파악하는 것이 중요하다.

이 글에서는 빅데이터 이니셔티브에서 해야 할 일과 하지 말아야 할 일에 대해 자세히 살펴보고 성공적인 구현을 위한 귀중한 인사이트를 제공한다.

1. 목적과 시작점 파악하기

빅데이터 프로젝트의 성공 여부는 데이터 수집의 명확한 목적과 시작점을 파악하는 데 달려 있다. 처음에는 비즈니스와 관련된 가장 유망한 사용 사례를 정확히 찾아내는 데 중점을 두어야 하며, 이를 통해 이러한 사용 사례에 필요한 구성 요소를 쉽게 식별할 수 있다.

그다음에는 이러한 사용 사례에 빅데이터 기술을 적용하고 비즈니스 성장을 위한 가치 있는 인사이트를 추출하기 위한 종합적인 계획을 수립해야 한다. 실행 순서는 다음과 같은 요소를 고려하여 결정해야 한다:

  • 구현 비용
  • 비즈니스에 미칠 것으로 예상되는 영향
  • 실행에 필요한 시간
  • 구현 속도

기업은 파일럿 프로젝트로 간단하고 쉽게 구현할 수 있는 애플리케이션부터 시작하는 것이 좋다. (읽어볼 만한 영문 기사): 프로젝트 관리 도구 대신 업무용 OS를 사용해야 하는 이유)

2. 데이터 라이센스를 올바르게 평가하기

데이터는 모든 빅데이터 및 분석 프로젝트의 원동력이므로 오용으로부터 데이터를 보호해야 할 필요성이 강조된다. 공급업체나 타사 사용자에게 데이터 액세스 권한을 부여하기 전에 적절한 라이센스 약관을 수립하는 것이 필수적이다. 데이터 라이센스에는 다음과 같은 기본 사항을 명확하게 설명해야 하며, 계약에는 다른 중요한 매개변수도 추가로 포함되어야 한다.

  • 누가 데이터를 활용하는지
  • 어떤 특정 데이터에 액세스할 수 있는지
  • 데이터는 어떤 방식으로 사용되는지

라이센스 프로세스에 실패하면 데이터 손실 및 오용이 발생하여 비즈니스에 부정적인 영향을 미칠 수 있다.

3. 데이터 민주화 허용하기

데이터 민주화는 조직 내 모든 구성원이 데이터에 쉽게 액세스할 수 있도록 하는 지속적인 프로세스이다. 데이터 민주화는 개인이 편안하게 데이터로 작업하고 자신의 의견을 당당하게 표현하는 문화를 조성한다.

이러한 관행을 통해 기업은 민첩성을 향상하고 정보에 기반한 데이터 기반 비즈니스 의사 결정을 내릴 수 있다. 이는 효과적인 프로세스를 구축함으로써 달성이 가능하다. 첫째, 데이터 접근성은 조직 구조와 관계없이 모든 계층에 걸쳐 확장되어야 한다. 둘째, 흔히 ‘골든 소스’라고 하는 단일 데이터 원본을 구축, 검증 및 유지 관리해야 한다. 셋째, 모든 사람이 데이터를 검토하고 의견을 제시할 수 있도록 하는 것이 중요하다. 마지막으로, 새로운 아이디어를 테스트하기 위해서는 계산된 위험을 감수할 수 있어야 한다. 새로운 아이디어가 성공하면 기업은 앞으로 나아갈 수 있고, 실패하더라도 교훈을 얻을 수 있다.

4. 협업 문화 구축하기

빅데이터 영역에서는 조직 내 다양한 부서와 그룹 간의 협업 관계를 조성하는 것이 매우 중요하다. 빅데이터 이니셔티브의 성공 여부는 역할과 책임을 초월하는 강력한 조직 문화를 구축하는 데 달려 있다.

기업의 경영진은 미래에 대한 명확한 비전을 갖고 새로운 아이디어의 창출을 적극적으로 장려해야 한다. 모든 직원과 부서는 기회를 탐색하고 검증을 위한 개념 증명을 구축할 수 있는 권한을 부여받아야 한다. 정치적인 이유로 비난하거나 중단하는 대신 성공과 실패를 모두 포용하는 학습 환경을 조성하는 것이 필수적이다.

5. 빅데이터 인프라 평가하기

모든 빅데이터 프로젝트의 인프라 측면도 마찬가지로 중요하다. 페타바이트 단위로 측정되고 인사이트를 얻기 위해 처리되는 데이터의 양을 고려할 때, 스토리지 및 처리 인프라 모두 철저한 평가가 필요하다.

데이터 센터는 스토리지 허브 역할을 하며 비용 구성 요소, 관리, 백업 솔루션, 안정성, 보안, 확장성 및 기타 다양한 요소를 기준으로 평가해야 한다. (읽어볼 만한 영문 글: 퍼블릭 클라우드의 주요 위험 요소 6가지)

마찬가지로 빅데이터 처리 및 관련 기술 인프라에 대한 면밀한 조사는 계약을 체결하기 전에 신중하게 이루어져야 한다. 클라우드 서비스는 일반적으로 사용량과 비용 측면에서 유연성을 제공한다. 기존 클라우드 공급업체에는 AWS, Azure, GCP와 같은 대형 기업도 있지만, 그 외에도 다양한 옵션이 있다.

6. 데이터의 홍수 속에서 헤메이지 말기

빅데이터 프로젝트의 성공을 위해서는 효과적인 데이터 거버넌스가 무엇보다 중요하다. 구현하기 전에 적절한 데이터 수집 전략을 계획해야 한다. 일반적으로 모든 레거시 비즈니스 데이터를 수집하려는 경향이 있을 수 있지만, 모든 데이터가 현재의 비즈니스 요구사항에 부합하는 것은 아닐 수 있다. 따라서 비즈니스 사용 사례를 먼저 파악하고 데이터를 적용할 위치를 결정하는 것이 중요하다.

목표한 비즈니스 적용 사례과 직접적으로 연계되는 잘 정의된 데이터 전략을 수립한 후, 다음 단계의 구현을 계획할 수 있다. 그 후 새로운 데이터를 통합하여 모델과 효율성을 향상시킬 수 있다.

7. 오픈 소스를 잊지 말기

특정 기술의 실행 가능성을 고려할 때는 프로젝트의 규모와 조직의 예산과 관련하여 그 적합성을 평가하는 것이 중요하다. 중소기업의 경우 파일럿 프로젝트를 위해 사용 가능한 오픈 소스 플랫폼을 탐색하는 것이 도움이 될 수 있는데, 이러한 솔루션은 무료로 제공되는 경우가 많기 때문이다. 따라서 기업은 성과와 투자 수익률(ROI)에 중점을 두어야 한다.

오픈 소스 소프트웨어 프레임워크인 하둡(Hadoop)은 HDFS(하둡 분산 파일 시스템)과 맵리듀스(MapReduce)를 활용하여 상용 하드웨어 클러스터, 즉 분산 컴퓨팅 환경에서 빅데이터를 분석한다. (읽어볼 만한 영문글: 빅데이터 분석에 하둡을 활용하는 방법)

빅데이터 움직임이 발전함에 따라 대규모 데이터 세트를 처리하기 위한 기본 플랫폼으로 하둡이 널리 채택되고 있다. 대규모 컴퓨터 클러스터에서 많은 양의 데이터를 효율적으로 처리하기 위해 구글에서 개발한 맵리듀스는 간단한 프로그래밍 모델을 사용하여 컴퓨터 클러스터에 데이터를 분산하고 병렬로 처리할 수 있도록 지원한다.

8. 적절한 계획 없이 시작하지 않기

여러 개의 빅데이터 프로젝트를 동시에 시작하면 상당한 위험을 초래할 수 있으며, 부분적인 성공 또는 전면적인 실패로 이어질 수 있다. 기업은 빅데이터 이니셔티브를 올인하거나 섣부른 판단을 내리기보다는 꼼꼼하게 계획을 세워야 한다. 항상 간단하고 규모가 작으며 측정 가능한 애플리케이션부터 시작하는 것이 좋다.

파일럿 프로젝트에서 성공이 입증되면 더 큰 규모의 애플리케이션으로 확장할 수 있다. 시간을 들여 종합적인 계획을 수립하고 시범 프로젝트를 신중하게 선택하는 것은 빅데이터 노력의 성공을 보장하는 데 매우 중요하다.

9. 보안을 소홀히 하지 않기

데이터 보안은 빅데이터 프로젝트의 중요한 요소이다. 모든 빅데이터 시나리오에서는 다양한 소스 시스템에서 페타바이트 단위의 데이터를 추출하고 처리 과정을 거쳐 분석 모델의 입력으로 사용된다. 분석 결과는 비즈니스에 유용한 인사이트를 제공한다. 원시 데이터가 정제되고 의미 있는 정보가 도출되면 이 정보의 기밀성, 무결성 및 가용성(CIA)이 중요해진다.

데이터에 중요한 비즈니스 정보가 포함된 경우, 기업에 매우 중요한 가치가 되므로 외부 위협으로부터 보호해야 한다. 따라서 데이터 보안은 빅데이터 구현 수명 주기의 일부로 계획되어야 한다. (읽어볼 만한 영문글: 클라우드 보안: 일반적인 사이버 위험 5가지)

10. 고립된 사업부에 집중하지 않기

오늘날과 같이 복잡한 비즈니스 환경에서는 단일 사업부에만 집중하는 것만으로는 충분하지 않다. 조직은 전체 비즈니스에 대한 포괄적이고 글로벌한 관점을 채택하여 전체론적 관점을 유지하면서 점진적인 단계의 중요성을 강조해야 한다. 이러한 방식으로 접근하면 긍정적인 영향을 미치고 더 나은 투자 수익률을 달성할 수 있다.

결론

빅데이터 구현의 성공 여부는 미리 정해진 경로를 따르는 것이 아니라 계획, 전략, 접근 방식 및 기타 관련 요소의 조합에 따라 달라진다.

각 조직마다 고유한 목표가 있으므로 빅데이터 구현 전략은 이러한 목표에 맞게 세심하게 조정되어야 한다. 시범 프로젝트를 정확하게 선정하고 결과 정보를 적절하게 처리하고 보호하는 것 또한 성공적인 구현에 기여하는 중요한 요소이다.

Kaushik Pal
Technology Specialist
Kaushik Pal
테크 작가

본 작가는 소프트웨어 분석, 개발, 아키텍처, 설계, 테스트 및 교육 업계에서 23년 이상의 경력을 쌓은 기술 설계자이자 소프트웨어 컨설턴트입니다. 그는 새로운 기술과 혁신 분야에 관심이 많습니다. 웹 아키텍처, 웹 기술, Java/J2EE, 오픈 소스, WebRTC, 빅 데이터 및 시맨틱 기술에 중점을 두고 있습니다. 그는 요구사항 분석, 아키텍처 설계 및 구현, 기술 사용 사례 준비, 소프트웨어 개발 분야에서 전문성을 입증했습니다. 보험, 은행, 항공, 해운, 문서 관리 및 제품 개발 등 다양한 분야에서 경험을 쌓았습니다. 메인프레임(IBM S/390), 미드레인지(AS/400), 웹 기술, 오픈 소스 및 빅 데이터 영역에서 시작하여 다양한 기술을 다뤄왔습니다. Kaushik은 주로 Java/J2EE/오픈 소스/웹/WebRTC/Hadoop 및 빅 데이터 기술에 관여하고 있습니다. 또한 콜카타에 본사를…