데이터레이크란?
데이터레이크는 대량의 정형 및 비정형 데이터를 위한 중앙 집중식 스토리지 리포지토리다. 데이터레이크는 플랫 아키텍처를 가지며 객체 스토리지를 사용해 데이터를 저장한다.
데이터레이크는 데이터 과학자가 이질적인 데이터의 데이터를 원래 형식으로 시각화하고 분석하는 데 중요한 역할을 한다. 데이터 과학에서 데이터레이크는 데이터의 범위와 용도를 아직 완전히 알 수 없을 때 특히 중요한 고려 사항이다.
데이터레이크는 강력한 데이터 액세스 이점을 제공하지만, 사용자가 가장 관련성이 높은 데이터를 찾고, 관계를 이해하고, 이기종 데이터 소스를 통합하는 데 도움이 되는 관리 구성 요소가 필요하다. 인기 있는 데이터레이크 플랫폼은 다음과 같다:
- CoreLAKE — 의료 기관을 위한 상용 기성품(COTS) 데이터레이크 플랫폼이다.
- Qubole —머신 러닝 및 애드혹 분석을 위한 오픈 소스 데이터레이크 플랫폼이다.
- Azure Data Lake — Hadoop YARN을 기반으로 구축되어 클라우드에 최적화되어 있다.
- AWS Lake Formation — 를 통해 사용자는 사용 가능한 데이터 세트와 적절한 사용법을 설명하는 중앙 집중식 데이터 카탈로그에 액세스할 수 있다.
데이터레이크는 스키마에 구애받지 않는 데이터 저장소 또는 스키마가 없는 데이터 저장소라고도 한다.
테코피디아가 설명하는 데이터레이크
데이터레이크 아키텍처는 빅데이터에 대한 모든 것을 저장하는 접근 방식이다. 데이터가 리포지토리에 저장될 때는 데이터가 분류되지 않으며, 처음부터 데이터의 가치가 명확하지 않다. 데이터에 액세스해야만 분석할 수 있도록 분류되고 정리된다.
데이터레이크는 데이터의 접근성과 재사용을 촉진하기 위해 개발되었다. 빅데이터 처리 및 분석을 위한 오픈소스 프레임워크인 Hadoop을 사용하여 리포지토리에 있는 데이터를 선별할 수 있다.
데이터레이크와 데이터 늪
데이터레이크에서 비즈니스 가치를 창출하는 것은 일부 기업에게 어려운 과제였다. 이러한 유형의 ‘정크 서랍식’ 스토리지 접근 방식은 관리가 어려울 수 있기 때문이다.
이에 따라 데이터 메시, 데이터 파이버, 데이터 레이크하우스라는 세 가지 새로운 아키텍처가 분산된 데이터 스토리지를 관리하고 다양한 유형의 데이터 스키마를 보다 효과적으로 쿼리하는 데 따르는 문제를 최소화하기 위해 모색되고 있다.
데이터 메시 – 데이터를 잘 알고 있고 중앙 집중식 감독 없이도 독립적으로 데이터를 관리할 수 있는 팀에 데이터 소유권을 분산한다.
데이터 파이버 – 클라우드 스토리지, 온프레미스 스토리지, 엣지 디바이스에 대한 데이터 거버넌스 정책을 표준화한다.
데이터레이크 하우스 – 데이터 레이크의 유연성과 데이터 웨어하우스의 이점을 하나의 스토리지 레이어에 결합한다.