본문 바로가기
스터디/Database

DL (Data Lake)

by zoodi 2020. 4. 20.
728x90

데이터 호수(Data Lake)

:데이터 호수(Data Lake)는 시스템 또는 자연적인 형식으로 저장된 데이터 저장소이며, 일반적으로 소스 시스템 데이터의 원시 사본 및 보고, 시각화, 분석 및 기계 학습(Machine Learning)과 같은 작업에 사용되는 변환된 데이터를 포함하여 모든 엔터프라이즈 데이터의 단일 저장소이다. 데이터 호수에는 관계형 데이터베이스(행과 열), 반 구조화 된 데이터(CSV, 로그, XML, JSON), 구조화되지 않은 데이터(전자 메일, 문서, PDF) 및 바이너리 데이터(이미지, 오디오, 비디오)의 구조화된 데이터가 포함될 수 있다. 

 

데이터 웨어하우스 vs 데이터 레이크

데이터 웨어하우스와는 다르게 데이터 레이크는 데이터의 종류를 묻지도 따지지도 말고 저장하는 공간이다. 기업에서 발생하는 데이터를 모아 한 곳에 저장해두자는 접근법은 데이터 웨어하우스와 같지만 대상으로 하는 데이터의 종류가 다르다. 데이터 웨어하우스는 구조적 정형 데이터가 대상이지만, 데이터 레이크는 모든 데이터가 대상이다. 데이터 레이크는 원시 데이터(Raw Data)를 그대로 저장하는데, 데이터 웨어하우스에 데이터를 담기 위해서는 데이터를 추출, 변형, 적재(ETL) 과정을 거쳐야 한다. 구조가 다른 각기 다른 DB에서 나온 데이터이기 때문에 하나의 구조로 맞춰야 하기 때문이다. 하지만 데이터 레이크는 이런 ETL과 같은 중간 과정이 없다. 다양한 원시 데이터를 저장해두고 있다가 분석을 할 때 필요한 형태로 데이터를 가공한다. 데이터를 저장하는 시점이 아니라 분석하는 시점에 정의하는 것이다. 그렇기 때문에 즉시 분석이 가능하다. 대신 데이터 레이크는 카탈로그 기능이 필요하다. 어떤 데이터가 어디에 저장되어 있는지 카탈로그를 만들어놓고, 분석이 필요할 때 그것을 보고 필요한 데이터가 있는 곳의 데이터에 접근하는 것이다.

 

  Data Warehouse Data Lake
데이터 정형화, 처리완료된 것 정형/비정형/Raw데이터
처리방법 변환되어 저장 읽으면서 필요에 따라 변환
저장공간 많은 사용자를 위한 성능 위주 구성 저렴한 비용으로 구성
민첩성 민첩성은 떨어지는 고정된 구성 민첩성 우선으로 필요에 따라 재구성이 용이함
보안 성숙됨 발전중
주사용자 비즈니스 전문가 Data Scientists

 

728x90

'스터디 > Database' 카테고리의 다른 글

[DB] 데이터 정규화 1NF, 2NF, 3NF, BCNF  (0) 2021.05.28
[DB] Transation / Undo / Redo  (0) 2021.05.17
DM (Data Mart)  (0) 2020.04.20
OLTP / OLAP  (0) 2020.04.20
ETL (Extract, Transform, Load)  (0) 2020.04.20

댓글