데이터 호수(Data Lake)
:데이터 호수(Data Lake)는 시스템 또는 자연적인 형식으로 저장된 데이터 저장소이며, 일반적으로 소스 시스템 데이터의 원시 사본 및 보고, 시각화, 분석 및 기계 학습(Machine Learning)과 같은 작업에 사용되는 변환된 데이터를 포함하여 모든 엔터프라이즈 데이터의 단일 저장소이다. 데이터 호수에는 관계형 데이터베이스(행과 열), 반 구조화 된 데이터(CSV, 로그, XML, JSON), 구조화되지 않은 데이터(전자 메일, 문서, PDF) 및 바이너리 데이터(이미지, 오디오, 비디오)의 구조화된 데이터가 포함될 수 있다.
데이터 웨어하우스 vs 데이터 레이크
데이터 웨어하우스와는 다르게 데이터 레이크는 데이터의 종류를 묻지도 따지지도 말고 저장하는 공간이다. 기업에서 발생하는 데이터를 모아 한 곳에 저장해두자는 접근법은 데이터 웨어하우스와 같지만 대상으로 하는 데이터의 종류가 다르다. 데이터 웨어하우스는 구조적 정형 데이터가 대상이지만, 데이터 레이크는 모든 데이터가 대상이다. 데이터 레이크는 원시 데이터(Raw Data)를 그대로 저장하는데, 데이터 웨어하우스에 데이터를 담기 위해서는 데이터를 추출, 변형, 적재(ETL) 과정을 거쳐야 한다. 구조가 다른 각기 다른 DB에서 나온 데이터이기 때문에 하나의 구조로 맞춰야 하기 때문이다. 하지만 데이터 레이크는 이런 ETL과 같은 중간 과정이 없다. 다양한 원시 데이터를 저장해두고 있다가 분석을 할 때 필요한 형태로 데이터를 가공한다. 데이터를 저장하는 시점이 아니라 분석하는 시점에 정의하는 것이다. 그렇기 때문에 즉시 분석이 가능하다. 대신 데이터 레이크는 카탈로그 기능이 필요하다. 어떤 데이터가 어디에 저장되어 있는지 카탈로그를 만들어놓고, 분석이 필요할 때 그것을 보고 필요한 데이터가 있는 곳의 데이터에 접근하는 것이다.
Data Warehouse | Data Lake | |
데이터 | 정형화, 처리완료된 것 | 정형/비정형/Raw데이터 |
처리방법 | 변환되어 저장 | 읽으면서 필요에 따라 변환 |
저장공간 | 많은 사용자를 위한 성능 위주 구성 | 저렴한 비용으로 구성 |
민첩성 | 민첩성은 떨어지는 고정된 구성 | 민첩성 우선으로 필요에 따라 재구성이 용이함 |
보안 | 성숙됨 | 발전중 |
주사용자 | 비즈니스 전문가 | Data Scientists |
'스터디 > Database' 카테고리의 다른 글
[DB] 데이터 정규화 1NF, 2NF, 3NF, BCNF (0) | 2021.05.28 |
---|---|
[DB] Transation / Undo / Redo (0) | 2021.05.17 |
DM (Data Mart) (0) | 2020.04.20 |
OLTP / OLAP (0) | 2020.04.20 |
ETL (Extract, Transform, Load) (0) | 2020.04.20 |
댓글