DL (Data Lake)
데이터 호수(Data Lake) :데이터 호수(Data Lake)는 시스템 또는 자연적인 형식으로 저장된 데이터 저장소이며, 일반적으로 소스 시스템 데이터의 원시 사본 및 보고, 시각화, 분석 및 기계 학습(Machine Learning)과 같은 작업에 사용되는 변환된 데이터를 포함하여 모든 엔터프라이즈 데이터의 단일 저장소이다. 데이터 호수에는 관계형 데이터베이스(행과 열), 반 구조화 된 데이터(CSV, 로그, XML, JSON), 구조화되지 않은 데이터(전자 메일, 문서, PDF) 및 바이너리 데이터(이미지, 오디오, 비디오)의 구조화된 데이터가 포함될 수 있다. 데이터 웨어하우스 vs 데이터 레이크 데이터 웨어하우스와는 다르게 데이터 레이크는 데이터의 종류를 묻지도 따지지도 말고 저장하는 공간이다..
2020. 4. 20.
ETL (Extract, Transform, Load)
ETL (Extract, Transform, Load) : 저장된 데이터를 추출하고 변형하여(요구사항에 맞게) 다른 곳으로 적재하는 모든 과정 Extract : 테이블에서 데이터를 추출 Transform : 추출한 데이터를 요구하는 형태로 변형 (필터링, 정렬, 집계, 데이터 조인, 데이터 정리, 중복 제거 및 데이터 유효성 검사 등) Load : 변경된 데이터를 테이블에 적재 OLTP에서 DW, DM, OLAP에 이르기까지의 과정에서 중간 중간에서 데이터를 이관하는 과정을 모두 ETL이라고 한다. 다음 그림과 같이 중간에 변형작업에서 주로 하는 일은 바로 정제이다. OLTP에서 발생한 데이터를 그대로 이관하여 DW, DM을 만들게 될 때 가장 먼저 부딪히는 벽이 바로 데이터의 정합성 문제이다. 이를 해..
2020. 4. 20.