728x90
ETL (Extract, Transform, Load)
: 저장된 데이터를 추출하고 변형하여(요구사항에 맞게) 다른 곳으로 적재하는 모든 과정
- Extract : 테이블에서 데이터를 추출
- Transform : 추출한 데이터를 요구하는 형태로 변형 (필터링, 정렬, 집계, 데이터 조인, 데이터 정리, 중복 제거 및 데이터 유효성 검사 등)
- Load : 변경된 데이터를 테이블에 적재
OLTP에서 DW, DM, OLAP에 이르기까지의 과정에서 중간 중간에서 데이터를 이관하는 과정을 모두 ETL이라고 한다.
다음 그림과 같이 중간에 변형작업에서 주로 하는 일은 바로 정제이다. OLTP에서 발생한 데이터를 그대로 이관하여 DW, DM을 만들게 될 때 가장 먼저 부딪히는 벽이 바로 데이터의 정합성 문제이다. 이를 해결하기 위해서 DQ(Data Quality)를 하게 된다.
OLTP에서 DW로 바로 데이터를 넣기 전에 임시 영역이 있는데 이를 영어로 Staging 영역이라고 하며, 데이터베이스나 파일 시스템 기반의 물리적 저장소로서 각 영역 간의 데이터 이전/통합/가공을 원활히 하고 안정적으로 수행하기 위해 임시적으로 사용하는 영역이다.
ETL 과정
1. 기존 테이블의 데이터 추출 : SQL의 SELECT를 통해 데이터를 가져온다.
2. 추출한 데이터의 변환 : 쿼리를 어떻게 짜는지에 따라 추출과 변환을 한 번에 처리 가능하다.
3. 추출 및 변환한 데이터의 적재 : SQL의 INSERT를 통ㅇ해 가공한 데이터를 적재한다.
728x90
'스터디 > Database' 카테고리의 다른 글
[DB] Transation / Undo / Redo (0) | 2021.05.17 |
---|---|
DL (Data Lake) (0) | 2020.04.20 |
DM (Data Mart) (0) | 2020.04.20 |
OLTP / OLAP (0) | 2020.04.20 |
DW (Data Warehouse) (0) | 2020.04.20 |
댓글