본문 바로가기
스터디/Hadoop

[Hive] Hive 개념

by zoodi 2020. 7. 4.
728x90

Hive(벌떼)는 HDFS(컴퓨터들로 구성된 클러스터에서 수행되는 분산파일 시스템)에 저장된 데이터를 관리할 수 있도록 쿼리를 제공하는 데이터 웨어하우스 프로젝트라고 할 수 있습니다.

페이스 북에서 개발한 하이브는 하둡에 저장된 데이터를 쉽게 처리할 수 있는 데이터웨어하우스(DW) 패키지 이다.
출처: https://excelsior-cjh.tistory.com/39 [EXCELSIOR]

Apache Hadoop 데이터 웨어하우스 시스템입니다. Hive를 사용하면 데이터의 요약, 쿼리 및 분석을 수행할 수 있습니다.
Hive 쿼리는 SQL과 유사한 쿼리 언어인 HiveQL로 작성합니다.

맵리듀스는 기본적으로 자바 기반의 프레임워크이므로 기존 데이터베이스나 
DW를 통해 분석을 하던 개발자가 아닌 사용자들에게는 다소 어렵게 느껴질 수 있다. 
하이브는 이것을 극복하도록 개발된 하둡 기반 쿼리엔진이다. 이 엔진을 사용하면 맵리듀스를 작성하지 않고
쿼리 언어만으로 하둡의 비정형 데이터 분석이 가능하다.

아파치 하이브는 하둡에서 동작하는 데이터 웨어하우스(Data Warehouse , DW) 인프라 구조로서 
데이터 요약, 질의 및 분석 기능을 제공한다. 초기에는 페이스북에서 개발되었지만 넷플릭스 등과 같은 회사에서
사용되고 있다.



아파치 하이브는 아파치 HDFS이나 아파치 HBase와 같은 데이터 자장 시스템에 저장되어 있는 
대용량 데이터 집합들을 분석한다.
HiveQL이라고 불리는 SQL같은 언어를 제공하며 맵리듀스의 모든 기능을 지원한다.
쿼리를 빠르게 하기위해 비트맵 인덱스를 포함하여 인덱스 기능을 제공한다.
728x90

'스터디 > Hadoop' 카테고리의 다른 글

[Spark] OnlineRetail ItemCount  (0) 2020.07.04
[Spark] Scala 기초 문법  (0) 2020.07.04
[Spark] Spark 개념  (0) 2020.07.02
[Hadoop] Hadoop 개념  (0) 2020.07.02

댓글