본문 바로가기
스터디/Hadoop

[Hadoop] Hadoop 개념

by zoodi 2020. 7. 2.
728x90

‘하둡’이라는 이름이 어디서 왔는고 하니, 바로 이 더그 커팅의 아들이 갖고 놀던 노란 코끼리 봉제 인형에서 유래했다고 합니다. 더그 커팅은 아들이 이 노란 코끼리를 발음하는 것을 듣고 이름을 ‘하둡’으로 지었다고 합니다.

1. Hadoop
하둡이란?
하둡은 대용량 데이터를 분산 처리할 수 있는 자바 기반의 오픈소스 프레임워크 입니다. 
대용량 파일을 저장할 수 있는 기능을 제공하는 분산파일 시스템(HDFS)과, 저장된 파일을 분산된 서버의 CPU와 메모리 자원을 이용하여 빠르게 분석하는 맵리듀스 플랫폼으로 구성되어 있다.
하둡은 아파치 루씬 창업자인 더그 커팅이 2006년 야후 엔지니어로 일하면서 개발


분산 프로그래밍이란?
간단히 말해 여러 디스크로부터 데이터를 한번에 읽는 것을 말합니다. 사실 하드디스크 드라이브 저장 용량이 엄청나게 증가한데 반해 액세스 속도는 그에 훨씬 미치지 못하여 드라이브를 읽는데도 시간이 굉장히 오래 걸려요. 그래서 이 시간을 줄이기 위 해 하둡을 사용

하둡 사용 이유
기존의 관계형 데이터베이스 관리 시스템(RDBMS)은 비싼 비용이 듭니다. 하지만 하둡은 오픈소스로 비용이 거의 들지 않죠. 특히 빅데이터를 감당하려면 그에 비례하는 비용이 들 수 밖에 없는데요. 하둡은 분산 컴퓨팅 방식으로 구축 비용이 저렴하며 그 비용 대비 데이처 처리가 굉장히 빠릅니다. 또 장애를 대비하여 매번 운영한 이후의 결과들을 디스크에 기록하기 때문에 문제가 발생 했을때 기록된 결과들을 활용하여, 그 문제를 파악하고 해결하기 쉽다는 장점

하둡에코 시스템
하둡관련 오픈소스 솔루션들은 해마다 발전하여 하둡과 연동된 하둡생태계를 구성하여 "하둡 에코시스템"으로 불린다.
서브 프로젝트 대부분 동물이름과 관련되어 있으며 이를 관리하는 것은 바로 주키퍼(Zookeeper)이다.

-> 하이브 / 맵리듀스 개념 설명
-> wordcount 예제 비교 설명


728x90

'스터디 > Hadoop' 카테고리의 다른 글

[Hive] Hive 개념  (0) 2020.07.04
[Spark] OnlineRetail ItemCount  (0) 2020.07.04
[Spark] Scala 기초 문법  (0) 2020.07.04
[Spark] Spark 개념  (0) 2020.07.02

댓글