[Hadoop] Hadoop 개념

2020. 7. 2. 16:42·스터디/Hadoop
728x90

‘하둡’이라는 이름이 어디서 왔는고 하니, 바로 이 더그 커팅의 아들이 갖고 놀던 노란 코끼리 봉제 인형에서 유래했다고 합니다. 더그 커팅은 아들이 이 노란 코끼리를 발음하는 것을 듣고 이름을 ‘하둡’으로 지었다고 합니다.

1. Hadoop
하둡이란?
하둡은 대용량 데이터를 분산 처리할 수 있는 자바 기반의 오픈소스 프레임워크 입니다. 
대용량 파일을 저장할 수 있는 기능을 제공하는 분산파일 시스템(HDFS)과, 저장된 파일을 분산된 서버의 CPU와 메모리 자원을 이용하여 빠르게 분석하는 맵리듀스 플랫폼으로 구성되어 있다.
하둡은 아파치 루씬 창업자인 더그 커팅이 2006년 야후 엔지니어로 일하면서 개발


분산 프로그래밍이란?
간단히 말해 여러 디스크로부터 데이터를 한번에 읽는 것을 말합니다. 사실 하드디스크 드라이브 저장 용량이 엄청나게 증가한데 반해 액세스 속도는 그에 훨씬 미치지 못하여 드라이브를 읽는데도 시간이 굉장히 오래 걸려요. 그래서 이 시간을 줄이기 위 해 하둡을 사용

하둡 사용 이유
기존의 관계형 데이터베이스 관리 시스템(RDBMS)은 비싼 비용이 듭니다. 하지만 하둡은 오픈소스로 비용이 거의 들지 않죠. 특히 빅데이터를 감당하려면 그에 비례하는 비용이 들 수 밖에 없는데요. 하둡은 분산 컴퓨팅 방식으로 구축 비용이 저렴하며 그 비용 대비 데이처 처리가 굉장히 빠릅니다. 또 장애를 대비하여 매번 운영한 이후의 결과들을 디스크에 기록하기 때문에 문제가 발생 했을때 기록된 결과들을 활용하여, 그 문제를 파악하고 해결하기 쉽다는 장점

하둡에코 시스템
하둡관련 오픈소스 솔루션들은 해마다 발전하여 하둡과 연동된 하둡생태계를 구성하여 "하둡 에코시스템"으로 불린다.
서브 프로젝트 대부분 동물이름과 관련되어 있으며 이를 관리하는 것은 바로 주키퍼(Zookeeper)이다.

-> 하이브 / 맵리듀스 개념 설명
-> wordcount 예제 비교 설명


728x90

'스터디 > Hadoop' 카테고리의 다른 글

[Hive] Hive 개념  (0) 2020.07.04
[Spark] OnlineRetail ItemCount  (0) 2020.07.04
[Spark] Scala 기초 문법  (0) 2020.07.04
[Spark] Spark 개념  (0) 2020.07.02
'스터디/Hadoop' 카테고리의 다른 글
  • [Hive] Hive 개념
  • [Spark] OnlineRetail ItemCount
  • [Spark] Scala 기초 문법
  • [Spark] Spark 개념
zoodi
zoodi
IT/개발 관련 지식을 기록하는 블로그입니다.
  • zoodi
    오늘의 기록
    zoodi
  • 전체
    오늘
    어제
    • 분류 전체보기
      • 후기
        • 컨퍼런스
        • 일상리뷰
      • 금융경제
        • 뉴스
        • 금융IT용어
        • 경제 및 부동산
      • 코딩 테스트
      • 스터디
        • JAVA
        • Kotlin
        • Spring
        • React, Nextjs
        • 인공지능 AI
        • Cloud & k8s
        • Kafka
        • Database
        • Network
        • Algorithm
        • Hadoop
        • LINUX
        • R Programming
        • 기타 (소공, 보안)
      • 도서
      • 기타
  • 블로그 메뉴

    • 홈
    • 스터디
    • 금융경제
    • 후기
    • 기타
  • 링크

  • 공지사항

  • 인기 글

  • 태그

    스프링
    CodingTest
    코테공부
    이분탐색
    알고리즘
    프로그래머스
    코딩
    LeetCode
    java
    코딜리티
    자료구조
    pythoncodingtest
    Python
    codility
    MySQL
    Spring
    리트코드
    springboot
    네트워크
    db
    쿠버네티스
    kafka
    스프링부트
    코딩테스트
    금융용어
    자바
    코테
    카카오코테
    Kotlin
    C++
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.4
zoodi
[Hadoop] Hadoop 개념
상단으로

티스토리툴바