본문 바로가기
728x90

스터디/Hadoop5

[Hive] Hive 개념 Hive(벌떼)는 HDFS(컴퓨터들로 구성된 클러스터에서 수행되는 분산파일 시스템)에 저장된 데이터를 관리할 수 있도록 쿼리를 제공하는 데이터 웨어하우스 프로젝트라고 할 수 있습니다. 페이스 북에서 개발한 하이브는 하둡에 저장된 데이터를 쉽게 처리할 수 있는 데이터웨어하우스(DW) 패키지 이다. 출처: https://excelsior-cjh.tistory.com/39 [EXCELSIOR] Apache Hadoop 데이터 웨어하우스 시스템입니다. Hive를 사용하면 데이터의 요약, 쿼리 및 분석을 수행할 수 있습니다. Hive 쿼리는 SQL과 유사한 쿼리 언어인 HiveQL로 작성합니다. 맵리듀스는 기본적으로 자바 기반의 프레임워크이므로 기존 데이터베이스나 DW를 통해 분석을 하던 개발자가 아닌 사용자들에.. 2020. 7. 4.
[Spark] OnlineRetail ItemCount - GCP 시스템 환경 - Hadoop 2.9.2 Hive 2.3.7 Spark version 2.3.4 Scala 2.11.8 - 상품명만 추출 val items = dataInfo.map(mi => mi(2)) items.take(3) #res10: Array[String] = Array(Description, WHITE HANGING HEART T-LIGHT HOLDER, WHITE METAL LANTERN) val items = dataInfo.flatMap(mi => mi(2)) items.take(3) #res11: Array[Char] = Array(D, e, s) - (PID , ITEM) 튜플 생성 # mi(1) : 배열의 1 index 원소 # mi(2) : 배열의 2 index 원소 .. 2020. 7. 4.
[Spark] Scala 기초 문법 first() : 첫 줄 가져오기 count() : rdd 안의 객체수 take(int) : 첫 줄부터 해당 수만큼 collect() : 모든 객체를 배열에 담아 반환 foreach(println) : 모든 줄을 한 줄씩 띄어서 출력 println이니까..!! 2020. 7. 4.
[Spark] Spark 개념 참고 : http://www.itworld.co.kr/insight/147556 스파크란? 스파크는 빅데이터 워크로드에 주로 사용되는 분산처리 시스템이며 하둡과 마찬가지로 오픈소스 입니다. 특징은 빠른 성능을 위해 인 메모리 캐싱과 최적화 된 실행을 사용하고 일반 배치처리, 스트리밍 분석, 머신러닝, 그래프 데이터 베이스 및 임시 쿼리를 지원 하둡없이도 클라우드 기반 데이터 플랫폼과 융합하며 원래는 하둡을 이용한 정보활용을 위한 데이터 프로세싱 툴입니다. 기존의 하둡을 통해 끌어오는 데이터들은 시간 소요가 크기 때문에 실시간으로 분석해야 하는 업무에서는 어려운 부분이 있어 새로이 개발 되었구요. 함수형 프로그래밍이 가능한 언어 스칼라(Scala)를 사용해 간단한 코드로 인터렉티브 쉘(Interactive.. 2020. 7. 2.
[Hadoop] Hadoop 개념 ‘하둡’이라는 이름이 어디서 왔는고 하니, 바로 이 더그 커팅의 아들이 갖고 놀던 노란 코끼리 봉제 인형에서 유래했다고 합니다. 더그 커팅은 아들이 이 노란 코끼리를 발음하는 것을 듣고 이름을 ‘하둡’으로 지었다고 합니다. 1. Hadoop 하둡이란? 하둡은 대용량 데이터를 분산 처리할 수 있는 자바 기반의 오픈소스 프레임워크 입니다. 대용량 파일을 저장할 수 있는 기능을 제공하는 분산파일 시스템(HDFS)과, 저장된 파일을 분산된 서버의 CPU와 메모리 자원을 이용하여 빠르게 분석하는 맵리듀스 플랫폼으로 구성되어 있다. 하둡은 아파치 루씬 창업자인 더그 커팅이 2006년 야후 엔지니어로 일하면서 개발 분산 프로그래밍이란? 간단히 말해 여러 디스크로부터 데이터를 한번에 읽는 것을 말합니다. 사실 하드디스.. 2020. 7. 2.
728x90