[Spark] OnlineRetail ItemCount

- GCP 시스템 환경 -

Hadoop 2.9.2
Hive 2.3.7
Spark version 2.3.4

Scala 2.11.8

- 상품명만 추출

val items = dataInfo.map(mi => mi(2))
items.take(3)
#res10: Array[String] = Array(Description, WHITE HANGING HEART T-LIGHT HOLDER, WHITE METAL LANTERN)

val items = dataInfo.flatMap(mi => mi(2))
items.take(3)
#res11: Array[Char] = Array(D, e, s)

- (PID , ITEM) 튜플 생성

# mi(1) : 배열의 1 index 원소
# mi(2) : 배열의 2 index 원소
val pidItem = dataInfo.map(mi => (mi(1), mi(2).split(',')))

pidItem.take(3)

#res15: Array[(String, Array[String])] = Array((StockCode,Array(Description)), (85123A,Array(WHITE 
HANGING HEART T-LIGHT HOLDER)), (71053,Array(WHITE METAL LANTERN)))

- ITEM count

val itemOne = items.map(g => (g, 1))
val itemCounter = itemOne.reduceByKey((x,y) => (x+y))
itemCounter.take(5)

- ITEM 개수(value)를 기준으로 내림차순 정렬 후 상위 10개 출력

itemCounter.takeOrdered(10)(Ordering[Int].reverse.on(x=>x._2))

'스터디 > Hadoop' 카테고리의 다른 글

[Hive] Hive 개념 (0)	2020.07.04
[Spark] Scala 기초 문법 (0)	2020.07.04
[Spark] Spark 개념 (0)	2020.07.02
[Hadoop] Hadoop 개념 (0)	2020.07.02

오늘의 기록

[Spark] OnlineRetail ItemCount

'스터디 > Hadoop' 카테고리의 다른 글

댓글

티스토리툴바

[Spark] OnlineRetail ItemCount

'스터디 > Hadoop' 카테고리의 다른 글

관련글

댓글

티스토리툴바