Spark로 알아보는 빅데이터 처리

/34
Spark로알아보는
빅데이터처리
@Hadoop@SPARK@분석@BigData
1

/34!2
김정규
regular
Len
https://github.com/LenKIM
@Daou S/W Labs

/34
Index
A. 빅데이터를 처리하는 프로세스는 무엇인가?
B. 스파크는 빅데이터 플랫폼에서 어떤 역할을 하는가?
C. 스파크의 동작원리는?
D. 그리고, 스파크의 핵심은?
E. 프로젝트에서 Spark는 어떻게 사용되었나?
!3

/34!4
A.BigData를처리하는프로세스는무엇일까?

/34!5
100 MB/s
2 TB
A. BigData를 처리하는 프로세스는 무엇인가?
3.5 hours

/34!6
100 MB/s
2 TB
30 min

/34!7

/34!8
분산 저장 시스템 가자~

/34!9
: 대량의 자료를 처리할 수 있는 큰 컴퓨터 클러스터에
서 동작하는 분산 응용 프로그램을 지원하는

프리웨어 자바 소프트웨어 프레임워크

/34!10
Hadoop은, 2개 이상의 노드를 하나의 저장소처럼

활용하여 특정 연산을 처리 할 수 있도록 하는 것

/34!11
NodeHardware Node Node Node Node Node
Storage HDFS - Hadoop Distributed File System

/34!12
YARN
Resource
Manager
Processing

/34!13
YARN
Resource
Manager
Processing
Job

/34!14
YARN
Resource
Manager
Processing
Job

/34!15
YARN
Resource
Manager
Processing
Job Job

/34!16
YARN
Resource
Manager
Processing
Job
[일반적인 Hadoop의 MapReduce의 구조 그림]
Job
그렇다면 Spark 라는 것은 왜 필요한걸까?

/34!17
B. Spark는 빅데이터 플랫폼에서 어떤 역할을 하는가?

/34!18
Nod Nod Nod Nod Nod Nod
HDFS - Hadoop Distributed File
YARN
YARN
YARN
DISK로부터 쓰기
DISK로부터 읽기
Iteration 2
Iteration 1
Input
빈번한 File i/o는 데이터가 커질 수록 더 큰 latency(지연) 발생

/34!19
Iteration 2
Iteration 1
Input
Input
Iteration 1 Iteration 2
In-memory Computation. no need to read/write to file
Latency 지연 평가
=

/34!20
YARN
Resource
Manager
Processing …
얼마나 차이가 나는걸까?

/34!21
Spark
SQL
Spark
Streaming
MLlib
(Machine
learning)
Apache Spark
GraphX
(graph)

/34!22
C. Spark의 동작원리는?
Action !

/34!23
Job
Main RDDs
변경할 수 없는 형태의 분산된 객체들의모음RDDs 는

/34!24
Job
Main RDDs
Stage Stage Stage
Shuffle은 각 클러스터의 데이터들의 정렬을 재정렬 할 때 발생

/34!25
Job
Main RDDs
Stage Stage Stage
Task Task
TaskTask
Task Task Task Task
TaskTask
Task Task Task Task
TaskTask
Task Task
그렇다면, JOB은 언제,어떻게 발생될까?

/34!26
Driver
Executor Executor Executor Executor
Architecture
Cluster
Manager

/34!27
Driver
Executor Executor Executor Executor
Cluster
Manager
실행계획(DAG) / Stage / Task
Main
Task Task
Task Task
Task Task
Task Task
Task Task
Task Task
Task Task
Task Task
Task Task
Task Task
Task Task
Task Task
Task Task
Task Task
Task Task
Task Task
Architecture
실행계획(DAG) / Stage / Task

/34!28
work flow
rdd.filter
.map
rdd.groupBy
.map
rdd.sortByKey
.count
filter
map
Stage 1
groupBy
map
Stage 2
SortBykeyStage 3
태스크

/34!29
D. 그래서 Spark의 핵심은?
work
rdd.ﬁlter
.map
rdd.groupBy
.map
rdd.sortByKey
.count
ﬁlter
map
Stage 1
groupBy
map
Stage 2
SortBykeyStage 3
태스크
Latency 지연 평가 장애 내구성

/34!30
work
rdd.ﬁlter
.map
rdd.groupBy
.map
rdd.sortByKey
.count
ﬁlter
map
Stage 1
groupBy
map
Stage 2
SortBykeyStage 3
태스크
Broken
장애 내구성

/34!31
work
rdd.ﬁlter
.map
rdd.groupBy
.map
rdd.sortByKey
.count
ﬁlter
map
Stage 1
groupBy
map
Stage 2
SortByke
y
Stage 3
태스크
Broken
lineage
A
B
C
Lineage을 보고 판단하여 부분 Recovery
장애 내구성

/34!32
work
rdd.ﬁlter
.map
rdd.groupBy
.map
rdd.sortByKey
.count
ﬁlter
map
Stage 1
groupBy
map
Stage 2
SortByke
y
Stage 3
태스크
lineage
A
B
C
장애 내구성
Lineage을 보고 판단하여 부분 Recovery

/34!33
E. 프로젝트에서는 어떻게 사용되었나?

/34!34
E. 프로젝트에서 Spark는 어떻게 사용되었나?
회사별로 API 분석
웹 페이지 각각 고유 방문수
웹 페이지를 이용하는 유저 분석
데이터 전처리 후 제플린을 활용하여 시각화

Spark로 알아보는 빅데이터 처리

More Related Content

What's hot (20)

Similar to Spark로 알아보는 빅데이터 처리 (20)

More from Jeong-gyu Kim (19)

Spark로 알아보는 빅데이터 처리