/34
Spark로알아보는
빅데이터처리
@Hadoop@SPARK@분석@BigData
1
/34!2
김정규
regular
Len
https://github.com/LenKIM
@Daou S/W Labs
/34
Index
A. 빅데이터를 처리하는 프로세스는 무엇인가?
B. 스파크는 빅데이터 플랫폼에서 어떤 역할을 하는가?
C. 스파크의 동작원리는?
D. 그리고, 스파크의 핵심은?
E. 프로젝트에서 Spark는 어떻게 사용되었나?
!3
/34!4
A.BigData를처리하는프로세스는무엇일까?
/34!5
100 MB/s
2 TB
A. BigData를 처리하는 프로세스는 무엇인가?
3.5 hours
/34!6
A. BigData를 처리하는 프로세스는 무엇인가?
100 MB/s
2 TB
30 min
/34!7
A. BigData를 처리하는 프로세스는 무엇인가?
/34!8
분산 저장 시스템 가자~
A. BigData를 처리하는 프로세스는 무엇인가?
/34!9
A. BigData를 처리하는 프로세스는 무엇인가?
: 대량의 자료를 처리할 수 있는 큰 컴퓨터 클러스터에
서 동작하는 분산 응용 프로그램을 지원하는 

프리웨어 자바 소프트웨어 프레임워크
/34!10
A. BigData를 처리하는 프로세스는 무엇인가?
Hadoop은, 2개 이상의 노드를 하나의 저장소처럼 

활용하여 특정 연산을 처리 할 수 있도록 하는 것
/34!11
NodeHardware Node Node Node Node Node
Storage HDFS - Hadoop Distributed File System
A. BigData를 처리하는 프로세스는 무엇인가?
/34!12
NodeHardware Node Node Node Node Node
Storage HDFS - Hadoop Distributed File System
YARN
Resource
Manager
Processing
A. BigData를 처리하는 프로세스는 무엇인가?
/34!13
NodeHardware Node Node Node Node Node
Storage HDFS - Hadoop Distributed File System
YARN
Resource
Manager
Processing
A. BigData를 처리하는 프로세스는 무엇인가?
Job
/34!14
NodeHardware Node Node Node Node Node
Storage HDFS - Hadoop Distributed File System
YARN
Resource
Manager
Processing
A. BigData를 처리하는 프로세스는 무엇인가?
Job
/34!15
NodeHardware Node Node Node Node Node
Storage HDFS - Hadoop Distributed File System
YARN
Resource
Manager
Processing
A. BigData를 처리하는 프로세스는 무엇인가?
Job Job
/34!16
NodeHardware Node Node Node Node Node
Storage HDFS - Hadoop Distributed File System
YARN
Resource
Manager
Processing
A. BigData를 처리하는 프로세스는 무엇인가?
Job
[일반적인 Hadoop의 MapReduce의 구조 그림]
Job
그렇다면 Spark 라는 것은 왜 필요한걸까?
/34!17
B. Spark는 빅데이터 플랫폼에서 어떤 역할을 하는가?
/34!18
B. Spark는 빅데이터 플랫폼에서 어떤 역할을 하는가?
Nod Nod Nod Nod Nod Nod
HDFS - Hadoop Distributed File
YARN
Nod Nod Nod Nod Nod Nod
HDFS - Hadoop Distributed File
YARN
Nod Nod Nod Nod Nod Nod
HDFS - Hadoop Distributed File
YARN
DISK로부터 쓰기
DISK로부터 읽기
Iteration 2
DISK로부터 읽기
Iteration 1
Input
DISK로부터 쓰기
빈번한 File i/o는 데이터가 커질 수록 더 큰 latency(지연) 발생
/34!19
B. Spark는 빅데이터 플랫폼에서 어떤 역할을 하는가?
DISK로부터 쓰기
DISK로부터 읽기
Iteration 2
DISK로부터 읽기
Iteration 1
Input
DISK로부터 쓰기
Input
Iteration 1 Iteration 2
In-memory Computation. no need to read/write to file
Latency 지연 평가
=
/34!20
NodeHardware Node Node Node Node Node
Storage HDFS - Hadoop Distributed File System
YARN
Resource
Manager
Processing …
B. Spark는 빅데이터 플랫폼에서 어떤 역할을 하는가?
얼마나 차이가 나는걸까?
/34!21
B. Spark는 빅데이터 플랫폼에서 어떤 역할을 하는가?
Spark
SQL
Spark
Streaming
MLlib
(Machine
learning)
Apache Spark
GraphX
(graph)
/34!22
C. Spark의 동작원리는?
Action !
/34!23
C. 스파크의 동작원리는?
Job
Main RDDs
변경할 수 없는 형태의 분산된 객체들의모음RDDs 는
/34!24
C. 스파크의 동작원리는?
Job
Main RDDs
Stage Stage Stage
Shuffle은 각 클러스터의 데이터들의 정렬을 재정렬 할 때 발생
/34!25
C. 스파크의 동작원리는?
Job
Main RDDs
Stage Stage Stage
Task Task
TaskTask
Task Task Task Task
TaskTask
Task Task Task Task
TaskTask
Task Task
그렇다면, JOB은 언제,어떻게 발생될까?
/34!26
C. 스파크의 동작원리는?
Driver
Executor Executor Executor Executor
Architecture
Cluster
Manager
/34!27
C. 스파크의 동작원리는?
Driver
Executor Executor Executor Executor
Cluster
Manager
실행계획(DAG) / Stage / Task
Main
Task Task
Task Task
Task Task
Task Task
Task Task
Task Task
Task Task
Task Task
Task Task
Task Task
Task Task
Task Task
Task Task
Task Task
Task Task
Task Task
Architecture
실행계획(DAG) / Stage / Task
/34!28
C. 스파크의 동작원리는?
work flow
rdd.filter
.map
rdd.groupBy
.map
rdd.sortByKey
.count
filter
map
Stage 1
groupBy
map
Stage 2
SortBykeyStage 3
태스크
/34!29
D. 그래서 Spark의 핵심은?
work
rdd.filter
.map
rdd.groupBy
.map
rdd.sortByKey
.count
filter
map
Stage 1
groupBy
map
Stage 2
SortBykeyStage 3
태스크
Latency 지연 평가 장애 내구성
/34!30
D. 그래서 Spark의 핵심은?
work
rdd.filter
.map
rdd.groupBy
.map
rdd.sortByKey
.count
filter
map
Stage 1
groupBy
map
Stage 2
SortBykeyStage 3
태스크
Broken
장애 내구성
/34!31
D. 그래서 Spark의 핵심은?
work
rdd.filter
.map
rdd.groupBy
.map
rdd.sortByKey
.count
filter
map
Stage 1
groupBy
map
Stage 2
SortByke
y
Stage 3
태스크
Broken
lineage
A
B
C
Lineage을 보고 판단하여 부분 Recovery
장애 내구성
/34!32
D. 그래서 Spark의 핵심은?
work
rdd.filter
.map
rdd.groupBy
.map
rdd.sortByKey
.count
filter
map
Stage 1
groupBy
map
Stage 2
SortByke
y
Stage 3
태스크
lineage
A
B
C
장애 내구성
Lineage을 보고 판단하여 부분 Recovery
/34!33
E. 프로젝트에서는 어떻게 사용되었나?
/34!34
E. 프로젝트에서 Spark는 어떻게 사용되었나?
회사별로 API 분석
웹 페이지 각각 고유 방문수
웹 페이지를 이용하는 유저 분석
데이터 전처리 후 제플린을 활용하여 시각화

More Related Content

PDF
Amazon S3 Best Practice and Tuning for Hadoop/Spark in the Cloud
PDF
Apache Spark Core – Practical Optimization
PPTX
Apache spark 소개 및 실습
PPTX
Optimizing Apache Spark SQL Joins
PDF
Apache Spark Core—Deep Dive—Proper Optimization
PDF
Tuning Apache Spark for Large-Scale Workloads Gaoxiang Liu and Sital Kedia
PDF
Understanding Query Plans and Spark UIs
PDF
Apache Spark in Depth: Core Concepts, Architecture & Internals
Amazon S3 Best Practice and Tuning for Hadoop/Spark in the Cloud
Apache Spark Core – Practical Optimization
Apache spark 소개 및 실습
Optimizing Apache Spark SQL Joins
Apache Spark Core—Deep Dive—Proper Optimization
Tuning Apache Spark for Large-Scale Workloads Gaoxiang Liu and Sital Kedia
Understanding Query Plans and Spark UIs
Apache Spark in Depth: Core Concepts, Architecture & Internals

What's hot (20)

PDF
PostgreSQL Deep Internal
PDF
Apache Sparkにおけるメモリ - アプリケーションを落とさないメモリ設計手法 -
PDF
Optimizing Hive Queries
PDF
Apache Spark Introduction
PDF
The Apache Spark File Format Ecosystem
PDF
Spark overview
PDF
Deep Dive: Memory Management in Apache Spark
PDF
PySpark in practice slides
PDF
Deep Dive into the New Features of Apache Spark 3.0
PDF
Apache Spark Overview
PDF
PySpark Best Practices
PDF
Apache Spark 1000 nodes NTT DATA
PDF
Apache Spark + Arrow
PDF
Akkaとは。アクターモデル とは。
PDF
Apache Spark - Dataframes & Spark SQL - Part 1 | Big Data Hadoop Spark Tutori...
PDF
Top 5 Mistakes to Avoid When Writing Apache Spark Applications
PPTX
Apache Tez: Accelerating Hadoop Query Processing
PPTX
Apache Tez: Accelerating Hadoop Query Processing
PDF
Efficient Data Storage for Analytics with Parquet 2.0 - Hadoop Summit 2014
PostgreSQL Deep Internal
Apache Sparkにおけるメモリ - アプリケーションを落とさないメモリ設計手法 -
Optimizing Hive Queries
Apache Spark Introduction
The Apache Spark File Format Ecosystem
Spark overview
Deep Dive: Memory Management in Apache Spark
PySpark in practice slides
Deep Dive into the New Features of Apache Spark 3.0
Apache Spark Overview
PySpark Best Practices
Apache Spark 1000 nodes NTT DATA
Apache Spark + Arrow
Akkaとは。アクターモデル とは。
Apache Spark - Dataframes & Spark SQL - Part 1 | Big Data Hadoop Spark Tutori...
Top 5 Mistakes to Avoid When Writing Apache Spark Applications
Apache Tez: Accelerating Hadoop Query Processing
Apache Tez: Accelerating Hadoop Query Processing
Efficient Data Storage for Analytics with Parquet 2.0 - Hadoop Summit 2014
Ad

Similar to Spark로 알아보는 빅데이터 처리 (20)

PPTX
What is spark
PDF
Spark은 왜 이렇게 유명해지고 있을까?
PDF
Cloudera session seoul - Spark bootcamp
PPTX
하둡 시스템에 대한 10분 소개
PDF
Spark 의 핵심은 무엇인가? RDD! (RDD paper review)
PPTX
Start spark
PPT
Big Data Overview
PPTX
[D2 COMMUNITY] Spark User Group - 스파크를 통한 딥러닝 이론과 실제
PDF
Apache Spark
PPTX
Pyspark Demo1,Demo2 정리
PPTX
Big data application architecture 요약2
PDF
Learning spark ch1-2
PPTX
Spark streaming tutorial
PDF
빅데이터, big data
PDF
Cluster - spark
PPTX
빅데이터 플랫폼 진화 공개용
PDF
20180714 하둡 스터디 종료 보고 및 연구과제 발표자료
PDF
빅데이터 기술 현황과 시장 전망(2014)
PDF
Spark overview 이상훈(SK C&C)_스파크 사용자 모임_20141106
PPTX
Hadoop설명
What is spark
Spark은 왜 이렇게 유명해지고 있을까?
Cloudera session seoul - Spark bootcamp
하둡 시스템에 대한 10분 소개
Spark 의 핵심은 무엇인가? RDD! (RDD paper review)
Start spark
Big Data Overview
[D2 COMMUNITY] Spark User Group - 스파크를 통한 딥러닝 이론과 실제
Apache Spark
Pyspark Demo1,Demo2 정리
Big data application architecture 요약2
Learning spark ch1-2
Spark streaming tutorial
빅데이터, big data
Cluster - spark
빅데이터 플랫폼 진화 공개용
20180714 하둡 스터디 종료 보고 및 연구과제 발표자료
빅데이터 기술 현황과 시장 전망(2014)
Spark overview 이상훈(SK C&C)_스파크 사용자 모임_20141106
Hadoop설명
Ad

More from Jeong-gyu Kim (19)

PDF
JPA 관련 스터디내용입니다. 천천히 다가가기천천히 다가가기천천히 다가가기천천히 다가가기
PDF
Id generator
PDF
근육 기억으로 주도하는 테스트 주도 개발 입문하기
PDF
Api first design 개발의 선순환
PDF
Design by contract(계약에의한설계)
PDF
JPA Study - 1주차(SLIPP)
PDF
얼굴인식 - 기초
PDF
02.cnn - CNN 파헤치기 3탄
PDF
01.cnn - 본격CNN논문 파헤치기
PDF
00.cnn basic
PDF
코드 재사용에 대해서 생각해보기
PDF
Deep dive functional thinking
PDF
'객체지향의 사실과 오해' 북 리뷰 세미나
PDF
Functional thinking - 책 리뷰 1탄
PPTX
Intern pt sw_r&d_len_second_mission
PPTX
Log Parser Story In Python3
PDF
Stampfood 2.0
PPTX
You dont know_js
PPTX
Node.js를 활용한 웹 크롤링(Crawling)
JPA 관련 스터디내용입니다. 천천히 다가가기천천히 다가가기천천히 다가가기천천히 다가가기
Id generator
근육 기억으로 주도하는 테스트 주도 개발 입문하기
Api first design 개발의 선순환
Design by contract(계약에의한설계)
JPA Study - 1주차(SLIPP)
얼굴인식 - 기초
02.cnn - CNN 파헤치기 3탄
01.cnn - 본격CNN논문 파헤치기
00.cnn basic
코드 재사용에 대해서 생각해보기
Deep dive functional thinking
'객체지향의 사실과 오해' 북 리뷰 세미나
Functional thinking - 책 리뷰 1탄
Intern pt sw_r&d_len_second_mission
Log Parser Story In Python3
Stampfood 2.0
You dont know_js
Node.js를 활용한 웹 크롤링(Crawling)

Spark로 알아보는 빅데이터 처리