1
Xây dựng hệ thống Big Data
Phạm Văn Đông
2
Airflow Scheduling
MySQL
Log,CSV
,Json
Hive Cluster
HDFS
Spark Cluster
Spark or Sqoop
Kafka
Druid
Superset Tableau
Internet
API
Nifi
Nội dung tìm hiểu
• Tìm hiểu các bài phát biểu trên mạng
• Xây dựng hệ thống Big Data với các kỹ
thuật mới
• Cài đặt thử nghiệm
• Gợi ý các kỹ thuật cho mọi người
• Lên kế hoạch, support, review, tạo task
3
Nội dung trình bầy
• Giới thiệu về demo
• Apache Kafka
• Apache Druid
• Apache Superset
4
5
Giới thiệu về demo
Giới thiệu về demo
6
Giới thiệu về demo
7
Giới thiệu về demo
8
Data Kafka Druid Superset
9
Apache Kafka
Apache Kafka
10
stream data Data Pipeline
Apache Kafka
11
Apache Kafka
12
Apache Kafka
13
Apache Kafka
14
15
Apache Druid
Apache Druid
16
Apache Druid
• Column-oriented distributed datastore
• Sub-Second query times
• Realtime streaming ingestion
• Arbitrary slicing and dicing of data
• Automatic Data Summarization
• Approximate algorithms (hyperLogLog, theta)
• Scalable to petabytes of data
• Highly available
17
Apache Druid
18
Druid Architecture
19
Apache Druid
20
Apache Druid
21
Apache Druid
22
Apache Druid
23
Apache Druid
24
Apache Druid
25
Druid Data example
26
{
"time":"2015-09-12T00:47:05.474Z",
"channel":"#en.wikipedia",
"cityName":"Auburn",
"comment":"/* Status of …",
"countryIsoCode":"AU",
"countryName":"Australia",
"isAnonymous":true,
"isMinor":false,
"isNew":false,
"isRobot":false,
"isUnpatrolled":false,
"metroCode":null,
"namespace":"Main",
"page":"Peremptory norm",
"regionIsoCode":"NSW",
"regionName":"New South Wales",
"user":"60.225.66.142",
"delta":0,
"added":0,
"deleted":0
}
Druid Data example
27
Apache Druid Query
• Ví dụ các truy vấn trên druid
– http://localhost:9995/#/notebook/2ERKH91FR
28
Apache Druid Query
29
curl -L -H 'Content-Type: application/json' -X POST 
--data-binary @/tmp/sandbox/tutorial-files/900/druid/query/wiki-select.json
http://localhost:8082/druid/v2/?pretty
Apache Druid Query
30
Apache Druid Query
• Query type
– Making native queries
– Timeseries
– TopN
– GroupBy
– Scan
– TimeBoundary
– SegmentMetadata
– DatasourceMetadata
– Search
– Select
31
Apache Druid SQL
• https://druid.apache.org/docs/latest/queryin
g/sql.html
• From NoSQL to SQL với Apache Calcite
32
Apache Druid SQL
33
34
Apache Superset
Apache Superset
• BI Tool
• Python backend
– Flask
– Authentication
– SQL toolkit
• Frontend
– React, NVD3
• Tích hợp mạnh cho Druid
35
Apache Superset
36
Apache Superset
37
Apache Superset
38
Apache Superset
39
Apache Superset
40
Tổng hợp
• Apache Druid
• Apache Kafka
• Apache Superset
• Apache Calcite
• Apache Zeppelin
41
Mục tiêu tiếp theo
• Tích hợp airflow và một số công cụ khác
• Deploy và tích hợp với bài toán forex
42
43
Cám ơn đã lắng nghe

More Related Content

PDF
Understanding and Improving Code Generation
PPTX
Go micro framework to build microservices
PPTX
Tiki.vn - How we scale as a tech startup
PDF
InfluxDB IOx Tech Talks: Query Engine Design and the Rust-Based DataFusion in...
PDF
Deploying IPv6 on OpenStack
PDF
Monitoring Kafka w/ Prometheus
PDF
MySQL High Availability Solutions
PPTX
Software architecture for high traffic website
Understanding and Improving Code Generation
Go micro framework to build microservices
Tiki.vn - How we scale as a tech startup
InfluxDB IOx Tech Talks: Query Engine Design and the Rust-Based DataFusion in...
Deploying IPv6 on OpenStack
Monitoring Kafka w/ Prometheus
MySQL High Availability Solutions
Software architecture for high traffic website

What's hot (20)

PDF
MariaDB 마이그레이션 - 네오클로바
PDF
hbaseconasia2019 HBCK2: Concepts, trends, and recipes for fixing issues in HB...
PPTX
Apache hive introduction
PDF
Introduction to data flow management using apache nifi
PDF
Streaming Operational Data with MariaDB MaxScale
PPTX
해 싱(Hashing)
PPTX
PDF
Performance Tuning RocksDB for Kafka Streams’ State Stores
PDF
Paris Redis Meetup Introduction
PPTX
Introduction to Kafka Streams Presentation
PDF
Data Engineer's Lunch #83: Strategies for Migration to Apache Iceberg
PPTX
04 spark-pair rdd-rdd-persistence
PPTX
Presto: SQL-on-anything
PPTX
MySQL Monitoring using Prometheus & Grafana
PDF
From Query Plan to Query Performance: Supercharging your Apache Spark Queries...
PPTX
ITLC HN 14 - Bizweb Microservices Architecture
PDF
Introduction to Apache NiFi dws19 DWS - DC 2019
PDF
Accelerating Hyper-Converged Enterprise Virtualization using Proxmox and Ceph
PDF
Best Practice for Achieving High Availability in MariaDB
PPSX
LMAX Disruptor as real-life example
MariaDB 마이그레이션 - 네오클로바
hbaseconasia2019 HBCK2: Concepts, trends, and recipes for fixing issues in HB...
Apache hive introduction
Introduction to data flow management using apache nifi
Streaming Operational Data with MariaDB MaxScale
해 싱(Hashing)
Performance Tuning RocksDB for Kafka Streams’ State Stores
Paris Redis Meetup Introduction
Introduction to Kafka Streams Presentation
Data Engineer's Lunch #83: Strategies for Migration to Apache Iceberg
04 spark-pair rdd-rdd-persistence
Presto: SQL-on-anything
MySQL Monitoring using Prometheus & Grafana
From Query Plan to Query Performance: Supercharging your Apache Spark Queries...
ITLC HN 14 - Bizweb Microservices Architecture
Introduction to Apache NiFi dws19 DWS - DC 2019
Accelerating Hyper-Converged Enterprise Virtualization using Proxmox and Ceph
Best Practice for Achieving High Availability in MariaDB
LMAX Disruptor as real-life example
Ad

Similar to Xây dụng và kết hợp Kafka, Druid, Superset để đua vào ứng dụng phân tích dữ liệu timeserie và OLAP (20)

PPTX
Hadoop - Hệ thống tính toán và xử lý dữ liệu lớn
PPTX
ITEC - Qua trinh phat trien he thong BigData
PDF
Giáo trình CNTT_Báo cáo BTL IT4931 nhóm 31.pdf
DOC
Map reduce hdfs
PPTX
Hệ thống phân tích tình trạng giao thông: Ứng dụng công cụ xử lý dữ liệu lớn...
PPTX
Nhom 16 big data
PDF
Bắt đầu nghiên cứu Big Data
PDF
Nền tảng thuật toán của AI, Machine Learning, Big Data
PPTX
Hadoop, HBase and Zookeeper at Tamtay
PDF
Trongtruong so27a 09
PDF
SFD 2013 Hanoi: Phần mềm nguồn mở và dự tính khí hậu 100 năm
PDF
Hadoop trong triển khai Big Data
PDF
Lưu trữ và xử lý dữ liệu trong điện toán đám mây
PPTX
Báo cáo bài tập Lưu trữ và xử lý dữ liệu lớn.pptx
PDF
Itlc2015
DOCX
NoSql Database
PDF
VWS2017: Bắt đầu Big Data từ đâu và như thế nào?
PPTX
Morden data center technology
ODP
Neo4j
Hadoop - Hệ thống tính toán và xử lý dữ liệu lớn
ITEC - Qua trinh phat trien he thong BigData
Giáo trình CNTT_Báo cáo BTL IT4931 nhóm 31.pdf
Map reduce hdfs
Hệ thống phân tích tình trạng giao thông: Ứng dụng công cụ xử lý dữ liệu lớn...
Nhom 16 big data
Bắt đầu nghiên cứu Big Data
Nền tảng thuật toán của AI, Machine Learning, Big Data
Hadoop, HBase and Zookeeper at Tamtay
Trongtruong so27a 09
SFD 2013 Hanoi: Phần mềm nguồn mở và dự tính khí hậu 100 năm
Hadoop trong triển khai Big Data
Lưu trữ và xử lý dữ liệu trong điện toán đám mây
Báo cáo bài tập Lưu trữ và xử lý dữ liệu lớn.pptx
Itlc2015
NoSql Database
VWS2017: Bắt đầu Big Data từ đâu và như thế nào?
Morden data center technology
Neo4j
Ad

More from Đông Đô (10)

PPTX
Maria db spider engine
PPTX
Daily scrum
PPTX
Training sql4
PPTX
Training sql3
PPTX
Training sql2
PPTX
Training sql1
PPTX
He thong chiu tai cao
PPTX
TDD (Test Driven Development)
PPTX
Pair programing
PPTX
The Art of Readable Code - DongPV
Maria db spider engine
Daily scrum
Training sql4
Training sql3
Training sql2
Training sql1
He thong chiu tai cao
TDD (Test Driven Development)
Pair programing
The Art of Readable Code - DongPV

Recently uploaded (6)

PDF
Catalog Yale 2025 Biển Phúc. bienphuc.com
PPTX
Thiết Bị trao_đổi_nhiệt_Loại_TRUNG_GIAN.pptx
PPTX
2.Co cau di chuyen cua robot di dong_done.pptx
PDF
Bai giang NVH (C4)_Signed.pdf..............
PDF
NHP_MON_CONG_NGH_THONG_TIN_VA_TRUYN_T.pdf
PPT
Sổ tay Sua-Chua-Tu-Lanh nâng cao LG_.ppt
Catalog Yale 2025 Biển Phúc. bienphuc.com
Thiết Bị trao_đổi_nhiệt_Loại_TRUNG_GIAN.pptx
2.Co cau di chuyen cua robot di dong_done.pptx
Bai giang NVH (C4)_Signed.pdf..............
NHP_MON_CONG_NGH_THONG_TIN_VA_TRUYN_T.pdf
Sổ tay Sua-Chua-Tu-Lanh nâng cao LG_.ppt

Xây dụng và kết hợp Kafka, Druid, Superset để đua vào ứng dụng phân tích dữ liệu timeserie và OLAP