SlideShare ist ein Scribd-Unternehmen logo
Prof. Dr. Jens Albrecht
jens.albrecht@th-nuernberg.de
Data Lake Architektur
Von den Anforderungen zur Technologie
Prof. Dr. Jens Albrecht Big Data 6
www.pixabay.com
Prof. Dr. Jens Albrecht Big Data 6
www.pixabay.com
Prof. Dr. Jens Albrecht Big Data 6
www.pixabay.com
Prof. Dr. Jens Albrecht Big Data 6
www.pixabay.com
Prof. Dr. Jens Albrecht Big Data 6
www.pixabay.com
Prof. Dr. Jens Albrecht Big Data 11
Storage
Layer
Ingestion
Layer
Serving
Layer
Referenzarchitektur für BI
End-User
Layer
Data Sources
Reporting OLAP
OLTP Systems
In-Memory
RDBMS
Data Marts
Staging Area
Enterprise
DWH
Prof. Dr. Jens Albrecht Big Data 12
Storage
Layer
Ingestion
Layer
Serving
Layer
Referenzarchitektur für BI und Big Data
End-User
Layer
Data Sources
Reporting OLAP
Operational
Analytics
Data
Discovery
Data Lake
Hadoop, NoSQL
Prediction
OLTP Systems
In-Memory
RDBMS
Data Marts
Staging Area
Enterprise
DWH
Search
Prof. Dr. Jens Albrecht Big Data 14
Enterprise Data Lake / Hub / Reservoir
Internal
Applications
External
Data Sources
0
1
0
1
0
1
0
1
0
1
0
1
0 1
Comprehensive
Data Pool
Business Analytics
Tool
Collect data as it is generated, process data when it is needed.
Prof. Dr. Jens Albrecht Big Data 15
Wozu ein Data Lake?
Daten in Originalformat
gespeichert
Datenstrukturen werden erst
definiert, wenn Daten benötigt
werden (Schema-on-Read)
Alle Daten werden gespeichert
Einfache Adaption von
Änderungen
Agile Einbindung neuer Daten
Einfacher Zugriff für alle
Benutzer
Prof. Dr. Jens Albrecht Big Data 16
>
Anforderungsmuster verstehen
Prof. Dr. Jens Albrecht Big Data 18
Nifi
Flink Storm
Samza
Apex …
Real-Time/
Stream
Kafka Spark
Fixing the Requirements: Ingestion
ForeachDataSource Data Types
(Variety)
Frequency
(Velocity)
Latency
(Batch or Stream)
Volume
Quality (Veracity)
Consistent
Timeline
CDC
Push/Pull
Hive
Sqoop Spark
…
Batch
Beam
Prof. Dr. Jens Albrecht Big Data 19
Lambda und Kappa Architektur
Streaming Data
Speed Layer
Kafka, Storm
Batch Layer
Hadoop, Spark
Serving LayerLambda
Streaming Data
Message Buffer
and Broker
Kafka
Stream
Processor
Flink, Spark
Serving Layer
Kappa
Speed Table
Batch Table
Prof. Dr. Jens Albrecht Big Data 20
Fixing the Requirements: Storage & Process
Storage 3V's
Query Patterns
Update Patterns
SQL Support
Data Linkage
Schema Evolution
Historical Queries
(as-is vs. as-was)
Security
Retention Policy
Accumulo
HBase Cassandra
Mongo
Neo4j …
NoSQL
In-Memory
SMP MPP
Open
Source
Kudu …
Relational
Parquet
Flat Files JSON
ORC
Avro …
HDFS
+
Hive/Spark
Cloud?
Prof. Dr. Jens Albrecht Big Data 21
Apache Spark – Swiss Army Knife of Big Data
☛ Agilität und Skalierbarkeit mit und ohne Hadoop
▸ Effiziente Entwicklung durch mächtige API (identisch für Scala, Java, Python)
▸ In-Memory-Ausführung und SQL-ähnliche Anfrageoptimierung
▸ Einheitliches System für Batch- und Stream-Processing
Batch Processing
Machine Learning
Java
Python
Scala R
Data Streaming
Graph Processing
SQL
Apache Spark
Prof. Dr. Jens Albrecht Big Data 22
Fixing the Requirements: Curation & Governance
Curation Quality
Policies &
Standards
Security & Privacy
Lifecycle
Management
Lineage
Metadata
Management
Data Tagging
Data Lake
Landing
Zone
Raw Zone
Discovery
Sandbox
Curated
Zone
Work
Zone
DataInventory
Security
Sensitive
Zone
Waterline
Atlas
Cloudera
Navigator
Sentry
Ranger
Prof. Dr. Jens Albrecht Big Data 24
Anwendungsfälle
Data Lake
Hadoop, NoSQL
Enterprise
DWH
UseCases Advanced
Analytics
Self-Service
Data Discovery
Stream Processing
ETL Migration
Data Offloading
Virtual Data Hub
Kafka
Sqoop
Spark
Datasource API
SQL, R, ML, Streaming
Hive, Drill,
Impala
Prof. Dr. Jens Albrecht Big Data 25
>
Risiken verstehen
Prof. Dr. Jens Albrecht Big Data 26
Risiken
Wer billig kauft,
kauft zweimal
CC BY 2.0 Zorilla (https://www.flickr.com/photos/barry_b)
Prof. Dr. Jens Albrecht Big Data 27
Risiken
Falsches Werkzeug
für die Aufgabe
www.pixabay.com
Prof. Dr. Jens Albrecht Big Data 28
Risiken
Unterschätzung der
technologischen
Komplexität
www.pixabay.com
Prof. Dr. Jens Albrecht Big Data 29
Risiken
Unterschätzung des
Personalbedarfs und
-aufwands
www.pixabay.com
www.pixabay.com
Prof. Dr. Jens Albrecht Big Data 30
Risiken
Mangelnde
Automatisierung
und Wieder-
verwendbarkeit
www.pixabay.com
www.pixabay.com
Prof. Dr. Jens Albrecht Big Data 31
Risiken
Abhängigkeit
von der IT
www.pixabay.com
www.pixabay.com
Prof. Dr. Jens Albrecht Big Data 32
>
Fazit
Prof. Dr. Jens Albrecht Big Data 33
Fazit
1. Data Warehouse und Data Lake ergänzen sich und werden
stärker zusammen wachsen
2. Muster für Anwendungsfälle als Voraussetzung für sorgfältige
Technologie-Auswahl
3. Komplexität kontrollieren
4. Gesundes Maß für Data Governance und Security finden
5. Ohne Mitarbeiter mit der richten Expertise geht gar nichts
Prof. Dr. Jens Albrecht Big Data 34
>
Vielen Dank
Jens.Albrecht@th-nuernberg.de

Weitere ähnliche Inhalte

PPTX
Azure purview
Shafqat Turza
 
PPTX
Power BI for Developers
Jan Pieter Posthuma
 
PDF
Ceph Month 2021: RADOS Update
Ceph Community
 
PDF
The Marriage of the Data Lake and the Data Warehouse and Why You Need Both
Adaryl "Bob" Wakefield, MBA
 
PDF
Got data?… now what? An introduction to modern data platforms
JamesAnderson599331
 
PPTX
Microsoft Fabric Introduction
James Serra
 
PDF
MySQL Ecosystem in 2023 - FOSSASIA'23 - Alkin.pptx.pdf
Alkin Tezuysal
 
PDF
Data Warehouse or Data Lake, Which Do I Choose?
DATAVERSITY
 
Azure purview
Shafqat Turza
 
Power BI for Developers
Jan Pieter Posthuma
 
Ceph Month 2021: RADOS Update
Ceph Community
 
The Marriage of the Data Lake and the Data Warehouse and Why You Need Both
Adaryl "Bob" Wakefield, MBA
 
Got data?… now what? An introduction to modern data platforms
JamesAnderson599331
 
Microsoft Fabric Introduction
James Serra
 
MySQL Ecosystem in 2023 - FOSSASIA'23 - Alkin.pptx.pdf
Alkin Tezuysal
 
Data Warehouse or Data Lake, Which Do I Choose?
DATAVERSITY
 

Was ist angesagt? (20)

PPTX
graylog.pptx
emnabenamor3
 
PPTX
Microsoft Data Platform - What's included
James Serra
 
PPTX
Streaming Real-time Data to Azure Data Lake Storage Gen 2
Carole Gunst
 
PPTX
2 Modern Security - Microsoft Information Protection
Andrew Bettany
 
PDF
The Future of Data Science and Machine Learning at Scale: A Look at MLflow, D...
Databricks
 
PPTX
Oracle real time replica solution (Oracle GoldenGate) in Telco and FSI vertic...
Milomir Vojvodic
 
PDF
Training Week: Introduction to Neo4j
Neo4j
 
PDF
Learn to Use Databricks for the Full ML Lifecycle
Databricks
 
PDF
DataPower Security Hardening
Shiu-Fun Poon
 
PPTX
An Intrudction to OpenStack 2017
Haim Ateya
 
PPTX
Cloud Privacy & Security compliance
Bryan Starbuck
 
PPTX
Well architected ML platforms for Enterprise Data Science
Leela Krishna Kandrakota
 
PDF
Discover AI with Microsoft Azure
Jürgen Ambrosi
 
PDF
Oracle Cloud
MarketingArrowECS_CZ
 
PPTX
Azure Data Lake Intro (SQLBits 2016)
Michael Rys
 
PDF
[2016 데이터 그랜드 컨퍼런스] 5 2(보안,품질). 투비웨이 데이터정제와품질검증을위한mdm 시스템의기능과역할
K data
 
PDF
Side by Side with Elasticsearch & Solr, Part 2
Sematext Group, Inc.
 
PPTX
Building a modern data warehouse
James Serra
 
PPTX
Azure Storage
Mustafa
 
PDF
Data engineering design patterns
Valdas Maksimavičius
 
graylog.pptx
emnabenamor3
 
Microsoft Data Platform - What's included
James Serra
 
Streaming Real-time Data to Azure Data Lake Storage Gen 2
Carole Gunst
 
2 Modern Security - Microsoft Information Protection
Andrew Bettany
 
The Future of Data Science and Machine Learning at Scale: A Look at MLflow, D...
Databricks
 
Oracle real time replica solution (Oracle GoldenGate) in Telco and FSI vertic...
Milomir Vojvodic
 
Training Week: Introduction to Neo4j
Neo4j
 
Learn to Use Databricks for the Full ML Lifecycle
Databricks
 
DataPower Security Hardening
Shiu-Fun Poon
 
An Intrudction to OpenStack 2017
Haim Ateya
 
Cloud Privacy & Security compliance
Bryan Starbuck
 
Well architected ML platforms for Enterprise Data Science
Leela Krishna Kandrakota
 
Discover AI with Microsoft Azure
Jürgen Ambrosi
 
Oracle Cloud
MarketingArrowECS_CZ
 
Azure Data Lake Intro (SQLBits 2016)
Michael Rys
 
[2016 데이터 그랜드 컨퍼런스] 5 2(보안,품질). 투비웨이 데이터정제와품질검증을위한mdm 시스템의기능과역할
K data
 
Side by Side with Elasticsearch & Solr, Part 2
Sematext Group, Inc.
 
Building a modern data warehouse
James Serra
 
Azure Storage
Mustafa
 
Data engineering design patterns
Valdas Maksimavičius
 
Anzeige

Ähnlich wie Data Lake Architektur: Von den Anforderungen zur Technologie (20)

PDF
Logical Data Warehouse - SQL mit Oracle DB und Hadoop
OPITZ CONSULTING Deutschland
 
PDF
Einfuehrung in Apache Spark
Jens Albrecht
 
PPTX
Warum sap hana sql data warehousing
ISR Information Products AG
 
PDF
Big Data Konnektivität
Trivadis
 
PDF
SAP BW/4HANA - Ein Überblick
ISR Information Products AG
 
PDF
Oracle Database 12c Release 2
oraclebudb
 
PDF
Überblick zu Oracle Database 12c Release 2
Ulrike Schwinn
 
PDF
BATbern53 ELCA Analyticsdatenhaltung in der Cloud
BATbern
 
PDF
Dataservices - Data Processing mit Microservices
QAware GmbH
 
PDF
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?
KurtStockinger
 
PDF
SAP BW im Umbruch
ISR Information Products AG
 
PPTX
Analytic powerhouse parallel data warehouse und r
Marcel Franke
 
PDF
Text Mining mit Python und PowerBI
Jens Albrecht
 
PDF
Endeca Web Acquisition Toolkit - Integration verteilter Web-Anwendungen und a...
Harald Erb
 
PPTX
Webinar - Sehr empfehlenswert: wie man aus Daten durch maschinelles Lernen We...
Cloudera, Inc.
 
PDF
Echtzeitanwendungen aus der Cloud - Partnervortrag vom AWS Summit
AWS Germany
 
PDF
Rbu amanox big_data_intro_infrastruktur
Rene Burgener
 
PDF
Analytics meets Big Data – R/Python auf der Hadoop/Spark-Plattform
Rising Media Ltd.
 
PDF
Geänderte Anforderungen an eine Data-Warehouse-Landschaft
ISR Information Products AG
 
PDF
Oracle Technology Monthly Oktober 2017
oraclebudb
 
Logical Data Warehouse - SQL mit Oracle DB und Hadoop
OPITZ CONSULTING Deutschland
 
Einfuehrung in Apache Spark
Jens Albrecht
 
Warum sap hana sql data warehousing
ISR Information Products AG
 
Big Data Konnektivität
Trivadis
 
SAP BW/4HANA - Ein Überblick
ISR Information Products AG
 
Oracle Database 12c Release 2
oraclebudb
 
Überblick zu Oracle Database 12c Release 2
Ulrike Schwinn
 
BATbern53 ELCA Analyticsdatenhaltung in der Cloud
BATbern
 
Dataservices - Data Processing mit Microservices
QAware GmbH
 
Analyse von Applikationslogs und Querylogs: Datenbanken, Hadoop oder Splunk?
KurtStockinger
 
SAP BW im Umbruch
ISR Information Products AG
 
Analytic powerhouse parallel data warehouse und r
Marcel Franke
 
Text Mining mit Python und PowerBI
Jens Albrecht
 
Endeca Web Acquisition Toolkit - Integration verteilter Web-Anwendungen und a...
Harald Erb
 
Webinar - Sehr empfehlenswert: wie man aus Daten durch maschinelles Lernen We...
Cloudera, Inc.
 
Echtzeitanwendungen aus der Cloud - Partnervortrag vom AWS Summit
AWS Germany
 
Rbu amanox big_data_intro_infrastruktur
Rene Burgener
 
Analytics meets Big Data – R/Python auf der Hadoop/Spark-Plattform
Rising Media Ltd.
 
Geänderte Anforderungen an eine Data-Warehouse-Landschaft
ISR Information Products AG
 
Oracle Technology Monthly Oktober 2017
oraclebudb
 
Anzeige

Data Lake Architektur: Von den Anforderungen zur Technologie

  • 1. Prof. Dr. Jens Albrecht [email protected] Data Lake Architektur Von den Anforderungen zur Technologie
  • 2. Prof. Dr. Jens Albrecht Big Data 6 www.pixabay.com
  • 3. Prof. Dr. Jens Albrecht Big Data 6 www.pixabay.com
  • 4. Prof. Dr. Jens Albrecht Big Data 6 www.pixabay.com
  • 5. Prof. Dr. Jens Albrecht Big Data 6 www.pixabay.com
  • 6. Prof. Dr. Jens Albrecht Big Data 6 www.pixabay.com
  • 7. Prof. Dr. Jens Albrecht Big Data 11 Storage Layer Ingestion Layer Serving Layer Referenzarchitektur für BI End-User Layer Data Sources Reporting OLAP OLTP Systems In-Memory RDBMS Data Marts Staging Area Enterprise DWH
  • 8. Prof. Dr. Jens Albrecht Big Data 12 Storage Layer Ingestion Layer Serving Layer Referenzarchitektur für BI und Big Data End-User Layer Data Sources Reporting OLAP Operational Analytics Data Discovery Data Lake Hadoop, NoSQL Prediction OLTP Systems In-Memory RDBMS Data Marts Staging Area Enterprise DWH Search
  • 9. Prof. Dr. Jens Albrecht Big Data 14 Enterprise Data Lake / Hub / Reservoir Internal Applications External Data Sources 0 1 0 1 0 1 0 1 0 1 0 1 0 1 Comprehensive Data Pool Business Analytics Tool Collect data as it is generated, process data when it is needed.
  • 10. Prof. Dr. Jens Albrecht Big Data 15 Wozu ein Data Lake? Daten in Originalformat gespeichert Datenstrukturen werden erst definiert, wenn Daten benötigt werden (Schema-on-Read) Alle Daten werden gespeichert Einfache Adaption von Änderungen Agile Einbindung neuer Daten Einfacher Zugriff für alle Benutzer
  • 11. Prof. Dr. Jens Albrecht Big Data 16 > Anforderungsmuster verstehen
  • 12. Prof. Dr. Jens Albrecht Big Data 18 Nifi Flink Storm Samza Apex … Real-Time/ Stream Kafka Spark Fixing the Requirements: Ingestion ForeachDataSource Data Types (Variety) Frequency (Velocity) Latency (Batch or Stream) Volume Quality (Veracity) Consistent Timeline CDC Push/Pull Hive Sqoop Spark … Batch Beam
  • 13. Prof. Dr. Jens Albrecht Big Data 19 Lambda und Kappa Architektur Streaming Data Speed Layer Kafka, Storm Batch Layer Hadoop, Spark Serving LayerLambda Streaming Data Message Buffer and Broker Kafka Stream Processor Flink, Spark Serving Layer Kappa Speed Table Batch Table
  • 14. Prof. Dr. Jens Albrecht Big Data 20 Fixing the Requirements: Storage & Process Storage 3V's Query Patterns Update Patterns SQL Support Data Linkage Schema Evolution Historical Queries (as-is vs. as-was) Security Retention Policy Accumulo HBase Cassandra Mongo Neo4j … NoSQL In-Memory SMP MPP Open Source Kudu … Relational Parquet Flat Files JSON ORC Avro … HDFS + Hive/Spark Cloud?
  • 15. Prof. Dr. Jens Albrecht Big Data 21 Apache Spark – Swiss Army Knife of Big Data ☛ Agilität und Skalierbarkeit mit und ohne Hadoop ▸ Effiziente Entwicklung durch mächtige API (identisch für Scala, Java, Python) ▸ In-Memory-Ausführung und SQL-ähnliche Anfrageoptimierung ▸ Einheitliches System für Batch- und Stream-Processing Batch Processing Machine Learning Java Python Scala R Data Streaming Graph Processing SQL Apache Spark
  • 16. Prof. Dr. Jens Albrecht Big Data 22 Fixing the Requirements: Curation & Governance Curation Quality Policies & Standards Security & Privacy Lifecycle Management Lineage Metadata Management Data Tagging Data Lake Landing Zone Raw Zone Discovery Sandbox Curated Zone Work Zone DataInventory Security Sensitive Zone Waterline Atlas Cloudera Navigator Sentry Ranger
  • 17. Prof. Dr. Jens Albrecht Big Data 24 Anwendungsfälle Data Lake Hadoop, NoSQL Enterprise DWH UseCases Advanced Analytics Self-Service Data Discovery Stream Processing ETL Migration Data Offloading Virtual Data Hub Kafka Sqoop Spark Datasource API SQL, R, ML, Streaming Hive, Drill, Impala
  • 18. Prof. Dr. Jens Albrecht Big Data 25 > Risiken verstehen
  • 19. Prof. Dr. Jens Albrecht Big Data 26 Risiken Wer billig kauft, kauft zweimal CC BY 2.0 Zorilla (https://www.flickr.com/photos/barry_b)
  • 20. Prof. Dr. Jens Albrecht Big Data 27 Risiken Falsches Werkzeug für die Aufgabe www.pixabay.com
  • 21. Prof. Dr. Jens Albrecht Big Data 28 Risiken Unterschätzung der technologischen Komplexität www.pixabay.com
  • 22. Prof. Dr. Jens Albrecht Big Data 29 Risiken Unterschätzung des Personalbedarfs und -aufwands www.pixabay.com www.pixabay.com
  • 23. Prof. Dr. Jens Albrecht Big Data 30 Risiken Mangelnde Automatisierung und Wieder- verwendbarkeit www.pixabay.com www.pixabay.com
  • 24. Prof. Dr. Jens Albrecht Big Data 31 Risiken Abhängigkeit von der IT www.pixabay.com www.pixabay.com
  • 25. Prof. Dr. Jens Albrecht Big Data 32 > Fazit
  • 26. Prof. Dr. Jens Albrecht Big Data 33 Fazit 1. Data Warehouse und Data Lake ergänzen sich und werden stärker zusammen wachsen 2. Muster für Anwendungsfälle als Voraussetzung für sorgfältige Technologie-Auswahl 3. Komplexität kontrollieren 4. Gesundes Maß für Data Governance und Security finden 5. Ohne Mitarbeiter mit der richten Expertise geht gar nichts
  • 27. Prof. Dr. Jens Albrecht Big Data 34 > Vielen Dank [email protected]