1
Speakers
Anastasio Molano
SVP, Technology and
Solutions
Mario Bianchi
Gerente Unidad de
Desarrollo
Hernán Peroceschi
Gerente
Comercial
Quiénes somos
✓ + de 35 profesionales
✓ +de 12 años en el mercado corporativo IT
✓ Cobertura Regional en Latinoamérica
✓ Clientes de más de 10 años
✓ Crecimiento sostenido interanual
✓ Innovación y Conocimiento (ADN)
Dirección de Servicios de
Infraestructura
Dirección de Middleware e
Integraciones
Dirección de Desarrollo, IOT e
Innovación Digital
✓ Implementación de proyectos de Integración de
aplicaciones
✓ Consultoría s/ arquitecturas complejas – On premise
y Cloud
✓ Assessment de infraestructura y Middleware
✓ Tuning de performance y seguridad
✓ Consolidación de servidores
✓ Soporte y mantenimiento de plataformas
✓ Desarrollo de Apps Mobile y Web
✓ Desarrollo de integraciones (3 capas)
✓ Desarrollo e implementación de proyectos IOT
➢ Estamos transitando la era de la innovación (Supervivencia del más
Rápido)
➢ La Transformación digital dejo de ser un tema a futuro para las
empresas para transformarse en algo OBLIGATORIO.
➢ Cualquier estrategia de Transformación digital debe estar basada en
una Estrategia de los Datos
➢ Los datos son el Combustible de la transformación
➢ Los datos hablan de alguna manera de cual es el comportamiento
digital de una persona o una empresa.
➢ El desafío del manejo de los datos es convertirlos en valor para la
empresa; transformar esa información no estructurada, que no
tiene un parámetro y que está disgregada en diferentes sistemas y
formatos.
➢ La necesidad incentiva la innovación y en Latinoamérica están dadas
las condiciones para salir a cultivarla….
¿Por qué nos acercamos a Denodo?
Agenda
• La evolución hacia arquitecturas Lógicas
• La virtualización de datos como tecnología base para un
Data Warehouse Lógico
• Beneficios de una Data Warehouse Lógico
• Unas notas sobre performance
• Implementaciones de éxito de clientes
• Preguntas y respuestas
La evolución hacia arquitectura lógicas
7
Gartner – La evolución hacia arquitecturas lógicas
This is a Second Major Cycle of Analytical Consolidation
Operational Application
Operational Application
Operational Application
IoT Data
Other NewData
Operational
Application
Operational
Application
Cube
Operational
Application
Cube
? Operational Application
Operational Application
Operational Application
IoT Data
Other NewData
1980s
Pre EDW
1990s
EDW
2010s2000s
Post EDW
Time
LDW
Operational
Application
Operational
Application
Operational
Application
Data
Warehouse
Data
Warehouse
Data
Lake
?
LDW
Data Warehouse
Data Lake
Marts
ODS
Staging/Ingest
Unified analysis
› Consolidated data
› "Collect the data"
› Single server, multiple nodes
› More analysis than any
one server can provide
©2018 Gartner, Inc.
Unified analysis
› Logically consolidated view of all data
› "Connect and collect"
› Multiple servers, of multiple nodes
› More analysis than any one system can provide
ID: 342254
Fragmented/
nonexistent analysis
› Multiple sources
› Multiple structured sources
Fragmented analysis
› "Collect the data" (Into
› different repositories)
› New data types,
› processing, requirements
› Uncoordinated views
Adopt the Logical Data Warehouse Architecture to Meet Your
Modern Analytical Needs”. Henry Cook, Gartner April 2018
8
Gartner – La evolución hacia arquitecturas lógicas
“Adopt the Logical Data Warehouse Architecture to Meet Your Modern Analytical Needs”. Henry Cook, Gartner
April 2018
DATA VIRTUALIZATION
9
Gartner Hype Cycle – Analytics & Business Intelligence, 2019
10
La “Fábrica de Datos”
11
La “Enterprise Information Fabric”
Cloud Source RDBMS
Hadoop
RDBMS
EDW
Data LakeNoSQL
NoSQL
100sTB
Petabytes
Petabytes
10s Terabytes
100s Terabytes
EDW
Zettabytes
Data Virtualization
Intelligent orchestration
Data Lake
Self-service, real-time, automated, secure
Enterprise Information Fabric: Data Virtualization delivers a
platform that focuses on real-time, agile and intelligent
orchestration ….
La Virtualización de Datos: base para
una arquitectura de LDW
13
Capa unificada de integración y de provisión de datos al negocio
4. Acceso desde cualquier
herramienta / protocolo / API
5. Metadatos, gobierno y seguridad
centralizada
6. 90% de reducción del time to
market para provisionar datos al
negocio, ahorro significativo en
costes
1. Único punto lógico de acceso a datos
– independencia de la ubicación de los
datos
2. Datos entregados en una forma
amigable para el negocio – capa
semántica
3. Datos adaptados a las necesidades de
cada línea de negocio, tipo de usuario
y aplicación
14
Capa Virtual de Provisión de Datos
Development
Lifecycle Mgmt
Monitoring & Audit
Governance
Security
Development Tools
and SDK
Scheduled Tasks
Data Caching
Query Optimizer
JDBC/ODBC/ADO.Net SOAP / REST WS
U
Customer 360
View
Virtual Data
Mart View
J
Application
Layer
Business
Layer
Unified View Unified ViewUnified ViewUnified View
A
J
J
Derived View Derived View
J
JS
Transformation
& Cleansing
Data
Source
Layer
Base
View
Base
View
Base
View
Base
View
Base
View
Base
View
Base
View
Abstraction
15
Una arquitectura moderna de virtualización de datos
DATA CATALOG
Discover - Explore - Document
{ API ACCESS }
RESTful / OData
GraphQL / GeoJSONSQL
DATA VIRTUALIZATION
CONNECTIVITY
Traditional
DB & DW
150+
data
adaptersCloud
Stores
Hadoop
& NoSQL OLAP Files Apps Streaming SaaS
Query
Optimization
SecurityAI/ML Governance
Semantic
Layer
Real Time
Acceleration
Caching
DATA OPS
Deployment
Cloud PaaS
Containers/K8
On-Prem
Monitoring
Scheduling
Version Control
DEVELOPMENT
MODELING
DELIVERY
Beneficios de un Data Warehouse
Lógico
17
Arquitecturas físicas tradicionales
18
Arquitecturas lógicas: El Data Warehouse Lógico
Sales by Customer
and Region
∞
∞
U
∑
Sales Customer
Beneficios de la arquitectura de Data Warehouse Lógico
19
Abstracción y una arquitectura que desacopla consumidores y fuentes
Simplifica el acceso a las fuentes de datos
• Acceso homogéneos independiente de la tecnología subyacente en la fuente
• No hay necesidad de utilizar nuevos lenguajes y APIs: acceso a SFDC, Excel, Redshift,
Oracle, Hadoop, Spark, SaaS APIs, etc.
Desacopla aplicaciones de negocio de las fuentes de datos
• Gestión del Cambio: Cualquier cambio puede acomodarse en esta capa minimizando el
impacto en las aplicaciones de negocio
• Arquitectura “Future-proof”: permite la adopción de nuevas tecnologías con mínimo
impacto en el negocio (e.g. migración de análisis sobre Presto hacia Spark, etc.)
Beneficios de la arquitectura de Data Warehouse Lógico
20
Capa semántica unificada sobre fuentes de datos heterogéneas
Modelo Lógico Unificado/Capa Semántica
• Definición de un modelo lógico unificado que proporciona consistencia para todas las
aplicaciones consumidoras y herramientas de análisis
• Facilidad para soportar nuevos escenarios y casos de uso al basarse en metadatos
• Promueve la reutilización de objetos analíticos para múltiples aplicaciones de negocio
Data Marts Virtuales
• Un data mart virtual puede construirse en minutos y exponer datos para reporting ad-hoc
• Las vistas de negocio pueden adaptarse a cada tipo de usuario, utilizando su propia
terminología y convenciones de negocio, adaptándonos a cada línea de negocio
• Un “time-to-market” mucho más rápido que un data mart físico
Beneficios de la arquitectura de Data Warehouse Lógico
21
Proporciona una capa de gobierno y seguridad unificada
Capa de Seguridad Unificada
• Las políticas y reglas de seguridad se pueden definir en términos del modelo de negoco
con una granularidad muy fina (a nivel de celda)
• Autorización basada en roles para todas las vistas del modelo virtual
• Auditoría de accesos y seguridad (qué usuario accedió a una vista, cuándo, etc.)
Capa de Gobierno Centralizada
• Proporciona una única Fuente de verdad (“Single source of truth”) evitando
inconsitencias en los datos y discrepancias entre informes
• La virtualización de datos ayuda a garantizar las definiciones empresariales (modelo
canónico)
• Reglas de gobierno adaptadas a cada tipo de usuario (Trust domains): data scientists, etc.
Beneficios de la arquitectura de Data Warehouse Lógico
22
Facilita el “Self-Service” BI de una forma gobernada y protege los sistemas origen
Facilita el “Self-Service” BI
• IT proporciona una capa gobernada de vistas de negocio (entidades canónicas) a los
usuarios de negocio
• Los usuarios pueden generar cualquier informe sobre las vistas proporcionadas por IT
• Los usuarios pueden solicitor la operacionalización de nuevas vistas
Protege a las fuentes de un acceso no controlado
• La capa de virtualización de datos puede proteger a los sistemas Fuente de acceso no
controlado através del gestor de recursos: limitando #consultas concurrentes sobre los
mismos, los tamaños de los datasets obtenidos como resultado, definiendo cuotas de
consulta (e.g. #consultas/hora), habilitando la cache para minimizar el acceso a una
fuente, etc.
Beneficios de la arquitectura de Data Warehouse Lógico
23
La virtualización de datos expone un catálogo de datos para usuarios de negocio
Catálogo de Datos / “Data Marketplace” para usuarios y aplicaciones de negocio
• El catálogo ofrece un marketplace con datasets certificados y curados listos para el
consumo
• Los usuarios pueden explorer el catálogo y descubrir nuevos datasets (mediante la
navegación por categorías de negocio y la búsqueda sobre los metadatos y los datos en sí)
• La capa de virtualización mide el uso real de los datasets y proporciona recomendaciones
a los usuarios
24
Logical Data Warehouse – Arquitectura de Referencia
25
Cloud Logical Data Warehouse: Multi-location Architecture
Amazon RDS,
AuroraUS East
Availability
Zone
EMEA
Availability
Zone
On-prem
data center
Unas notas sobre performance
27
“Overhead” sobre el acceso directo a las fuentes
Data Virtualization Overhead: Direct vs Denodo with single source
TPCDS Benchmark Tests using JDBC with IBM Netezza as data source with 10 Gbps LAN
network
Results in seconds
Las consultas se delegan a las
fuentes con un overhead mínimo
en la capa de virtualización de
datos
28
Ejemplo de performance en un escenario Hadoop
Obtain Total Sales By Customer
Country in the Last Two Years
Scenario:
▪ Current data (last 12 months) in EDW
(290 M rows)
▪ Historical data (3 Billion rows)
offloaded to Hadoop cluster for
cheaper storage (300 M rows from
the previous year)
▪ Customer master data in an Oracle
Database (3 M rows)
Very large data volumes:
▪ Sales tables have hundreds of
millions of rows
Current Sales
290 million rows
Historical Sales
3 billion rows
Customer
3 million rows
EDW Hadoop
Customer Master
Data
Obtain Total Sales By Customer Country in the Last Two Years
29
Estrategia de ejecución de herramientas de BI y motores de
federación sencillos
join
group by Customer Country
union
Current Sales
290 million rows
Historical Sales
3 billion rows
Customer
3 million rows
EDW Hadoop
Customer Master
Data
Sales last 12 months
290 million rows
Sales previous year
300 million rows
593M rows
through the
network
Customer
3 million rows
Obtain Total Sales By Customer Country in the Last Two Years
Simple Query Delegation
Only simple filters are delegated to the sources
so the data transfer over the network is huge
30
Estrategia Ejecución “Denodo Advanced Query Optimization”
Historical
Sales
(3 Billion
rows)
Obtain Total Sales By Customer Country in the Last Two Years
3 M rows
(sales by customer from this
year aggregated by customer)
Sales
(290 million rows)
group by
customer ID
Partial Aggregation
push down
Maximizes source processing
Reduces network traffic
Swapping to Disk
The join operation produces a larger result set
that has to be loaded in memory exceeding the
memory quota.
Denodo will swap to disk to perform
the intermediate calculation
Serial Calculation
Denodo will perform the calculation
of the aggregation in serial, one row
after another.
With a larger volume, this now becomes
the execution bottleneck
join
group by
Customer
Country
Customer
(3M rows)
group by
customer ID
3 M rows
(sales by customer from previous
year aggregated by customer)
3 M rows
(customers)
9M rows through the network union
31
Estrategia “Dynamic Query Optimization + MPP Processing”
System Execution Time
#Rows transferred
through the network
Optimization Techniques
No Rewriting >10 min 593M Simple federation
Dynamic Query
Opt.
51 sec 9M Aggregation Push-down
MPP Query Accel. 11 sec 9M
Aggregation push-down + MPP integration
(Impala 8 nodes)
3M rows returned
(sales by customer)
1. Partial Aggregation
push down
Maximizes source processing
Dramatically Reduces network
traffic
3. On-demand data transfer
Denodo automatically generates
and upload Parquet files
2. Integrated with Cost Based Optimizer
Based on data volume estimation and
the cost of these particular operations,
the CBO can decide to move all or part
Of the execution tree to the MPP
Hist. Sales
3 Billion rows
Customer
3 M rows
join
group by Customer
country
3 M rows
(sales by customer from previous year)
group by
customer ID
group by
customer ID
Sales
(290 million rows)
union
9M rows compressed
in parquet files and
transferred in parallel
3 M rows
(customers)
4. Fast parallel execution
Support for Spark, Presto, Hive and Impala
For fast analytical processing in
inexpensive Hadoop-based solutions
Implementaciones de éxito en clientes
33
Logical Data Warehouse
34
Logical Data Warehouse
35
Logical Data Warehouse
36
Logical Data Warehouse
37
Autodesk: Big Data Architecture 2016
38
Autodesk: Managing a Data Lake with Denodo
DATA
VIRTUALIZATION
Virtual Schemas
(JDBC, ODBC,
API, JSON, XML)
- Virtualize, materialize, cache,…
- No silos: dependencies between copies are governed by Denodo
- All Denodo capabilities available: combine with other sources,
expose data using SQL, REST, OData,…
- Abstract underlying repository (e.g. move part of the workload to
Athena) without affecting consumers, and maintaining governance
39
Logical Data Warehouse – Example
• Vision:
The Integrated Data Warehouse (IDW) is a scalable BI platform that can adapt to the speed of the
business by providing relevant, accessible, timely, connected, and accurate data
40
Logical Data Warehouse – Example (Cont’d)
• The primary components of IDW Architecture are:
• Data Ingestion: Batch and Real-Time data ingestion.
• Data Systems: Comprising of several databases, Teradata and Hadoop. Data ingested from
sources lands here and dispatched to consumers after required preparation steps.
• Data Abstraction: transparent access to the data persisted in Hadoop and Teradata systems
to the users. The users will have the ability to mix and merge the data in underlying data
persistence systems using Data Abstraction Layer. The Data Abstraction Layer is implemented
using Denodo Data Virtualization.
• Data Consumption: Analytical Reporting in IDW, Self-Service BI, Real-Time Dashboards,
Analytical Ad hoc Queries, Advanced Analytics and Sandboxes, Data Application Systems.
41
Logical Data Warehouse – Example (Cont’d)
Grupo Empresario Industria Financiera Latam
Caso de uso 1: Vistas de cliente 360 entre empresas del grupo
No SQL
MS SQL
Oracle
SAP 1
SAP 2
ERP 3
ERP 4
SF
Virtualización DatosFuentes de datos
SAP 1
SAP 2
ERP 3
ERP 4
SF
Aplicaciones enriquecidas
con vistas de cliente 360
Usuarios
negocio
Denodo
Connectar
Denodo
Consumir
Denodo
Combinar
REST API
Acceso
SQL
Self
Service
Grupo Empresario Industria Financiera Latam
Caso de uso 2 y 3: DW Virtual y GW integración para partners
No SQL
MS SQLOracle
SAP 1 SAP 2
ERP 3 ERP 4
SalesForce
Denodo
Connectar
Virtualización DatosFuentes de datos
Power BIDW
Denodo
Consumir
Dashboard
Tiempo
Real
Explotacion
datos
ad-hoc
Self Service
Data
Catalog
API
acceso
partners
Denodo
Combinar
Acceso
ETL/ELT
Tiempo
real
1. Las arquitecturas lógicas cada vez cobran más
sentido en un entorno analítico altamente
heterogéneo y descentralizado
2. EL LDW soluciona el acceso a los datos en este
scenario ofreciendo un punto lógico de acceso a
las aplicaciones de negocio
3. El LDW acelera el time-to-market reduciendo
costes
4. “Stop collecting, start connecting”
Conclusiones
Cómo seguimos…
Q&A
¡Gracias por vuestra participación!
Anastasio Molano
SVP, Technology and Solutions
DENODO
Mario Bianchi
Gerente Unidad de Desarrollo
VAULT IT
Hernán Peroceschi
Gerente Comercial
VAULT IT
www.denodo.com
info.la@denodo.com
(+34) 912 77 58 55
www.vault-it.com.ar/
info@vault-it.com.ar
+54 11 5368 9353

Mejorar la toma de decisiones y reducir costes con el Logical Data Warehouse (LATAM)

  • 1.
  • 2.
    Speakers Anastasio Molano SVP, Technologyand Solutions Mario Bianchi Gerente Unidad de Desarrollo Hernán Peroceschi Gerente Comercial
  • 3.
    Quiénes somos ✓ +de 35 profesionales ✓ +de 12 años en el mercado corporativo IT ✓ Cobertura Regional en Latinoamérica ✓ Clientes de más de 10 años ✓ Crecimiento sostenido interanual ✓ Innovación y Conocimiento (ADN) Dirección de Servicios de Infraestructura Dirección de Middleware e Integraciones Dirección de Desarrollo, IOT e Innovación Digital ✓ Implementación de proyectos de Integración de aplicaciones ✓ Consultoría s/ arquitecturas complejas – On premise y Cloud ✓ Assessment de infraestructura y Middleware ✓ Tuning de performance y seguridad ✓ Consolidación de servidores ✓ Soporte y mantenimiento de plataformas ✓ Desarrollo de Apps Mobile y Web ✓ Desarrollo de integraciones (3 capas) ✓ Desarrollo e implementación de proyectos IOT
  • 4.
    ➢ Estamos transitandola era de la innovación (Supervivencia del más Rápido) ➢ La Transformación digital dejo de ser un tema a futuro para las empresas para transformarse en algo OBLIGATORIO. ➢ Cualquier estrategia de Transformación digital debe estar basada en una Estrategia de los Datos ➢ Los datos son el Combustible de la transformación ➢ Los datos hablan de alguna manera de cual es el comportamiento digital de una persona o una empresa. ➢ El desafío del manejo de los datos es convertirlos en valor para la empresa; transformar esa información no estructurada, que no tiene un parámetro y que está disgregada en diferentes sistemas y formatos. ➢ La necesidad incentiva la innovación y en Latinoamérica están dadas las condiciones para salir a cultivarla…. ¿Por qué nos acercamos a Denodo?
  • 5.
    Agenda • La evoluciónhacia arquitecturas Lógicas • La virtualización de datos como tecnología base para un Data Warehouse Lógico • Beneficios de una Data Warehouse Lógico • Unas notas sobre performance • Implementaciones de éxito de clientes • Preguntas y respuestas
  • 6.
    La evolución haciaarquitectura lógicas
  • 7.
    7 Gartner – Laevolución hacia arquitecturas lógicas This is a Second Major Cycle of Analytical Consolidation Operational Application Operational Application Operational Application IoT Data Other NewData Operational Application Operational Application Cube Operational Application Cube ? Operational Application Operational Application Operational Application IoT Data Other NewData 1980s Pre EDW 1990s EDW 2010s2000s Post EDW Time LDW Operational Application Operational Application Operational Application Data Warehouse Data Warehouse Data Lake ? LDW Data Warehouse Data Lake Marts ODS Staging/Ingest Unified analysis › Consolidated data › "Collect the data" › Single server, multiple nodes › More analysis than any one server can provide ©2018 Gartner, Inc. Unified analysis › Logically consolidated view of all data › "Connect and collect" › Multiple servers, of multiple nodes › More analysis than any one system can provide ID: 342254 Fragmented/ nonexistent analysis › Multiple sources › Multiple structured sources Fragmented analysis › "Collect the data" (Into › different repositories) › New data types, › processing, requirements › Uncoordinated views Adopt the Logical Data Warehouse Architecture to Meet Your Modern Analytical Needs”. Henry Cook, Gartner April 2018
  • 8.
    8 Gartner – Laevolución hacia arquitecturas lógicas “Adopt the Logical Data Warehouse Architecture to Meet Your Modern Analytical Needs”. Henry Cook, Gartner April 2018 DATA VIRTUALIZATION
  • 9.
    9 Gartner Hype Cycle– Analytics & Business Intelligence, 2019
  • 10.
  • 11.
    11 La “Enterprise InformationFabric” Cloud Source RDBMS Hadoop RDBMS EDW Data LakeNoSQL NoSQL 100sTB Petabytes Petabytes 10s Terabytes 100s Terabytes EDW Zettabytes Data Virtualization Intelligent orchestration Data Lake Self-service, real-time, automated, secure Enterprise Information Fabric: Data Virtualization delivers a platform that focuses on real-time, agile and intelligent orchestration ….
  • 12.
    La Virtualización deDatos: base para una arquitectura de LDW
  • 13.
    13 Capa unificada deintegración y de provisión de datos al negocio 4. Acceso desde cualquier herramienta / protocolo / API 5. Metadatos, gobierno y seguridad centralizada 6. 90% de reducción del time to market para provisionar datos al negocio, ahorro significativo en costes 1. Único punto lógico de acceso a datos – independencia de la ubicación de los datos 2. Datos entregados en una forma amigable para el negocio – capa semántica 3. Datos adaptados a las necesidades de cada línea de negocio, tipo de usuario y aplicación
  • 14.
    14 Capa Virtual deProvisión de Datos Development Lifecycle Mgmt Monitoring & Audit Governance Security Development Tools and SDK Scheduled Tasks Data Caching Query Optimizer JDBC/ODBC/ADO.Net SOAP / REST WS U Customer 360 View Virtual Data Mart View J Application Layer Business Layer Unified View Unified ViewUnified ViewUnified View A J J Derived View Derived View J JS Transformation & Cleansing Data Source Layer Base View Base View Base View Base View Base View Base View Base View Abstraction
  • 15.
    15 Una arquitectura modernade virtualización de datos DATA CATALOG Discover - Explore - Document { API ACCESS } RESTful / OData GraphQL / GeoJSONSQL DATA VIRTUALIZATION CONNECTIVITY Traditional DB & DW 150+ data adaptersCloud Stores Hadoop & NoSQL OLAP Files Apps Streaming SaaS Query Optimization SecurityAI/ML Governance Semantic Layer Real Time Acceleration Caching DATA OPS Deployment Cloud PaaS Containers/K8 On-Prem Monitoring Scheduling Version Control DEVELOPMENT MODELING DELIVERY
  • 16.
    Beneficios de unData Warehouse Lógico
  • 17.
  • 18.
    18 Arquitecturas lógicas: ElData Warehouse Lógico Sales by Customer and Region ∞ ∞ U ∑ Sales Customer
  • 19.
    Beneficios de laarquitectura de Data Warehouse Lógico 19 Abstracción y una arquitectura que desacopla consumidores y fuentes Simplifica el acceso a las fuentes de datos • Acceso homogéneos independiente de la tecnología subyacente en la fuente • No hay necesidad de utilizar nuevos lenguajes y APIs: acceso a SFDC, Excel, Redshift, Oracle, Hadoop, Spark, SaaS APIs, etc. Desacopla aplicaciones de negocio de las fuentes de datos • Gestión del Cambio: Cualquier cambio puede acomodarse en esta capa minimizando el impacto en las aplicaciones de negocio • Arquitectura “Future-proof”: permite la adopción de nuevas tecnologías con mínimo impacto en el negocio (e.g. migración de análisis sobre Presto hacia Spark, etc.)
  • 20.
    Beneficios de laarquitectura de Data Warehouse Lógico 20 Capa semántica unificada sobre fuentes de datos heterogéneas Modelo Lógico Unificado/Capa Semántica • Definición de un modelo lógico unificado que proporciona consistencia para todas las aplicaciones consumidoras y herramientas de análisis • Facilidad para soportar nuevos escenarios y casos de uso al basarse en metadatos • Promueve la reutilización de objetos analíticos para múltiples aplicaciones de negocio Data Marts Virtuales • Un data mart virtual puede construirse en minutos y exponer datos para reporting ad-hoc • Las vistas de negocio pueden adaptarse a cada tipo de usuario, utilizando su propia terminología y convenciones de negocio, adaptándonos a cada línea de negocio • Un “time-to-market” mucho más rápido que un data mart físico
  • 21.
    Beneficios de laarquitectura de Data Warehouse Lógico 21 Proporciona una capa de gobierno y seguridad unificada Capa de Seguridad Unificada • Las políticas y reglas de seguridad se pueden definir en términos del modelo de negoco con una granularidad muy fina (a nivel de celda) • Autorización basada en roles para todas las vistas del modelo virtual • Auditoría de accesos y seguridad (qué usuario accedió a una vista, cuándo, etc.) Capa de Gobierno Centralizada • Proporciona una única Fuente de verdad (“Single source of truth”) evitando inconsitencias en los datos y discrepancias entre informes • La virtualización de datos ayuda a garantizar las definiciones empresariales (modelo canónico) • Reglas de gobierno adaptadas a cada tipo de usuario (Trust domains): data scientists, etc.
  • 22.
    Beneficios de laarquitectura de Data Warehouse Lógico 22 Facilita el “Self-Service” BI de una forma gobernada y protege los sistemas origen Facilita el “Self-Service” BI • IT proporciona una capa gobernada de vistas de negocio (entidades canónicas) a los usuarios de negocio • Los usuarios pueden generar cualquier informe sobre las vistas proporcionadas por IT • Los usuarios pueden solicitor la operacionalización de nuevas vistas Protege a las fuentes de un acceso no controlado • La capa de virtualización de datos puede proteger a los sistemas Fuente de acceso no controlado através del gestor de recursos: limitando #consultas concurrentes sobre los mismos, los tamaños de los datasets obtenidos como resultado, definiendo cuotas de consulta (e.g. #consultas/hora), habilitando la cache para minimizar el acceso a una fuente, etc.
  • 23.
    Beneficios de laarquitectura de Data Warehouse Lógico 23 La virtualización de datos expone un catálogo de datos para usuarios de negocio Catálogo de Datos / “Data Marketplace” para usuarios y aplicaciones de negocio • El catálogo ofrece un marketplace con datasets certificados y curados listos para el consumo • Los usuarios pueden explorer el catálogo y descubrir nuevos datasets (mediante la navegación por categorías de negocio y la búsqueda sobre los metadatos y los datos en sí) • La capa de virtualización mide el uso real de los datasets y proporciona recomendaciones a los usuarios
  • 24.
    24 Logical Data Warehouse– Arquitectura de Referencia
  • 25.
    25 Cloud Logical DataWarehouse: Multi-location Architecture Amazon RDS, AuroraUS East Availability Zone EMEA Availability Zone On-prem data center
  • 26.
    Unas notas sobreperformance
  • 27.
    27 “Overhead” sobre elacceso directo a las fuentes Data Virtualization Overhead: Direct vs Denodo with single source TPCDS Benchmark Tests using JDBC with IBM Netezza as data source with 10 Gbps LAN network Results in seconds Las consultas se delegan a las fuentes con un overhead mínimo en la capa de virtualización de datos
  • 28.
    28 Ejemplo de performanceen un escenario Hadoop Obtain Total Sales By Customer Country in the Last Two Years Scenario: ▪ Current data (last 12 months) in EDW (290 M rows) ▪ Historical data (3 Billion rows) offloaded to Hadoop cluster for cheaper storage (300 M rows from the previous year) ▪ Customer master data in an Oracle Database (3 M rows) Very large data volumes: ▪ Sales tables have hundreds of millions of rows Current Sales 290 million rows Historical Sales 3 billion rows Customer 3 million rows EDW Hadoop Customer Master Data Obtain Total Sales By Customer Country in the Last Two Years
  • 29.
    29 Estrategia de ejecuciónde herramientas de BI y motores de federación sencillos join group by Customer Country union Current Sales 290 million rows Historical Sales 3 billion rows Customer 3 million rows EDW Hadoop Customer Master Data Sales last 12 months 290 million rows Sales previous year 300 million rows 593M rows through the network Customer 3 million rows Obtain Total Sales By Customer Country in the Last Two Years Simple Query Delegation Only simple filters are delegated to the sources so the data transfer over the network is huge
  • 30.
    30 Estrategia Ejecución “DenodoAdvanced Query Optimization” Historical Sales (3 Billion rows) Obtain Total Sales By Customer Country in the Last Two Years 3 M rows (sales by customer from this year aggregated by customer) Sales (290 million rows) group by customer ID Partial Aggregation push down Maximizes source processing Reduces network traffic Swapping to Disk The join operation produces a larger result set that has to be loaded in memory exceeding the memory quota. Denodo will swap to disk to perform the intermediate calculation Serial Calculation Denodo will perform the calculation of the aggregation in serial, one row after another. With a larger volume, this now becomes the execution bottleneck join group by Customer Country Customer (3M rows) group by customer ID 3 M rows (sales by customer from previous year aggregated by customer) 3 M rows (customers) 9M rows through the network union
  • 31.
    31 Estrategia “Dynamic QueryOptimization + MPP Processing” System Execution Time #Rows transferred through the network Optimization Techniques No Rewriting >10 min 593M Simple federation Dynamic Query Opt. 51 sec 9M Aggregation Push-down MPP Query Accel. 11 sec 9M Aggregation push-down + MPP integration (Impala 8 nodes) 3M rows returned (sales by customer) 1. Partial Aggregation push down Maximizes source processing Dramatically Reduces network traffic 3. On-demand data transfer Denodo automatically generates and upload Parquet files 2. Integrated with Cost Based Optimizer Based on data volume estimation and the cost of these particular operations, the CBO can decide to move all or part Of the execution tree to the MPP Hist. Sales 3 Billion rows Customer 3 M rows join group by Customer country 3 M rows (sales by customer from previous year) group by customer ID group by customer ID Sales (290 million rows) union 9M rows compressed in parquet files and transferred in parallel 3 M rows (customers) 4. Fast parallel execution Support for Spark, Presto, Hive and Impala For fast analytical processing in inexpensive Hadoop-based solutions
  • 32.
  • 33.
  • 34.
  • 35.
  • 36.
  • 37.
    37 Autodesk: Big DataArchitecture 2016
  • 38.
    38 Autodesk: Managing aData Lake with Denodo DATA VIRTUALIZATION Virtual Schemas (JDBC, ODBC, API, JSON, XML) - Virtualize, materialize, cache,… - No silos: dependencies between copies are governed by Denodo - All Denodo capabilities available: combine with other sources, expose data using SQL, REST, OData,… - Abstract underlying repository (e.g. move part of the workload to Athena) without affecting consumers, and maintaining governance
  • 39.
    39 Logical Data Warehouse– Example • Vision: The Integrated Data Warehouse (IDW) is a scalable BI platform that can adapt to the speed of the business by providing relevant, accessible, timely, connected, and accurate data
  • 40.
    40 Logical Data Warehouse– Example (Cont’d) • The primary components of IDW Architecture are: • Data Ingestion: Batch and Real-Time data ingestion. • Data Systems: Comprising of several databases, Teradata and Hadoop. Data ingested from sources lands here and dispatched to consumers after required preparation steps. • Data Abstraction: transparent access to the data persisted in Hadoop and Teradata systems to the users. The users will have the ability to mix and merge the data in underlying data persistence systems using Data Abstraction Layer. The Data Abstraction Layer is implemented using Denodo Data Virtualization. • Data Consumption: Analytical Reporting in IDW, Self-Service BI, Real-Time Dashboards, Analytical Ad hoc Queries, Advanced Analytics and Sandboxes, Data Application Systems.
  • 41.
    41 Logical Data Warehouse– Example (Cont’d)
  • 42.
    Grupo Empresario IndustriaFinanciera Latam Caso de uso 1: Vistas de cliente 360 entre empresas del grupo No SQL MS SQL Oracle SAP 1 SAP 2 ERP 3 ERP 4 SF Virtualización DatosFuentes de datos SAP 1 SAP 2 ERP 3 ERP 4 SF Aplicaciones enriquecidas con vistas de cliente 360 Usuarios negocio Denodo Connectar Denodo Consumir Denodo Combinar REST API Acceso SQL Self Service
  • 43.
    Grupo Empresario IndustriaFinanciera Latam Caso de uso 2 y 3: DW Virtual y GW integración para partners No SQL MS SQLOracle SAP 1 SAP 2 ERP 3 ERP 4 SalesForce Denodo Connectar Virtualización DatosFuentes de datos Power BIDW Denodo Consumir Dashboard Tiempo Real Explotacion datos ad-hoc Self Service Data Catalog API acceso partners Denodo Combinar Acceso ETL/ELT Tiempo real
  • 44.
    1. Las arquitecturaslógicas cada vez cobran más sentido en un entorno analítico altamente heterogéneo y descentralizado 2. EL LDW soluciona el acceso a los datos en este scenario ofreciendo un punto lógico de acceso a las aplicaciones de negocio 3. El LDW acelera el time-to-market reduciendo costes 4. “Stop collecting, start connecting” Conclusiones
  • 45.
  • 46.
  • 47.
    ¡Gracias por vuestraparticipación! Anastasio Molano SVP, Technology and Solutions DENODO Mario Bianchi Gerente Unidad de Desarrollo VAULT IT Hernán Peroceschi Gerente Comercial VAULT IT www.denodo.com [email protected] (+34) 912 77 58 55 www.vault-it.com.ar/ [email protected] +54 11 5368 9353