Arquitectura Data Fabric: clave en proyectos
de Big Data y Machine Learning
Anastasio Molano
SVP Technology and Solutions - Denodo
Justo Hidalgo
Digital Product Management Expert
Agenda
• Arquitecturas lógicas de provisión de datos: hacia un
lago de datos virtual/lógico
• Arquitectura de referencia Lago de Datos
• El flujo de trabajo del científico de datos
• Ventajas de un lago de datos virtual/lógico
Arquitecturas Lógicas de Provisión
de Datos: hacia un lago de datos
virtual/lógico
4
“Logical Data Warehouse”: hacia arquitecturas lógicas
Adopt the Logical Data Warehouse Architecture to Meet Your
Modern Analytical Needs”. Henry Cook, Gartner April 2018
5
“Data Fabric”
6
The “Data Fabric”
Gartner Data and Analytics Summit, May 2021
Lagos de Datos Lógicos:
Arquitectura de Referencia
12
Arquitectura de Referencia de un Data Lake Virtual
Connect, Introspect, Design, Combine & enhance, Logic to Physical, Intelligent store, Refresh, Expose, Governed & Secured
Cómo la virtualización de datos
acelera el flujo de trabajo de los
científicos de datos
15
Flujo de Trabajo típico de un Científico de Datos
• Típico flujo de trabajo de un científico
de datos
• Entender las necesidades de negocio y los requisitos para el análisis
• Identificar datos útiles para el análisis
• Almacenar datos en el lago
• Limpiar y preparar datos en un formato útil
• Analizar los datos (volumentría, calidad, etc.)
• Preparar los datos de entrada al algoritmo de data science
• Ejecutar algoritmos de data science (ML, etc.)
• Iterar el proceso hasta conseguir “insights”
de valor para el negocio:
• tuning del algoritmo (feature engineering, cross validation,
grid search)
• Visualizar y compartir resultados
• Operacionalización como servicio
16
Flujo de Trabajo típico de un Científico de Datos
80% del tiempo – Identificar, precargar y
preparar los datos
10% del tiempo – Análisis, tuning algoritmo
10% del tiempo – Visualización
17
Fases del ciclo de ciencia de datos
18
Descubrimiento de datos en el Lago e identificación de fuentes
DATA
VIRTUALIZATION
Virtual Schemas
(JDBC, ODBC,
API, JSON, XML)
1- Los científicos de datos utilizan el Data
Catalog para identificar los datsets válidos
para el análisis que pueden estar en el lago
o en otras fuentes
- Descripciones de los datasets
- Búsqueda en formato libre (free text-
search)
- Linaje completo de los datos
19
Análisis y Exploración de los datos
2 – Análisis de los datos,
revisión de volumetría, valores
nulos, etc.
DATA
VIRTUALIZATION
Virtual Schemas
(JDBC, ODBC,
API, JSON, XML)
20
Análisis y Exploración de los datos
Consultas sobre la capa de
virtualización mediante el intérprete
de Denodo
21
Preparación de datos para ML: transformación, combinación, codificación
3 – Transformación/preparación de Datos,
Limpieza, Combinación, construcción del
modelo virtual final, adaptación de los datos a
los algoritmos de data science
- Adaptación de formatos (fechas, horas, etc.)
- Limpieza de datos (expresiones regulares,
lookups, etc.)
- Codificación “One-Hot”
- Funciones seno/coseno para limitar varianza
de campos numéricos
- Etc.
22
Conexión a Denodo desde Python
23
Training y tuning del algoritmo de ML
4 – Tuning del algoritmo de ML:
- Feature Engineering,
- Cross Validation
- Grid Search
etc. Iteraciones sobre el modelo
para su optimización
24
Operacionalización de los modelos para consulta en línea
5 – Creación de vistas finales para
operacionalización del modelo
- Generación de Web Services fáciles de utilizar
por el usuario
25
Operacionalización de los modelos modo batch
5b – Materializar el modelo
construido si se require
mediante Remote Tables
DATA
VIRTUALIZATION
Virtual Schemas
(JDBC, ODBC,
API, JSON, XML)
“Remote Table”
26
Publicación de resultados a los usuarios de negocio
6 – Data Catalog
6 – Publicación de resultados
herramientas BI
DATA
VIRTUALIZATION
Virtual Schemas
(JDBC, ODBC,
API, JSON, XML)
27
Capa de gobierno y control de acceso
6 – Data Catalog
6 – Publicación de resultados
herramientas BI
DATA
VIRTUALIZATION
Virtual Schemas
(JDBC, ODBC,
API, JSON, XML)
Auditoría
Acceso por roles
Seguridad
Compliance
Trazabilidad
7 – Gobierno de los datos
28
Mejores Prácticas: Modelo Colaborativo IT - Científicos de Datos
2) Los Data Scientists /
Citizen analysts utilizan
el Data Catalog para el
descubrimiento y la
exploración de datos
Hadoop
platforms
E
T
L
Enterprise
Data Warehouse
NoSQL
Data Virtualization
4) Los Data Scientist / Citizen Analysts
pueden proponer la operacionalización de
los modelos o de los resultados del
análisis
5) Los Data Engineers revisan
y generan nuevas vistas si es
necesario, optimizan el
rendimiento, teniendo en
cuenta la seguridad y el
gobierno de los datos
1) Los Data Engineers
exponen vistas de datos
curadas a los Citizen
Analysts y Data Scientists
3) Los Data Scientists / Citizen
analysts preparan los datos y
generan sus modelos
predictivos y de ML (utilizando
lenguajes como Python, etc.)
Cloud
Data Warehouse
HDInsight
Q&A
¡Gracias!
www.denodo.com info@denodo.com
© Copyright Denodo Technologies. All rights reserved
Unless otherwise specified, no part of this PDF file may be reproduced or utilized in any for or by any means, electronic or mechanical, including photocopying and microfilm,
without prior the written authorization from Denodo Technologies.

Arquitectura de Data Fabric: Clave en proyectos de Big Data y Machine Learning

  • 1.
    Arquitectura Data Fabric:clave en proyectos de Big Data y Machine Learning Anastasio Molano SVP Technology and Solutions - Denodo Justo Hidalgo Digital Product Management Expert
  • 2.
    Agenda • Arquitecturas lógicasde provisión de datos: hacia un lago de datos virtual/lógico • Arquitectura de referencia Lago de Datos • El flujo de trabajo del científico de datos • Ventajas de un lago de datos virtual/lógico
  • 3.
    Arquitecturas Lógicas deProvisión de Datos: hacia un lago de datos virtual/lógico
  • 4.
    4 “Logical Data Warehouse”:hacia arquitecturas lógicas Adopt the Logical Data Warehouse Architecture to Meet Your Modern Analytical Needs”. Henry Cook, Gartner April 2018
  • 5.
  • 6.
    6 The “Data Fabric” GartnerData and Analytics Summit, May 2021
  • 7.
    Lagos de DatosLógicos: Arquitectura de Referencia
  • 8.
    12 Arquitectura de Referenciade un Data Lake Virtual Connect, Introspect, Design, Combine & enhance, Logic to Physical, Intelligent store, Refresh, Expose, Governed & Secured
  • 9.
    Cómo la virtualizaciónde datos acelera el flujo de trabajo de los científicos de datos
  • 10.
    15 Flujo de Trabajotípico de un Científico de Datos • Típico flujo de trabajo de un científico de datos • Entender las necesidades de negocio y los requisitos para el análisis • Identificar datos útiles para el análisis • Almacenar datos en el lago • Limpiar y preparar datos en un formato útil • Analizar los datos (volumentría, calidad, etc.) • Preparar los datos de entrada al algoritmo de data science • Ejecutar algoritmos de data science (ML, etc.) • Iterar el proceso hasta conseguir “insights” de valor para el negocio: • tuning del algoritmo (feature engineering, cross validation, grid search) • Visualizar y compartir resultados • Operacionalización como servicio
  • 11.
    16 Flujo de Trabajotípico de un Científico de Datos 80% del tiempo – Identificar, precargar y preparar los datos 10% del tiempo – Análisis, tuning algoritmo 10% del tiempo – Visualización
  • 12.
    17 Fases del ciclode ciencia de datos
  • 13.
    18 Descubrimiento de datosen el Lago e identificación de fuentes DATA VIRTUALIZATION Virtual Schemas (JDBC, ODBC, API, JSON, XML) 1- Los científicos de datos utilizan el Data Catalog para identificar los datsets válidos para el análisis que pueden estar en el lago o en otras fuentes - Descripciones de los datasets - Búsqueda en formato libre (free text- search) - Linaje completo de los datos
  • 14.
    19 Análisis y Exploraciónde los datos 2 – Análisis de los datos, revisión de volumetría, valores nulos, etc. DATA VIRTUALIZATION Virtual Schemas (JDBC, ODBC, API, JSON, XML)
  • 15.
    20 Análisis y Exploraciónde los datos Consultas sobre la capa de virtualización mediante el intérprete de Denodo
  • 16.
    21 Preparación de datospara ML: transformación, combinación, codificación 3 – Transformación/preparación de Datos, Limpieza, Combinación, construcción del modelo virtual final, adaptación de los datos a los algoritmos de data science - Adaptación de formatos (fechas, horas, etc.) - Limpieza de datos (expresiones regulares, lookups, etc.) - Codificación “One-Hot” - Funciones seno/coseno para limitar varianza de campos numéricos - Etc.
  • 17.
  • 18.
    23 Training y tuningdel algoritmo de ML 4 – Tuning del algoritmo de ML: - Feature Engineering, - Cross Validation - Grid Search etc. Iteraciones sobre el modelo para su optimización
  • 19.
    24 Operacionalización de losmodelos para consulta en línea 5 – Creación de vistas finales para operacionalización del modelo - Generación de Web Services fáciles de utilizar por el usuario
  • 20.
    25 Operacionalización de losmodelos modo batch 5b – Materializar el modelo construido si se require mediante Remote Tables DATA VIRTUALIZATION Virtual Schemas (JDBC, ODBC, API, JSON, XML) “Remote Table”
  • 21.
    26 Publicación de resultadosa los usuarios de negocio 6 – Data Catalog 6 – Publicación de resultados herramientas BI DATA VIRTUALIZATION Virtual Schemas (JDBC, ODBC, API, JSON, XML)
  • 22.
    27 Capa de gobiernoy control de acceso 6 – Data Catalog 6 – Publicación de resultados herramientas BI DATA VIRTUALIZATION Virtual Schemas (JDBC, ODBC, API, JSON, XML) Auditoría Acceso por roles Seguridad Compliance Trazabilidad 7 – Gobierno de los datos
  • 23.
    28 Mejores Prácticas: ModeloColaborativo IT - Científicos de Datos 2) Los Data Scientists / Citizen analysts utilizan el Data Catalog para el descubrimiento y la exploración de datos Hadoop platforms E T L Enterprise Data Warehouse NoSQL Data Virtualization 4) Los Data Scientist / Citizen Analysts pueden proponer la operacionalización de los modelos o de los resultados del análisis 5) Los Data Engineers revisan y generan nuevas vistas si es necesario, optimizan el rendimiento, teniendo en cuenta la seguridad y el gobierno de los datos 1) Los Data Engineers exponen vistas de datos curadas a los Citizen Analysts y Data Scientists 3) Los Data Scientists / Citizen analysts preparan los datos y generan sus modelos predictivos y de ML (utilizando lenguajes como Python, etc.) Cloud Data Warehouse HDInsight
  • 24.
  • 25.
    ¡Gracias! www.denodo.com [email protected] © CopyrightDenodo Technologies. All rights reserved Unless otherwise specified, no part of this PDF file may be reproduced or utilized in any for or by any means, electronic or mechanical, including photocopying and microfilm, without prior the written authorization from Denodo Technologies.