Arquitectura de Data Fabric: Clave en proyectos de Big Data y Machine Learning

Arquitectura Data Fabric: clave en proyectos
de Big Data y Machine Learning
Anastasio Molano
SVP Technology and Solutions - Denodo
Justo Hidalgo
Digital Product Management Expert

Agenda
• Arquitecturas lógicas de provisión de datos: hacia un
lago de datos virtual/lógico
• Arquitectura de referencia Lago de Datos
• El flujo de trabajo del científico de datos
• Ventajas de un lago de datos virtual/lógico

Arquitecturas Lógicas de Provisión
de Datos: hacia un lago de datos
virtual/lógico

4
“Logical Data Warehouse”: hacia arquitecturas lógicas
Adopt the Logical Data Warehouse Architecture to Meet Your
Modern Analytical Needs”. Henry Cook, Gartner April 2018

6
The “Data Fabric”
Gartner Data and Analytics Summit, May 2021

Lagos de Datos Lógicos:
Arquitectura de Referencia

12
Arquitectura de Referencia de un Data Lake Virtual
Connect, Introspect, Design, Combine & enhance, Logic to Physical, Intelligent store, Refresh, Expose, Governed & Secured

Cómo la virtualización de datos
acelera el flujo de trabajo de los
científicos de datos

15
Flujo de Trabajo típico de un Científico de Datos
• Típico flujo de trabajo de un científico
de datos
• Entender las necesidades de negocio y los requisitos para el análisis
• Identificar datos útiles para el análisis
• Almacenar datos en el lago
• Limpiar y preparar datos en un formato útil
• Analizar los datos (volumentría, calidad, etc.)
• Preparar los datos de entrada al algoritmo de data science
• Ejecutar algoritmos de data science (ML, etc.)
• Iterar el proceso hasta conseguir “insights”
de valor para el negocio:
• tuning del algoritmo (feature engineering, cross validation,
grid search)
• Visualizar y compartir resultados
• Operacionalización como servicio

16
Flujo de Trabajo típico de un Científico de Datos
80% del tiempo – Identificar, precargar y
preparar los datos
10% del tiempo – Análisis, tuning algoritmo
10% del tiempo – Visualización

17
Fases del ciclo de ciencia de datos

18
Descubrimiento de datos en el Lago e identificación de fuentes
DATA
VIRTUALIZATION
Virtual Schemas
(JDBC, ODBC,
API, JSON, XML)
1- Los científicos de datos utilizan el Data
Catalog para identificar los datsets válidos
para el análisis que pueden estar en el lago
o en otras fuentes
- Descripciones de los datasets
- Búsqueda en formato libre (free text-
search)
- Linaje completo de los datos

19
Análisis y Exploración de los datos
2 – Análisis de los datos,
revisión de volumetría, valores
nulos, etc.
DATA
VIRTUALIZATION
Virtual Schemas
(JDBC, ODBC,
API, JSON, XML)

20
Análisis y Exploración de los datos
Consultas sobre la capa de
virtualización mediante el intérprete
de Denodo

21
Preparación de datos para ML: transformación, combinación, codificación
3 – Transformación/preparación de Datos,
Limpieza, Combinación, construcción del
modelo virtual final, adaptación de los datos a
los algoritmos de data science
- Adaptación de formatos (fechas, horas, etc.)
- Limpieza de datos (expresiones regulares,
lookups, etc.)
- Codificación “One-Hot”
- Funciones seno/coseno para limitar varianza
de campos numéricos
- Etc.

22
Conexión a Denodo desde Python

23
Training y tuning del algoritmo de ML
4 – Tuning del algoritmo de ML:
- Feature Engineering,
- Cross Validation
- Grid Search
etc. Iteraciones sobre el modelo
para su optimización

24
Operacionalización de los modelos para consulta en línea
5 – Creación de vistas finales para
operacionalización del modelo
- Generación de Web Services fáciles de utilizar
por el usuario

25
Operacionalización de los modelos modo batch
5b – Materializar el modelo
construido si se require
mediante Remote Tables
DATA
VIRTUALIZATION
Virtual Schemas
(JDBC, ODBC,
API, JSON, XML)
“Remote Table”

26
Publicación de resultados a los usuarios de negocio
6 – Data Catalog
6 – Publicación de resultados
herramientas BI
DATA
VIRTUALIZATION
Virtual Schemas
(JDBC, ODBC,
API, JSON, XML)

27
Capa de gobierno y control de acceso
6 – Data Catalog
6 – Publicación de resultados
herramientas BI
DATA
VIRTUALIZATION
Virtual Schemas
(JDBC, ODBC,
API, JSON, XML)
Auditoría
Acceso por roles
Seguridad
Compliance
Trazabilidad
7 – Gobierno de los datos

28
Mejores Prácticas: Modelo Colaborativo IT - Científicos de Datos
2) Los Data Scientists /
Citizen analysts utilizan
el Data Catalog para el
descubrimiento y la
exploración de datos
Hadoop
platforms
E
T
L
Enterprise
Data Warehouse
NoSQL
Data Virtualization
4) Los Data Scientist / Citizen Analysts
pueden proponer la operacionalización de
los modelos o de los resultados del
análisis
5) Los Data Engineers revisan
y generan nuevas vistas si es
necesario, optimizan el
rendimiento, teniendo en
cuenta la seguridad y el
gobierno de los datos
1) Los Data Engineers
exponen vistas de datos
curadas a los Citizen
Analysts y Data Scientists
3) Los Data Scientists / Citizen
analysts preparan los datos y
generan sus modelos
predictivos y de ML (utilizando
lenguajes como Python, etc.)
Cloud
Data Warehouse
HDInsight

¡Gracias!
www.denodo.com info@denodo.com
© Copyright Denodo Technologies. All rights reserved
Unless otherwise specified, no part of this PDF file may be reproduced or utilized in any for or by any means, electronic or mechanical, including photocopying and microfilm,
without prior the written authorization from Denodo Technologies.

Arquitectura de Data Fabric: Clave en proyectos de Big Data y Machine Learning

Más contenido relacionado

La actualidad más candente

Similar a Arquitectura de Data Fabric: Clave en proyectos de Big Data y Machine Learning

Más de Denodo

Último

En este documento

Arquitectura de Data Fabric: Clave en proyectos de Big Data y Machine Learning