SlideShare una empresa de Scribd logo
Data Lake y Virtualización
Ejes para Una Arquitectura Abierta en BIG DATA
@JULITOJUL101
Transformación Digital de BBVA: Caso de Estudio
en Harvard
http://www.elmundo.es/economia/2015/11/23/5652e567e2704ee57c8b45b4.html
• La TECNOLOGIA va a impulsar una enorme mejora de
la productividad y la eficiencia en la BANCA
• Los BANCOS deben convertirse en organizaciones
impulsadas por los DATOS y ofrecer una banca basada
en el conocimiento
• BBVA es experta en Analítica de DATOS
ELMUNDO.ES
Francisco Gonzalez
Presidente BBVA
Álvarez-Pallete: Los Datos son el Petroleo del
Siglo XXI
http://www.iese.edu/es/conoce-iese/prensa-noticias/noticias/2015/julio/alvarez-pallete-datos-son-petroleo-siglo-xxi/
• TODOS los sectores de actividad, se verán afectados por la
disrupción tecnológica
• El gran potencial de las empresas radicará precisamente
en la cantidad de DATOS que sean capaces de GENERAR
• Simplificación y Digitalización van de la mano
• En 2019, las PERSONAS, al menos, dispondrán de cuatro
dispositivos.
IESE Business School
Jose Maria Alvarez Pallete
Presidente Telefonica
@jmalvpa
© Copyright 2017 Dell Inc.4
2 0 2 0 : U N N U E V O M U N D O D I G I T A L
PERSONAS
CONECTADAS
2.3B
7B
2015 2020
DISPOSITIVOS
CONECTADOS
4.9B
30B
2015 2020
DATOS EN EL
PLANETA
8ZB
44ZB
2015 2020
3X 6X 5X
Michael DELL lo tiene claro “Better together”
Servers
Proveedor de
Servidores en Norte
America,
Sudamerica y China
Support
No lo decimos
nosotros, lo
dicen nuestros
clientes
Data center
Proveedor de virtualización
en el Data Center
(IaaS)
Storage
Mayor cuota de Mercado
Mundial
(STaaS)
Cloud
Proveedor de infrestructura
CLOUD
1.000.000 Servidores
instalados
Innovation
Mas inversion en I+D que
ningún otro partner
tecnológico. $4B al año.
Echemos un OJO atras en el tiempo…
BIG DATA
CLARO EJEMPLO DE
TRANSFORMACION
ACEPTADO
MASIFICADO
ASENTADO
DELL EMC y JOHN
Data lake y virtualización. Ejes para una arquitectura abierta en big data v6
Para finalizar … como ayuda la tecnologia a
convertirnos en ciudadanos digitales…
haciendo que las compañias se tranformen…
y que prediciiones tenemos
Para finalizar … como ayuda la tecnologia a
convertirnos en ciudadanos digitales…
haciendo que las compañias se tranformen…
y que prediciiones tenemos
Ecosistema Big Data (PUFFFFFFF)
CINCO FASES
INGESTA
ALMACENAJE
ANALIZAR
MOSTRAR
ACTUAR
DATA LAKE
… ¿Y que hacemos?… SIMPLIFICAR
Multiples Tecnologias Convergen en el 90% en Hadoop (HDFS)
Multiples Data Analytics
Diferentes Departamentos, On Premise
me lo llevo a la nube
¿Tiene algo que decir el
DATO?
Que soy UNICO y Persisto. Que soy de
la EMPRESA, no de alguien concreto
… ¿Y que hacemos?… SIMPLIFICAR
VIRTUALIZACIÓN
Hay algo que cambia a
gran velocidad
Las herramientas de Trabajo. SIN DUDA
Herramientas, Tecnologias,
usuarios y tareas
Data scientist, Modelos e hipótesis y necesita
proceso
Business analyst, queries del negocio sobre
modelos/algoritmos definidos
Si esto CRECE y CRECE
y CRECE????????
¿Como actualizo, parcheo, balanceo
recursos, los optimizo?
IaaSSaaSIaaS/PaaS
HDFS EN ISILON
HADOOP EN SCALEIO
APLICACIONES DE ANALITICA
PLATAFORMA DE DATOS
EJECUCIÓN HIVE/GEMFIREPOSTGRESQL IN MEMORY DD.BBCASSANDRA/HBase
PROCESO COUCHBASESPRING XD
RECOPILACIÓN
APLICACIONES
Red WebSensor ProveedorRedes sociales Mercado
E S T R U C T U R A D O SN O E S T R U C T U R A D O S
ERP PLMCRM
Arquitectura GENERAL BIG DATA
DATA LAKE SDS
VIRTUALIZACION
IMPALAKAFKA
DATA LAKE
El Concepto de DATA LAKE en una SLIDE
• Una infraestructura para TODOS los DATOS
• Arquitectura SCALE-OUT para absorber decadas de datos.
• Que soporte Multiples Aplicaciones y Cargas de Trabajo
• Capaz de adaptarse al rendimiento sin impacto
• Que tenga Futuro, evolucion (Cloud Enable, IoT)
Datos
Tradicionales
Nuevas
Fuentes
Datos
Dispositivos
Geolocalización
Web Data
IoT
Docs, emails, Home
Directories
Server Logs
Dato Estructurado y Dato NO Estructurado
Tres definiciones de Hadoop
Hadoop
Es un framework de Data Analytics de Apache que premite
procesado en paralelo de un conjunto grande de data sets
MapReduce
Es el proceso de Hadoop que divide la carga de trabajo
entre multiples nodos que puedan procesarlo
HDFS
File system distribuido para los datos. Proporciona
disponibilidad y localidad del dato (x3 mirror)
INGESTA
Capturar datos del mayor
número de Fuente posibles
nuevas y existentes
ALMACENAR
Almacenar todo en un
repositorio común para un
análisis cross-data
ANALIZAR
Usar algoritmos
avanzados para descubrir
patrones predictivos
MOSTRAR
Compartir los insights
con expertos
del negocio
ACTUAR
Construir aplicaciones
data-driven para
determinar necesidades
del negocio
Arquitectura Abierta para BIG DATA
DATA LAKE VIRTUALIZACION
HDFS WORKER MAP/REDUCE
Ethernet
Arquitectura Cerrada o Arquitectura Abierta
NameNode
Data Node + Compute Node
Data Node + Compute Node
Data Node + Compute Node
Data Node + Compute Node
Data Node + Compute Node
Data Node + Compute Node
Escalabilidad
Disponibilidad
Rendimiento
Heterogeneidad
¿En Computo, en Capacidad (Triple Mirror), Name Node?
Impacto Name Node, No desagregar Map/Reduce de HDFS
Movimiento Datos (+Tiempo), Data/Compute Fight, Localidad Dato
Clave, Silos de DATOS por Distribución.
Necesito contaros como funciona un Cluster
Hadoop (HDFS)
HDFS
filefilefilefile
MAP
Reduce
MAP
Reduce
MAP
Reduce
MAP
Reduce
MAP
Reduce
MAP
Reduce
MAP
Reduce
MAP
Reduce
MAP
Reduce
MAP
Reduce
MAP
Reduce
MAP
Reduce
MAP
Reduce
MAP
Reduce
MAP
Reduce
MAP
Reduce
MAP
Reduce
MAP
Reduce
Compute
Data
3X
NFS
Name node
Decision Support
Databases
SOCIAL
NETWORK
OLAP
EDW
HTTP
CIFS
FTP
NFS
Landing Zone Servers
Paso 1:
Los Datos se Copian en
Landing Zone
Paso 2:
Los Datos se Copian al
Cluster (3 times)
Paso 3:
Hadoop Jobs se
ejecutan
S3
Como definimos al DATA LAKE…
Home Directories & File SharesSurveillance
Next-Gen Application
Hadoop & Analytics
Transaction
Logs
BLOBSEDW
Content
Shares
Marketing M&E
Social & Next-Gen
Archive &
Backup Target
Data Monetization
Design, Test
& Manufacture
Application Test
22
Un Repositorio COMUN para TODO…
Home Directories & File SharesSurveillance
Next-Gen Application
Hadoop & Analytics
Transaction
Logs
BLOBSEDW
Content
Shares
Marketing M&E
Social & Next-Gen
Archive &
Backup Target
Data Monetization
Design, Test
& Manufacture
Application Test
Accesible desde CUALQUIER Protocolo…
DATA LAKE
Home Directories & File SharesSurveillance
Next-Gen Application
Hadoop & Analytics
Transaction
Logs
BLOBSEDW
Content
Shares
Marketing M&E
Social & Next-Gen
Archive &
Backup Target
Data Monetization
Design, Test
& Manufacture
Application Test
24
DATA LAKE
SCALE-OUT SINGLE
REPOSITORY
MULTI-PROTOCOL /
WORKLOAD TIERS
ENTERPRISE
FEATURES
MANAGE
PBs
ENTERPRISE
Un único File System en un único BOTE Común
Singlevolume
Single volume and file system
 Directorios y ficheros son stripeados a través de todos
los nodos del cluster
Automatizacón
 NO se precisa configuracion (IP Balanced)
 NO se precisa mas que un punto de montaje
 NO se precisaran nuevas migraciones de datos
Reparto de los recursos entre los NODOS
• Autobalanceo mueve contenido a nuevos nodos
añadido online automaticamente
• Eliminamos puntos de saturacion, clave en
Analítica
• Almacenamiento Data Lake usable superior al
80%
Empty
Empty
Empty
Empty
Empty
Full
Full
Full
Full
Balanced
Balanced
Balanced
Balanced
Balanced
Balanceo de la Carga
Automatizado entre todos los nodos reduciendo costs,
complejidad y riesgos
No todos los datos tienen la misma criticidad
28
NITRO (FLASH)
High Performance
S-Series
Highly Versatile
X-Series
Nearline
NL-Series
Gestión Inteligente
de los Datos
<30 días S210
> 1 año HD400
>30 días NL410
<30 días
Un año
Arquitectura Abierta = SIMPLE
Clientes y Aplicaciones
RESTful API
GET PUT POST DELETE
Conectividad
Ethernet
10GbE
OneFS (DATA LAKE)Multi-Protocol Client/Application Layer
Conectividad
Ethernet
Protocolos
SMBNFS
FTPHTTP
HDFS
for
Hadoop
REST
for Object
Y todo lo contado Para que???
MEJORAR LOS TIEMPOS
DE EJECUCIÓN
17m32s 30m18s 20m50s
MEJORAR
EL RENDIMIENTO
16m00s
75%
Reducción de
Tiempos de
EJECUCIÓN
45%
Reducción en
COMPUTO
Workers con vHadoop, mejoran la Capa
Proceso
Arquitectura Cerrada (DAS)
 55MB/s Node Throughput
 Compute: 30m 18s
 Time To Results: 68m 40s
Arquitectura Abierta
 85MB/s Node Throughput
 Compute: 16m 00s
 Time To Results: 16m 00s
name node
datanode
Isilon
name node
name node
name node
MAP
Reduce
MAP
Reduce
MAP
Reduce
VIRTUALIZACION
DATA LAKE
VIRTUALIZACIÓN
Discutamos sobre la nomenclatura
Virtualización
IaaS
Cloud Privada
Cloud Publica
Cloud Hibrida
SDDC
SDS
SDNPaaS/SaaS
SDC
StorageNetworkingCompute
CAPA DE SERVICIOS
Definición de Virtualización
HYPERVISOR
Virtual
Machines
Virtual
Machines
Virtual
Machines
HW x86 HW x86 HW x86 HW x86
SDN: Software Define Network
L2/L3 stack
Dell EMC Open Networking
SDN Base
Controller-less Fabric
Servicios Avanzados
L2/L3, Automatización
Health, Evolución
Others
RESTful,
JSON API
AnsibleC APIVMware OpenStack Python Integración
L2/L3 stack L2/L3 stack
SDS: Software Define Storage
Servers
Network
StorageConverged Architecture
200,000 IOPS
20K IOPS20K IOPS20K IOPS20K IOPS20K IOPS20K IOPS 20K IOPS20K IOPS20K IOPS20K IOPS
Flash | SSD | HDD | RAID Cache | RAM
Bare Metal | KVM | VMware | Hyper-V
Diferentes Nombres para un mismo proposito
Computo Virtualizado (IaaS, Cloud
Privada)
Eficiencia y simplicidad
Contener y reducir costes
Coordinar y mejorar la entrega de Servicios
Abstraer
Automatizar
HCI
Que es Vmware en una SLIDE
App
Services
Insfraest
Services
VMware vSphere
• VMware HA
• SRM
Continuidad
de Negocio
• vCPU
• Memoria
Computo
• vSAN
• VMDK
Almacenamiento
• NSX
Network
• vMOTION
• DRS
Disponibilidad
• Miles VM
• Heterogeneo
Escalabilidad
Hacia donde va VMware
vRealize Cloud Management
vRealize
vCloud director
vCloud air
Que es OPENSTACK en una SLIDE
Horizon
dashboard
Swift
object store
Glance
image store
Nova
compute node
Cinder
volume service
Keystone
identity service
Heat
Orchestration
Celiometer telemetry service
Trove
database
Neutron
networking
S3 EC2 EBS vPC RDSAMI
IAMCloud
Formation
Diferentes Nombres para un mismo proposito
Siguiente Evolución - IoT
EDGE to CORE to CLOUD
Velocidad y Agilidad
Reducir los tiempos entre la codificación y el paso a
producción (DevOps)
Computo Virtualizado (IaaS, Cloud
Privada)
Eficiencia y simplicidad
Contener y reducir costes
Coordinar y mejorar la entrega de Servicios
Abstraer
Automatizar
HCI
DATA LAKE
+
VIRTUALIZACION
Scale-out Isilon para un Scale-out en COMPUTO
Compute
Nodes
• Capa Proceso BIG DATA e Isilon son SCALE-
OUT
• HDFS en Isilon se ejecuta como parallel file
system
• Cada Nodo de Computo (Map/Reduce) usara
TODOs los Nodos de Isilon
• Escalabilidad Lineal en Capacidad y en
Throughput
• Computo y Datos creceran BAJO DEMANDA,
Online y 24x7
• 10GbE con SDN permitira “eliminar” la
localidad del dato.
Isilon
Nodes
SDN
Ethernet
DATA LAKE + VIRTUALIZACION
 Scale compute independiente del
almacenamiento
 Alcanzar el rendimiento óptimo
balanceado incluso si la carga
evoluciona
 Sin migración de datos, nunca
mas!
 Añadimos nuevo rendimiento con
nuevos nodos
Nodos Computo WORKER
Almacenamiento
Rendimiento y
Capacidad
REQUERIDO
Nodos WORKER
Requeridos
Cual es el resultado de
DATA LAKE + VIRTUALIZACION
SMB, NFS,
HTTP, FTP,
HDFS
Soportamos y Soportaremos cualquier
Distribución BIG DATA
NFS
SMB
SMB
NFS
MAP Reduce
MAP Reduce
MAP Reduce
MAP Reduce
MAP Reduce
MAP Reduce
MAP Reduce
MAP Reduce
MAP Reduce
MAP Reduce
MAP Reduce
MAP Reduce
MAP Reduce
MAP Reduce
MAP Reduce
MAP Reduce
MAP Reduce
MAP Reduce
VIRTUALIZACION
DATA LAKE
SDN
MAP
Reduce
MAP
Reduce
MAP
Reduce
name
node
datanode
Isilon
name
node
name
node
name
node
Compartamos Conclusiones
VIRTUALIZACION
DATA LAKE
SDN
MAP
Reduce
MAP
Reduce
MAP
Reduce
name
node
datanode
Isilon
name
node
name
node
name
node
Escalabilidad garantizada Arquitectura Flexible sin límites
Adaptación total al negocio Consolidacion de Analítica
 SCALE-OUT en Datos y Computo
 Mayor Disponibilidad y Rendimiento
Lineal
 Optimización de Recursos (TCO)
 Balanceo de Carga en Proceso y
Datos
 Crecimiento no disruptivo
 Sin migraciones de datos
 Repositorio Común de los Datos
 Heterogeneidad de Soluciones Big
Data
 Prepararados para nuevas “olas”
(IoT)
 Prestaciones predecibles
 Actualizaciones plug & play
 Adaptación de configuraciones y
prestaciones
VIRTUALIZACION
DATA LAKE
DATACENTER
En los Proximos 15 Años
Todo centrado en el Negocio
Aplicaciones Cloud-Native
Analítica Prescriptiva
Infraestructura Agil
Internet of Everything
5
Data lake y virtualización. Ejes para una arquitectura abierta en big data v6

Más contenido relacionado

PPTX
1, 2, 3 y 4 factores clave en la transformacion digital del data center
Dell EMC
 
PDF
¿Cómo afianzar la transformación digital con APIs de datos en tiempo real?
Denodo
 
PPTX
Big Data en el entorno Bancario
Martín Cabrera
 
PDF
Arquitectura de Data Fabric: Clave en proyectos de Big Data y Machine Learning
Denodo
 
PDF
¿Cuál es el futuro de la estrategia de datos?
Denodo
 
PDF
2016 ULL Cabildo KEEDIO - Arquitecturas Big Data
KEEDIO
 
PPTX
Data Mesh
Carlos Fuentes
 
PPTX
A10 Analytics Evento Michal Kosinski Jul 2017
Analytics10
 
1, 2, 3 y 4 factores clave en la transformacion digital del data center
Dell EMC
 
¿Cómo afianzar la transformación digital con APIs de datos en tiempo real?
Denodo
 
Big Data en el entorno Bancario
Martín Cabrera
 
Arquitectura de Data Fabric: Clave en proyectos de Big Data y Machine Learning
Denodo
 
¿Cuál es el futuro de la estrategia de datos?
Denodo
 
2016 ULL Cabildo KEEDIO - Arquitecturas Big Data
KEEDIO
 
Data Mesh
Carlos Fuentes
 
A10 Analytics Evento Michal Kosinski Jul 2017
Analytics10
 

La actualidad más candente (20)

PDF
Big Data, Big Customer Value, Big Results
Mundo Contact
 
PPTX
Bigdata, Business Intelligence? = PowerBi
Emilio Gives
 
PPTX
9 problemas en proyectos Data Analytics
Stratebi
 
PPTX
Obtención de Datos en #BigData
Francisco Javier Pulido Piñero
 
PDF
2016 ULL Cabildo KEEDIO - Proyecto y Roles Big Data
KEEDIO
 
PDF
2016 ULL Cabildo KEEDIO - KEEDIO DATA STACK
KEEDIO
 
PPTX
Anatomía de un proyecto de Big Data
Abel Alejandro Coronado Iruegas
 
PDF
Aplicaciones de BI con Pentaho
Datalytics
 
PDF
¿Qué debemos hacer desde Tecnología para estar alineados con la Transformac...
Martín Cabrera
 
PDF
Cómo simplificar las arquitecturas híbridas y multi-cloud con la virtualizaci...
Denodo
 
PDF
Cisco CIO Summit 2016 Everis - Martin_Cabrera - v3
Martín Cabrera
 
PDF
IBM Systems Hoja de espe cificaciones IBM Power System S822LC for Big Data ...
Diana Sofia Moreno Rodriguez
 
PDF
Webinar: Self-service Analytics con Virtualización de Datos
Denodo
 
PDF
Querona
Synergo!
 
PDF
Creando la Plataforma para la Transformación Digital @ Red Hat Forum Latin Am...
Martín Cabrera
 
PDF
Analítica nueva generacion y BD aplicado a los sistemas informacionales
BEEVA_es
 
PPTX
A10 Qlik Sense Desayuno Oct 2016
Analytics10
 
PPTX
Big Data: conceptos generales e impacto en los negocios
Celestino Güemes Seoane
 
PDF
Lecciones aprendidas en la gestión de datos en tiempos de pandemia
Denodo
 
PDF
Data as a Service
Software Guru
 
Big Data, Big Customer Value, Big Results
Mundo Contact
 
Bigdata, Business Intelligence? = PowerBi
Emilio Gives
 
9 problemas en proyectos Data Analytics
Stratebi
 
Obtención de Datos en #BigData
Francisco Javier Pulido Piñero
 
2016 ULL Cabildo KEEDIO - Proyecto y Roles Big Data
KEEDIO
 
2016 ULL Cabildo KEEDIO - KEEDIO DATA STACK
KEEDIO
 
Anatomía de un proyecto de Big Data
Abel Alejandro Coronado Iruegas
 
Aplicaciones de BI con Pentaho
Datalytics
 
¿Qué debemos hacer desde Tecnología para estar alineados con la Transformac...
Martín Cabrera
 
Cómo simplificar las arquitecturas híbridas y multi-cloud con la virtualizaci...
Denodo
 
Cisco CIO Summit 2016 Everis - Martin_Cabrera - v3
Martín Cabrera
 
IBM Systems Hoja de espe cificaciones IBM Power System S822LC for Big Data ...
Diana Sofia Moreno Rodriguez
 
Webinar: Self-service Analytics con Virtualización de Datos
Denodo
 
Querona
Synergo!
 
Creando la Plataforma para la Transformación Digital @ Red Hat Forum Latin Am...
Martín Cabrera
 
Analítica nueva generacion y BD aplicado a los sistemas informacionales
BEEVA_es
 
A10 Qlik Sense Desayuno Oct 2016
Analytics10
 
Big Data: conceptos generales e impacto en los negocios
Celestino Güemes Seoane
 
Lecciones aprendidas en la gestión de datos en tiempos de pandemia
Denodo
 
Data as a Service
Software Guru
 
Publicidad

Similar a Data lake y virtualización. Ejes para una arquitectura abierta en big data v6 (20)

PDF
Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...
Denodo
 
PDF
01 Introduccion a Big Data y Hadoop.pdf
AntonioSotoRodriguez1
 
PDF
Big Data y Business Intelligence con Software Open Source
Carlos Augusto Carreño Villarreyes
 
PPTX
Big Data & Seguridad - Un matrimonio de futuro
Antonio González Castro
 
PPTX
Que debe saber un DBA de SQL Server sobre Hadoop
Eduardo Castro
 
PDF
Introducción a hadoop
Carlos Meseguer Gimenez
 
PDF
Adaptive Big Data Pipelines
Carlos Fuentes
 
PPTX
Big Data con Sql Server 2014 y la nube
Eduardo Castro
 
PDF
AWS Analytics Experience Argentina
Amazon Web Services LATAM
 
PPTX
Presentación Big Data, presentacion big data .pptx
antonellavr87
 
PDF
HD Insight Integracion con SQL Server Power-Pivot Excel
Eduardo Castro
 
PDF
Introducción a BigData - up - 2015
Gabriel Eisbruch
 
PPT
69 claves para conocer Big Data
Stratebi
 
PDF
Big data para desarrolladores utilizando hadoop y openstack
Guillermo Alvarado Mejía
 
PDF
Big Data para desarrolladores utilizando Hadoop y OpenStack
Software Guru
 
PPTX
Big Data - Desarrollando soluciones efectivas
Joseph Lopez
 
PPTX
AWS Innovate 2020 - Aprenda cómo el Data Flywheel puede ayudarle en su estrat...
Amazon Web Services LATAM
 
PDF
An evening with... Apache hadoop Meetup
Arkhotech
 
PDF
Big Data: Presente o Futuro
Steelmood
 
Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...
Denodo
 
01 Introduccion a Big Data y Hadoop.pdf
AntonioSotoRodriguez1
 
Big Data y Business Intelligence con Software Open Source
Carlos Augusto Carreño Villarreyes
 
Big Data & Seguridad - Un matrimonio de futuro
Antonio González Castro
 
Que debe saber un DBA de SQL Server sobre Hadoop
Eduardo Castro
 
Introducción a hadoop
Carlos Meseguer Gimenez
 
Adaptive Big Data Pipelines
Carlos Fuentes
 
Big Data con Sql Server 2014 y la nube
Eduardo Castro
 
AWS Analytics Experience Argentina
Amazon Web Services LATAM
 
Presentación Big Data, presentacion big data .pptx
antonellavr87
 
HD Insight Integracion con SQL Server Power-Pivot Excel
Eduardo Castro
 
Introducción a BigData - up - 2015
Gabriel Eisbruch
 
69 claves para conocer Big Data
Stratebi
 
Big data para desarrolladores utilizando hadoop y openstack
Guillermo Alvarado Mejía
 
Big Data para desarrolladores utilizando Hadoop y OpenStack
Software Guru
 
Big Data - Desarrollando soluciones efectivas
Joseph Lopez
 
AWS Innovate 2020 - Aprenda cómo el Data Flywheel puede ayudarle en su estrat...
Amazon Web Services LATAM
 
An evening with... Apache hadoop Meetup
Arkhotech
 
Big Data: Presente o Futuro
Steelmood
 
Publicidad

Último (20)

DOCX
tecnologia actividad segundo periodo.docx
samuelcuaran
 
PDF
0621 LOS MATERIALES Y SUS USOS .2º CICLO_compressed.pdf
AndreaAlegre18
 
PDF
Conceptos básicos de programación trabajo grupal
darcyrobayo2007
 
PDF
Tecnología 2.0 (1).pdf, diagrama de pareto
paulavallejo21
 
PDF
Distribución de Frecuencias Excel Eleazar Muñoz
Eleazar88
 
PDF
clase 9 PIN DE CARGA.pdf curso de reparacion de celulares
pedrazasmercadosebas
 
PDF
Trabajo Tecnología #2 Periodo (2).pdfjdjfjf
ssuser57b6e41
 
PDF
2do grado medios de transportes.pdf para el primario
AndreaAlegre18
 
DOCX
#USOLASTICPARA Proyecto integrador M1S4PI JuarezGonzalez _Maria_M1S4PI.doc...
MariaSusanaJuarezGon
 
DOCX
Informe de Tecnologia Diagrama de Pareto Juan Martinez, Alexandra Delgado, L...
edepisabellanaranjo
 
PDF
Conceptos Básicos de programación- Paula Obando
edeppaulaobando
 
PPTX
INTRODUCCION A BASE DE DATOS NIVELBASICO 6
Cangrilg
 
PDF
DIAGRAMA DE PARETO M Camila Duque Loaiza
MariacamilaDuqueloai
 
PDF
Liceo departamental MICRO BIT (1).pdfslksjshshwuwjwjjdjdjshshs
edepanaobando
 
PDF
DIAGRAMA DE PARETO M. Camila Duque Loaiz
MariacamilaDuqueloai
 
PPTX
Normas de la sala de informática Segundo
SilviaFernandaCesped
 
PDF
Trabajo Tecnología #2 Periodo (1).pdf ajdj
colgess2
 
PPTX
Telecomunicaciones proyeccion de ventas 2025.pptx
miguelolivarren2
 
PDF
Distribución de frecuencias y Diagrama de Pareto en Exce (2).pdf
samuelcuaran
 
PDF
Distribución de frecuencias y diagrama de pareto en Excel
Eleazar88
 
tecnologia actividad segundo periodo.docx
samuelcuaran
 
0621 LOS MATERIALES Y SUS USOS .2º CICLO_compressed.pdf
AndreaAlegre18
 
Conceptos básicos de programación trabajo grupal
darcyrobayo2007
 
Tecnología 2.0 (1).pdf, diagrama de pareto
paulavallejo21
 
Distribución de Frecuencias Excel Eleazar Muñoz
Eleazar88
 
clase 9 PIN DE CARGA.pdf curso de reparacion de celulares
pedrazasmercadosebas
 
Trabajo Tecnología #2 Periodo (2).pdfjdjfjf
ssuser57b6e41
 
2do grado medios de transportes.pdf para el primario
AndreaAlegre18
 
#USOLASTICPARA Proyecto integrador M1S4PI JuarezGonzalez _Maria_M1S4PI.doc...
MariaSusanaJuarezGon
 
Informe de Tecnologia Diagrama de Pareto Juan Martinez, Alexandra Delgado, L...
edepisabellanaranjo
 
Conceptos Básicos de programación- Paula Obando
edeppaulaobando
 
INTRODUCCION A BASE DE DATOS NIVELBASICO 6
Cangrilg
 
DIAGRAMA DE PARETO M Camila Duque Loaiza
MariacamilaDuqueloai
 
Liceo departamental MICRO BIT (1).pdfslksjshshwuwjwjjdjdjshshs
edepanaobando
 
DIAGRAMA DE PARETO M. Camila Duque Loaiz
MariacamilaDuqueloai
 
Normas de la sala de informática Segundo
SilviaFernandaCesped
 
Trabajo Tecnología #2 Periodo (1).pdf ajdj
colgess2
 
Telecomunicaciones proyeccion de ventas 2025.pptx
miguelolivarren2
 
Distribución de frecuencias y Diagrama de Pareto en Exce (2).pdf
samuelcuaran
 
Distribución de frecuencias y diagrama de pareto en Excel
Eleazar88
 

Data lake y virtualización. Ejes para una arquitectura abierta en big data v6

  • 1. Data Lake y Virtualización Ejes para Una Arquitectura Abierta en BIG DATA @JULITOJUL101
  • 2. Transformación Digital de BBVA: Caso de Estudio en Harvard http://www.elmundo.es/economia/2015/11/23/5652e567e2704ee57c8b45b4.html • La TECNOLOGIA va a impulsar una enorme mejora de la productividad y la eficiencia en la BANCA • Los BANCOS deben convertirse en organizaciones impulsadas por los DATOS y ofrecer una banca basada en el conocimiento • BBVA es experta en Analítica de DATOS ELMUNDO.ES Francisco Gonzalez Presidente BBVA
  • 3. Álvarez-Pallete: Los Datos son el Petroleo del Siglo XXI http://www.iese.edu/es/conoce-iese/prensa-noticias/noticias/2015/julio/alvarez-pallete-datos-son-petroleo-siglo-xxi/ • TODOS los sectores de actividad, se verán afectados por la disrupción tecnológica • El gran potencial de las empresas radicará precisamente en la cantidad de DATOS que sean capaces de GENERAR • Simplificación y Digitalización van de la mano • En 2019, las PERSONAS, al menos, dispondrán de cuatro dispositivos. IESE Business School Jose Maria Alvarez Pallete Presidente Telefonica @jmalvpa
  • 4. © Copyright 2017 Dell Inc.4 2 0 2 0 : U N N U E V O M U N D O D I G I T A L PERSONAS CONECTADAS 2.3B 7B 2015 2020 DISPOSITIVOS CONECTADOS 4.9B 30B 2015 2020 DATOS EN EL PLANETA 8ZB 44ZB 2015 2020 3X 6X 5X
  • 5. Michael DELL lo tiene claro “Better together” Servers Proveedor de Servidores en Norte America, Sudamerica y China Support No lo decimos nosotros, lo dicen nuestros clientes Data center Proveedor de virtualización en el Data Center (IaaS) Storage Mayor cuota de Mercado Mundial (STaaS) Cloud Proveedor de infrestructura CLOUD 1.000.000 Servidores instalados Innovation Mas inversion en I+D que ningún otro partner tecnológico. $4B al año.
  • 6. Echemos un OJO atras en el tiempo… BIG DATA CLARO EJEMPLO DE TRANSFORMACION ACEPTADO MASIFICADO ASENTADO
  • 7. DELL EMC y JOHN
  • 9. Para finalizar … como ayuda la tecnologia a convertirnos en ciudadanos digitales… haciendo que las compañias se tranformen… y que prediciiones tenemos
  • 10. Para finalizar … como ayuda la tecnologia a convertirnos en ciudadanos digitales… haciendo que las compañias se tranformen… y que prediciiones tenemos
  • 11. Ecosistema Big Data (PUFFFFFFF) CINCO FASES INGESTA ALMACENAJE ANALIZAR MOSTRAR ACTUAR
  • 12. DATA LAKE … ¿Y que hacemos?… SIMPLIFICAR Multiples Tecnologias Convergen en el 90% en Hadoop (HDFS) Multiples Data Analytics Diferentes Departamentos, On Premise me lo llevo a la nube ¿Tiene algo que decir el DATO? Que soy UNICO y Persisto. Que soy de la EMPRESA, no de alguien concreto
  • 13. … ¿Y que hacemos?… SIMPLIFICAR VIRTUALIZACIÓN Hay algo que cambia a gran velocidad Las herramientas de Trabajo. SIN DUDA Herramientas, Tecnologias, usuarios y tareas Data scientist, Modelos e hipótesis y necesita proceso Business analyst, queries del negocio sobre modelos/algoritmos definidos Si esto CRECE y CRECE y CRECE???????? ¿Como actualizo, parcheo, balanceo recursos, los optimizo?
  • 14. IaaSSaaSIaaS/PaaS HDFS EN ISILON HADOOP EN SCALEIO APLICACIONES DE ANALITICA PLATAFORMA DE DATOS EJECUCIÓN HIVE/GEMFIREPOSTGRESQL IN MEMORY DD.BBCASSANDRA/HBase PROCESO COUCHBASESPRING XD RECOPILACIÓN APLICACIONES Red WebSensor ProveedorRedes sociales Mercado E S T R U C T U R A D O SN O E S T R U C T U R A D O S ERP PLMCRM Arquitectura GENERAL BIG DATA DATA LAKE SDS VIRTUALIZACION IMPALAKAFKA
  • 16. El Concepto de DATA LAKE en una SLIDE • Una infraestructura para TODOS los DATOS • Arquitectura SCALE-OUT para absorber decadas de datos. • Que soporte Multiples Aplicaciones y Cargas de Trabajo • Capaz de adaptarse al rendimiento sin impacto • Que tenga Futuro, evolucion (Cloud Enable, IoT)
  • 17. Datos Tradicionales Nuevas Fuentes Datos Dispositivos Geolocalización Web Data IoT Docs, emails, Home Directories Server Logs Dato Estructurado y Dato NO Estructurado
  • 18. Tres definiciones de Hadoop Hadoop Es un framework de Data Analytics de Apache que premite procesado en paralelo de un conjunto grande de data sets MapReduce Es el proceso de Hadoop que divide la carga de trabajo entre multiples nodos que puedan procesarlo HDFS File system distribuido para los datos. Proporciona disponibilidad y localidad del dato (x3 mirror)
  • 19. INGESTA Capturar datos del mayor número de Fuente posibles nuevas y existentes ALMACENAR Almacenar todo en un repositorio común para un análisis cross-data ANALIZAR Usar algoritmos avanzados para descubrir patrones predictivos MOSTRAR Compartir los insights con expertos del negocio ACTUAR Construir aplicaciones data-driven para determinar necesidades del negocio Arquitectura Abierta para BIG DATA DATA LAKE VIRTUALIZACION HDFS WORKER MAP/REDUCE
  • 20. Ethernet Arquitectura Cerrada o Arquitectura Abierta NameNode Data Node + Compute Node Data Node + Compute Node Data Node + Compute Node Data Node + Compute Node Data Node + Compute Node Data Node + Compute Node Escalabilidad Disponibilidad Rendimiento Heterogeneidad ¿En Computo, en Capacidad (Triple Mirror), Name Node? Impacto Name Node, No desagregar Map/Reduce de HDFS Movimiento Datos (+Tiempo), Data/Compute Fight, Localidad Dato Clave, Silos de DATOS por Distribución.
  • 21. Necesito contaros como funciona un Cluster Hadoop (HDFS) HDFS filefilefilefile MAP Reduce MAP Reduce MAP Reduce MAP Reduce MAP Reduce MAP Reduce MAP Reduce MAP Reduce MAP Reduce MAP Reduce MAP Reduce MAP Reduce MAP Reduce MAP Reduce MAP Reduce MAP Reduce MAP Reduce MAP Reduce Compute Data 3X NFS Name node Decision Support Databases SOCIAL NETWORK OLAP EDW HTTP CIFS FTP NFS Landing Zone Servers Paso 1: Los Datos se Copian en Landing Zone Paso 2: Los Datos se Copian al Cluster (3 times) Paso 3: Hadoop Jobs se ejecutan S3
  • 22. Como definimos al DATA LAKE… Home Directories & File SharesSurveillance Next-Gen Application Hadoop & Analytics Transaction Logs BLOBSEDW Content Shares Marketing M&E Social & Next-Gen Archive & Backup Target Data Monetization Design, Test & Manufacture Application Test 22
  • 23. Un Repositorio COMUN para TODO… Home Directories & File SharesSurveillance Next-Gen Application Hadoop & Analytics Transaction Logs BLOBSEDW Content Shares Marketing M&E Social & Next-Gen Archive & Backup Target Data Monetization Design, Test & Manufacture Application Test
  • 24. Accesible desde CUALQUIER Protocolo… DATA LAKE Home Directories & File SharesSurveillance Next-Gen Application Hadoop & Analytics Transaction Logs BLOBSEDW Content Shares Marketing M&E Social & Next-Gen Archive & Backup Target Data Monetization Design, Test & Manufacture Application Test 24
  • 25. DATA LAKE SCALE-OUT SINGLE REPOSITORY MULTI-PROTOCOL / WORKLOAD TIERS ENTERPRISE FEATURES MANAGE PBs ENTERPRISE
  • 26. Un único File System en un único BOTE Común Singlevolume Single volume and file system  Directorios y ficheros son stripeados a través de todos los nodos del cluster Automatizacón  NO se precisa configuracion (IP Balanced)  NO se precisa mas que un punto de montaje  NO se precisaran nuevas migraciones de datos
  • 27. Reparto de los recursos entre los NODOS • Autobalanceo mueve contenido a nuevos nodos añadido online automaticamente • Eliminamos puntos de saturacion, clave en Analítica • Almacenamiento Data Lake usable superior al 80% Empty Empty Empty Empty Empty Full Full Full Full Balanced Balanced Balanced Balanced Balanced Balanceo de la Carga Automatizado entre todos los nodos reduciendo costs, complejidad y riesgos
  • 28. No todos los datos tienen la misma criticidad 28 NITRO (FLASH) High Performance S-Series Highly Versatile X-Series Nearline NL-Series Gestión Inteligente de los Datos <30 días S210 > 1 año HD400 >30 días NL410 <30 días Un año
  • 29. Arquitectura Abierta = SIMPLE Clientes y Aplicaciones RESTful API GET PUT POST DELETE Conectividad Ethernet 10GbE OneFS (DATA LAKE)Multi-Protocol Client/Application Layer Conectividad Ethernet Protocolos SMBNFS FTPHTTP HDFS for Hadoop REST for Object
  • 30. Y todo lo contado Para que??? MEJORAR LOS TIEMPOS DE EJECUCIÓN 17m32s 30m18s 20m50s MEJORAR EL RENDIMIENTO 16m00s 75% Reducción de Tiempos de EJECUCIÓN 45% Reducción en COMPUTO
  • 31. Workers con vHadoop, mejoran la Capa Proceso Arquitectura Cerrada (DAS)  55MB/s Node Throughput  Compute: 30m 18s  Time To Results: 68m 40s Arquitectura Abierta  85MB/s Node Throughput  Compute: 16m 00s  Time To Results: 16m 00s name node datanode Isilon name node name node name node MAP Reduce MAP Reduce MAP Reduce VIRTUALIZACION DATA LAKE
  • 33. Discutamos sobre la nomenclatura Virtualización IaaS Cloud Privada Cloud Publica Cloud Hibrida SDDC SDS SDNPaaS/SaaS SDC
  • 34. StorageNetworkingCompute CAPA DE SERVICIOS Definición de Virtualización HYPERVISOR Virtual Machines Virtual Machines Virtual Machines HW x86 HW x86 HW x86 HW x86
  • 35. SDN: Software Define Network L2/L3 stack Dell EMC Open Networking SDN Base Controller-less Fabric Servicios Avanzados L2/L3, Automatización Health, Evolución Others RESTful, JSON API AnsibleC APIVMware OpenStack Python Integración L2/L3 stack L2/L3 stack
  • 36. SDS: Software Define Storage Servers Network StorageConverged Architecture 200,000 IOPS 20K IOPS20K IOPS20K IOPS20K IOPS20K IOPS20K IOPS 20K IOPS20K IOPS20K IOPS20K IOPS Flash | SSD | HDD | RAID Cache | RAM Bare Metal | KVM | VMware | Hyper-V
  • 37. Diferentes Nombres para un mismo proposito Computo Virtualizado (IaaS, Cloud Privada) Eficiencia y simplicidad Contener y reducir costes Coordinar y mejorar la entrega de Servicios Abstraer Automatizar HCI
  • 38. Que es Vmware en una SLIDE App Services Insfraest Services VMware vSphere • VMware HA • SRM Continuidad de Negocio • vCPU • Memoria Computo • vSAN • VMDK Almacenamiento • NSX Network • vMOTION • DRS Disponibilidad • Miles VM • Heterogeneo Escalabilidad
  • 39. Hacia donde va VMware vRealize Cloud Management vRealize vCloud director vCloud air
  • 40. Que es OPENSTACK en una SLIDE Horizon dashboard Swift object store Glance image store Nova compute node Cinder volume service Keystone identity service Heat Orchestration Celiometer telemetry service Trove database Neutron networking S3 EC2 EBS vPC RDSAMI IAMCloud Formation
  • 41. Diferentes Nombres para un mismo proposito Siguiente Evolución - IoT EDGE to CORE to CLOUD Velocidad y Agilidad Reducir los tiempos entre la codificación y el paso a producción (DevOps) Computo Virtualizado (IaaS, Cloud Privada) Eficiencia y simplicidad Contener y reducir costes Coordinar y mejorar la entrega de Servicios Abstraer Automatizar HCI
  • 43. Scale-out Isilon para un Scale-out en COMPUTO Compute Nodes • Capa Proceso BIG DATA e Isilon son SCALE- OUT • HDFS en Isilon se ejecuta como parallel file system • Cada Nodo de Computo (Map/Reduce) usara TODOs los Nodos de Isilon • Escalabilidad Lineal en Capacidad y en Throughput • Computo y Datos creceran BAJO DEMANDA, Online y 24x7 • 10GbE con SDN permitira “eliminar” la localidad del dato. Isilon Nodes SDN Ethernet
  • 44. DATA LAKE + VIRTUALIZACION  Scale compute independiente del almacenamiento  Alcanzar el rendimiento óptimo balanceado incluso si la carga evoluciona  Sin migración de datos, nunca mas!  Añadimos nuevo rendimiento con nuevos nodos Nodos Computo WORKER Almacenamiento Rendimiento y Capacidad REQUERIDO Nodos WORKER Requeridos Cual es el resultado de DATA LAKE + VIRTUALIZACION
  • 45. SMB, NFS, HTTP, FTP, HDFS Soportamos y Soportaremos cualquier Distribución BIG DATA NFS SMB SMB NFS MAP Reduce MAP Reduce MAP Reduce MAP Reduce MAP Reduce MAP Reduce MAP Reduce MAP Reduce MAP Reduce MAP Reduce MAP Reduce MAP Reduce MAP Reduce MAP Reduce MAP Reduce MAP Reduce MAP Reduce MAP Reduce VIRTUALIZACION DATA LAKE SDN MAP Reduce MAP Reduce MAP Reduce name node datanode Isilon name node name node name node
  • 46. Compartamos Conclusiones VIRTUALIZACION DATA LAKE SDN MAP Reduce MAP Reduce MAP Reduce name node datanode Isilon name node name node name node Escalabilidad garantizada Arquitectura Flexible sin límites Adaptación total al negocio Consolidacion de Analítica  SCALE-OUT en Datos y Computo  Mayor Disponibilidad y Rendimiento Lineal  Optimización de Recursos (TCO)  Balanceo de Carga en Proceso y Datos  Crecimiento no disruptivo  Sin migraciones de datos  Repositorio Común de los Datos  Heterogeneidad de Soluciones Big Data  Prepararados para nuevas “olas” (IoT)  Prestaciones predecibles  Actualizaciones plug & play  Adaptación de configuraciones y prestaciones
  • 47. VIRTUALIZACION DATA LAKE DATACENTER En los Proximos 15 Años Todo centrado en el Negocio Aplicaciones Cloud-Native Analítica Prescriptiva Infraestructura Agil Internet of Everything 5