SlideShare una empresa de Scribd logo
Construyendo la moderna arquitectura de
datos híbridos para Big Data con Apache
Hadoop y Microsoft Data Platform
José Redondo
Correo: jose.redondo@bitsamericas.com
Twitter: @redondoj
LinkedIn: http://co.linkedin.com/in/redondoj
Blog: http://redondoj.wordpress.com
Expositor
 CTO – DPA Bits America SAS Colombia – U.S.A.
 DPA SolidQ
 MCP | MCTS – MS SQL Server; MTA – DAF
SQL Saturday Sponsors
Billones de datos INGRESANDO en nuestros
ECOSISTEMAS de bases de datos
Construyendo la moderna arquitectura de datos
híbridos para Big Data con Apache Hadoop y
Microsoft Data Platform
AGENDA
 Introducción
 Cual es la Arquitectura Moderna de Datos
Híbridos (MDA)?
 Apache Hadoop en la MDA Híbrida
 La MDA Híbrida y Microsoft
INTRODUCCIÓN
Arquitectura de Datos ActualAPLICACIONES
Business
Analytics
Aplicaciones
Personalizadas
Aplicaciones
Empaquetadas
SISTEMADE
BASESDEDATOS
REPOSITORIOS
RDBMS EDW MPP
ORIGENESDE
DATOS
Orígenes Existentes
(CRM, ERP, Clickstream, Logs)
4,2 ZB en 2013
85% de nuevos tipos de datos
15x datos maquina para 2020
40ZB para 2020
Arquitectura Moderna de Datos HabilitadaAPLICACIONES
Business
Analytics
Aplicaciones
Personalizadas
Aplicaciones
Empaquetadas
SISTEMADE
BASESDEDATOS
REPOSITORIOS
RDBMS EDW MPP
ORIGENESDE
DATOS
Orígenes Existentes
(CRM, ERP, Clickstream, Logs)
Orígenes Emergentes
(Sensores, Semánticos, Geo, No
Estructurados)
DESPLIEGUE & PRUEBAS
HERRAMIENTAS DE DATOS Y
DESARROLLO
ADMINISTRACIÓN & MONITOREO
HERRAMIENTAS OPERACIONES
CUAL ES LA ARQUITECTURA MODERNA DE
DATOS HIBRIDOS (MDA)?
El Poder de la Arquitectura Moderna de Datos
Hadoop
Compute
& Storage
Compute
& Storage
. . .
. . . .
. . .
Hadoop Cluster
Los Cluster Hadoop proporcionan
almacenamiento escalado y
procesamiento distribuido de datos
en el hardware disponible
Apache Hadoop es un proyecto open source, liderado por la Apache
Software Foundation (ASF), que nos permite comprender de
cantidades masivas de datos estructurados y no estructurados,
rápidamente y sin una inversión importante.
APACHE HADOOP EN LA MDA HIBRIDA
Requerimientos para la adopción de Hadoop
Requerimientos para el Rol de Hadoop en la Arquitectura
Moderna de Datos (MDA)
Integrado
Interopera con inversiones
de centro de datos
existentes
Destrezas
Aprovecha las habilidades
existentes en nuestro
ecosistema: Desarrollo,
Operaciones y Análisis
Servicio claves
Interopera con
inversiones de centro
de datos existentes
Casos de uso de la Arquitectura de Datos
Moderna
Industria Casos de Uso Tipo de Datos
Servicios Financieros
Nuevas cuentas de riesgo Textos, Registros de Servidores
Riesgos comerciales Registros de Servidores
Suscripción de seguros Datos Geográficos, Datos RFid, Textos
Telecomunicaciones
Detalle de llamadas (CDRs) Datos de Maquinas, Datos Geográficos
Inversión en infraestructura Datos de Maquinas, Registros de Servidores
Asignación de ancho de banda en tiempo real Registros de Servidores, Textos, Redes Sociales
Ventas
Vista 360° del cliente Clickstream, Textos
Promociones personalizadas, Localizadas Datos Geográficos
Optimización de sitios web Clickstream
Manufacturas
Cadena de suministro y logística Datos RFid
Aseguramiento de la calidad de línea de montaje Datos RFid
Aseguramiento de la calidad de CrowdSourcing Redes Sociales
Salud
Utilizar datos genómicos en ensayos médicos Datos Estructurados
Monitor de signos vitales de pacientes en tiempo real Datos RFid
Farmacéuticas
Reclutar y retener a los pacientes para los ensayos de medicamentos Redes Sociales, Clickstream
Mejorar el cumplimiento de la prescripción Redes Sociales, Datos No Estructurados, Datos Geográficos
Petroleras
Unificar la exploración & datos de producción Datos RFid, Datos Geográficos & Datos No Estructurados
Seguridad en tiempo real del monitoreo en la plataforma de producción Datos RFid, Datos No Estructurados
Gobierno
ETL para la descarga de datos fuera de linea en respuesta a las presiones presupuestarias federales Datos Estructurados
Análisis semántico para programas del gobierno Redes Sociales
LA MDA HIBRIDA Y MICROSOFT
Microsoft en la Arquitectura Moderna de DatosAPLICACIONES
SISTEMADE
BASESDEDATOS
ORIGENESDE
DATOS
Orígenes Existentes
(CRM, ERP, Clickstream, Logs)
Orígenes Emergentes
(Sensores, Semánticos, Geo, No
Estructurados)
HERRAMIENTAS DE DATOS Y
DESARROLLO
HERRAMIENTAS OPERACIONALES
INFRAESTRUCTURA
Microsoft y Hortonworks
Ingeniería alineada
Corporaciones alineadas
Campos de acción alineados
Plataforma de datos End-To-End
Inteligencia de Negocio
Almacén de Datos Moderno
Almacén de Datos Relacional Hadoop
Arquitectura de Datos Moderna
SQL Server PDW
SQL Server
para DW en
Azure
Hortonworks
Data
Platform
PDW vNext
(PDW +
HDInsight)
SQL Server
para DW en
Azure
Software en
Caja
Aplicaciones Nube
Software en
Caja
Aplicaciones Nube
Orígenes de Datos Relacionales Datos No Relacionales
OLTP ERM CRM LOB DISPOSITIVOS WEB SENSORES SOCIAL
HERRAMIENTAS DE DATOS Y
DESARROLLO
HERRAMIENTAS OPERACIONALES
Soluciones Hadoop desde Microsoft
Soluciones disponibles para la Nube y On-Premise
Apache Hadoop
Hortonworks Data Platform PDW vNext (PDW + HDInsight) Windows Azure | HDInsight
Software en Caja Aplicaciones Nube
Plataforma de Datos Hortonworks para Windows
Hortonworks Data Platform
Software en Caja
Clientes ideales
 On-Premises en sus propios servidores
 Escenarios con altos datos sensibles, o
 Clientes con altos volúmenes de datos generados
On-Premises
Casos de usos
 El caso de uso CDW
Información clave
 HDP 2.1 (Release – Junio 04) para Windows
 Descargable: http://hortonworks.com/hdp/
Parallel Data Warehouse con HDInsight
Clientes ideales
 Clientes que desean soluciones preconstruidas, de alta gama y
escalabilidad horizontal
 Plataforma Microsoft Integrada (Directorio Activo, System
Center, etc)
 Clientes que desean ventajas de hardware (Mayor tolerancia a
fallos, Rendimiento de red InfiniBand sintonizado)
Casos de usos
 Casos de uso RSB – Royal Bank of Scotland
Información clave
 PDW con nuevas características en segundo semestre de 2014
PDW vNext (PDW + HDInsight)
Aplicaciones
Integración Relacional + No Relacional
 Modelo de consulta simple para entidades
relacionales y Hadoop
 Procesos relacionales & Hadoop en paralelo
 Costo de ETL no elevado para ingresar a
Hadoop en DW
 Consultar Hadoop con habilidades de T-SQL
existentes
 Valor incrementado para los nuevos datos
Consultas integradas con PolyBase en SQL PDW
Select
. . .
Conjunto
de
Resultados
Datos
Hadoop
PolyBase
Data
Relacional
Consulta Relacional + No Relacional
Ampliar datos relacionales hasta Petabytes
 Consultas paralela con Massively Parallel Processing
(MPP)
 Múltiples nodos con CPU dedicada, Memoria, Unidades
de almacenamiento
 Añadir incrementalmente hardware para cerca de escala
lineal a multi-PB
 Manejar complejas consultas y alta escalabilidad en la
concurrencia
 Sin atajos previo en el almacén de datos para aumentar
la capacidad
Tecnologías Escalables en SQL Server Parallel Data Warehouse
Desde Terabytes a Multi-Pentabytes
Ampliar
el Entorno de Datos
Debido a que el PDW se encuentra
profundamente integrado con Hadoop, Direct
Edge puede utilizar datos no estructurados de
Big Data, desbloqueando nuevos escenarios
analíticos.
"Nuestros analistas tienen una comprensión
mucho más profunda de los datos
comerciales. Por ejemplo, pueden
comprender mejor las fluctuaciones
mensuales en los ingresos por comisiones
de honorarios".
Richard Horchron
CTO Direct Edge
Windows Azure HDInsight
Windows Azure | HDInsight
Nube
Clientes ideales
 Ellos quieren todos los beneficios de la nube – Bajo costo y
Escalabilidad amplia
 Escenarios con datos existentes en la nube
 Tiempos de respuestas valorados por Hadoop (Sobre los 10
minutos)
Casos de usos
 Casos de uso Hy-Vee
Información clave
 HDInsight en Hadoop 2.2
 Azure HDInsight en Hadoop 2.4
Master Chief
encontrándose con
Big Data
• En el juego de análisis, se
detectan a los tramposos y
mejora la experiencia para
todo el mundo
• Permite campañas específicas
con el fin de mejorar la
retención de clientes
Salvando vidas con
Pequeños y Grandes
datos
“Esto reinventará la forma en
que trabajamos con registros
médicos en el futuro”
Paul Handerson
BI Division Head
Soluciones Hadoop desde Microsoft
Hadoop
Hortonworks Data Platform PDW vNext (PDW + HDInsight) Windows Azure | HDInsight
Software en Caja Aplicaciones Nube
Inteligencia de Negocio
Microsoft & Hortonworks
Orígenes
de datos
YARN
HDFS
JavaRPC
MAPREDUCE
SERVICIOS DE DATOS
TEZ
PIG HIVE
HCATALOG
HBASE
AMBARI
HERRAMIENTAS DE DATOS Y DESARROLLOADMINISTRACIÓN Y MONITOREO
Querys | Visualización | Reportes | Analysis
HADOOP
Servicios de Datos
Repositorios
Empresariales
Gobernabilidad
Intercambio
Replicación
Carga
de datos
SQOOP
FLUME
Web
HDFS
ODBC
JDBC
INTERFACES
SQOOP
JAVA RPC
Arquitectura de
Referencia
DEMO
Incorporación de grandes datos a
UN BILLÓN de usuarios
PREGUNTAS & RESPUESTAS
Construyendo la moderna arquitectura de datos híbridos para
Big Data con Apache Hadoop y Microsoft Data Platform
Jose Redondo – MS SQL Server MVP
Correo: redondoj@gmail.com
Twitter: @redondoj
Blog: redondoj.wordpress.com
Construyendo la moderna arquitectura de datos híbridos para
Big Data con Apache Hadoop y Microsoft Data Platform
Patrocinadores de esta conferencia
Los invitamos al
Muchas gracias por su participación

Más contenido relacionado

PDF
Big Data, Big Customer Value, Big Results
Mundo Contact
 
PPTX
Big Data en el entorno Bancario
Martín Cabrera
 
PDF
Cómo empezar a implementar proyectos Big Data en tu organización
BEEVA_es
 
PPTX
Introduccion a Big Data stack
Eduardo Castro
 
PPTX
Big Data: conceptos generales e impacto en los negocios
Celestino Güemes Seoane
 
PPTX
Resumen del Microsoft Big Data Stack
Eduardo Castro
 
PPTX
Desmitificando un proyecto de Big Data
BEEVA_es
 
PDF
Big Data Architecture con Pentaho
Datalytics
 
Big Data, Big Customer Value, Big Results
Mundo Contact
 
Big Data en el entorno Bancario
Martín Cabrera
 
Cómo empezar a implementar proyectos Big Data en tu organización
BEEVA_es
 
Introduccion a Big Data stack
Eduardo Castro
 
Big Data: conceptos generales e impacto en los negocios
Celestino Güemes Seoane
 
Resumen del Microsoft Big Data Stack
Eduardo Castro
 
Desmitificando un proyecto de Big Data
BEEVA_es
 
Big Data Architecture con Pentaho
Datalytics
 

La actualidad más candente (20)

PPTX
Cómo implementar una solución Big Data
AMETIC
 
PDF
Big Data & RRHH
Catia Sofia Neves Cunha
 
PPTX
Big Data - Desarrollando soluciones efectivas
Joseph Lopez
 
PDF
HD Insight Integracion con SQL Server Power-Pivot Excel
Eduardo Castro
 
PDF
Siete "consejos" para abordar un proyecto con tecnologías Big Data
BEEVA_es
 
PPT
Cursos Big Data Open Source
Stratebi
 
PDF
"Casos de uso del Big Data" por Wolfram Rozas
EOI Escuela de Organización Industrial
 
PDF
Data Platform de BEEVA
BEEVA_es
 
PPTX
Charla windows 10 para Empresas
Eduardo Castro
 
PDF
Analítica nueva generacion y BD aplicado a los sistemas informacionales
BEEVA_es
 
PDF
¿Cómo afianzar la transformación digital con APIs de datos en tiempo real?
Denodo
 
PPTX
Obtención de Datos en #BigData
Francisco Javier Pulido Piñero
 
PPTX
Tendencias en Big Data (2015-2016)
Manuel Alejandro Carrero Aponte
 
PPTX
El impacto de las tecnologías BIGDATA en los procesos de analítica y segurida...
cruetic2015
 
PPTX
Big Data - Conceptos, herramientas y patrones
Juan José Domenech
 
PPTX
Desmitificando el Big Data
Stratebi
 
PDF
Virtualización de datos: las claves para el análisis de datos en tiempo real ...
Denodo
 
PPTX
Big Data para analizar las redes sociales
DatKnoSys
 
PPTX
Nuevos escenarios BI con SQL Server 2014
Ruben Pertusa Lopez
 
PDF
Big Data
Fernando Parra
 
Cómo implementar una solución Big Data
AMETIC
 
Big Data & RRHH
Catia Sofia Neves Cunha
 
Big Data - Desarrollando soluciones efectivas
Joseph Lopez
 
HD Insight Integracion con SQL Server Power-Pivot Excel
Eduardo Castro
 
Siete "consejos" para abordar un proyecto con tecnologías Big Data
BEEVA_es
 
Cursos Big Data Open Source
Stratebi
 
"Casos de uso del Big Data" por Wolfram Rozas
EOI Escuela de Organización Industrial
 
Data Platform de BEEVA
BEEVA_es
 
Charla windows 10 para Empresas
Eduardo Castro
 
Analítica nueva generacion y BD aplicado a los sistemas informacionales
BEEVA_es
 
¿Cómo afianzar la transformación digital con APIs de datos en tiempo real?
Denodo
 
Obtención de Datos en #BigData
Francisco Javier Pulido Piñero
 
Tendencias en Big Data (2015-2016)
Manuel Alejandro Carrero Aponte
 
El impacto de las tecnologías BIGDATA en los procesos de analítica y segurida...
cruetic2015
 
Big Data - Conceptos, herramientas y patrones
Juan José Domenech
 
Desmitificando el Big Data
Stratebi
 
Virtualización de datos: las claves para el análisis de datos en tiempo real ...
Denodo
 
Big Data para analizar las redes sociales
DatKnoSys
 
Nuevos escenarios BI con SQL Server 2014
Ruben Pertusa Lopez
 
Big Data
Fernando Parra
 
Publicidad

Destacado (10)

PPTX
Generando Toma de Decisiones Inteligente con Microsoft Big Data
Joseph Lopez
 
PPTX
Inteligencia de Negocio - Que Planeta es eso?
Joseph Lopez
 
PPTX
Introducción a Power BI bajo escenarios empresariales híbridos con SQL Server...
Joseph Lopez
 
PPTX
BI y Data Warehouse - Conociendo orígenes
Joseph Lopez
 
PPTX
Perspectiva de Microsoft Business Intelligence a partir de la integracion con...
Joseph Lopez
 
PPTX
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Joseph Lopez
 
PPTX
Introduccion a las Bodegas de Datos
Joseph Lopez
 
PPTX
Configuración y casos de uso para AlwaysON availability groups readable secon...
SpanishPASSVC
 
PPTX
Big Data Day LA 2016/ Big Data Track - Apply R in Enterprise Applications, Lo...
Data Con LA
 
PPTX
Introducción a Microsoft Azure SQL Data Warehouse
Joseph Lopez
 
Generando Toma de Decisiones Inteligente con Microsoft Big Data
Joseph Lopez
 
Inteligencia de Negocio - Que Planeta es eso?
Joseph Lopez
 
Introducción a Power BI bajo escenarios empresariales híbridos con SQL Server...
Joseph Lopez
 
BI y Data Warehouse - Conociendo orígenes
Joseph Lopez
 
Perspectiva de Microsoft Business Intelligence a partir de la integracion con...
Joseph Lopez
 
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Joseph Lopez
 
Introduccion a las Bodegas de Datos
Joseph Lopez
 
Configuración y casos de uso para AlwaysON availability groups readable secon...
SpanishPASSVC
 
Big Data Day LA 2016/ Big Data Track - Apply R in Enterprise Applications, Lo...
Data Con LA
 
Introducción a Microsoft Azure SQL Data Warehouse
Joseph Lopez
 
Publicidad

Similar a Building The Modern Architecture of Hybrid Data for Big Data with Microsoft Data Platform and Apache Hadoop (20)

PDF
Big Data y Business Intelligence con Software Open Source
Carlos Augusto Carreño Villarreyes
 
PDF
01 Introduccion a Big Data y Hadoop.pdf
AntonioSotoRodriguez1
 
PPTX
Polybase y su uso en la integración de almacenes de datos
SpanishPASSVC
 
PPTX
Inteligencia de negocio en la nube, una realidad palpable!!!
Joseph Lopez
 
PPTX
Presentación big data
Leyda Maria Alzate Gomez
 
PPTX
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Joseph Lopez
 
PPTX
Microsoft Business Analytics 2013
Joseph Lopez
 
PPTX
Microsoft Azure Data Environment
Joseph Lopez
 
PPTX
Análisis de datos con HD Insight
Eduardo Castro
 
PPTX
Introducción a polybase en SQL Server
Eduardo Castro
 
PDF
Big Data: Presente o Futuro
Steelmood
 
PDF
Adaptive Big Data Pipelines
Carlos Fuentes
 
PPTX
Big Data con Sql Server 2014 y la nube
Eduardo Castro
 
PPTX
Visualización de Big Data con Power View
Eduardo Castro
 
PPTX
Big data, Hadoop, HDInsight
Gustavo Alzate Sandoval
 
PDF
¿Cuál es el futuro de la estrategia de datos?
Denodo
 
PPTX
Smart Grid Big Data e IoT
Eduardo Castro
 
PDF
Querona
Synergo!
 
PPTX
Herramientas de Microsoft para el Científicos de Datos
Eduardo Castro
 
Big Data y Business Intelligence con Software Open Source
Carlos Augusto Carreño Villarreyes
 
01 Introduccion a Big Data y Hadoop.pdf
AntonioSotoRodriguez1
 
Polybase y su uso en la integración de almacenes de datos
SpanishPASSVC
 
Inteligencia de negocio en la nube, una realidad palpable!!!
Joseph Lopez
 
Presentación big data
Leyda Maria Alzate Gomez
 
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Joseph Lopez
 
Microsoft Business Analytics 2013
Joseph Lopez
 
Microsoft Azure Data Environment
Joseph Lopez
 
Análisis de datos con HD Insight
Eduardo Castro
 
Introducción a polybase en SQL Server
Eduardo Castro
 
Big Data: Presente o Futuro
Steelmood
 
Adaptive Big Data Pipelines
Carlos Fuentes
 
Big Data con Sql Server 2014 y la nube
Eduardo Castro
 
Visualización de Big Data con Power View
Eduardo Castro
 
Big data, Hadoop, HDInsight
Gustavo Alzate Sandoval
 
¿Cuál es el futuro de la estrategia de datos?
Denodo
 
Smart Grid Big Data e IoT
Eduardo Castro
 
Querona
Synergo!
 
Herramientas de Microsoft para el Científicos de Datos
Eduardo Castro
 

Más de Joseph Lopez (20)

PPTX
Entorno de datos Microsoft Cloud
Joseph Lopez
 
PPTX
Aplicando SQL Server 2016 en Microsoft Azure Virtual Machine
Joseph Lopez
 
PPTX
Conociendo Dynamic Data Masking en entornos de producción con SQL Server 2016...
Joseph Lopez
 
PPTX
Conociendo los cambios de SQL Server a partir de 2012 a 2016
Joseph Lopez
 
PPTX
Aplicando Azure Search en Sistemas Hibridos
Joseph Lopez
 
PPTX
Performance Tuning en Azure SQL Database
Joseph Lopez
 
PPTX
Tablas temporales en SQL Server 2016 y Azure SQL Database v12
Joseph Lopez
 
PPTX
Recuperación ante desastres y continuidad del negocio con Azure SQL Database
Joseph Lopez
 
PPTX
DBA para SharePoint
Joseph Lopez
 
PPTX
In-Memory OLTP en SQL Server 2016
Joseph Lopez
 
PPTX
Introducción a Azure DocumentDB
Joseph Lopez
 
PPTX
Introduccion a Power BI
Joseph Lopez
 
PPTX
Microsoft Azure SQL Database
Joseph Lopez
 
PPTX
Configuring SharePoint Server 2013 environment for Business Intelligence Plat...
Joseph Lopez
 
PPTX
Configurar su entorno SharePoint para Business Intelligence
Joseph Lopez
 
PPTX
Instalando y configurando PowerPivot para SharePoint 2013 y SQL Server 2014
Joseph Lopez
 
PPTX
MS SQL Server 2014 - In-Memory OLTP
Joseph Lopez
 
PPTX
MS SQL Server 2014 - In-Memory ColumnStore Index - Haciendo un almacén de datos
Joseph Lopez
 
PPTX
SQL Server 2014 y La Plataforma de Datos
Joseph Lopez
 
PPTX
MS SQL Server 2012 SP1 para desarrolladores
Joseph Lopez
 
Entorno de datos Microsoft Cloud
Joseph Lopez
 
Aplicando SQL Server 2016 en Microsoft Azure Virtual Machine
Joseph Lopez
 
Conociendo Dynamic Data Masking en entornos de producción con SQL Server 2016...
Joseph Lopez
 
Conociendo los cambios de SQL Server a partir de 2012 a 2016
Joseph Lopez
 
Aplicando Azure Search en Sistemas Hibridos
Joseph Lopez
 
Performance Tuning en Azure SQL Database
Joseph Lopez
 
Tablas temporales en SQL Server 2016 y Azure SQL Database v12
Joseph Lopez
 
Recuperación ante desastres y continuidad del negocio con Azure SQL Database
Joseph Lopez
 
DBA para SharePoint
Joseph Lopez
 
In-Memory OLTP en SQL Server 2016
Joseph Lopez
 
Introducción a Azure DocumentDB
Joseph Lopez
 
Introduccion a Power BI
Joseph Lopez
 
Microsoft Azure SQL Database
Joseph Lopez
 
Configuring SharePoint Server 2013 environment for Business Intelligence Plat...
Joseph Lopez
 
Configurar su entorno SharePoint para Business Intelligence
Joseph Lopez
 
Instalando y configurando PowerPivot para SharePoint 2013 y SQL Server 2014
Joseph Lopez
 
MS SQL Server 2014 - In-Memory OLTP
Joseph Lopez
 
MS SQL Server 2014 - In-Memory ColumnStore Index - Haciendo un almacén de datos
Joseph Lopez
 
SQL Server 2014 y La Plataforma de Datos
Joseph Lopez
 
MS SQL Server 2012 SP1 para desarrolladores
Joseph Lopez
 

Último (20)

PDF
La electricidad y la electrónica por Antonia Diaz Bernal
edepantoniadiaz
 
PDF
ACTIVIDAD 2.pdf j
JuanVelandia33
 
PPTX
ExcelTablasDinamicas02nivelintermedio.pptx
fernandoloza823
 
PPTX
Customer Events - DeepRacer L200_ES.pptx
jcoronel
 
PDF
operaciones unitarias clase 1 1-2025-1.pdf
RicardoFlores571358
 
PDF
Trabajo Tecnología Diagrama De Pareto.pdf
srsantiagof09
 
PDF
0621 LOS MATERIALES Y SUS USOS .2º CICLO_compressed.pdf
AndreaAlegre18
 
PDF
2do grado medios de transportes.pdf para el primario
AndreaAlegre18
 
PDF
Liceo departamental MICRO BIT (1).pdfslksjshshwuwjwjjdjdjshshs
edepanaobando
 
DOCX
Trabajo colaborativo Grupo #2.docxmmuhhlk
edepanaobando
 
DOCX
Las nuevas tecnologías en la salud - enfermería técnica.
jhosselynmendoza1
 
PDF
clase 9 PIN DE CARGA.pdf curso de reparacion de celulares
pedrazasmercadosebas
 
PPTX
Descubre los Dispositivos de Salida Como Usarlo
AlexanderHermndez
 
PPTX
INTERNET DE LAS COSAS EN LA ACTUALIDAD.pptx
dennispedagogia
 
PPTX
Intro to 3D Printing Credit 1(Span).pptx
rlink3
 
PPTX
Descubre los Dispositivos de Salida y Como usar
AlexanderHermndez
 
PDF
La electricidad y la electrónica Tecno-Informática
edeppaulaobando
 
PDF
Temas y subtemas de las fichas 1 y 2.pdf
linithzuniga
 
DOCX
tecnologia actividad segundo periodo.docx
samuelcuaran
 
PDF
excel.pdf valentinamueses111 trabajo tecnologia
4zz5vkthyk
 
La electricidad y la electrónica por Antonia Diaz Bernal
edepantoniadiaz
 
ACTIVIDAD 2.pdf j
JuanVelandia33
 
ExcelTablasDinamicas02nivelintermedio.pptx
fernandoloza823
 
Customer Events - DeepRacer L200_ES.pptx
jcoronel
 
operaciones unitarias clase 1 1-2025-1.pdf
RicardoFlores571358
 
Trabajo Tecnología Diagrama De Pareto.pdf
srsantiagof09
 
0621 LOS MATERIALES Y SUS USOS .2º CICLO_compressed.pdf
AndreaAlegre18
 
2do grado medios de transportes.pdf para el primario
AndreaAlegre18
 
Liceo departamental MICRO BIT (1).pdfslksjshshwuwjwjjdjdjshshs
edepanaobando
 
Trabajo colaborativo Grupo #2.docxmmuhhlk
edepanaobando
 
Las nuevas tecnologías en la salud - enfermería técnica.
jhosselynmendoza1
 
clase 9 PIN DE CARGA.pdf curso de reparacion de celulares
pedrazasmercadosebas
 
Descubre los Dispositivos de Salida Como Usarlo
AlexanderHermndez
 
INTERNET DE LAS COSAS EN LA ACTUALIDAD.pptx
dennispedagogia
 
Intro to 3D Printing Credit 1(Span).pptx
rlink3
 
Descubre los Dispositivos de Salida y Como usar
AlexanderHermndez
 
La electricidad y la electrónica Tecno-Informática
edeppaulaobando
 
Temas y subtemas de las fichas 1 y 2.pdf
linithzuniga
 
tecnologia actividad segundo periodo.docx
samuelcuaran
 
excel.pdf valentinamueses111 trabajo tecnologia
4zz5vkthyk
 

Building The Modern Architecture of Hybrid Data for Big Data with Microsoft Data Platform and Apache Hadoop

  • 1. Construyendo la moderna arquitectura de datos híbridos para Big Data con Apache Hadoop y Microsoft Data Platform José Redondo Correo: [email protected] Twitter: @redondoj LinkedIn: http://co.linkedin.com/in/redondoj Blog: http://redondoj.wordpress.com
  • 2. Expositor  CTO – DPA Bits America SAS Colombia – U.S.A.  DPA SolidQ  MCP | MCTS – MS SQL Server; MTA – DAF
  • 4. Billones de datos INGRESANDO en nuestros ECOSISTEMAS de bases de datos
  • 5. Construyendo la moderna arquitectura de datos híbridos para Big Data con Apache Hadoop y Microsoft Data Platform
  • 6. AGENDA  Introducción  Cual es la Arquitectura Moderna de Datos Híbridos (MDA)?  Apache Hadoop en la MDA Híbrida  La MDA Híbrida y Microsoft
  • 8. Arquitectura de Datos ActualAPLICACIONES Business Analytics Aplicaciones Personalizadas Aplicaciones Empaquetadas SISTEMADE BASESDEDATOS REPOSITORIOS RDBMS EDW MPP ORIGENESDE DATOS Orígenes Existentes (CRM, ERP, Clickstream, Logs) 4,2 ZB en 2013 85% de nuevos tipos de datos 15x datos maquina para 2020 40ZB para 2020
  • 9. Arquitectura Moderna de Datos HabilitadaAPLICACIONES Business Analytics Aplicaciones Personalizadas Aplicaciones Empaquetadas SISTEMADE BASESDEDATOS REPOSITORIOS RDBMS EDW MPP ORIGENESDE DATOS Orígenes Existentes (CRM, ERP, Clickstream, Logs) Orígenes Emergentes (Sensores, Semánticos, Geo, No Estructurados) DESPLIEGUE & PRUEBAS HERRAMIENTAS DE DATOS Y DESARROLLO ADMINISTRACIÓN & MONITOREO HERRAMIENTAS OPERACIONES
  • 10. CUAL ES LA ARQUITECTURA MODERNA DE DATOS HIBRIDOS (MDA)?
  • 11. El Poder de la Arquitectura Moderna de Datos Hadoop Compute & Storage Compute & Storage . . . . . . . . . . Hadoop Cluster Los Cluster Hadoop proporcionan almacenamiento escalado y procesamiento distribuido de datos en el hardware disponible Apache Hadoop es un proyecto open source, liderado por la Apache Software Foundation (ASF), que nos permite comprender de cantidades masivas de datos estructurados y no estructurados, rápidamente y sin una inversión importante.
  • 12. APACHE HADOOP EN LA MDA HIBRIDA
  • 13. Requerimientos para la adopción de Hadoop Requerimientos para el Rol de Hadoop en la Arquitectura Moderna de Datos (MDA) Integrado Interopera con inversiones de centro de datos existentes Destrezas Aprovecha las habilidades existentes en nuestro ecosistema: Desarrollo, Operaciones y Análisis Servicio claves Interopera con inversiones de centro de datos existentes
  • 14. Casos de uso de la Arquitectura de Datos Moderna Industria Casos de Uso Tipo de Datos Servicios Financieros Nuevas cuentas de riesgo Textos, Registros de Servidores Riesgos comerciales Registros de Servidores Suscripción de seguros Datos Geográficos, Datos RFid, Textos Telecomunicaciones Detalle de llamadas (CDRs) Datos de Maquinas, Datos Geográficos Inversión en infraestructura Datos de Maquinas, Registros de Servidores Asignación de ancho de banda en tiempo real Registros de Servidores, Textos, Redes Sociales Ventas Vista 360° del cliente Clickstream, Textos Promociones personalizadas, Localizadas Datos Geográficos Optimización de sitios web Clickstream Manufacturas Cadena de suministro y logística Datos RFid Aseguramiento de la calidad de línea de montaje Datos RFid Aseguramiento de la calidad de CrowdSourcing Redes Sociales Salud Utilizar datos genómicos en ensayos médicos Datos Estructurados Monitor de signos vitales de pacientes en tiempo real Datos RFid Farmacéuticas Reclutar y retener a los pacientes para los ensayos de medicamentos Redes Sociales, Clickstream Mejorar el cumplimiento de la prescripción Redes Sociales, Datos No Estructurados, Datos Geográficos Petroleras Unificar la exploración & datos de producción Datos RFid, Datos Geográficos & Datos No Estructurados Seguridad en tiempo real del monitoreo en la plataforma de producción Datos RFid, Datos No Estructurados Gobierno ETL para la descarga de datos fuera de linea en respuesta a las presiones presupuestarias federales Datos Estructurados Análisis semántico para programas del gobierno Redes Sociales
  • 15. LA MDA HIBRIDA Y MICROSOFT
  • 16. Microsoft en la Arquitectura Moderna de DatosAPLICACIONES SISTEMADE BASESDEDATOS ORIGENESDE DATOS Orígenes Existentes (CRM, ERP, Clickstream, Logs) Orígenes Emergentes (Sensores, Semánticos, Geo, No Estructurados) HERRAMIENTAS DE DATOS Y DESARROLLO HERRAMIENTAS OPERACIONALES INFRAESTRUCTURA
  • 17. Microsoft y Hortonworks Ingeniería alineada Corporaciones alineadas Campos de acción alineados
  • 18. Plataforma de datos End-To-End Inteligencia de Negocio Almacén de Datos Moderno Almacén de Datos Relacional Hadoop Arquitectura de Datos Moderna SQL Server PDW SQL Server para DW en Azure Hortonworks Data Platform PDW vNext (PDW + HDInsight) SQL Server para DW en Azure Software en Caja Aplicaciones Nube Software en Caja Aplicaciones Nube Orígenes de Datos Relacionales Datos No Relacionales OLTP ERM CRM LOB DISPOSITIVOS WEB SENSORES SOCIAL HERRAMIENTAS DE DATOS Y DESARROLLO HERRAMIENTAS OPERACIONALES
  • 19. Soluciones Hadoop desde Microsoft Soluciones disponibles para la Nube y On-Premise Apache Hadoop Hortonworks Data Platform PDW vNext (PDW + HDInsight) Windows Azure | HDInsight Software en Caja Aplicaciones Nube
  • 20. Plataforma de Datos Hortonworks para Windows Hortonworks Data Platform Software en Caja Clientes ideales  On-Premises en sus propios servidores  Escenarios con altos datos sensibles, o  Clientes con altos volúmenes de datos generados On-Premises Casos de usos  El caso de uso CDW Información clave  HDP 2.1 (Release – Junio 04) para Windows  Descargable: http://hortonworks.com/hdp/
  • 21. Parallel Data Warehouse con HDInsight Clientes ideales  Clientes que desean soluciones preconstruidas, de alta gama y escalabilidad horizontal  Plataforma Microsoft Integrada (Directorio Activo, System Center, etc)  Clientes que desean ventajas de hardware (Mayor tolerancia a fallos, Rendimiento de red InfiniBand sintonizado) Casos de usos  Casos de uso RSB – Royal Bank of Scotland Información clave  PDW con nuevas características en segundo semestre de 2014 PDW vNext (PDW + HDInsight) Aplicaciones
  • 22. Integración Relacional + No Relacional  Modelo de consulta simple para entidades relacionales y Hadoop  Procesos relacionales & Hadoop en paralelo  Costo de ETL no elevado para ingresar a Hadoop en DW  Consultar Hadoop con habilidades de T-SQL existentes  Valor incrementado para los nuevos datos Consultas integradas con PolyBase en SQL PDW Select . . . Conjunto de Resultados Datos Hadoop PolyBase Data Relacional Consulta Relacional + No Relacional
  • 23. Ampliar datos relacionales hasta Petabytes  Consultas paralela con Massively Parallel Processing (MPP)  Múltiples nodos con CPU dedicada, Memoria, Unidades de almacenamiento  Añadir incrementalmente hardware para cerca de escala lineal a multi-PB  Manejar complejas consultas y alta escalabilidad en la concurrencia  Sin atajos previo en el almacén de datos para aumentar la capacidad Tecnologías Escalables en SQL Server Parallel Data Warehouse Desde Terabytes a Multi-Pentabytes Ampliar el Entorno de Datos
  • 24. Debido a que el PDW se encuentra profundamente integrado con Hadoop, Direct Edge puede utilizar datos no estructurados de Big Data, desbloqueando nuevos escenarios analíticos. "Nuestros analistas tienen una comprensión mucho más profunda de los datos comerciales. Por ejemplo, pueden comprender mejor las fluctuaciones mensuales en los ingresos por comisiones de honorarios". Richard Horchron CTO Direct Edge
  • 25. Windows Azure HDInsight Windows Azure | HDInsight Nube Clientes ideales  Ellos quieren todos los beneficios de la nube – Bajo costo y Escalabilidad amplia  Escenarios con datos existentes en la nube  Tiempos de respuestas valorados por Hadoop (Sobre los 10 minutos) Casos de usos  Casos de uso Hy-Vee Información clave  HDInsight en Hadoop 2.2  Azure HDInsight en Hadoop 2.4
  • 26. Master Chief encontrándose con Big Data • En el juego de análisis, se detectan a los tramposos y mejora la experiencia para todo el mundo • Permite campañas específicas con el fin de mejorar la retención de clientes
  • 27. Salvando vidas con Pequeños y Grandes datos “Esto reinventará la forma en que trabajamos con registros médicos en el futuro” Paul Handerson BI Division Head
  • 28. Soluciones Hadoop desde Microsoft Hadoop Hortonworks Data Platform PDW vNext (PDW + HDInsight) Windows Azure | HDInsight Software en Caja Aplicaciones Nube Inteligencia de Negocio
  • 29. Microsoft & Hortonworks Orígenes de datos YARN HDFS JavaRPC MAPREDUCE SERVICIOS DE DATOS TEZ PIG HIVE HCATALOG HBASE AMBARI HERRAMIENTAS DE DATOS Y DESARROLLOADMINISTRACIÓN Y MONITOREO Querys | Visualización | Reportes | Analysis HADOOP Servicios de Datos Repositorios Empresariales Gobernabilidad Intercambio Replicación Carga de datos SQOOP FLUME Web HDFS ODBC JDBC INTERFACES SQOOP JAVA RPC Arquitectura de Referencia
  • 30. DEMO
  • 31. Incorporación de grandes datos a UN BILLÓN de usuarios
  • 33. Construyendo la moderna arquitectura de datos híbridos para Big Data con Apache Hadoop y Microsoft Data Platform Jose Redondo – MS SQL Server MVP Correo: [email protected] Twitter: @redondoj Blog: redondoj.wordpress.com
  • 34. Construyendo la moderna arquitectura de datos híbridos para Big Data con Apache Hadoop y Microsoft Data Platform Patrocinadores de esta conferencia
  • 36. Muchas gracias por su participación