SlideShare una empresa de Scribd logo
Big Data para desarrolladores:
Hadoop y Openstack
I
Guillermo Alvarado Mejía
DevOps Engineer
Victor Barrera Nuñez
Data Scientist
Contenido
➢ Openstack
➢ Hadoop
➢ Arquitecturas en la nube
➢ Openstack & Hadoop
➢ Benchmark
➢ Consideraciones Generales
➢ Preguntas
Openstack
Openstack
OpenStack es producto de la colaboración mundial de
desarrolladores y administradores de sistemas DevOps
que dan como resultado una plataforma Cloud de
código abierto que entrega soluciones para todo tipo de
nubes.
Openstack
Openstack
Cuenta con más de 17.000 miembros individuales de
139 países y 850 organizaciones diferentes.
Openstack
Openstack
Habilidades requeridas para incursionar en
Openstack
➢ Python
○ Openstack está escrito en este lenguaje
➢ Linux (Command line navigation)
○ Openstack y sus componente corren sobre Linux
➢ Programación Bash (Linux scripting)
Openstack
¿Quién utiliza OpenStack? Destacan: PayPal,
MercadoLibre, Comcast, NSA, Rackspace, Cisco,
PlayStation, Dream Host, el CERN y Kio Networks
como pionero en Latinoamérica.
Visita http://www.openstack.org/user-stories/
Openstack
Openstack está siendo acogido rápidamente en el
sector corporativo.
Openstack
Esencial: Integración y API´s.
SDK’s: Clojure, Erlang, Go, Java, JS, .NET, Perl, PHP,
Python, Ruby, etc.
¿Bash? Command Line Interfaces.
Openstack
Hadoop
Hadoop
➢ Problemas con sistemas tradicionales
○ Procesadores más rápidos y más RAM en una única máquina
➢ Problemas con sistemas distribuidos
○ Sincronización de datos, ancho de banda, fallos parciales
➢ Era Big-Data
○ Terabytes de datos por día
➢ Requerimientos para un nuevo enfoque
○ Speculative execution
○ Replicación
○ Escalabilidad
Hadoop
➢ Surge a partir de 2 publicaciones realizadas por
Google en 2003 y 2004
➢ Los datos son replicados múltiples veces en el
sistema de archivos
○ Éstos son divididos en archivos más pequeños denominados
“blocks”
➢ El nodo principal o master
○ Designa tareas a los nodos esclavos o datanodes
○ Reasigna tareas cuando un nodo falla o sale de operación
Hadoop
1500 Nodos 690 Nodos 140 Nodos
http://wiki.apache.org/hadoop/PoweredBy
Hadoop
Hadoop
Hadoop
Hadoop
➢ Hadoop resuelve un problema real y por tal razón estará con nosotros
por varias décadas
➢ Hadoop es una habilidad profesional que vale la pena adquirir
Hadoop
Hadoop
Habilidades requeridas para incursionar en Hadoop
➢ Java
○ Hadoop está escrito en este lenguaje
➢ Linux (Command line navigation)
○ Hadoop y sus componente corren sobre Linux
➢ Programación Bash (Linux scripting)
➢ Hadoop Streaming
○ Python
○ Rubi
○ C
Hadoop
➢
Arquitecturas en la nube
Arquitecturas en la nube
Las Arquitecturas Cloud son los diseños y desarrollo de
elementos de infraestructura virtual y software que
hacen un uso eficiente de los servicios en Cloud.
Big data para desarrolladores utilizando hadoop y openstack
Arquitecturas en la nube
➢Son interoperables.
➢Ejecutan de forma óptima las tareas para cubrir una
necesidad de negocio.
➢Sólo hacen uso de la infraestructura que es necesaria
en cada momento.
➢Escalan basándose en la demanda.
Big data para desarrolladores utilizando hadoop y openstack
Arquitecturas en la nube
¿El problema? Son tareas concurrentes, repetitivas.
Dejemos de perder el tiempo, automaticemos. Desde
un enfoque DevOps.
Heat es el proyecto de OpenStack para Orquestación.
Arquitecturas en la nube
Heat permiten la creación y gestión de:
IPs flotantes, Instancias de computo, Redes, Virtuales, Volúmenes de
almacenamiento, Grupo de seguridad/Firewall, Usuarios
Funciones avanzadas:
Alta disponibilidad, autoscaling, software de terceros, recovery.
Además es compatible con Cloud Formation de AWS.
Arquitecturas en la nube
Arquitecturas en la nube
Plantillas
Archivos de texto con formato YAML, son un documento que detalla la
orquestación.
Heat Orchestration Template
(HOT), es el lenguaje nativo de Heat para escribir una plantilla.
Arquitecturas en la nube
Las plantillas también pueden especificar las relaciones
entre los recursos, por ejemplo, este volumen está
conectado a este servidor.
Arquitecturas en la nube
Openstack & Hadoop
Openstack & Hadoop
Openstack & Hadoop
Time To Provision
Time To Market
A Hadoop le viene como anillo al dedo Openstack y su
elasticidad
Openstack & Hadoop
➢ Tecnologías libres y de código abierto
➢ IDC estima un crecimiento alto (15%) de soluciones
cloud y Big Data para 2014
○ “Will big data make IT infraestructure sexy again?“, Mike Barlow,
O’Reilly, 2014)
➢ Tecnologías y soluciones Big Data abarcarán el
89% de las inversiones en IT durante 2014
➢ 70% de los datawarehouse experimentan problemas
de procesamiento y almacenamiento, Gartner
Benchmark
Benchmark
Cantidad de nodos de datos (datanodes)
➢ IBM tiene el cluster más grande con 1000 nodos de datos
➢ En promedio los cluster tienen 14 nodos de datos
Benchmark
➢ IBM, CISCO y HP son los cluster más rápidos
➢ KIO/DATTLAS es el 8º más rápido con 40 minutos para ordenar
1TB de datos
Tiempo transcurrido ordenando un 1TB de datos
Benchmark
➢ CISCO tiene el cluster más eficiente con ~225 MB/seg por datanode
➢ IBM tiene el cluster más inificiente con 9,5MB/seg procesados por
datanode
Velocidad de procesamiento por datanode
Benchmark
➢ Los fabricantes tienen un promedio de 1170 GB RAM
➢ Nótese que a mayor memoria RAM, menor el tiempo de procesamiento
Memoria RAM total instalada
Benchmark
GB RAM versus Duración
Consideraciones
Generales
Openstack & Hadoop
El futuro:
Sahara by Openstack. Disponible para Juno.
Proyecto que proporciona un medio sencillo para
aprovisionar un cluster Hadoop sobre Openstack.
Configuración de varios parámetros:
versión de Hadoop, la topología del cluster, los detalles de los nodos, etc.
Openstack & Hadoop
➢ Con un solo clic, autoservicio de aprovisionamiento
basado en plantillas
➢ Escalamiento dinámico, disparadores de workloads.
➢ Medición de recursos de manera sencilla, Hadoop
as a Service.
Openstack & Hadoop
➢ API´s para ejecutar tareas Map/Reduce, Oozie
workflows, consutas Hive/Pig.
➢ Administración y monitoreo centralizado.
➢ Accesos a datos controlados.
➢ Acceso a UI integrado, como Hive y Pig.
Openstack & Hadoop
➢ Infraestructura
○ Nube privada o pública (OpenStack)
○ Alojamiento de servidores (Co-location)
➢ Misión crítica, datacenter diseño TIER IV
➢ Operación
○ Help desk 24/7
➢ Big Data
○ Generación de modelos matemáticos
○ Hadoop as a Service
○ Data-Analytics as a Service
¿Preguntas?
I
Guillermo Alvardo
galvarado@kionetworks.com
@galvarado89
Victor Barrera
vabarrera@dattlas.com
@vikbar

Más contenido relacionado

La actualidad más candente (7)

PPTX
Meetup errores en proyectos Big Data
Jorge Lopez-Malla
 
PPTX
Big data con Hadoop y SSIS 2016
Ángel Rayo
 
PDF
Datio OpenStack
Datio Big Data
 
PDF
Big Data perspectiva DevOps
Enrique Carbonell
 
PPTX
Qnap LA 2020
QNAP Systems, Inc.
 
PPTX
Computo en la nube
Jaime Chuquilin
 
Meetup errores en proyectos Big Data
Jorge Lopez-Malla
 
Big data con Hadoop y SSIS 2016
Ángel Rayo
 
Datio OpenStack
Datio Big Data
 
Big Data perspectiva DevOps
Enrique Carbonell
 
Qnap LA 2020
QNAP Systems, Inc.
 
Computo en la nube
Jaime Chuquilin
 

Similar a Big data para desarrolladores utilizando hadoop y openstack (20)

PDF
Big Data y Business Intelligence con Software Open Source
Carlos Augusto Carreño Villarreyes
 
PPTX
Plug&play:deploying big data_solutions
David Piris
 
PPTX
Monta una Infraestructura Big Data para tu Empresa - Sesión I
Urko Zurutuza
 
PPTX
BIG DATA en CLOUD PaaS para Internet de las Cosas (IoT)
pmluque
 
PDF
01 Introduccion a Big Data y Hadoop.pdf
AntonioSotoRodriguez1
 
PPTX
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Joseph Lopez
 
PPTX
Data lake y virtualización. Ejes para una arquitectura abierta en big data v6
Dell EMC
 
PPTX
1.2.1 Ecosistema de Big Data (on-premise).pptx
fralopezr
 
PPT
Exposicion big data
mateo luquez
 
PDF
NoEresTanEspecial-PulpoCon22.pdf
Ricard Clau
 
PDF
Big data: Valor y Mercado: Escola Universitària Salesians de Sarrià - UAB
Outliers Collective
 
PDF
Big Data para la Gestión Eficiente de la Información (Presentación webinar)
Schneider Electric
 
PPTX
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Joseph Lopez
 
PDF
Plataformas de hosting en la nube
Refresh Maracaibo
 
PDF
Construyendo una nube con OpenStack
LibreCon
 
PPTX
Big Data - Conceptos, herramientas y patrones
Juan José Domenech
 
PPTX
Que debe saber un DBA de SQL Server sobre Hadoop
Eduardo Castro
 
PDF
Introducción a las nubes privadas con OpenStack
Software Guru
 
PDF
2016 ULL Cabildo KEEDIO - IT y BANCA
KEEDIO
 
Big Data y Business Intelligence con Software Open Source
Carlos Augusto Carreño Villarreyes
 
Plug&play:deploying big data_solutions
David Piris
 
Monta una Infraestructura Big Data para tu Empresa - Sesión I
Urko Zurutuza
 
BIG DATA en CLOUD PaaS para Internet de las Cosas (IoT)
pmluque
 
01 Introduccion a Big Data y Hadoop.pdf
AntonioSotoRodriguez1
 
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Joseph Lopez
 
Data lake y virtualización. Ejes para una arquitectura abierta en big data v6
Dell EMC
 
1.2.1 Ecosistema de Big Data (on-premise).pptx
fralopezr
 
Exposicion big data
mateo luquez
 
NoEresTanEspecial-PulpoCon22.pdf
Ricard Clau
 
Big data: Valor y Mercado: Escola Universitària Salesians de Sarrià - UAB
Outliers Collective
 
Big Data para la Gestión Eficiente de la Información (Presentación webinar)
Schneider Electric
 
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Joseph Lopez
 
Plataformas de hosting en la nube
Refresh Maracaibo
 
Construyendo una nube con OpenStack
LibreCon
 
Big Data - Conceptos, herramientas y patrones
Juan José Domenech
 
Que debe saber un DBA de SQL Server sobre Hadoop
Eduardo Castro
 
Introducción a las nubes privadas con OpenStack
Software Guru
 
2016 ULL Cabildo KEEDIO - IT y BANCA
KEEDIO
 
Publicidad

Último (16)

PDF
Distribución de frecuencias y Diagrama de Pareto en Excel - Trabajo Colaborat...
mapaulahiguita
 
PPTX
ESPECIALIDAD DE REDES SOCIALES guías mayores.pptx
DianaLauraMadridEsco1
 
PPT
(cloud computing) se refiere al acceso a recursos informáticos a través de in...
75485218
 
PPTX
MAQUINA DE TURING Y VARIANTES DEL LA MAQUINA DE TURING.pptx
GabyBraga4
 
PPTX
UiPath and Dream to Succeed Kick Off 2025 AI Agentic Automation RPA Program 2025
DianaGray10
 
PPTX
HARDWARE ponderaciones y placas madre.pptx
jjcondori21
 
PPTX
Revolucionando-los-Informes-Tecnicos-con-IA.pptx
DanielChura9
 
PPTX
Poblacion_y_Muestra para trabajos de investigación pptx
yaneligomezcaceres
 
PDF
Curso.Formacion.dron.A1.A3.Completo.v1.pdf
jimenoasenjo1
 
PPTX
Manejo de Web de demostración modulo IOT.pptx
IsaacFernandoPrezSal1
 
PDF
Exposición Rayleigh, teoría de la comunicación, etsii tugr
DanielPereiraRiquelm
 
PDF
albañileriaalbañileriaalbañileriaalbañileriaalbañileria
danteisrael987654321
 
PPTX
Presentación de servicios XMS (2025) - Partner Microsoft
INBOUND PLUS SpA
 
PPTX
Presentación_Estación_Total_Temas_Definidos.pptx fin.pptx
ximenamondrianbecerr
 
PDF
Seguridad y auditorías en Modelos grandes del lenguaje (LLM)
Jose Manuel Ortega Candel
 
PPTX
presentación a introducción de mantenimiento.pptx
ubaldoGonzalez16
 
Distribución de frecuencias y Diagrama de Pareto en Excel - Trabajo Colaborat...
mapaulahiguita
 
ESPECIALIDAD DE REDES SOCIALES guías mayores.pptx
DianaLauraMadridEsco1
 
(cloud computing) se refiere al acceso a recursos informáticos a través de in...
75485218
 
MAQUINA DE TURING Y VARIANTES DEL LA MAQUINA DE TURING.pptx
GabyBraga4
 
UiPath and Dream to Succeed Kick Off 2025 AI Agentic Automation RPA Program 2025
DianaGray10
 
HARDWARE ponderaciones y placas madre.pptx
jjcondori21
 
Revolucionando-los-Informes-Tecnicos-con-IA.pptx
DanielChura9
 
Poblacion_y_Muestra para trabajos de investigación pptx
yaneligomezcaceres
 
Curso.Formacion.dron.A1.A3.Completo.v1.pdf
jimenoasenjo1
 
Manejo de Web de demostración modulo IOT.pptx
IsaacFernandoPrezSal1
 
Exposición Rayleigh, teoría de la comunicación, etsii tugr
DanielPereiraRiquelm
 
albañileriaalbañileriaalbañileriaalbañileriaalbañileria
danteisrael987654321
 
Presentación de servicios XMS (2025) - Partner Microsoft
INBOUND PLUS SpA
 
Presentación_Estación_Total_Temas_Definidos.pptx fin.pptx
ximenamondrianbecerr
 
Seguridad y auditorías en Modelos grandes del lenguaje (LLM)
Jose Manuel Ortega Candel
 
presentación a introducción de mantenimiento.pptx
ubaldoGonzalez16
 
Publicidad

Big data para desarrolladores utilizando hadoop y openstack

  • 1. Big Data para desarrolladores: Hadoop y Openstack I Guillermo Alvarado Mejía DevOps Engineer Victor Barrera Nuñez Data Scientist
  • 2. Contenido ➢ Openstack ➢ Hadoop ➢ Arquitecturas en la nube ➢ Openstack & Hadoop ➢ Benchmark ➢ Consideraciones Generales ➢ Preguntas
  • 4. Openstack OpenStack es producto de la colaboración mundial de desarrolladores y administradores de sistemas DevOps que dan como resultado una plataforma Cloud de código abierto que entrega soluciones para todo tipo de nubes.
  • 6. Openstack Cuenta con más de 17.000 miembros individuales de 139 países y 850 organizaciones diferentes.
  • 8. Openstack Habilidades requeridas para incursionar en Openstack ➢ Python ○ Openstack está escrito en este lenguaje ➢ Linux (Command line navigation) ○ Openstack y sus componente corren sobre Linux ➢ Programación Bash (Linux scripting)
  • 9. Openstack ¿Quién utiliza OpenStack? Destacan: PayPal, MercadoLibre, Comcast, NSA, Rackspace, Cisco, PlayStation, Dream Host, el CERN y Kio Networks como pionero en Latinoamérica. Visita http://www.openstack.org/user-stories/
  • 10. Openstack Openstack está siendo acogido rápidamente en el sector corporativo.
  • 11. Openstack Esencial: Integración y API´s. SDK’s: Clojure, Erlang, Go, Java, JS, .NET, Perl, PHP, Python, Ruby, etc. ¿Bash? Command Line Interfaces.
  • 14. Hadoop ➢ Problemas con sistemas tradicionales ○ Procesadores más rápidos y más RAM en una única máquina ➢ Problemas con sistemas distribuidos ○ Sincronización de datos, ancho de banda, fallos parciales ➢ Era Big-Data ○ Terabytes de datos por día ➢ Requerimientos para un nuevo enfoque ○ Speculative execution ○ Replicación ○ Escalabilidad
  • 15. Hadoop ➢ Surge a partir de 2 publicaciones realizadas por Google en 2003 y 2004 ➢ Los datos son replicados múltiples veces en el sistema de archivos ○ Éstos son divididos en archivos más pequeños denominados “blocks” ➢ El nodo principal o master ○ Designa tareas a los nodos esclavos o datanodes ○ Reasigna tareas cuando un nodo falla o sale de operación
  • 16. Hadoop 1500 Nodos 690 Nodos 140 Nodos http://wiki.apache.org/hadoop/PoweredBy
  • 20. Hadoop ➢ Hadoop resuelve un problema real y por tal razón estará con nosotros por varias décadas ➢ Hadoop es una habilidad profesional que vale la pena adquirir
  • 22. Hadoop Habilidades requeridas para incursionar en Hadoop ➢ Java ○ Hadoop está escrito en este lenguaje ➢ Linux (Command line navigation) ○ Hadoop y sus componente corren sobre Linux ➢ Programación Bash (Linux scripting) ➢ Hadoop Streaming ○ Python ○ Rubi ○ C
  • 25. Arquitecturas en la nube Las Arquitecturas Cloud son los diseños y desarrollo de elementos de infraestructura virtual y software que hacen un uso eficiente de los servicios en Cloud.
  • 27. Arquitecturas en la nube ➢Son interoperables. ➢Ejecutan de forma óptima las tareas para cubrir una necesidad de negocio. ➢Sólo hacen uso de la infraestructura que es necesaria en cada momento. ➢Escalan basándose en la demanda.
  • 29. Arquitecturas en la nube ¿El problema? Son tareas concurrentes, repetitivas. Dejemos de perder el tiempo, automaticemos. Desde un enfoque DevOps. Heat es el proyecto de OpenStack para Orquestación.
  • 30. Arquitecturas en la nube Heat permiten la creación y gestión de: IPs flotantes, Instancias de computo, Redes, Virtuales, Volúmenes de almacenamiento, Grupo de seguridad/Firewall, Usuarios Funciones avanzadas: Alta disponibilidad, autoscaling, software de terceros, recovery. Además es compatible con Cloud Formation de AWS.
  • 32. Arquitecturas en la nube Plantillas Archivos de texto con formato YAML, son un documento que detalla la orquestación. Heat Orchestration Template (HOT), es el lenguaje nativo de Heat para escribir una plantilla.
  • 33. Arquitecturas en la nube Las plantillas también pueden especificar las relaciones entre los recursos, por ejemplo, este volumen está conectado a este servidor.
  • 37. Openstack & Hadoop Time To Provision Time To Market A Hadoop le viene como anillo al dedo Openstack y su elasticidad
  • 38. Openstack & Hadoop ➢ Tecnologías libres y de código abierto ➢ IDC estima un crecimiento alto (15%) de soluciones cloud y Big Data para 2014 ○ “Will big data make IT infraestructure sexy again?“, Mike Barlow, O’Reilly, 2014) ➢ Tecnologías y soluciones Big Data abarcarán el 89% de las inversiones en IT durante 2014 ➢ 70% de los datawarehouse experimentan problemas de procesamiento y almacenamiento, Gartner
  • 40. Benchmark Cantidad de nodos de datos (datanodes) ➢ IBM tiene el cluster más grande con 1000 nodos de datos ➢ En promedio los cluster tienen 14 nodos de datos
  • 41. Benchmark ➢ IBM, CISCO y HP son los cluster más rápidos ➢ KIO/DATTLAS es el 8º más rápido con 40 minutos para ordenar 1TB de datos Tiempo transcurrido ordenando un 1TB de datos
  • 42. Benchmark ➢ CISCO tiene el cluster más eficiente con ~225 MB/seg por datanode ➢ IBM tiene el cluster más inificiente con 9,5MB/seg procesados por datanode Velocidad de procesamiento por datanode
  • 43. Benchmark ➢ Los fabricantes tienen un promedio de 1170 GB RAM ➢ Nótese que a mayor memoria RAM, menor el tiempo de procesamiento Memoria RAM total instalada
  • 46. Openstack & Hadoop El futuro: Sahara by Openstack. Disponible para Juno. Proyecto que proporciona un medio sencillo para aprovisionar un cluster Hadoop sobre Openstack. Configuración de varios parámetros: versión de Hadoop, la topología del cluster, los detalles de los nodos, etc.
  • 47. Openstack & Hadoop ➢ Con un solo clic, autoservicio de aprovisionamiento basado en plantillas ➢ Escalamiento dinámico, disparadores de workloads. ➢ Medición de recursos de manera sencilla, Hadoop as a Service.
  • 48. Openstack & Hadoop ➢ API´s para ejecutar tareas Map/Reduce, Oozie workflows, consutas Hive/Pig. ➢ Administración y monitoreo centralizado. ➢ Accesos a datos controlados. ➢ Acceso a UI integrado, como Hive y Pig.
  • 49. Openstack & Hadoop ➢ Infraestructura ○ Nube privada o pública (OpenStack) ○ Alojamiento de servidores (Co-location) ➢ Misión crítica, datacenter diseño TIER IV ➢ Operación ○ Help desk 24/7 ➢ Big Data ○ Generación de modelos matemáticos ○ Hadoop as a Service ○ Data-Analytics as a Service