Construyendo una infraestructura 
de Big Data rentable y escalable 
Gustavo Arjones 
gustavo@socialmetrix.com 
@arjones 
Juan Pampliega 
jpampliega@socialmetrix.com 
@juanpampliega
Gustavo Arjones 
Co-founder & CTO, Socialmetrix 
Lic. Ciencias Computación 
MBA Marketing Servicios 
@arjones 
gustavo@socialmetrix.com 
Brasileño, en Argentina desde 2008 
Juan Pampliega 
Big Data Developer, Socialmetrix 
Ing. Informática ITBA 
@juanpampliega 
jpampliega@socialmetrix.com
Agenda 
• Sobre Socialmetrix 
• Nuestra arquitectura 
• Conceptos importantes 
• Lecciones aprendidas 
• Dónde aprender más
Socialmetrix 
Medimos la actividad de las compañías 
y personalidades en las redes sociales 
para generar valor a profesionales de 
Marketing, Investigación de Mercado y 
Producto. 
Software As A Service
Construyendo una Infraestructura de Big Data rentable y escalable (la evolución de nuestra plataforma)
En números 
• Capturando +5MM de fanpages de Facebook, cuentas de 
Twitter, blogs, sites, etc 
• Se generan +1.000 MM de interacciones en un mes 
• Capturamos +1.000 Gb por mes de nuevos datos, los 
antiguos no se borran 
• 200+ servidores, + databases, +ambientes de 
prueba/staging
Nuestra 
arquitectura
Big Data – el nuevo, nuevo paradigma 
Volumen + Velocidad + Variedad 
Nuevas Tecnologías (Kafka + Spark + Cassandra) 
Procesamiento de Datos 
Distribuido y Escalable
Conceptos del nuevo paradigma 
Un único repositorio de datos, append only. 
query = function(all data) 
Simple de razonar 
Verdad en un momento dado 
Siempre puede ser “re-computado” 
Permite evolución
Arquitectura Lambda 
Tiempo promedio de 
respuesta? 
Número de Tweets 
por Segundo?
Arquitectura Lambda 
• Crear un sistema tolerante a fallos tanto de hardware como 
los humanos 
• Permitir lecturas y escrituras de baja latencia 
• Escalabilidad lineal horizontal 
• Facilidad de re-procesos 
• Permitir la investigación interactiva de los datos
Arquitectura Lambda (críticas) 
Muchos esfuerzos duplicados (Realtime + Batch Processing) 
• Duplicación de Lógica 
• Duplicación de Know-how & Esfuerzo 
• Asume que el procesamiento RT no es confiable 
http://radar.oreilly.com/2014/07/questioning-the-lambda-architecture.html
Evolución de Plataforma 
S3 
Data Stream
Evolución de Plataforma 
S3 
Data Stream
Otros desafíos 
• Información llega fuera de orden (no es time-ordered) 
• Duplicados es una realidad 
• Encoding de la fuente no siempre está bien configurado 
• API rate-limit
Lecciones 
Aprendidas
Evolución de tecnologías
Depuración de la plataforma
Los errores 
• Falta de foco, demasiadas tecnologías (hay mucho buzz) 
• No empezar sin una investigación exhaustiva (alguien lo 
hizo antes!) 
• No cambiar/procesar los datos antes de guardar (guardar 
raw data) 
• No automatizar desde el principio
Los aciertos 
• División/especialización de profesionales 
• Crawling, Natural Language Processing, Big Data, API, 
Visualización 
• Aprendimos de Open Source (leer código, mejores 
practicas) 
• Automación de tareas operacionales(ie: Puppet, 
CloudFormation) 
• Crear un ambiente rico para experimentación
Buscar el conocimiento formal (papers y libros) 
• Crawlers 
• Text-mining 
• Disambiguation 
• Sentiment Analysis 
• Message Oriented Platform
Recomendaciones 
• Utilizar Amazon AWS hace que muchas ideas se puedan 
probar inmediatamente – hay scripts y “AMI” pre-armadas 
• Hacer pruebas con Spot Instances vs. Instancias más 
grandes 
• Automatizar los procesos desde el día 1 (Puppet, 
CloudFormation) 
• Virtualización, incluso en Dev: Vagrant, Docker, CoreOS
Recomendaciones 
• Testing, testing, testing 
• Usar datasets medianos en Dev y grandes en Staging 
• Monitorear los procesos, aprender los patrones de los 
datos
Dónde aprender 
más
Mucha documentación disponible 
Lamda Architecture 
http://lambda-architecture.net/ 
Getting Started with Big Data Architecture 
http://blog.cloudera.com/blog/2014/09/getting-started-with-big-data-architecture/ 
Your weekly Hadoop news fix 
http://www.hadoopweekly.com/ 
The Hortonworks Blog 
http://hortonworks.com/blog/ 
Applying the Lambda Architecture with Spark - Jim Scott 
http://spark-summit.org/2014/talk/applying-the-lambda-architecture-with-spark 
Cloudera Engineering Blog 
http://blog.cloudera.com/blog/ 
Listado de herramientas de Big Data y papers relevantes 
http://blog.andreamostosi.name/big-data/
Obrigado & Gracias! 
Gustavo & Juan 
jobs@socialmetrix.com

Más contenido relacionado

PDF
ARQCONF2015: Creando una Arquitectura Moderna para Big Data Analytics
PPTX
Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...
PPTX
Instalando Datastax Analytics (Cassandra Y Spark) Con Azure Templates
PDF
Introduccion a Apache Spark
PDF
Apache Spark y Big Data
PPTX
El mundo Big Data y las APIs
PDF
Parallel Programming
PDF
Primeros pasos con Apache Spark - Madrid Meetup
ARQCONF2015: Creando una Arquitectura Moderna para Big Data Analytics
Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...
Instalando Datastax Analytics (Cassandra Y Spark) Con Azure Templates
Introduccion a Apache Spark
Apache Spark y Big Data
El mundo Big Data y las APIs
Parallel Programming
Primeros pasos con Apache Spark - Madrid Meetup

La actualidad más candente (20)

PDF
¿Por que cambiar de Apache Hadoop a Apache Spark?
PPTX
Estudio sobre Spark, Storm, Kafka y Hive
PPTX
Monta una Infraestructura Big Data para tu Empresa - Sesión I
PPTX
Big data con Hadoop y SSIS 2016
PDF
Why Apache Flink is better than Spark by Rubén Casado
PDF
Hadoop
PDF
Cassandra Meet Up Noviembre - Drag & Drop Techs With Cassandra
PPTX
Webinar - Advanced Analytics con Oracle Autonomous Data Warehouse
PDF
Innovación Amazon
PDF
BI real time analytics
PPTX
Monta una Infraestructura para Big Data en tu Empresa
PDF
Hadoop en accion
PDF
Taller: Limpieza y preparación de datos con Optimus y Apache Spark
PDF
Machine learning usando Weka, en un entorno de cómputo distribuido
PDF
Introducción a Hadoop
PPTX
Azure Databricks
PPTX
Conociendo los servicios adicionales en big data
PPTX
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
PDF
Panorama BigData (OpenExpo2017)
PDF
Big Data a traves de una implementación
¿Por que cambiar de Apache Hadoop a Apache Spark?
Estudio sobre Spark, Storm, Kafka y Hive
Monta una Infraestructura Big Data para tu Empresa - Sesión I
Big data con Hadoop y SSIS 2016
Why Apache Flink is better than Spark by Rubén Casado
Hadoop
Cassandra Meet Up Noviembre - Drag & Drop Techs With Cassandra
Webinar - Advanced Analytics con Oracle Autonomous Data Warehouse
Innovación Amazon
BI real time analytics
Monta una Infraestructura para Big Data en tu Empresa
Hadoop en accion
Taller: Limpieza y preparación de datos con Optimus y Apache Spark
Machine learning usando Weka, en un entorno de cómputo distribuido
Introducción a Hadoop
Azure Databricks
Conociendo los servicios adicionales en big data
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Panorama BigData (OpenExpo2017)
Big Data a traves de una implementación
Publicidad

Destacado (20)

PDF
Big Data - Infraestrucutra de BI para soluciones de BI
PPTX
Jornada en enpresa digitala: Mitos y Realidades del Big Data
PPTX
Visualización de Big Data con Power View
PDF
Webinar Dic 2016 BOC Cloud_v1
PDF
Curso de big data
PPTX
Que debe saber un DBA de SQL Server sobre Hadoop
PDF
ASPgems - kappa architecture
PPTX
Monta una Infraestructura Big Data para tu Empresa - Sesión II
PPT
Big Data Open Source Analytics (español)
PPTX
Infraestructura para big data Telefónica
PPTX
Hadoop & Cloud Storage: Object Store Integration in Production
PPTX
Big Data y Minería de datos
PDF
A real time architecture using Hadoop and Storm @ FOSDEM 2013
PDF
Cursos de Big Data y Machine Learning
PPTX
Almacenamiento en la Nube y Cloud Computing
PDF
Arquitectura Lambda
PPTX
Modernise your EDW - Data Lake
PDF
Apache Storm vs. Spark Streaming - two stream processing platforms compared
PDF
Architecting a multi-tenanted platform
PDF
La Transformación digital y cultural del BBVA
Big Data - Infraestrucutra de BI para soluciones de BI
Jornada en enpresa digitala: Mitos y Realidades del Big Data
Visualización de Big Data con Power View
Webinar Dic 2016 BOC Cloud_v1
Curso de big data
Que debe saber un DBA de SQL Server sobre Hadoop
ASPgems - kappa architecture
Monta una Infraestructura Big Data para tu Empresa - Sesión II
Big Data Open Source Analytics (español)
Infraestructura para big data Telefónica
Hadoop & Cloud Storage: Object Store Integration in Production
Big Data y Minería de datos
A real time architecture using Hadoop and Storm @ FOSDEM 2013
Cursos de Big Data y Machine Learning
Almacenamiento en la Nube y Cloud Computing
Arquitectura Lambda
Modernise your EDW - Data Lake
Apache Storm vs. Spark Streaming - two stream processing platforms compared
Architecting a multi-tenanted platform
La Transformación digital y cultural del BBVA
Publicidad

Similar a Construyendo una Infraestructura de Big Data rentable y escalable (la evolución de nuestra plataforma) (20)

PPTX
Java script para desarrolladores SharePoint
PPTX
Empleos con futuro. Perfil de un ingeniero de datos
PDF
Semana de la I+D - Proyecto OPOSSUM
PDF
Tecnologías de hoy y del futuro
PDF
Presentación taller aplicaciones
PPTX
Text Mining con R en SQL Server 2016
PPTX
El hacking desde el punto de vista de la seguridad informática
PPTX
Introduction to Machine Learning with Azure
PPTX
Big Data en Azure: Azure Data Lake
PDF
Big data una cuantificación importante..
PDF
Ingeniero en Sistemas Computacionales por un Día.pdf
PDF
"Al rico" PHP
PPTX
Big Data - Desarrollando soluciones efectivas
PPT
Modulo1-Presentaciones-parte01.1.ppt
KEY
Grails, opción real y escalable para sitios web de alta carga
PDF
Bajandose de la nube y volviendose a subir
PDF
Webinar Arquitectura de Microservicios
PPTX
Curso desarrollo y comercialización de aplicaciones SaaS
PPTX
Christian Oviedo
KEY
Aplicaciones web altamente escalables con Redis
Java script para desarrolladores SharePoint
Empleos con futuro. Perfil de un ingeniero de datos
Semana de la I+D - Proyecto OPOSSUM
Tecnologías de hoy y del futuro
Presentación taller aplicaciones
Text Mining con R en SQL Server 2016
El hacking desde el punto de vista de la seguridad informática
Introduction to Machine Learning with Azure
Big Data en Azure: Azure Data Lake
Big data una cuantificación importante..
Ingeniero en Sistemas Computacionales por un Día.pdf
"Al rico" PHP
Big Data - Desarrollando soluciones efectivas
Modulo1-Presentaciones-parte01.1.ppt
Grails, opción real y escalable para sitios web de alta carga
Bajandose de la nube y volviendose a subir
Webinar Arquitectura de Microservicios
Curso desarrollo y comercialización de aplicaciones SaaS
Christian Oviedo
Aplicaciones web altamente escalables con Redis

Más de Socialmetrix (15)

PDF
7 Disparadores de Engagement para o mercado de consumo massivo
PDF
The Ultimate Guide to using Social Media Media Analytics
PDF
Social Media is no longer something relevant just for the area of Marketing. ...
PDF
How to Create a Successful Social Media Campaign
PDF
AWS re:Invent 2014 | (ARC202) Real-World Real-Time Analytics
PDF
Tutorial en Apache Spark - Clasificando tweets en realtime
PPT
Introducción a Apache Spark a través de un caso de uso cotidiano
PPTX
Introducción a Apache Spark
PDF
Social media brasil 2014 - O Marketing e as Redes Sociais em tempos de conver...
PDF
14º Encontro Locaweb - Evolução das Plataformas para Métricas Sociais
PPTX
Call2Social
PDF
PPTX
Jugar Introduccion a Scala
PPTX
Endeavor – métricas em mídias sociais
PDF
MongoDB, RabbitMQ y Applicaciones en Nube
7 Disparadores de Engagement para o mercado de consumo massivo
The Ultimate Guide to using Social Media Media Analytics
Social Media is no longer something relevant just for the area of Marketing. ...
How to Create a Successful Social Media Campaign
AWS re:Invent 2014 | (ARC202) Real-World Real-Time Analytics
Tutorial en Apache Spark - Clasificando tweets en realtime
Introducción a Apache Spark a través de un caso de uso cotidiano
Introducción a Apache Spark
Social media brasil 2014 - O Marketing e as Redes Sociais em tempos de conver...
14º Encontro Locaweb - Evolução das Plataformas para Métricas Sociais
Call2Social
Jugar Introduccion a Scala
Endeavor – métricas em mídias sociais
MongoDB, RabbitMQ y Applicaciones en Nube

Último (20)

PDF
conceptosbsicosdeprogramacinpseintlaura.pdf
DOCX
Planeaciónnnnnnnnnnnnnnnnnnnnnnnnnnnnnnn
PPTX
1.Introducción a los sistemas de control.pptx
PPTX
Desarrollo Seguro en un mundo multi-stack con Pruebas de Seguridad de Forma A...
PPTX
en este libro encontrarás la lectura inicial para tus niños
PDF
Virus y otras amenazas _ Ciudadanía _ INCIBE.pdf
PDF
Conceptos básicos de programación PseInt laura.pdf
PDF
¿Qué hace un Data Warehouse Engineer blog.victorsantiz.com.pdf
PDF
sol tecnología 2025.pdf........pdf10-7grado
PDF
Estrategia de apoyo de tecnología 9-5 Daylin Castaño
PDF
Ciberataques, Normativas y Protección: Ayudando a las Entidades Financieras a...
PPTX
LEGALIZACIÓN Y VERIFICACIÓN DE UN APARATO TAXÍMETRO
PDF
Control total para proteger tus activos en base al riesgo
PPTX
seguridad digital ,paloma bernabe alvarez.
PDF
004-CC2014-Irrigacion Mbb equinos del mundo
PPTX
Del SIEM Tradicional al SOC del Futuro: La Evolución Inteligente
PPTX
Redes neuronales artificiales y como entrenarlas
PDF
Sesión 6 - Seguridad de almacenamiento.pdf
PDF
Más Allá de la Autenticación: Gestión Moderna de Identidad en el sector Finan...
PPTX
Más Allá del SOC Tradicional: IA y Automatización para Cumplimiento y Respues...
conceptosbsicosdeprogramacinpseintlaura.pdf
Planeaciónnnnnnnnnnnnnnnnnnnnnnnnnnnnnnn
1.Introducción a los sistemas de control.pptx
Desarrollo Seguro en un mundo multi-stack con Pruebas de Seguridad de Forma A...
en este libro encontrarás la lectura inicial para tus niños
Virus y otras amenazas _ Ciudadanía _ INCIBE.pdf
Conceptos básicos de programación PseInt laura.pdf
¿Qué hace un Data Warehouse Engineer blog.victorsantiz.com.pdf
sol tecnología 2025.pdf........pdf10-7grado
Estrategia de apoyo de tecnología 9-5 Daylin Castaño
Ciberataques, Normativas y Protección: Ayudando a las Entidades Financieras a...
LEGALIZACIÓN Y VERIFICACIÓN DE UN APARATO TAXÍMETRO
Control total para proteger tus activos en base al riesgo
seguridad digital ,paloma bernabe alvarez.
004-CC2014-Irrigacion Mbb equinos del mundo
Del SIEM Tradicional al SOC del Futuro: La Evolución Inteligente
Redes neuronales artificiales y como entrenarlas
Sesión 6 - Seguridad de almacenamiento.pdf
Más Allá de la Autenticación: Gestión Moderna de Identidad en el sector Finan...
Más Allá del SOC Tradicional: IA y Automatización para Cumplimiento y Respues...

Construyendo una Infraestructura de Big Data rentable y escalable (la evolución de nuestra plataforma)

  • 1. Construyendo una infraestructura de Big Data rentable y escalable Gustavo Arjones [email protected] @arjones Juan Pampliega [email protected] @juanpampliega
  • 2. Gustavo Arjones Co-founder & CTO, Socialmetrix Lic. Ciencias Computación MBA Marketing Servicios @arjones [email protected] Brasileño, en Argentina desde 2008 Juan Pampliega Big Data Developer, Socialmetrix Ing. Informática ITBA @juanpampliega [email protected]
  • 3. Agenda • Sobre Socialmetrix • Nuestra arquitectura • Conceptos importantes • Lecciones aprendidas • Dónde aprender más
  • 4. Socialmetrix Medimos la actividad de las compañías y personalidades en las redes sociales para generar valor a profesionales de Marketing, Investigación de Mercado y Producto. Software As A Service
  • 6. En números • Capturando +5MM de fanpages de Facebook, cuentas de Twitter, blogs, sites, etc • Se generan +1.000 MM de interacciones en un mes • Capturamos +1.000 Gb por mes de nuevos datos, los antiguos no se borran • 200+ servidores, + databases, +ambientes de prueba/staging
  • 8. Big Data – el nuevo, nuevo paradigma Volumen + Velocidad + Variedad Nuevas Tecnologías (Kafka + Spark + Cassandra) Procesamiento de Datos Distribuido y Escalable
  • 9. Conceptos del nuevo paradigma Un único repositorio de datos, append only. query = function(all data) Simple de razonar Verdad en un momento dado Siempre puede ser “re-computado” Permite evolución
  • 10. Arquitectura Lambda Tiempo promedio de respuesta? Número de Tweets por Segundo?
  • 11. Arquitectura Lambda • Crear un sistema tolerante a fallos tanto de hardware como los humanos • Permitir lecturas y escrituras de baja latencia • Escalabilidad lineal horizontal • Facilidad de re-procesos • Permitir la investigación interactiva de los datos
  • 12. Arquitectura Lambda (críticas) Muchos esfuerzos duplicados (Realtime + Batch Processing) • Duplicación de Lógica • Duplicación de Know-how & Esfuerzo • Asume que el procesamiento RT no es confiable http://radar.oreilly.com/2014/07/questioning-the-lambda-architecture.html
  • 13. Evolución de Plataforma S3 Data Stream
  • 14. Evolución de Plataforma S3 Data Stream
  • 15. Otros desafíos • Información llega fuera de orden (no es time-ordered) • Duplicados es una realidad • Encoding de la fuente no siempre está bien configurado • API rate-limit
  • 18. Depuración de la plataforma
  • 19. Los errores • Falta de foco, demasiadas tecnologías (hay mucho buzz) • No empezar sin una investigación exhaustiva (alguien lo hizo antes!) • No cambiar/procesar los datos antes de guardar (guardar raw data) • No automatizar desde el principio
  • 20. Los aciertos • División/especialización de profesionales • Crawling, Natural Language Processing, Big Data, API, Visualización • Aprendimos de Open Source (leer código, mejores practicas) • Automación de tareas operacionales(ie: Puppet, CloudFormation) • Crear un ambiente rico para experimentación
  • 21. Buscar el conocimiento formal (papers y libros) • Crawlers • Text-mining • Disambiguation • Sentiment Analysis • Message Oriented Platform
  • 22. Recomendaciones • Utilizar Amazon AWS hace que muchas ideas se puedan probar inmediatamente – hay scripts y “AMI” pre-armadas • Hacer pruebas con Spot Instances vs. Instancias más grandes • Automatizar los procesos desde el día 1 (Puppet, CloudFormation) • Virtualización, incluso en Dev: Vagrant, Docker, CoreOS
  • 23. Recomendaciones • Testing, testing, testing • Usar datasets medianos en Dev y grandes en Staging • Monitorear los procesos, aprender los patrones de los datos
  • 25. Mucha documentación disponible Lamda Architecture http://lambda-architecture.net/ Getting Started with Big Data Architecture http://blog.cloudera.com/blog/2014/09/getting-started-with-big-data-architecture/ Your weekly Hadoop news fix http://www.hadoopweekly.com/ The Hortonworks Blog http://hortonworks.com/blog/ Applying the Lambda Architecture with Spark - Jim Scott http://spark-summit.org/2014/talk/applying-the-lambda-architecture-with-spark Cloudera Engineering Blog http://blog.cloudera.com/blog/ Listado de herramientas de Big Data y papers relevantes http://blog.andreamostosi.name/big-data/