Big	
  Data	
  
Aplicação	
  e	
  tecnologia	
  
07	
  de	
  junho	
  de	
  2014	
  
Dilúvio	
  de	
  Dados	
  na	
  Ciência	
  
Selfie	
  do	
  Opportunity	
  –	
  138	
  MB	
  
Hubble	
  –	
  844	
  GB/mês	
  
CERN	
  –	
  35	
  Petabytes/ano	
  	
  
O	
  que	
  muda	
  na	
  ciência	
  ?	
  
E	
  aqui	
  não	
  está	
  diferente	
  
1,2	
  bilhões	
  de	
  Likes/dia	
  
E	
  os	
  volumes	
  con;nuarão	
  crescendo
	
  	
  
•  Internet	
  das	
  Coisas	
  (IoT)	
  9,6	
  bilhões	
  de	
  
disposiQvos	
  conectados	
  
•  IoT	
  está	
  apenas	
  na	
  sua	
  infância	
  
•  Até	
  2020	
  os	
  carros	
  conectados	
  irão	
  gerar	
  	
  
11	
  Petabytes	
  
Disposi;vos	
  móveis	
  -­‐	
  crescimento	
  
The	
  Nexus	
  Forces	
  -­‐	
  Gartner	
  
O	
  Termo	
  Big	
  Data	
  
Erik	
  Larson,	
  1989	
  	
  na	
  Harper’s	
  Magazine:	
  
	
  
“The	
  keepers	
  of	
  Big	
  Data	
  say	
  they	
  do	
  it	
  for	
  the	
  
consumer's	
  benefit.	
  But	
  data	
  have	
  a	
  way	
  of	
  being	
  used	
  
for	
  purposes	
  other	
  than	
  originally	
  intended.”	
  
	
  
Aqueles	
  que	
  guardam	
  grandes	
  volumes	
  de	
  dados	
  dizem	
  
que	
  o	
  fazem	
  em	
  bene`cio	
  do	
  consumidor.	
  Mas	
  há	
  
formas	
  de	
  usá-­‐los	
  para	
  propósitos	
  diferentes	
  dos	
  
originais.	
  
O	
  que	
  você	
  diz	
  pelo	
  disposi;vo	
  móvel	
  
Tipo	
  de	
  lugar	
  que	
  frequenta,	
  onde	
  
circula	
  na	
  cidade	
  
Inclinações	
  políQcas	
  
Hábitos	
  de	
  compra,	
  de	
  consumo	
  
de	
  entretenimento	
  etc.	
  
E	
  o	
  que	
  empresas	
  e	
  governos	
  fazem?	
  
•  Empresas	
  formam	
  perfis	
  para	
  	
  
–  IdenQficar	
  propensão	
  e	
  hábitos	
  de	
  consumo	
  
–  Ofertar	
  produtos	
  e	
  serviços	
  próprios	
  e	
  de	
  terceiros	
  
–  Melhorar	
  a	
  experiência	
  de	
  consumo	
  
–  Engajar	
  e	
  fidelizar	
  
–  GeomarkeQng	
  
–  Criar	
  uma	
  fonte	
  rica	
  de	
  feedback	
  de	
  produtos	
  e	
  serviços	
  
•  Governos	
  
–  IdenQficar	
  ameaças	
  e	
  riscos	
  (terrorismo)	
  
–  Mobilidade	
  urbana	
  
–  Cidades	
  inteligentes	
  
Relações	
  econômicas	
  baseadas	
  em	
  dados	
  
Ad	
  	
  para	
  esporQsta,	
  
25-­‐35	
  anos,	
  classe	
  
A,	
  zona	
  sul	
  de	
  SP.	
  
Pago	
  $1	
  por	
  
exposição	
  e	
  $2	
  por	
  
conversão.	
  	
  
API	
  
Aceito	
  /	
  
TransmiQdo	
  para	
  
500.000	
  perfis	
  
API	
  
Data	
  Broker	
  
Organização	
  
Banco	
  de	
  dados	
  logo	
  
será	
  um	
  aQvo	
  assim	
  
como	
  a	
  marca	
  
Big	
  Data	
  Analy;cs	
  
Big	
  Data	
  me	
  sugere	
  uma	
  questão	
  de	
  engenharia.	
  
	
  
AnalyQcs,	
  por	
  outro	
  lado,	
  sobre	
  como	
  gerar	
  valor.	
  
Big	
  Data	
  –	
  a	
  resposta	
  de	
  engenharia	
  
Yahoo	
  Hadoop	
  Cluster	
  
Dividir	
  para	
  conquistar	
  
Escalabilidade	
  Horizontal	
  X	
  Ver;cal 	
  	
  
Ciência	
  de	
  dados	
  -­‐	
  requisitos	
  
Drew	
  Conway’s	
  Data	
  Science	
  Venn	
  
Diagram	
  
hkp://drewconway.com/zia/2013/3/26/
the-­‐data-­‐science-­‐venn-­‐diagram	
  
Perfil	
  do	
  Cien;sta	
  de	
  Dados	
  	
  
A	
  profissão	
  mais	
  sexy	
  do	
  século	
  21	
  
•  Programador	
  em	
  várias	
  linguagens	
  
•  Computação	
  avançada	
  para	
  processamento	
  
distribuído,	
  massivo	
  e	
  paralelo	
  
•  Modelagem	
  de	
  Dados	
  (relacional	
  e	
  não	
  relacional)	
  
•  DBA	
  (administrador	
  de	
  banco	
  de	
  dados)	
  
•  EstamsQco	
  
•  MatemáQco	
  
•  Designer	
  de	
  Visualização	
  e	
  ReporQng	
  
•  Entender	
  o	
  Negócio	
  e	
  ter	
  domínio	
  do	
  Qpo	
  de	
  
informação	
  que	
  está	
  lidando	
  
hkp://hbr.org/2012/10/data-­‐scienQst-­‐the-­‐sexiest-­‐job-­‐of-­‐the-­‐21st-­‐century/ar/1	
  
	
  
• Estabelece	
  hipóteses	
  1	
  
• Coleta	
  e	
  normaliza	
  dados	
  2	
  
• Processa	
  e	
  analisa	
  resultados	
  3	
  
• Comunica	
  resultados	
  4	
  
A;vidades	
  de	
  um	
  cien;sta	
  de	
  dados	
  
•  Análise	
  Operacional	
  (estamsQca	
  descriQva)	
  
•  Exploratória	
  (correlações,	
  business	
  insights)	
  
•  Modelos	
  PrediQvos	
  (regressão)	
  
•  Análise	
  de	
  redes	
  (grafos)	
  
•  Análise	
  de	
  Metadados	
  (NSA)	
  
Ciência	
  de	
  Dados	
  -­‐	
  zona	
  morna	
  
Ciência	
  de	
  Dados	
  –	
  zona	
  quente	
  
•  Machine	
  Learning	
  /	
  Aprendizado	
  de	
  Máquina	
  
– Sistemas	
  de	
  recomendação	
  (Amazon,	
  Neplix	
  etc.)	
  
– Search	
  Engine	
  (Google	
  Humingbird	
  /	
  PageRank)	
  
– Análise	
  de	
  senQmento	
  e	
  categorização	
  de	
  texto	
  
(processamento	
  da	
  linguagem	
  natural-­‐NLP)	
  
– Segurança	
  (AnQ-­‐Fraude,	
  anQ-­‐spam,	
  vírus	
  etc.)	
  
– Prevenção	
  ao	
  cancelamento	
  de	
  assinaturas	
  
(customer	
  churn)	
  
– Detecção	
  de	
  anomalias	
  
– Visão	
  de	
  máquina	
  
Machine	
  Learning	
  e	
  as	
  novas	
  fronteiras	
  
•  Internet	
  das	
  Coisas	
  
–  Segurança	
  patrimonial	
  
–  Edi`cios	
  inteligentes	
  
–  Consumo	
  de	
  eletricidade	
  
–  Monitoramento	
  aQvo	
  em	
  processos	
  produQvos	
  (refinarias,	
  linhas	
  de	
  
produção	
  etc.)	
  
•  QuanQfied	
  	
  Self	
  
–  Administração	
  dos	
  níveis	
  glicêmicos	
  para	
  diabéQcos	
  
–  Monitoramento	
  aQvo	
  e	
  intervenção	
  em	
  pacientes	
  de	
  risco	
  
–  Frequência	
  cardíaca,	
  arritmias	
  
•  Smart	
  CiQes	
  
–  Distribuição	
  de	
  água	
  
–  Mobilidade	
  urbana	
  
–  Administração	
  de	
  áreas	
  de	
  risco	
  
•  Prevenção	
  de	
  catástrofes	
  naturais	
  (deslizamento	
  de	
  terra,	
  sismos,	
  enchentes,	
  
tsunamis	
  etc)	
  
Ferramental	
  do	
  cien;sta	
  de	
  dados	
  
•  R	
  e	
  RStudio	
  
•  Python	
  /	
  iPhyton	
  (bibliotecas	
  scikit	
  learn,	
  nltk,	
  
pandas	
  etc.)	
  
•  Octave	
  /	
  MatLab	
  
•  Linguagem	
  SQL	
  (acesso	
  a	
  Hadoop	
  e	
  bancos	
  
colunares	
  de	
  alta	
  performance)	
  
•  SAS	
  
•  SPSS	
  
•  Gephi	
  	
  e	
  Neo4J	
  para	
  Grafos	
  
•  etc	
  
Informações	
  importantes	
  
•  R,	
  Python	
  e	
  Octave	
  podem	
  tratar	
  dados	
  até	
  o	
  
limite	
  da	
  máquina	
  onde	
  operam	
  (dependem	
  
de	
  escalabilidade	
  verQcal)	
  
•  Vários	
  meios	
  de	
  conexão	
  entre	
  R,	
  Python	
  e	
  
Hadoop	
  
•  Python	
  é	
  uma	
  linguagem	
  que	
  ganhou	
  
habilidade	
  estamsQca	
  	
  
•  R	
  é	
  um	
  sotware	
  estamsQco	
  que	
  ganhou	
  uma	
  
linguagem	
  de	
  programação	
  
Empregos	
  em	
  Data	
  Science	
  
hkp://www.indeed.com/jobtrends?q=Data-­‐science&relaQve=1	
  
Indeed.com	
  searches	
  millions	
  of	
  jobs	
  from	
  thousands	
  of	
  job	
  sites.	
  
This	
  job	
  trends	
  graph	
  shows	
  relaQve	
  growth	
  for	
  jobs	
  we	
  find	
  matching	
  your	
  search	
  terms.	
  	
  
Mercado	
  de	
  novas	
  possibilidades	
  
Telecomunicação	
  
• Perfil	
  de	
  Cliente	
  
• Análise	
  e	
  OQmização	
  de	
  redes	
  
U>lidades	
  
• Smart	
  Meter	
  AnalyQcs	
  
• Gerenciamento	
  dos	
  AQvos	
  
Varejo	
  
• Omni-­‐channel	
  MarkeQng	
  
• Real-­‐Qme	
  promoQons	
  
Transporte	
  
• oQmização	
  logísQca	
  
• congesQonamento	
  do	
  
tráfego	
  
Serviços	
  
Financeiros	
  
• Detecção	
  de	
  Fraude	
  
• Visão	
  360°do	
  cliente	
  
Midia	
  Digital	
  
• Segmentação	
  de	
  
anúncios	
  em	
  tempo	
  real	
  
Saúde	
  
• Análise	
  de	
  registros	
  médicos	
  
• Monitoramento	
  de	
  doenças	
  
Segurança	
  
• Vigilância	
  MulQmodal	
  
• Detecção	
  de	
  segurança	
  
cibernéQca	
  
Visão	
  de	
  BI	
  e	
  de	
  Data	
  Science	
  
BI	
   Data	
  Science	
  
PerspecQva	
   Olha	
  o	
  que	
  já	
  foi	
   Olha	
  o	
  que	
  virá	
  
ExperQse	
   Usuário	
  no	
  negócio	
   CienQsta	
  de	
  dados	
  
Questões	
   O	
  que	
  houve?	
   O	
  que	
  pode	
  acontecer?	
  	
  
E	
  se?	
  Será	
  que?	
  
Olha	
   Para	
  dentro	
   Para	
  o	
  contexto	
  
Análise	
   DescriQva	
   PrediQva	
  
Resultado	
   DiagnósQco	
   PerspecQva	
  
Números	
   Exatos	
   Aproximados	
  
Somando	
  BI	
  e	
  Data	
  Science	
  	
  
•  Analista	
  do	
  Walmart	
  cruza	
  vendas	
  do	
  BI	
  com	
  
dados	
  de	
  tempo	
  e	
  descobre	
  que	
  quando	
  há	
  
alerta	
  de	
  furacões:	
  
– Aumenta	
  muito	
  a	
  venda	
  de	
  cerveja	
  (inesperado)	
  
– Aumenta	
  venda	
  de	
  mini-­‐tortas	
  de	
  morango	
  e	
  
bolos	
  para	
  o	
  café	
  da	
  manhã	
  (inesperado)	
  
•  Decisão:	
  reforçar	
  estoques	
  desses	
  itens	
  nas	
  
lojas	
  que	
  estão	
  no	
  raio	
  de	
  ação	
  de	
  furacões.	
  
Mais	
  informações 	
  	
  
•  Linkedin:	
  Grupo	
  Big	
  Data	
  e	
  Machine	
  Learning	
  no	
  Brasil	
  
•  MOOC’s	
  do	
  Coursera	
  	
  
–  Machine	
  Learning	
  –	
  Johns	
  Hopkins	
  University	
  
–  Data	
  Science	
  –	
  Bill	
  Howe	
  –	
  Univ.	
  Washington	
  
–  Machine	
  Learning	
  –	
  Stanford	
  –	
  Andrew	
  NG	
  
–  Neural	
  Networks	
  for	
  Machine	
  Learning	
  –	
  Univ.	
  Toronto	
  
–  CompuQng	
  for	
  Data	
  Analysis	
  –	
  Johns	
  Hopkins	
  University	
  
–  Social	
  Network	
  Analysis	
  –	
  Univ.	
  Michigan	
  	
  
–  Core	
  concepts	
  in	
  Data	
  Analysis	
  –	
  Higher	
  School	
  of	
  Economics	
  
•  Unicamp	
  
•  UFSCar	
  
–  Prof.:	
  Estevam	
  Rafael	
  Hruschka	
  Junior	
  	
  
(hkp://www2.dc.ufscar.br/~estevam/)	
  
Recomendo	
  
Obrigado	
  
hkp://br.linkedin.com/in/helioss/	
  
Hasta	
  la	
  
vista,	
  
baby.	
  
Hélio	
  Silva	
  

Big Data Analytics - Data Science - Aplicação e Tecnologia

  • 1.
          Big  Data   Aplicação  e  tecnologia   07  de  junho  de  2014  
  • 2.
    Dilúvio  de  Dados  na  Ciência   Selfie  do  Opportunity  –  138  MB   Hubble  –  844  GB/mês   CERN  –  35  Petabytes/ano    
  • 3.
    O  que  muda  na  ciência  ?  
  • 4.
    E  aqui  não  está  diferente   1,2  bilhões  de  Likes/dia  
  • 6.
    E  os  volumes  con;nuarão  crescendo     •  Internet  das  Coisas  (IoT)  9,6  bilhões  de   disposiQvos  conectados   •  IoT  está  apenas  na  sua  infância   •  Até  2020  os  carros  conectados  irão  gerar     11  Petabytes  
  • 7.
  • 8.
    The  Nexus  Forces  -­‐  Gartner  
  • 9.
    O  Termo  Big  Data   Erik  Larson,  1989    na  Harper’s  Magazine:     “The  keepers  of  Big  Data  say  they  do  it  for  the   consumer's  benefit.  But  data  have  a  way  of  being  used   for  purposes  other  than  originally  intended.”     Aqueles  que  guardam  grandes  volumes  de  dados  dizem   que  o  fazem  em  bene`cio  do  consumidor.  Mas  há   formas  de  usá-­‐los  para  propósitos  diferentes  dos   originais.  
  • 10.
    O  que  você  diz  pelo  disposi;vo  móvel   Tipo  de  lugar  que  frequenta,  onde   circula  na  cidade   Inclinações  políQcas   Hábitos  de  compra,  de  consumo   de  entretenimento  etc.  
  • 11.
    E  o  que  empresas  e  governos  fazem?   •  Empresas  formam  perfis  para     –  IdenQficar  propensão  e  hábitos  de  consumo   –  Ofertar  produtos  e  serviços  próprios  e  de  terceiros   –  Melhorar  a  experiência  de  consumo   –  Engajar  e  fidelizar   –  GeomarkeQng   –  Criar  uma  fonte  rica  de  feedback  de  produtos  e  serviços   •  Governos   –  IdenQficar  ameaças  e  riscos  (terrorismo)   –  Mobilidade  urbana   –  Cidades  inteligentes  
  • 12.
    Relações  econômicas  baseadas  em  dados   Ad    para  esporQsta,   25-­‐35  anos,  classe   A,  zona  sul  de  SP.   Pago  $1  por   exposição  e  $2  por   conversão.     API   Aceito  /   TransmiQdo  para   500.000  perfis   API   Data  Broker   Organização   Banco  de  dados  logo   será  um  aQvo  assim   como  a  marca  
  • 13.
    Big  Data  Analy;cs   Big  Data  me  sugere  uma  questão  de  engenharia.     AnalyQcs,  por  outro  lado,  sobre  como  gerar  valor.  
  • 14.
    Big  Data  –  a  resposta  de  engenharia   Yahoo  Hadoop  Cluster   Dividir  para  conquistar  
  • 15.
  • 16.
    Ciência  de  dados  -­‐  requisitos  
  • 17.
    Drew  Conway’s  Data  Science  Venn   Diagram   hkp://drewconway.com/zia/2013/3/26/ the-­‐data-­‐science-­‐venn-­‐diagram  
  • 18.
    Perfil  do  Cien;sta  de  Dados     A  profissão  mais  sexy  do  século  21   •  Programador  em  várias  linguagens   •  Computação  avançada  para  processamento   distribuído,  massivo  e  paralelo   •  Modelagem  de  Dados  (relacional  e  não  relacional)   •  DBA  (administrador  de  banco  de  dados)   •  EstamsQco   •  MatemáQco   •  Designer  de  Visualização  e  ReporQng   •  Entender  o  Negócio  e  ter  domínio  do  Qpo  de   informação  que  está  lidando   hkp://hbr.org/2012/10/data-­‐scienQst-­‐the-­‐sexiest-­‐job-­‐of-­‐the-­‐21st-­‐century/ar/1    
  • 19.
    • Estabelece  hipóteses  1   • Coleta  e  normaliza  dados  2   • Processa  e  analisa  resultados  3   • Comunica  resultados  4   A;vidades  de  um  cien;sta  de  dados  
  • 20.
    •  Análise  Operacional  (estamsQca  descriQva)   •  Exploratória  (correlações,  business  insights)   •  Modelos  PrediQvos  (regressão)   •  Análise  de  redes  (grafos)   •  Análise  de  Metadados  (NSA)   Ciência  de  Dados  -­‐  zona  morna  
  • 21.
    Ciência  de  Dados  –  zona  quente   •  Machine  Learning  /  Aprendizado  de  Máquina   – Sistemas  de  recomendação  (Amazon,  Neplix  etc.)   – Search  Engine  (Google  Humingbird  /  PageRank)   – Análise  de  senQmento  e  categorização  de  texto   (processamento  da  linguagem  natural-­‐NLP)   – Segurança  (AnQ-­‐Fraude,  anQ-­‐spam,  vírus  etc.)   – Prevenção  ao  cancelamento  de  assinaturas   (customer  churn)   – Detecção  de  anomalias   – Visão  de  máquina  
  • 22.
    Machine  Learning  e  as  novas  fronteiras   •  Internet  das  Coisas   –  Segurança  patrimonial   –  Edi`cios  inteligentes   –  Consumo  de  eletricidade   –  Monitoramento  aQvo  em  processos  produQvos  (refinarias,  linhas  de   produção  etc.)   •  QuanQfied    Self   –  Administração  dos  níveis  glicêmicos  para  diabéQcos   –  Monitoramento  aQvo  e  intervenção  em  pacientes  de  risco   –  Frequência  cardíaca,  arritmias   •  Smart  CiQes   –  Distribuição  de  água   –  Mobilidade  urbana   –  Administração  de  áreas  de  risco   •  Prevenção  de  catástrofes  naturais  (deslizamento  de  terra,  sismos,  enchentes,   tsunamis  etc)  
  • 24.
    Ferramental  do  cien;sta  de  dados   •  R  e  RStudio   •  Python  /  iPhyton  (bibliotecas  scikit  learn,  nltk,   pandas  etc.)   •  Octave  /  MatLab   •  Linguagem  SQL  (acesso  a  Hadoop  e  bancos   colunares  de  alta  performance)   •  SAS   •  SPSS   •  Gephi    e  Neo4J  para  Grafos   •  etc  
  • 25.
    Informações  importantes   • R,  Python  e  Octave  podem  tratar  dados  até  o   limite  da  máquina  onde  operam  (dependem   de  escalabilidade  verQcal)   •  Vários  meios  de  conexão  entre  R,  Python  e   Hadoop   •  Python  é  uma  linguagem  que  ganhou   habilidade  estamsQca     •  R  é  um  sotware  estamsQco  que  ganhou  uma   linguagem  de  programação  
  • 26.
    Empregos  em  Data  Science   hkp://www.indeed.com/jobtrends?q=Data-­‐science&relaQve=1   Indeed.com  searches  millions  of  jobs  from  thousands  of  job  sites.   This  job  trends  graph  shows  relaQve  growth  for  jobs  we  find  matching  your  search  terms.    
  • 27.
    Mercado  de  novas  possibilidades   Telecomunicação   • Perfil  de  Cliente   • Análise  e  OQmização  de  redes   U>lidades   • Smart  Meter  AnalyQcs   • Gerenciamento  dos  AQvos   Varejo   • Omni-­‐channel  MarkeQng   • Real-­‐Qme  promoQons   Transporte   • oQmização  logísQca   • congesQonamento  do   tráfego   Serviços   Financeiros   • Detecção  de  Fraude   • Visão  360°do  cliente   Midia  Digital   • Segmentação  de   anúncios  em  tempo  real   Saúde   • Análise  de  registros  médicos   • Monitoramento  de  doenças   Segurança   • Vigilância  MulQmodal   • Detecção  de  segurança   cibernéQca  
  • 28.
    Visão  de  BI  e  de  Data  Science   BI   Data  Science   PerspecQva   Olha  o  que  já  foi   Olha  o  que  virá   ExperQse   Usuário  no  negócio   CienQsta  de  dados   Questões   O  que  houve?   O  que  pode  acontecer?     E  se?  Será  que?   Olha   Para  dentro   Para  o  contexto   Análise   DescriQva   PrediQva   Resultado   DiagnósQco   PerspecQva   Números   Exatos   Aproximados  
  • 29.
    Somando  BI  e  Data  Science     •  Analista  do  Walmart  cruza  vendas  do  BI  com   dados  de  tempo  e  descobre  que  quando  há   alerta  de  furacões:   – Aumenta  muito  a  venda  de  cerveja  (inesperado)   – Aumenta  venda  de  mini-­‐tortas  de  morango  e   bolos  para  o  café  da  manhã  (inesperado)   •  Decisão:  reforçar  estoques  desses  itens  nas   lojas  que  estão  no  raio  de  ação  de  furacões.  
  • 30.
    Mais  informações     •  Linkedin:  Grupo  Big  Data  e  Machine  Learning  no  Brasil   •  MOOC’s  do  Coursera     –  Machine  Learning  –  Johns  Hopkins  University   –  Data  Science  –  Bill  Howe  –  Univ.  Washington   –  Machine  Learning  –  Stanford  –  Andrew  NG   –  Neural  Networks  for  Machine  Learning  –  Univ.  Toronto   –  CompuQng  for  Data  Analysis  –  Johns  Hopkins  University   –  Social  Network  Analysis  –  Univ.  Michigan     –  Core  concepts  in  Data  Analysis  –  Higher  School  of  Economics   •  Unicamp   •  UFSCar   –  Prof.:  Estevam  Rafael  Hruschka  Junior     (hkp://www2.dc.ufscar.br/~estevam/)  
  • 31.
  • 32.
    Obrigado   hkp://br.linkedin.com/in/helioss/   Hasta  la   vista,   baby.   Hélio  Silva