Big Data

Ana Luiza Lacerda, Joice Ferreira;
Banco de Dados II – Suzana Mota

Sumário
1.Motivação Inicial - problemas que a tecnologia tenta resolver;
2.História do Big Data;
3.O que é Big Data?
4.Os V’s do Big Data;
5.Tipo de dados do Big Data;
6.Por que Big Data é importante?
7.Big Data x BI (Business Intelligence);
8.Características do Big Data;
9.Características do BI;
10. Ferramentas - O que é, Características, Instalação;
11.Conclusão;

Motivação Inicial - problemas que a
tecnologia tenta resolver
• Com a globalização, a expansão virtual se tornou
necessária;
• O mundo gera, diariamente, 2,5 quintilhões de bytes;
• Antes de Big Data, fórmulas matemáticas, técnicas
avançadas de probabilidades e estatística eram
executadas manualmente – lidando, portanto, com uma
capacidade reduzida de variáveis.

História do Big Data
• Há várias versões sobre a origem do conceito de Big
Data, assim como do início de suas aplicações. Uma das
mais conhecidas remete à NASA, que no início da
década de 1990 começou a utilizar Big Data para
descrever imensos conjuntos de dados complexos, que
desafiavam os limites convencionais da computação da
época.
•

O que é Big Data
• Big Data é um conceito que descreve o grande volume de
dados estruturados e não estruturados que são gerados a
cada segundo.
Um grande conjunto de dados armazenados

• Embora o termo "big data" seja relativamente novo, o ato
de recolher e armazenar grandes quantidades de
informações para eventual análise de dados é bem
antigo.
• O conceito ganhou força no início dos anos 2000, quando
um analista famoso deste setor, Doug Laney, articulou a
definição de big data como os três Vs;

Os V’s do Big Data
• Volume;
• Velocidade;
• Variedade;
• Veracidade;
• Valor;

Volume
• Organizações coletam dados de uma grande variedade
de fontes, incluindo transações comerciais, redes sociais
e informações de sensores ou dados transmitidos de
máquina a máquina. No passado, armazenar tamanha
quantidade de informações teria sido um problema – mas
novas tecnologias (como o Hadoop) têm aliviado a carga.

Velocidade
• Os dados fluem em uma velocidade sem precedentes e
devem ser tratados em tempo hábil. Tags de RFID,
sensores, celulares e contadores inteligentes estão
impulsionado a necessidade de lidar com imensas
quantidades de dados em tempo real, ou quase real.

Variedade
• Os dados são gerados em todos os tipos de formatos - de
dados estruturados, dados numéricos em bancos de
dados tradicionais, até documentos de texto não
estruturados, e-mail, vídeo, áudio, dados de cotações da
bolsa e transações financeiras.

Veracidade
• A veracidade está ligada diretamente ao quanto uma
informação é verdadeira. O emaranhado de dados pode
nos confundir, por isso todo cuidado é pouco para
obtermos veracidade dos dados.

Valor
• Se você direcionou esforços para gerar uma informação
que não serve para nada, o valor do trabalho realizado
será perto de zero, portanto, precisamos entender muito
bem o contexto e necessidade para gerar a informação
certa para as pessoas certas. Por isso falamos tanto em
“informação útil”.

Como esses dados são transformados
em insights?
• Soluções de Big Data “tratam” os dados brutos até
transformá-los em insights valiosos para as tomadas de
decisões. Referem-se a um processo eletrônico que
transforma um conjunto de dados “soltos” em
informações, informações em conhecimento e, por fim,
conhecimento em sabedoria, que será usada para tomar
as decisões mais assertivas e céleres ao contexto de seu
negócio.

Por que Big Data é importante?
• A importância do big data não gira em torno da
quantidade de dados que você tem, mas em torno do que
você faz com eles. Você pode analisar dados de qualquer
fonte para encontrar respostas que permitam 1) redução
de custos, 2) redução de tempo, 3) desenvolvimento de
novos produtos e ofertas otimizadas, 4) decisões mais
inteligentes.

Big Data x BI (Business Intelligence)
• BI e Big Data são de certa forma complementares, mas
não idênticos. Além disso, em geral, Big Data é uma fase
posterior ao amadurecimento de um trabalho com BI.

Características do Big Data
• Focado no processamento de dados estruturados e não
estruturados, bem como nas correlações e descobertas
que desse processamento podem advir;
• Analisa o que já existe e o que está por vir, apontando
novos caminhos;

• Ideal para quando se quer explorar novas possibilidades,
descobrir novos padrões e explorar perguntas que ainda
não haviam sido feitas;
• Mais amplo, voltado não apenas para negócios, mas para
qualquer área/segmento, como saúde, entretenimento,
educação.

Características do BI
• Focado na coleta, transformação e disponibilização de
dados estruturados para a tomada de decisões;
• Analisa o que já existe, definindo as melhores hipóteses;
• Ideal para quando já se conhece as perguntas;
• Mais específico, voltado apenas para negócios.

O que é Cassandra?
● Apache Cassandra é um projeto de sistema de banco
de dados distribuído altamente escalável de segunda
geração, é um sistema de código aberto projetado para
gerenciar grande volume de dados em tempo real,
permitindo resposta imediata e suporte a pontos de
falha.
● O Apache Cassandra foi lançado pelo facebook com
apoio do Google.

• Cassandra é essencialmente um híbrido entre valor-
chave (dado tabular) e banco de dados orientado em
colunas, com distribuição de conteúdo por linhas,
separado por nome, valor e tempo, podendo ter bom
balanceamento e distribuição de carga,
RandomPartitioner (RP), ou distribuição de cargas de
forma natural, aproximando nós com dados
complementares para composição da informação,
OrderPreservingPartitioner (OPP).

Características do Cassandra
● Altas escalabilidade e disponibilidade, sem um ponto
único de falha
● Arquitetura de cluster descentralizado
● Réplica e redundância de dados
● Rendimento de gravação muito alto e bom rendimento
de leitura
● Tolerante a falhas
● Esquema flexível
● Nível de consistência configurável
● Integrável

Instalação
Passo 1 :
echo "deb http://www.apache.org/dist/cassandra/debian
311x main" | sudo tee -a
/etc/apt/sources.list.d/cassandra.sources.list
Passo 2:
curl https://www.apache.org/dist/cassandra/KEYS | sudo
apt-key add -
sudo apt-key adv --keyserver pool.sks-keyservers.net --
recv-key A278B781FE4B2BDA

Passo 3:
sudo apt-get update
sudo apt-get install cassandra
Passo 4:
sudo mkdir /var/lib/cassandra
sudo mkdir /var/log/cassandra
sudo chown -R $USER:$GROUP /var/lib/cassandra
sudo chown -R $USER:$GROUP /var/log/cassandra

Passo 5:
export CASSANDRA_HOME=~/cassandra
export PATH=$PATH:$CASSANDRA_HOME/bin
Rodando o Cassandra:
sudo sh ~/cassandra/bin/cassandra
sudo sh ~/cassandra/bin/cqlsh

O que é Hadoop?
• O Hadoop é uma plataforma open source desenvolvida
especialmente para processamento e análise de grandes
volumes de dados, sejam eles estruturados ou não
estruturados.
• O Hadoop é uma implementação de código aberto do
paradigma de programação Map-Reduce.

• Map-Reduce é um paradigma de programação
introduzido pelo Google para processar e analisar
grandes conjuntos de dados. Todos esses programas
que são desenvolvidos nesse paradigma realizam o
processamento paralelo de conjuntos de dados;

• Uma grande tarefa é dividida em várias tarefas pequenas
que são então executadas em paralelo em máquinas
diferentes e então combinadas para chegar à solução da
tarefa maior que deu início a tudo.

Características do Hadoop
• É um projeto open source, fato que permite a sua
modificação para fins de customização e o torna
suscetível a melhorias constantes graças à sua rede de
colaboração.
• Proporciona economia, já que não exige o pagamento de
licenças e suporta hardware convencional, permitindo a
criação de projetos com máquinas consideravelmente
mais baratas;

• O Hadoop conta, por padrão, com recursos de tolerância
a falhas, como replicação de dados;
• O Hadoop é escalável: havendo necessidade de
processamento para suportar maior quantidade de dados,
é possível acrescentar computadores sem necessidade
de realizar reconfigurações complexas no sistema.

Instalação da ferramenta
Necessária a instalação do Java
● wget https://www.apache.org/dist/hadoop/core/hadoop-
3.0.0/hadoop-3.0.0.tar.gz
● tar xzf hadoop-3.0.0.tar.gz
● mv hadoop-3.0.0 hadoop

• export HADOOP_HOME=/home/hadoop/hadoop
export HADOOP_INSTALL=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
• Mudanças nos aquivos /etc/hadoop
core-site.xml
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>

hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.name.dir</name>
<value>file:///home/hadoop/hadoopdata/hdfs/namenode</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>file:///home/hadoop/hadoopdata/hdfs/datanode</value>
</property>
</configuration>
mapred-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>

yarn-site.xml
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
Inicia
cd $HADOOP_HOME/sbin/
start-dfs.sh
start-yarn.sh
http://localhost:8088

Conclusão
• Não podemos considerar as soluções de Big Data como
um arsenal computacional perfeito: sistemas do tipo são
complexos, ainda desconhecidos por muitos gestores e
profissionais de TI e a sua própria definição ainda é
passível de discussão.
• O fato é que a ideia de Big Data reflete um cenário real:
há, cada vez mais, volumes de dados gigantescos e que,
portanto, exigem uma abordagem capaz de aproveitá-los
ao máximo.

Referências
•BLOG SAS. Big Data, O que é e por que é importante? Disponível em:
https://www.sas.com/pt_br/insights/big-data/what-is-big-data.html/ Acesso
em: 17 de Janeiro de 2018
•BLOG BIGDATA BUSINESS. Big Data: tudo que você sempre quis
saber sobre o tema! Disponível em:
http://www.bigdatabusiness.com.br/tudo-sobre-big-data/ Acesso em: 17 de
Janeiro de 2018
•NASCIMENTO, RODRIGO. Afinal, o que é Big Data? Disponível em:
http://marketingpordados.com/analise-de-dados/o-que-e-big-data/ Acesso
em: 17 de Janeiro de 2018

Referências
•BLOG ORACLE. A base da inovação de dados Disponível em:
https://www.oracle.com/br/big-data/index.html Acesso: 17 de Janeiro de
2018
•ALECRIM, EMERSON. O que é Big Data? Disponível em:
https://www.infowester.com/big-data.php Acesso em:17 de Janeiro de
2018
•BLOG G2. Big data: entenda o que é, por que é importante e como
funciona Disponível em: http://g2tecnologia.com.br/2016/12/13/big-data-
entenda-o-que-e-por-que-e-importante-e-como-funciona/ Acesso em: 17
de Janeiro de 2018

Referências
•ULISSES, FERNANDO. O que é Big Data e como funciona? Disponível em:
https://www.profissionaisti.com.br/2015/03/o-que-e-big-data-e-como-funciona/
Acesso em: 17 de Janeiro de 2018
•BLOG MARKETING E CONTEUDO. Big Data: por que toda estratégia de
marketing precisa desse aliado Disponível em:
https://marketingdeconteudo.com/big-data/ Acesso em: 17 de Janeiro de 2018
•BATIMARCHI, SUSANA. UMA BREVE HISTÓRIA DO BIG DATA DESDE
18.000 A.C. Disponível em: http://docmanagement.com.br/04/22/2015/uma-
breve-historia-do-big-data-desde-18-000-a-c/ Acesso em: 17 de Janeiro de
2018

Referências
•How do Install Cassandra Disponível em:
https://www.digitalocean.com/community/tutorials/how-to-install-
cassandra-and-run-a-single-node-cluster-on-a-ubuntu-vps Acesso em: 18
de Janeiro de 2018
•Apache Hadoop Disponível em: https://pplware.sapo.pt/linux/apache-
hadoop-hoje-vai-instalar-primeiro-cluster/ Acesso em: 18 de Janeiro de
2018
•Introdução ao Hadoop Disponível em:
https://mariannelinharesbr.wordpress.com/2016/06/14/introducao-ao-
hadoop-instalando-hadoop-de-forma-distribuida/ Acesso em: 18 de
Janeiro de 2018

Referências
•Considerações sobre o Banco de Dados Apache Cassandra
Disponível em: https://www.ibm.com/developerworks/br/library/os-apache-
cassandra/index.html Acesso em: 18 de Janeiro de 2018
•AVOYAN, HOVHANNES. Big Data e Hadoop – o que é tudo isso?
Disponível em: https://imasters.com.br/tecnologia/redes-e-servidores/big-
data-e-hadoop-o-que-e-tudo-isso/?trace=1519021197 Acesso em: 17 de
Janeiro de 2018

Big Data

Mais conteúdo relacionado

Mais procurados

Semelhante a Big Data

Mais de Suzana Viana Mota

Último

Big Data