Big Data
UNE HISTOIRE D’ÉCHELLE
Sommaire
 Une histoire d’échelle
 A l’échelle verticale
 À l’horizontale
2
Une histoire d’échelle
 Plus de données
 Plus de stockage … rapide (on oublie les bandes de grande capacité)
 Plus de capacité de calcul
 Plus de mémoire (la mémoire est 1000 fois plus rapide que le disque)
 Deux solutions possibles
 Des machines plus performantes => vertical (Scale Up)
 Beaucoup de machines qui collaborent à un résultat final => horizontal (Scale
Out)
 A garder en tête
 L’efficacité énergétique (gros impact sur les coûts de fonctionnement)
3
Scale Up
 On augmente
 la puissance d’une machine
 son espace de stockage
 Sa mémoire
 On atteint des limites
 Disque dur : max 600 Mo/s (ca prend combien de temps pour lire un To ?)
 Un serveur gère rarement plus d’un To de mémoire
 Le silicium montre ses limites (augmentation du nombre de transistors dans un
processeurs, finesse de gravure de quelques nm)
 Les horloges ne peuvent aller plus vite à cause de certains effets quantiques
 3 Ghz pour les processeurs courant environ 2 000 000 000 de transistors
 500 Ghz en recherche à -270°C, monotransistor
4
Plongée dans un processeur
Processeur 80486 Core I5 Zoom
https://sites.google.com/site/imhe
ngwu/work
5
Les supercalculateurs
 Perçu par l’utilisateur comme une seule machine
 Deux options
 Effectuent le même traitement sur un lot de données (vectoriel)
 Effectuent chacun une partie du traitement (parallèle)
 Une architecte conçue pour fournir en permanence des données à traiter
aux processeurs
 C’est super cher : des millions d’euros
6
Quelques exemples en image
Cray 2 (1985)
NASA : http://gimp-savvy.com/cgi-
bin/img.cgi?ailswE7kkmL1216740
Titan (2013) Pangea
Le plus gros calculateur privé
(Groupe Total)
7
Pangea : un supercalculateur 8
Scale out
 On utilise plus unités de calcul, stocke en parallèle
 L’utilisateur le sait
 On répartit les fichiers sur plus (dizaines/centaines) de serveurs
 Système de fichier HDFS
 On utilise des méthodes de calcul spécifique
 Map-Reduce
 Pas cher
 8 CPU, 32 Go de RAM, 0,37 $ / heure
 0,03$ par Go par mois (on peut archiver pour 0,007 $) par tranche de 500 To,
quasi pas de limite
9
De nouveaux outils
 Pour gérer les données
 Pour répartir le calcul
 Pour offrir une infrastructure
 Un pionnier : Hadoop
10

Contenu connexe

PPTX
02 big data definition
PPTX
03 big data échelle
PPTX
Les ordinateurs quantiques
PPTX
Histoire des SI
PPTX
Vivre en parallèle - Softshake 2013
PDF
BBL - Monitoring - kyriba
PPTX
Spad big data - sfds - 2016
PPTX
Presentation Hadoop Québec
02 big data definition
03 big data échelle
Les ordinateurs quantiques
Histoire des SI
Vivre en parallèle - Softshake 2013
BBL - Monitoring - kyriba
Spad big data - sfds - 2016
Presentation Hadoop Québec

Similaire à 03 big data échelle (20)

PDF
20160216 - From BigData to BigProcessing
PDF
1 pourquoi le big data aujourdhui
PPTX
Introduction à la big data v3
PDF
Cours_de_Big_Data_LF2_IG_EbhkjbhkhfhSB.pdf
PPTX
02 big data definition
PDF
Meetup intro techno big data
PPTX
Introduction à Hadoop
PDF
690992112-Big-Data-chap-1-introduction.pdf
PPSX
chap1-big-data.pps pour comprendre le problème de big data
PDF
Croisière sur le data lake
PPTX
Introduction à la big data V2
PPSX
SUITE-BIG-DATA-COURS-3rd-computer-science-FSSM
PPSX
786231075-Cours-Big-DataDataDataData.ppsx
PDF
Big data.pdf la programmation système et la robotique
PDF
Révolution dans l'analytique et les entrepôts de données à découvrir avec Intel
PDF
Big Data ou comment retrouver une aiguille dans une botte de foin
PPTX
Big data
PDF
Big Data, Hadoop & Spark
PDF
Oxalide MorningTech #1 - BigData
PDF
BigData_Technologies_PL.pdf
20160216 - From BigData to BigProcessing
1 pourquoi le big data aujourdhui
Introduction à la big data v3
Cours_de_Big_Data_LF2_IG_EbhkjbhkhfhSB.pdf
02 big data definition
Meetup intro techno big data
Introduction à Hadoop
690992112-Big-Data-chap-1-introduction.pdf
chap1-big-data.pps pour comprendre le problème de big data
Croisière sur le data lake
Introduction à la big data V2
SUITE-BIG-DATA-COURS-3rd-computer-science-FSSM
786231075-Cours-Big-DataDataDataData.ppsx
Big data.pdf la programmation système et la robotique
Révolution dans l'analytique et les entrepôts de données à découvrir avec Intel
Big Data ou comment retrouver une aiguille dans une botte de foin
Big data
Big Data, Hadoop & Spark
Oxalide MorningTech #1 - BigData
BigData_Technologies_PL.pdf
Publicité

Plus de Patrick Bury (20)

PPTX
100 évaluation
PPTX
16 graph databases
PPTX
15 map reduce on azure
PPTX
11 big data aws
PPTX
14 big data gitlab
PPTX
13 big data docker
PPTX
10 big data hadoop
PPTX
08 big data dataviz
PPTX
12 big data azure
PPTX
09 big data mapreduce
PPTX
07 big data sgbd
PPTX
06 cloud souverain
PPTX
05 creation instance ovh
PPTX
04 big data fournisseurs
PPTX
03 big data stockage
PPTX
01 open data
PPTX
01 big data introduction
PPTX
16 graph databases
PPTX
15 map reduce on azure
PPTX
14 big data gitlab
100 évaluation
16 graph databases
15 map reduce on azure
11 big data aws
14 big data gitlab
13 big data docker
10 big data hadoop
08 big data dataviz
12 big data azure
09 big data mapreduce
07 big data sgbd
06 cloud souverain
05 creation instance ovh
04 big data fournisseurs
03 big data stockage
01 open data
01 big data introduction
16 graph databases
15 map reduce on azure
14 big data gitlab
Publicité

Dernier (6)

PPTX
Etude comparative des différents plates formes de collecte des donnéesKobo vs...
PDF
Les demandeurs d'emploi bénéficiaires d'une reconnaissance de handicap en 2023
PPTX
Bref apercu du logiciel Sig Web ArcGIS et ArcGIS Dashboard.pptx
PDF
Polycopie_pdagogique_Scurit_Informatique.pdf
PDF
Algorithmique et programmation Algorithmique et programmation
PPT
STYLES_D_APPRENTISSAGES.ppt hhhhhhhhjjkkl;;;
Etude comparative des différents plates formes de collecte des donnéesKobo vs...
Les demandeurs d'emploi bénéficiaires d'une reconnaissance de handicap en 2023
Bref apercu du logiciel Sig Web ArcGIS et ArcGIS Dashboard.pptx
Polycopie_pdagogique_Scurit_Informatique.pdf
Algorithmique et programmation Algorithmique et programmation
STYLES_D_APPRENTISSAGES.ppt hhhhhhhhjjkkl;;;

03 big data échelle

  • 1. Big Data UNE HISTOIRE D’ÉCHELLE
  • 2. Sommaire  Une histoire d’échelle  A l’échelle verticale  À l’horizontale 2
  • 3. Une histoire d’échelle  Plus de données  Plus de stockage … rapide (on oublie les bandes de grande capacité)  Plus de capacité de calcul  Plus de mémoire (la mémoire est 1000 fois plus rapide que le disque)  Deux solutions possibles  Des machines plus performantes => vertical (Scale Up)  Beaucoup de machines qui collaborent à un résultat final => horizontal (Scale Out)  A garder en tête  L’efficacité énergétique (gros impact sur les coûts de fonctionnement) 3
  • 4. Scale Up  On augmente  la puissance d’une machine  son espace de stockage  Sa mémoire  On atteint des limites  Disque dur : max 600 Mo/s (ca prend combien de temps pour lire un To ?)  Un serveur gère rarement plus d’un To de mémoire  Le silicium montre ses limites (augmentation du nombre de transistors dans un processeurs, finesse de gravure de quelques nm)  Les horloges ne peuvent aller plus vite à cause de certains effets quantiques  3 Ghz pour les processeurs courant environ 2 000 000 000 de transistors  500 Ghz en recherche à -270°C, monotransistor 4
  • 5. Plongée dans un processeur Processeur 80486 Core I5 Zoom https://sites.google.com/site/imhe ngwu/work 5
  • 6. Les supercalculateurs  Perçu par l’utilisateur comme une seule machine  Deux options  Effectuent le même traitement sur un lot de données (vectoriel)  Effectuent chacun une partie du traitement (parallèle)  Une architecte conçue pour fournir en permanence des données à traiter aux processeurs  C’est super cher : des millions d’euros 6
  • 7. Quelques exemples en image Cray 2 (1985) NASA : http://gimp-savvy.com/cgi- bin/img.cgi?ailswE7kkmL1216740 Titan (2013) Pangea Le plus gros calculateur privé (Groupe Total) 7
  • 8. Pangea : un supercalculateur 8
  • 9. Scale out  On utilise plus unités de calcul, stocke en parallèle  L’utilisateur le sait  On répartit les fichiers sur plus (dizaines/centaines) de serveurs  Système de fichier HDFS  On utilise des méthodes de calcul spécifique  Map-Reduce  Pas cher  8 CPU, 32 Go de RAM, 0,37 $ / heure  0,03$ par Go par mois (on peut archiver pour 0,007 $) par tranche de 500 To, quasi pas de limite 9
  • 10. De nouveaux outils  Pour gérer les données  Pour répartir le calcul  Pour offrir une infrastructure  Un pionnier : Hadoop 10

Notes de l'éditeur

  • #5: 10 000 000 / 600 => 16 666s => 4h30 !!!