LOGO
Mise en place d’une
architecture BIG DATA basée
sur le Cloud computing
Société d’accueil : Innova-TUNISIA
Présentée par :
Hachem SELMI
Ahmed DRIDI
Sous l’encadrement de:
Houssem TAYARI(ISET)
Khaled MANSOURI(Innova)
Institut supérieur des études technologiques de
CHARGUIA
Année universitaire : 2014-2015
Conclusion
Réalisation
Architecture et choix technologiques
Big Data et cloud computing
Introduction
Plan
Présentation générale
Cadre du stage
Présentation générale
Divers sources d’informations
Données
massives
1
Présentation générale
2
98,000 comptes Twitter sont crées
695,000 statuts Facebook
11 millions messages instantanés
698,445 recherches sur Google
168 millions mails envoyés
Chaque
60
Secondes
Conclusion
Réalisation
Architecture et choix technologique
Big data et cloud computing
Introduction
Plan
Présentation générale
Cadre du stage
Introduction
3
Explosion de volume de l’information
La nécessité d’une nouvelle
technologie qui peut traiter un
grand volume de données.
Evolution des systèmes d’information des
entreprises
variété et complexité des données
BIG DATA
Conclusion
Réalisation
Architecture et Choix technologique
Big Data et cloud computing
Introduction
Plan
Présentation Générale
Cadre du stage
Cadre du stage
Organisme d’accueil
4
INNOVA-TUNISIA est un acteur
dynamique dans les métiers du
conseil et l’études systèmes
informatiques et internet.
Son équipe se compose du responsable développement, du
coordinateur communication chargé d’affaires, des programmeurs de
logiciels, des chefs de projets et du directeur général.
Depuis 2010, Innova Tunisia s’est spécialisée dans la veille et le
monitoring Internet avec un premier produit WebJort, puis en 2012
avec la solution WebRadar introduite sur le marché Tunisien.
Cadre du stage
Web Radar
5
Toutes les données publiques
Produites par la presse électronique, les réseaux
sociaux, les blogs, les forums
en temps réel
…qui collecte
Cadre du stage
WebRadar
6
…qui organise
par date, pays, ville, langue, média, sujet, thème,
personne, organisme, marque, sentiment,…
…qui mesure
fréquence, audience, crédibilité,
redondance, tonalité, influence, …
Cadre du stage
WebRadar
7
Cadre du stage
Critique de WebRadar
Des données …
Des données …
Des données…
DES DONNEES!!
8
Cadre du stage
Critique de WebRadar
Avec l’architecture actuelle de WebRadar avec la présence évolutive des
informations et données collectées, Innova rencontre plusieurs difficultés
pour stocker , traiter et analyser ces données!!!
9
Cadre du stage
Solution proposée
Des nouvelles approches
liées au concept de
l'informatique décisionnelle.
Une infrastructure dédiée à
l’analyse et le traitement
des données massives.
Architecture Big Data basée
sur le cloud computing.
10
Conclusion
Réalisation
Architecture et choix technologique
Big data et cloud computing
Cadre du stage
Plan
Introduction
Big data et cloud computing
C’est quoi la Big Data ?
Big Data
Vélocité
Volume
Variété
11
Big data et cloud computing
Décisionnel classique et big data
Décisionnel
classique
Volume limité
Données
structurés
Statistique
descriptive
Big Data
Volume
gigantesque
Données
structurés
Semi structurés
Hétérogènes
Statistique en
temps réel
12
Big data et cloud computing
C’est quoi le cloud computing ?
L’utilisation de la mémoire et des capacités de calcul et de
stockage d’ordinateurs et de serveurs répartis dans le monde, et
liés par un réseau ,tel Internet
13
Big data et cloud computing
Pourquoi ??????
Répartition
des
données
Récupération
des
données
14
Conclusion
Réalisation
Architecture et choix technologiques
Big data et cloud computing
Cadre du stage
Plan
Introduction
Architecture et choix technologiques
Ancienne architecture
15
Nouvelle architecture
16
Architecture et choix technologiques
Choix technologiques
17
Architecture et choix technologiques
Conclusion
Réalisation
Architecture et choix technologique
Big data et cloud computing
Cadre du stage
Plan
Introduction
Réalisation
L’infrastructure virtuelle
Création des machines virtuelles
Installation et configuration de
système d’exploitation Debian
Configuration d’un réseau LAN
Installation et configuration de
l’écosystème Hadoop
18
Réalisation
Configuration Hadoop
19
Réalisation
Migration Sql >>Sql
Importation des données de la base de données Mysql de WebRadar
vers la base de données Mysql existante dans notre cluster avec l’outil
Python.
20
Réalisation
Migration Sql >>Sql
21
Migration Sql >>NoSql
Réalisation
Migration des données de la base de données relationnel vers la base
de données Nosql (MongoDB) en utilisant l’outil Mongify
22
Réalisation
Migration Sql >>NoSql
23
Réalisation
Migration Sql >>NoSql
24
Migration Sql >>NoSql
Réalisation
25
Réalisation
Migration Sql >>NoSql
26
Réalisation
Réplication de données
La réplication de données après la migration Sql >> NoSql.
27
Réalisation
Réplication de données
28
Conclusion générale
Notre projet de fin d’étude est déroulé avec la découverte des nouvelles
technologies:
 La Big Data
 Cloud Computing
 Les bases de données Nosql
Le stage a été une bonne occasion pour intégrer des nouveaux concepts et
connaitre des nouvelles sources fiables.
LOGO
Merci pour votre
attention !

Présentation PFE Hachem Selmi et Ahmed Dridi Big data

Notes de l'éditeur

  • #2 Bonjour, Nous tenons pour commencer à vous adresser, chers membres du jury, nos sincères remerciements pour votre lecture, votre présence aujourd’hui et les remarques qui viendront enrichir ce travail que nous aurons plaisir à partager et discuter avec vous.
  • #3 Tout au long de cette présentation on va suivre le plan suivant, On va commencer par une présentation générale puis on va introduire notre projet Ensuite on va présenter l’organisme d’accueil ainsi qu’une étude de cadre du stage Puis on va définir le concept de big data et cloud computing Apres ca on va entamer les parties Architecture et les technologies qu’on a choisi , et dans la partie qui suit on va mettre l’accent sur la réalisation de notre architecture et on va finir par une conlusion .
  • #4 Aujourd’hui les données ouvrent de nouvelles perspectives de connaissances aux sciences économiques et sociales et fournissent une autre forme de création de valeur aux entreprise. Les sources de données peuvent être de forme très diverse tel que media sociaux , image ,bases de données messageries journaux électrique aussi des capteurs et des caméra de surveillance et des saigneux GPS. cette diversité de source de données peut générer plusieurs type de données -structurées -semi structurées -non structurées
  • #5 Chaque 60 secondes : 98,000 comptes Twitter sont crées 695,000 statut Facebook 11 million messages instantanés 698,445 recherche sur Google 168 million mail envoyés Avec une prévision d’une croissance de 800% des quantités de données à traiter d’ici à 5 ans.
  • #7 Dans nos jours, on remarque une Explosion de volume de l’information et une Evolution des systèmes d’information des entreprises ainsi que une variété et la complexité des données, tous ces facteurs nous poussent pour trouver une nouvelle technologie nommée: Big data afin de traiter toutes ces masses de volumes.
  • #9 Nous sommes accueillis pendant notre projet de fin d’études chez Innova-tunisia, un acteur dynamique dans les métiers de conseils et des systemes informatiques et internet.
  • #10 Dans ce cadre, webradar est une application de media-monitoring qui surveille en Tunisie près de 100 journaux électroniques, 1500 pages Facebook, 2000 utilisateurs Twitter, 500
  • #12 Voila un exemple d’une analyse du web tunisien pour montrer les personnes les plus mentionnées par les utilisateurs de facebook En 2013.
  • #13 Innova rencontre souvent des problèmes liés a son produit WebRadar qui est accablé par la masse très élevée des données collectées quotidiennement du web.
  • #15 Nos recherches se sont donc dirigee vers l'etude
  • #17 La big data est une nouvelle technologie libérée par le volume de donnée accessible, la capacité à exploiter la variété des données la vélocité de traitement
  • #18 Voila une comparaison entre l’informatique décisionnel et le big data
  • #22 L’architecture actuelle se compose essentiellement par trois serveurs connectés entre eux. Les outils logiciels nécessaires pour le fonctionnement du WebRadar sont également installés et configurés sur les trois serveurs de sorte que lorsque un service fonctionne tous les autres services seront non utilisés ou ils ne répondent pas convenablement. Ainsi, une modification dans une base de données de volume important peut interrompre le fonctionnement de toute l’architecture.
  • #23 Afin de lutter contre les inconvénients de l’architecture actuelle on a proposé une nouvelle pour répondre aux besoin de l’outil WebRadar Ce cluster est constitué de postes standards équipés de système d'exploitation Debian ce qui nous a permis de tester la virtualisation du cluster, solution incontournable pour faire du Big Data sur le cloud. Ce schéma présente les différentes machines (maître et esclave) du cluster et les rôles qui leurs sont associés dans le cadre de notre architecture.
  • #24 On a choisi des différentes technologies pour les utilisées dans notre architecture comme VmWare qu’il nous a permis de tester la virtualisation de cluster avec le système d ’exploitation debian 7,8 Et mongoDB qui est un SGBD orientée NoSql caractérisé par sa rapidité Et MongiFy qui est un outil de migration des données de l’Sql vers le NoSql Et Hadoop qui va jouer le rôle d’analyse des données collectées et qui va simuler toutes les machines virtuelles comme étant une seule machine.
  • #26  La premiere étape dans la partie réalisation consiste a la …
  • #27 Afin de préparer le processus que inova va le suivre pour la migration de la solution WebRadar on a installé et configuré l’écosystème hadoop qui va jouer le rôle d’analyse des données collectées et qui va simuler toutes les machines virtuelles comme étant une seule machine.
  • #28 Comme vous connaissez Mysql ne supporte pas l’import d’une base de données qui possède une taille > à 2mo donc pour migré les données de la base de donnée de l’ancienne architecture du WebRadar vers notre nouvelle architecture on a utiliser l’outil Python et sql object pour qu’on puisse importer des bases de données de grande tailles
  • #29 Et voila l’exemple de migration
  • #30 Pour traduire notre base de données vers le NoSql nous aurons besoin de deux choses
  • #31 Un fichier de configuration de bases de données utilisé par Mongify pour localiser les connexions à la base de donnée sql et mongoDb
  • #32 Là on trouve que les connexions sont établies avec succées
  • #33 Et un autre fichier de traduction des données utilisée pour traduire nos données SQL avant de les enregistrer dans MongoDB
  • #34 Une fois que les données sont traduites dans le fichier de traduction de mongify on déplace les données vers MongoDB avec la commande process de mongify
  • #35 Après la migration de données vers le noSql l’étape suivante consiste à répliquer les données sous la formes d’un instance master et des instance slave
  • #36 Apres les configurations nécessaires pour l’instance master et l’instance Slave on a passer pour tester la réplication en ajoutant un enregistrement dans la base de données imdb dans la table aka_name, apres on lance l’instance slave et on affiche les enregistrement de aka_name on remarque l’ajout de l’enregistrement. Comme ça on a arrivé a dupliquer les données sur toutes les machines pour qu’on puisse les récupérer lors d’une perte.