Webinar
Degetel - DataStax
Révolution dans la gestion de la data
Du SQL au NoSQL : Pourquoi ? Différences ? Comment ça marche ?
13/10/2015
Table de matières
• Mot d’accueil
• Les nouveaux métiers dela gestion de la DATA
• Introduction
• Quand la base de données devient unproblème
• Pourquoi Cassandra et Comparaison SGBDR
• Apache Cassandra
• DataStax Enterprise
• Cas d’Utilisation
• Questions / Réponses
Mot d’accueil
Georges KLENKLE
Directeur Général
DegetelPure player de l’innovation, du digital et de la mobilité
1999
CRÉATION DE LA SOCIETÉ
400
COLLABORATEURS
36 m€
DE CHIFFRE D’AFFAIRES
+100
CLIENTS ACTIFS
63%
DU CA EFFECTUÉ DANS LE CAC
40
NoSQL
DEPUIS 2010
GroupeTimeline
NoSQL Cassandra
GroupePure player de l’innovation, du digital et de la mobilité
Mobile
Web
Conseil
Cloud Computing
Transformation SI
Social media
Design
IOT
Big data
Nos partenaires
Nos métiers
les nouveaux métiersde la gestion de la Data
Le big data : « c'est avant tout la capacité à extraire de l'information à
partir de données non structurées ».
Jean-Charles Cointot et Yves Eychenne, La Revolution Big Data
Aujourd’hui l'enjeu n’est plus d’extraire les données, mais consiste à
transformer ces informations en actions, comme le lancement d'un nouveau
produit ou le développement de nouveaux services.
L’incidence est une mutation des métiers du Big data et Degetel s’y inscrit en recrutant
les meilleurs profils de ces nouveaux métiers :
• Data scientist
• Chief data officer
• Data protection officer
• Master data manager
• Chief Marketing Technologist
les nouveaux métiersde la gestion de la Data
- 190 000
MCKINSEY PRÉVOIT UN
DÉFICIT DE -140 000 À
-190 000 DATA SCIENTIST
D’ICI 2018 AUX ETATS UNIS
137 000
EMPLOIS EN FRANCE GRÂCE
AU BIG DATA À L’HORIZON
2020 (src:economie.gouv.fr)
27%
SELON GARTNER 27% DES
ORGANISATIONS AURONT UN
CHIEF DATA OFFICER EN
2017
3 chiffres clés à horizon 2020 :
Introduction
Document confidentiel
10
DataStax délivre une plateforme de la base de
données Apache Cassandra, conçue
spécifiquement pour les besoins en
Performance et Disponibilité exigés par les
applications d’Internet des Objets, Web ou
Mobiles, en offrant aux entreprises une base
de données Sécurisée toujours disponible, qui
reste Simple à administrer même pour des
déploiements à grande échelle, dans un seul
ou de Multiples Data Centers et dans le Cloud.
Document confidentiel
11
Quand la base de données
devient un problème
Document confidentiel
Qu’est ce qui change aujourd’hui ?
13
Document confidentiel
La troisième vague des bases de données
©2015 DataStax Confidential. Do not distribute without consent.
Document confidentiel
Application “classique”– ok pour les SGBDR
15
• Données sur une seule machine
• Support d’accès concurrents
• ACID rend le travail confortable
• Scalabilité verticale
Document confidentiel
16
SGBDR pour le “Big Data”
OLTP ou Analytique ?
Document confidentiel
Replication: ACID ?
17
Document confidentiel
La 3ème forme normale ne scale pas
18
• Impossible de prédire les
requêtes
• Les utilisateurs ne veulent plus
attendre
• Les données doivent être
dénormalisées
• Si les données ne tiennent pas
en mémoire…
• Les recherches sur disques
sont coûteuses
(SELECT CONCAT(city_name,', ',region)
value, latitude, longitude, id,
population, ( 3959 * acos( cos(
radians($latitude) ) * cos( radians( latitude ) ) *
cos( radians( longitude ) - radians($longitude) ) +
sin( radians($latitude) ) * sin( radians( latitude ) ) )
) AS distance, CASE region WHEN '$region'
THEN 1 ELSE 0 END AS region_match FROM
`cities` $where and foo_count > 5 ORDER BY
region_match desc, foo_count desc limit 0, 11)
UNION (SELECT CONCAT(city_name,',
',region) value, latitude, longitude,
id, population, ( 3959 * acos( cos(
radians($latitude) ) * cos( radians( latitude ) ) *
cos( radians( longitude ) - radians($longitude) ) +
sin( radians($latitude) ) * sin( radians( latitude ) ) )
) AS distance, CASE region WHEN '$region'
THEN 1 ELSE 0 END AS region_match FROM
`cities` $where ORDER BY region_match desc,
population desc, distance asc limit 0, 11) limit
0, 11;
Document confidentiel
Le partitionnement est un “cauchemar”
19
• Données stockées sur différentes machines
• Pas de jointures, pas d’agrégats
• Tout est dénormalisé
• Requêtage via un index secondaire doit taper sur toutes les
partitions
• Ajouter des partitions demande un déplacement de données
• Changement de schema
Document confidentiel
Très Haute Disponibilité ?
20
• Failover du Master … qui est responsable?
– Architectures complexes
– “Bricolage” du code
• Compléxité du Multi-Data Center
• Arrêt de services fréquents
• Changement des settings de la base de
données
– Défaillance des disques …
– Mises à jour OS et logiciel …
Document confidentiel
Résumé des “problèmes”
21
• La montée en charge est difficile
• L’Acidité n’est pas tout le temps assurée
• Le re-partionnement est un processus manuel
• Il faut dénormaliser pour les performances
• La très haute disponible est complexe et demande des
composants additionnels
Document confidentiel
Leçons retenues
22
• Dans la pratique la cohérence n’est pas assurée
Abandon
• Le partionnement et le re-balancing sont difficiles
Réalisé et Intégré
• Chacune des parties rend le système plus
complexe
Architecture Simplifiée – pas de Maître/Esclave
• La scalabilité verticale coûte chère
“Commodity Hardware”
• Scatter / gather no good
Dernomalisation pour les performances
Requête sur 1 seule machine
Pourquoi Apache Cassandra
et comparaison SGBDR
Document confidentiel
Pourquoi de pas utiliser Oracle ? 
©2014 DataStax Confidential. Do not distribute without consent. 24
Versus
Apache Cassandra
Document confidentiel
Cassandra - La Base de Données Distribuée leader
Bordeaux
Paris
Marseille
C *
C *
C *C *
Toujours Disponible
Distribution
géographique
Performance reconnue
Extensibilité prédictible
Simplicité
Opérationnelle
Séries Temporelles
26
Document confidentiel
Apache Cassandra™
• Apache Cassandra™ = Base de données NoSQL, Open Source, Distribuée et créée
pour les applications en ligne, modernes, critiques et avec des montée en charge
massive.
• Java, hybride entre Amazon Dynamo et Google BigTable
• Sans Maître-Esclave, sans Point Unique de Défaillance (Single Point Of Failure)
• Distribuée avec la possibilité de Centres de Données (Data Center)
• 100% Disponible
• Massivement scalable
• Montée en charge linéaire
• Haute Performance
• Simple à Exploiter
©2014 DataStax Confidential. Do not distribute without consent. 27
Dynamo
BigTable
BigTable: http://research.google.com/archive/bigtable-osdi06.pdf
Dynamo: http://www.allthingsdistributed.com/files/amazon-dynamo-sosp2007.pdf
Node 1
Node 2
Node 3Node 4
Node 5
Document confidentiel
Montée en charge linéaire
Plus de données ? Ajout de noeuds
Besoin de plus de débit? Ajout de noeuds
http://techblog.netflix.com/2011/11/benchmarking-cassandra-scalability-on.html
Document confidentiel
Cassandra @ Netflix
• 90+ Clusters
• 5000+ noeuds
• 4 Data Centres (Régions Amazon)
• > 1 Trillion transactions par jour
http://planetcassandra.org/functional-use-cases/
Exemple de Montée en Charge
©2014 DataStax Confidential. Do not distribute without consent. 29
Utilisation
• Films regardés?
• Qu’avez vous regardé avant et après?
• Où vous avez fait pause?
• Qu’est ce que vous avez arrêté après 5 minutes?
• ….
Document confidentiel
Nodes Down != Database Down
Datacenter Down != Database
Down
Upgrade != Database Down
Haute Disponibilité
Document confidentiel
Défaillance d’un Noeud
• La défaillance d’un seul noeud ne doit pas entraîner de défaillance du système
• Facteur de Réplication + Niveau de Cohérence = Succès
• Exemple:
– RF = 3
– CL = QUORUM
©2014 DataStax Confidential. Do not distribute without consent. 31
Node 1
1st copy
Node 4
Node 5
Node 2
2nd copy
Node 3
3rd copy
Parallel
Write
Write
CL=QUORUM
5 μs ack
12 μs ack
12 μs ack
>51% de réponses – donc la requête est réussie
Document confidentiel
Configuration en Data Center
©2014 DataStax Confidential. Do not distribute without consent. 32
Node 1
1st copy
Node 4
Node 5
Node 2
2nd copy
Node 3
3rd copy
Node 1
1st copy
Node 4
Node 5
Node 2
2nd copy
Node 3
3rd copy
DC: EUROPEDC: USA
• Actif partout – lecture/écriture dans tous les DC
• Le client écrit localement dans un DC
• Données synchronisées à travers le WAN
• Facteur de Réplication par DC
Utilisations
• DC de sauvegarde
• Distribution géographique
• Charge différente entre
DC
• Prod -> Pré-prod
Document confidentiel
Cloud & Cloud Hybride
• DataStax Enterprise et Cassandra sont disponibles en multi-data center
et dans le cloud (Amazon AWS, Google Cloud et Microsoft Azure)
• Les données écrites dans n’importe quel noeud sont aussi
automatiquement et de manière transparente écrites sur tous les autres
noeuds dans les autres data centers sans ETL
Data Centre 1
Data Centre 2
Public Cloud
Document confidentiel
Exemple de déploiement
Cassandra fonctionne aussi bien pour des petits que pour des
déploiements énormes!
Déploiement Cassandra chez Apple
• 75 000+ noeuds
• 10’s petabytes de données
• Millions ops/second
• Plus gros cluster à 1000+ noeuds
Apple Inc.: Cassandra at Apple for Massive Scale
Video https://www.youtube.com/watch?v=Bc4ql9TDzyg
From Cassandra Summit, London, December 2014
DataStax Enterprise
Document confidentiel
Straightening the road
RELATIONAL DATABASES
CQL SQL
OpsCenter / DevCenter Management tools
DSE for search & analytics Integration
Security Security
Support, consulting & training 30 years ecosystem
Document confidentiel
DataStax Enterprise
In-Memory
Option de base de données en mémoire
pour le stockage en RAM et non plus sur
disque de certaines données pour un
accès encore plus rapide.
Search
Fonctionnaliés de recherche sur des
données Cassandra via Apache Solr.
Fonctionnalités avancées et performante
sur de gros volumes.
Analytics
Intégration de frameworks analytiques
tels que Spark et Hadoop pour des
analyses temps-réel ou en mode
batch.
Support
Support 24x7 avec des hot-fixes et
des revues de performance.
Visual Admin
Un outil visuel “DataStax OpsCenter”
pour la supervision et l’administration
d’un cluster Cassandra et DataStax.
Management Services
Services d’administration automatique et
suivi des performances.
Cassandra Certified
Une version de Apache Cassandra certifiée, supportée et prête pour
l’entreprise.
Security
Fonctionalités de sécurité d’entreprise
comme le chiffrement des données sur
disques, des traces d’audit et une
authentification externe via Kerberos,
LDAP/Active Directory
Puissance pour le
Développement
Robustesse et Support
pour la Production
Document confidentiel
Le futur de DataStax Enterprise
Cas d’Utilisation
Document confidentiel
DataStax Enterprise + DataWarehouse / Hadoop
© 2014 DataStax, All
Rights Reserved.
Company
Confidential
Write Intensive
Internet of Things - Activity logs for
fraud and recommendation –
Messages
40
Read Intensive
Catalogue – Playlist –
Recommendation – Fraud Alert –
Personalization
Operational Search, Dashboard
and Reporting
Offline Applications
Historical Analysis - OLAP -
Complex Analytics – Self Service
BI
Operational Search, Dashboard
and Reporting
Data Warehouse
Hadoop cluster Computation
Engine
Multidimensional Cube
Document confidentiel
Des clients sur tous les verticaux
Document confidentiel
Cas d’usage fréquents
Messagerie
Catalogue/
Playlists
Détection de
Fraude
Recommandation/
Personnalisation
Objets connectés/
Données de Capteurs
Document confidentiel
Plus d’information
• DataStax: http://www.datastax.com
• Downloads: http://www.datastax.com/download
• Documentation: http://www.datastax.com/docs
• Developer Blog: http://www.datastax.com/dev/blog
• Academy: https://academy.datastax.com/
• Community Site: http://planetcassandra.org
©2014 DataStax Confidential. Do not distribute without consent.
Questions/Réponses
Merci!
Georges KLENKLE
Directeur Général
gklenkle@degetel.com
Victor Coustenoble
Ingénieur Solutions
victor.coustenoble@datastax.com

Contenu connexe

PPTX
DataStax et Cassandra dans Azure au Microsoft Techdays
PPTX
DataStax Enterprise - La plateforme de base de données pour le Cloud
PPTX
DataStax Enterprise et Cas d'utilisation de Apache Cassandra
PPTX
Quelles stratégies de Recherche avec Cassandra ?
PDF
Introduction à Apache Cassandra — IppEvent chez OVH 2017-03-02
PDF
Introduction à Cassandra
PPTX
Datastax Cassandra + Spark Streaming
PDF
Apache Cassandra - Concepts et fonctionnalités
DataStax et Cassandra dans Azure au Microsoft Techdays
DataStax Enterprise - La plateforme de base de données pour le Cloud
DataStax Enterprise et Cas d'utilisation de Apache Cassandra
Quelles stratégies de Recherche avec Cassandra ?
Introduction à Apache Cassandra — IppEvent chez OVH 2017-03-02
Introduction à Cassandra
Datastax Cassandra + Spark Streaming
Apache Cassandra - Concepts et fonctionnalités

Tendances (20)

PDF
Introduction à Cassandra
PPTX
Cassandra pour les développeurs java
PDF
Realtime Web avec Akka, Kafka, Spark et Mesos - Devoxx Paris 2014
PDF
Architecture Big Data open source S.M.A.C.K
PPTX
Webinar - Enterprise Cloud Databases
PPTX
DataStax et Apache Cassandra pour la gestion des flux IoT
PPT
Big Data Paris 2015 - Cassandra chez Chronopost
PPTX
SQLSaturday Paris 2014 - SQL Server AlwaysOn et les groupes de disponibilités...
PDF
Présentation de Apache Zookeeper
PDF
NoSQL et Big Data
PPTX
Azure Camp 9 Décembre - slides session développeurs webmedia
PDF
Cartographie du big data
PPTX
DataStax Enterprise BBL
PPTX
Azure Camp 9 Décembre 2014 - slides Keynote
PDF
Analytics et Big Data, une histoire de cubes...
PDF
Apache Kafka, Un système distribué de messagerie hautement performant
PDF
Paris Kafka Meetup - Concepts & Architecture
PDF
Kafka Connect & Kafka Streams - Paris Kafka User Group
PDF
Paris stormusergroup intrudocution
PPTX
[USI] Lambda-Architecture : comment réconcilier BigData et temps-réel
Introduction à Cassandra
Cassandra pour les développeurs java
Realtime Web avec Akka, Kafka, Spark et Mesos - Devoxx Paris 2014
Architecture Big Data open source S.M.A.C.K
Webinar - Enterprise Cloud Databases
DataStax et Apache Cassandra pour la gestion des flux IoT
Big Data Paris 2015 - Cassandra chez Chronopost
SQLSaturday Paris 2014 - SQL Server AlwaysOn et les groupes de disponibilités...
Présentation de Apache Zookeeper
NoSQL et Big Data
Azure Camp 9 Décembre - slides session développeurs webmedia
Cartographie du big data
DataStax Enterprise BBL
Azure Camp 9 Décembre 2014 - slides Keynote
Analytics et Big Data, une histoire de cubes...
Apache Kafka, Un système distribué de messagerie hautement performant
Paris Kafka Meetup - Concepts & Architecture
Kafka Connect & Kafka Streams - Paris Kafka User Group
Paris stormusergroup intrudocution
[USI] Lambda-Architecture : comment réconcilier BigData et temps-réel
Publicité

En vedette (20)

PPTX
BI, Reporting and Analytics on Apache Cassandra
PDF
Exploiting hotel Cassandra
PDF
Wikimedia Content API: A Cassandra Use-case
PDF
Wikimedia Content API: A Cassandra Use-case
KEY
Castle enhanced Cassandra
PDF
Time Series Data with Apache Cassandra (ApacheCon EU 2014)
PDF
Wikimedia Content API (Strangeloop)
PPTX
Webinaire Business&Decision - Trifacta
PDF
CQL In Cassandra 1.0 (and beyond)
PDF
Cassandra by Example: Data Modelling with CQL3
PDF
Virtual Nodes: Rethinking Topology in Cassandra
PDF
Virtual Nodes: Rethinking Topology in Cassandra
PDF
CQL: SQL In Cassandra
PDF
It's not you, it's me: Ending a 15 year relationship with RRD
PDF
Time Series Data with Apache Cassandra
PDF
Rethinking Topology In Cassandra (ApacheCon NA)
PPTX
Lightning fast analytics with Cassandra and Spark
PDF
Time Series Data with Apache Cassandra
PDF
Time series storage in Cassandra
PPTX
Cassandra 2.2 & 3.0
BI, Reporting and Analytics on Apache Cassandra
Exploiting hotel Cassandra
Wikimedia Content API: A Cassandra Use-case
Wikimedia Content API: A Cassandra Use-case
Castle enhanced Cassandra
Time Series Data with Apache Cassandra (ApacheCon EU 2014)
Wikimedia Content API (Strangeloop)
Webinaire Business&Decision - Trifacta
CQL In Cassandra 1.0 (and beyond)
Cassandra by Example: Data Modelling with CQL3
Virtual Nodes: Rethinking Topology in Cassandra
Virtual Nodes: Rethinking Topology in Cassandra
CQL: SQL In Cassandra
It's not you, it's me: Ending a 15 year relationship with RRD
Time Series Data with Apache Cassandra
Rethinking Topology In Cassandra (ApacheCon NA)
Lightning fast analytics with Cassandra and Spark
Time Series Data with Apache Cassandra
Time series storage in Cassandra
Cassandra 2.2 & 3.0
Publicité

Similaire à Webinar Degetel DataStax (20)

PDF
DataStax Enterprise - Cas d'usage
PPTX
Xebicon2019 m icroservices
PDF
Cassandra
PPTX
Presentation cassandra
PPTX
noSQL
PDF
BigData Paris 2022 - Innovations récentes et futures autour du NoSQL Apache ...
PDF
Panorama des offres NoSQL disponibles dans Azure
PDF
Panorama des offres NoSQL disponibles dans Azure
PDF
Adopte une BDD
PDF
Benchmarking NoSQL DataBase dans le cadre d'un projet IoT
PDF
Webinar Big Data Paris
PDF
BigData_Chp5: Putting it all together
PDF
Bases de données NoSQL
PPTX
result_b0XKKUdgN60FJduy1eRpdesfytres.pptx
PPTX
Base de données NoSQL
PDF
Introduction nosql
PDF
MariaDB une base de donnees NewSQL
PPSX
chap1-big-data.pps pour comprendre le problème de big data
PDF
Relational databases & NoSQL databases
PDF
4 ans de Duchess France : Cassandra 2.0
DataStax Enterprise - Cas d'usage
Xebicon2019 m icroservices
Cassandra
Presentation cassandra
noSQL
BigData Paris 2022 - Innovations récentes et futures autour du NoSQL Apache ...
Panorama des offres NoSQL disponibles dans Azure
Panorama des offres NoSQL disponibles dans Azure
Adopte une BDD
Benchmarking NoSQL DataBase dans le cadre d'un projet IoT
Webinar Big Data Paris
BigData_Chp5: Putting it all together
Bases de données NoSQL
result_b0XKKUdgN60FJduy1eRpdesfytres.pptx
Base de données NoSQL
Introduction nosql
MariaDB une base de donnees NewSQL
chap1-big-data.pps pour comprendre le problème de big data
Relational databases & NoSQL databases
4 ans de Duchess France : Cassandra 2.0

Webinar Degetel DataStax

  • 1. Webinar Degetel - DataStax Révolution dans la gestion de la data Du SQL au NoSQL : Pourquoi ? Différences ? Comment ça marche ? 13/10/2015
  • 2. Table de matières • Mot d’accueil • Les nouveaux métiers dela gestion de la DATA • Introduction • Quand la base de données devient unproblème • Pourquoi Cassandra et Comparaison SGBDR • Apache Cassandra • DataStax Enterprise • Cas d’Utilisation • Questions / Réponses
  • 4. DegetelPure player de l’innovation, du digital et de la mobilité 1999 CRÉATION DE LA SOCIETÉ 400 COLLABORATEURS 36 m€ DE CHIFFRE D’AFFAIRES +100 CLIENTS ACTIFS 63% DU CA EFFECTUÉ DANS LE CAC 40 NoSQL DEPUIS 2010
  • 6. GroupePure player de l’innovation, du digital et de la mobilité Mobile Web Conseil Cloud Computing Transformation SI Social media Design IOT Big data Nos partenaires Nos métiers
  • 7. les nouveaux métiersde la gestion de la Data Le big data : « c'est avant tout la capacité à extraire de l'information à partir de données non structurées ». Jean-Charles Cointot et Yves Eychenne, La Revolution Big Data Aujourd’hui l'enjeu n’est plus d’extraire les données, mais consiste à transformer ces informations en actions, comme le lancement d'un nouveau produit ou le développement de nouveaux services. L’incidence est une mutation des métiers du Big data et Degetel s’y inscrit en recrutant les meilleurs profils de ces nouveaux métiers : • Data scientist • Chief data officer • Data protection officer • Master data manager • Chief Marketing Technologist
  • 8. les nouveaux métiersde la gestion de la Data - 190 000 MCKINSEY PRÉVOIT UN DÉFICIT DE -140 000 À -190 000 DATA SCIENTIST D’ICI 2018 AUX ETATS UNIS 137 000 EMPLOIS EN FRANCE GRÂCE AU BIG DATA À L’HORIZON 2020 (src:economie.gouv.fr) 27% SELON GARTNER 27% DES ORGANISATIONS AURONT UN CHIEF DATA OFFICER EN 2017 3 chiffres clés à horizon 2020 :
  • 10. Document confidentiel 10 DataStax délivre une plateforme de la base de données Apache Cassandra, conçue spécifiquement pour les besoins en Performance et Disponibilité exigés par les applications d’Internet des Objets, Web ou Mobiles, en offrant aux entreprises une base de données Sécurisée toujours disponible, qui reste Simple à administrer même pour des déploiements à grande échelle, dans un seul ou de Multiples Data Centers et dans le Cloud.
  • 12. Quand la base de données devient un problème
  • 13. Document confidentiel Qu’est ce qui change aujourd’hui ? 13
  • 14. Document confidentiel La troisième vague des bases de données ©2015 DataStax Confidential. Do not distribute without consent.
  • 15. Document confidentiel Application “classique”– ok pour les SGBDR 15 • Données sur une seule machine • Support d’accès concurrents • ACID rend le travail confortable • Scalabilité verticale
  • 16. Document confidentiel 16 SGBDR pour le “Big Data” OLTP ou Analytique ?
  • 18. Document confidentiel La 3ème forme normale ne scale pas 18 • Impossible de prédire les requêtes • Les utilisateurs ne veulent plus attendre • Les données doivent être dénormalisées • Si les données ne tiennent pas en mémoire… • Les recherches sur disques sont coûteuses (SELECT CONCAT(city_name,', ',region) value, latitude, longitude, id, population, ( 3959 * acos( cos( radians($latitude) ) * cos( radians( latitude ) ) * cos( radians( longitude ) - radians($longitude) ) + sin( radians($latitude) ) * sin( radians( latitude ) ) ) ) AS distance, CASE region WHEN '$region' THEN 1 ELSE 0 END AS region_match FROM `cities` $where and foo_count > 5 ORDER BY region_match desc, foo_count desc limit 0, 11) UNION (SELECT CONCAT(city_name,', ',region) value, latitude, longitude, id, population, ( 3959 * acos( cos( radians($latitude) ) * cos( radians( latitude ) ) * cos( radians( longitude ) - radians($longitude) ) + sin( radians($latitude) ) * sin( radians( latitude ) ) ) ) AS distance, CASE region WHEN '$region' THEN 1 ELSE 0 END AS region_match FROM `cities` $where ORDER BY region_match desc, population desc, distance asc limit 0, 11) limit 0, 11;
  • 19. Document confidentiel Le partitionnement est un “cauchemar” 19 • Données stockées sur différentes machines • Pas de jointures, pas d’agrégats • Tout est dénormalisé • Requêtage via un index secondaire doit taper sur toutes les partitions • Ajouter des partitions demande un déplacement de données • Changement de schema
  • 20. Document confidentiel Très Haute Disponibilité ? 20 • Failover du Master … qui est responsable? – Architectures complexes – “Bricolage” du code • Compléxité du Multi-Data Center • Arrêt de services fréquents • Changement des settings de la base de données – Défaillance des disques … – Mises à jour OS et logiciel …
  • 21. Document confidentiel Résumé des “problèmes” 21 • La montée en charge est difficile • L’Acidité n’est pas tout le temps assurée • Le re-partionnement est un processus manuel • Il faut dénormaliser pour les performances • La très haute disponible est complexe et demande des composants additionnels
  • 22. Document confidentiel Leçons retenues 22 • Dans la pratique la cohérence n’est pas assurée Abandon • Le partionnement et le re-balancing sont difficiles Réalisé et Intégré • Chacune des parties rend le système plus complexe Architecture Simplifiée – pas de Maître/Esclave • La scalabilité verticale coûte chère “Commodity Hardware” • Scatter / gather no good Dernomalisation pour les performances Requête sur 1 seule machine
  • 23. Pourquoi Apache Cassandra et comparaison SGBDR
  • 24. Document confidentiel Pourquoi de pas utiliser Oracle ?  ©2014 DataStax Confidential. Do not distribute without consent. 24 Versus
  • 26. Document confidentiel Cassandra - La Base de Données Distribuée leader Bordeaux Paris Marseille C * C * C *C * Toujours Disponible Distribution géographique Performance reconnue Extensibilité prédictible Simplicité Opérationnelle Séries Temporelles 26
  • 27. Document confidentiel Apache Cassandra™ • Apache Cassandra™ = Base de données NoSQL, Open Source, Distribuée et créée pour les applications en ligne, modernes, critiques et avec des montée en charge massive. • Java, hybride entre Amazon Dynamo et Google BigTable • Sans Maître-Esclave, sans Point Unique de Défaillance (Single Point Of Failure) • Distribuée avec la possibilité de Centres de Données (Data Center) • 100% Disponible • Massivement scalable • Montée en charge linéaire • Haute Performance • Simple à Exploiter ©2014 DataStax Confidential. Do not distribute without consent. 27 Dynamo BigTable BigTable: http://research.google.com/archive/bigtable-osdi06.pdf Dynamo: http://www.allthingsdistributed.com/files/amazon-dynamo-sosp2007.pdf Node 1 Node 2 Node 3Node 4 Node 5
  • 28. Document confidentiel Montée en charge linéaire Plus de données ? Ajout de noeuds Besoin de plus de débit? Ajout de noeuds http://techblog.netflix.com/2011/11/benchmarking-cassandra-scalability-on.html
  • 29. Document confidentiel Cassandra @ Netflix • 90+ Clusters • 5000+ noeuds • 4 Data Centres (Régions Amazon) • > 1 Trillion transactions par jour http://planetcassandra.org/functional-use-cases/ Exemple de Montée en Charge ©2014 DataStax Confidential. Do not distribute without consent. 29 Utilisation • Films regardés? • Qu’avez vous regardé avant et après? • Où vous avez fait pause? • Qu’est ce que vous avez arrêté après 5 minutes? • ….
  • 30. Document confidentiel Nodes Down != Database Down Datacenter Down != Database Down Upgrade != Database Down Haute Disponibilité
  • 31. Document confidentiel Défaillance d’un Noeud • La défaillance d’un seul noeud ne doit pas entraîner de défaillance du système • Facteur de Réplication + Niveau de Cohérence = Succès • Exemple: – RF = 3 – CL = QUORUM ©2014 DataStax Confidential. Do not distribute without consent. 31 Node 1 1st copy Node 4 Node 5 Node 2 2nd copy Node 3 3rd copy Parallel Write Write CL=QUORUM 5 μs ack 12 μs ack 12 μs ack >51% de réponses – donc la requête est réussie
  • 32. Document confidentiel Configuration en Data Center ©2014 DataStax Confidential. Do not distribute without consent. 32 Node 1 1st copy Node 4 Node 5 Node 2 2nd copy Node 3 3rd copy Node 1 1st copy Node 4 Node 5 Node 2 2nd copy Node 3 3rd copy DC: EUROPEDC: USA • Actif partout – lecture/écriture dans tous les DC • Le client écrit localement dans un DC • Données synchronisées à travers le WAN • Facteur de Réplication par DC Utilisations • DC de sauvegarde • Distribution géographique • Charge différente entre DC • Prod -> Pré-prod
  • 33. Document confidentiel Cloud & Cloud Hybride • DataStax Enterprise et Cassandra sont disponibles en multi-data center et dans le cloud (Amazon AWS, Google Cloud et Microsoft Azure) • Les données écrites dans n’importe quel noeud sont aussi automatiquement et de manière transparente écrites sur tous les autres noeuds dans les autres data centers sans ETL Data Centre 1 Data Centre 2 Public Cloud
  • 34. Document confidentiel Exemple de déploiement Cassandra fonctionne aussi bien pour des petits que pour des déploiements énormes! Déploiement Cassandra chez Apple • 75 000+ noeuds • 10’s petabytes de données • Millions ops/second • Plus gros cluster à 1000+ noeuds Apple Inc.: Cassandra at Apple for Massive Scale Video https://www.youtube.com/watch?v=Bc4ql9TDzyg From Cassandra Summit, London, December 2014
  • 36. Document confidentiel Straightening the road RELATIONAL DATABASES CQL SQL OpsCenter / DevCenter Management tools DSE for search & analytics Integration Security Security Support, consulting & training 30 years ecosystem
  • 37. Document confidentiel DataStax Enterprise In-Memory Option de base de données en mémoire pour le stockage en RAM et non plus sur disque de certaines données pour un accès encore plus rapide. Search Fonctionnaliés de recherche sur des données Cassandra via Apache Solr. Fonctionnalités avancées et performante sur de gros volumes. Analytics Intégration de frameworks analytiques tels que Spark et Hadoop pour des analyses temps-réel ou en mode batch. Support Support 24x7 avec des hot-fixes et des revues de performance. Visual Admin Un outil visuel “DataStax OpsCenter” pour la supervision et l’administration d’un cluster Cassandra et DataStax. Management Services Services d’administration automatique et suivi des performances. Cassandra Certified Une version de Apache Cassandra certifiée, supportée et prête pour l’entreprise. Security Fonctionalités de sécurité d’entreprise comme le chiffrement des données sur disques, des traces d’audit et une authentification externe via Kerberos, LDAP/Active Directory Puissance pour le Développement Robustesse et Support pour la Production
  • 38. Document confidentiel Le futur de DataStax Enterprise
  • 40. Document confidentiel DataStax Enterprise + DataWarehouse / Hadoop © 2014 DataStax, All Rights Reserved. Company Confidential Write Intensive Internet of Things - Activity logs for fraud and recommendation – Messages 40 Read Intensive Catalogue – Playlist – Recommendation – Fraud Alert – Personalization Operational Search, Dashboard and Reporting Offline Applications Historical Analysis - OLAP - Complex Analytics – Self Service BI Operational Search, Dashboard and Reporting Data Warehouse Hadoop cluster Computation Engine Multidimensional Cube
  • 41. Document confidentiel Des clients sur tous les verticaux
  • 42. Document confidentiel Cas d’usage fréquents Messagerie Catalogue/ Playlists Détection de Fraude Recommandation/ Personnalisation Objets connectés/ Données de Capteurs
  • 43. Document confidentiel Plus d’information • DataStax: http://www.datastax.com • Downloads: http://www.datastax.com/download • Documentation: http://www.datastax.com/docs • Developer Blog: http://www.datastax.com/dev/blog • Academy: https://academy.datastax.com/ • Community Site: http://planetcassandra.org ©2014 DataStax Confidential. Do not distribute without consent.