1
NOTRE OFFRE
RECHERCHE
OÙ SE TROUVE LA VALEUR ?
Business
Données
Contenus
« Legacy »
Documents
Pour l’extraire,
vos informations
doivent être
• Référencées
• Intégrées
• Uniformisées (indexées)
• Liées (entre elles)
• Auditées
• Reformatées
• …
3
VOTRE MOTEUR DE RECHERCHE
Le bon moteur pour vos informations se trouve ici !
L’OPEN SOURCE OFFRE UNE LARGE GAMME DE SOLUTIONS
4
ET DE NOMBREUX OUTILS POUR L’AMÉLIORER
Des briques open source pour les fonctions clés :
 Analyse sémantique
 Expansion de recherche
 Clustering automatique
 Gestion de thésaurus
ginco
NOTRE EXPERTISE
RECONNUE PAR NOS CLIENTS
6
Médias e-commerce Secteur Public Portails
DES RÉFÉRENCES…
FOCUS SUR ELACTIC SEARCH
10
ELASTICSEARCH
UN ÉCOSYSTÈME ORIENTÉ DONNÉES
ElasticSearch
Moteur de recherche et
analytics
Logstash
Collecte, enrichissement
de données
Marvel
Monitoring solution
Watcher
Alertes & notifications
basées sur les données
Kibana
Visualisation et
exploration de données
Shield
Sécurité et contrôle
d’accès aux données.
Beats
Collecte de données
réseaux
11
ELASTICSEARCH
Moteur de recherche et d’analyse REST
 Construit sur Apache Lucene
 Chez Smile : remplacement de SolR
Licence Open Source
 Apache 2
Fonctionnalités uniques
 Percolation
 Agrégations
 Intégration Hadoop & Spark
Simple à mettre en œuvre
 Courbe d’apprentissage rapide
 Déploiement et administration simple
QU’EST-CE QUE C’EST ?
Recherche fulltext
Données hétérogènes & schéma évolutif
Indexation temps réel
Analyse temps réel
Distribué & haute disponibilité
12
ELASTIC.CO
L’ENTREPRISE DERRIÈRE ELASTICSEARCH
Partenaire privilégié avec Smile
2 sièges sociaux
 EU : Amsterdam (Pays-Bas)
 US : Los Altos (Californie)
Présence commerciale & opérationnelle en
France
Un produit leader
 Plus de 8 millions de téléchargements depuis 2008
 > 500 000 téléchargements par mois
150 employés
Croissance forte à 3 chiffres
+400% ces 9 derniers mois
BusinessModel
•Ventes de support et
de formation pour ES
•3 niveaux de support
(Silver, Gold,
Premium).
Par nœuds
•Différents SLA y
compris 24/7 SLA
•Produits réservés aux
souscripteurs de
support : Shield,
Marvel & Watcher
Investors
•Benchmark Capital
$10M Series A, 2012
•Index Ventures
$24M Series B, 2013
With participation
from Benchmark
Capital
•New Enterprise
Associates $70M
Series C, 2014
With participation
from Benchmark
Capital and Index
Ventures
ELASTIC CHEZ SMILE
14
USE CASE
Répondre à l’enjeu stratégique d’une vision complète du client
 Chaque client a des interactions multiples avec votre marque
 Chaque canal régénère des traces techniques (Web, mobile, téléphone, magasin)
Pourquoi faire ?
 Conseil : en magasin, par téléphone, avant un rendez-vous
 Recommandation : le bon contenu à la bonne personne
 Ciblage d’opération marketing : segmentation, corrélation offre / profil
 …
Et comment ?
 Collecter et analyser de grandes volumétries d’informations sur les clients et les prospects
 Exploiter les Framework du Big Data et d’Elastic pour apporter une réponse opérationnelle au métier
VUE CLIENT À 360°
15
Index client à 360°
USE CASE
VUE CLIENT À 360° Clients
Prospects
Collecte
Indexation donnée
comportementale
Smile_Modules :
Système Big Data
Un dispositif de collecte des données
comportementales (web, in store, téléphone…)
A
APIs
API Vue
Client à
360°
API
Ciblage
client
API
Recommandations
…
Sources
de données
traditionnelles
CRM
Help
Desk
…
Système de traitement Système de stockage / historisation
USE CASE
• Calcul d’un score
d’appétence par catégorie
de produit / offre
• Permet d’orienter la relation
client lors des contacts 1 to 1
(in-store ou par téléphone)
• Permet d’établir des listes de
prospection
 Ex: Tous les clients intéressés par le
rayon « Jeux PS4 »
 Prospection automatique (mailing,
notifications,…) ou sollicitation
ciblée (téléphone)
VUE CLIENT À 360°
Exemple de notre projet interne
Le marketing créé des contenus à forte valeur
ajoutée dont la consultation est un indicateur sur
d’appétence
Relativement simple sur un système e-commerce : la
fiche produit
UN MODULE SMILE POUR
MAGENTO
UN MOTEUR DE RECHERCHE POUR LE E-COMMERCE
Objectif du projet :
• Disposer d’un moteur de
recherche spécialisé dans
le e-commerce
• Fonctionnalités fulltext et
de merchandising à l’état
de l’art
• Inclure des mécanismes
d’optimisation qui
s’appuient sur le
comportement des
utilisateurs
• Projet diffusé en Open
Source
MODULE ELASTICSEARCH POUR MAGENTO
Architecture technique
Website Users
Search Queries
Catalog Index
Behavioral Data Index
Website Usage
Collect Data
Smile Webtracker
Product
Data
Indexing
User Behavior
Indexing
Smile_ElasticSearch
Smile_VirtualCategories Smile_Tracker
Smile_SearchOptimizer
Smile_Modules :
Le dispositif de collecte des données utilisateurs via web tracking permet
d’agir sur la pertinence en temps réel
Il est construit sur des briques Big Data : Apache Spark & Apache Kafka
Elastic en détail
21
SMILE ELASTICSEARCH
BOOSTER VOTRE INTRANET
Facettes
 Sélection de facettes multiples
 Gestion multi sources et sur les sources
 Filtre sur date, sur les notes, sur les auteurs
 Personnalisation facile par les développeurs
Autocomplétion
 Recherche populaires, produits, catégories,
 Extensible pour ajouter d’autres contenus : bases, CMS…
Amélioration de la recherche plein texte
 Pondération de chaque attribut pour la recherche, depuis le back-office
 Recherche floue : « Frankenshten » donnera « Frankenstein »
22
SMILE ELASTICSEARCH
BOOSTER VOTRE INTRANET
Catégories intelligentes
 Définition de catégories par des règles
(en plus d’une sélection manuelle)
 Interface de gestion conviviale et intégrée
Optimisations de la pertinence
 Ajout de règles métiers pour modifier la pertinence
o « Booster les contenus produits ou notés par des experts »
o « faire le lien entre un même contenu stocké deux fois »
 Extensible par un framework de développements
23
SMILE ELASTICSEARCH
BOOSTER VOTRE INTRANET
Visualisation des résultats
 Affichage des résultats avec et sans l’optimiseur
 Permettre de raffiner les résultats
Tri au sein des catégories virtuelles
 Pour déterminer manuellement les positions des produits au sein
des catégories définies automatiquement par des règles
o Ex : positionner une « réglementation européenne récente » en
fonction d’une requête donnée (mise en avant)
Tri dans les résultats de recherche
 Permet d’ordonner les produits qui sont affichés pour des
recherches définies.
o Ex : mise en avant de la robe « Kali » pour la requête de recherche
« robe » (ou « robes »…)
28
+ 20
A QUOI SERT UN MOTEUR DE RECHERCHE ?
Ce que les utilisateurs attendent
 Trouver
 Fédérer / uniformiser
Ce qu’il faut faire
 Un moteur rapide et adapté
 Une bonne exploitation de l’indexation
 La gestion des droits
 La prise en compte de tous les contenus (Web / document / produit…)
 Gérer le « bruit » et « silence »
 Exploiter les outils à valeur ajoutée
o Classification, thésaurus, ontologie…
29
FONCTIONS ESSENTIELLES
Indexation des contenus
 Crawler – temps différé
 Connecteur – temps réel
Deux types de recherches
 « plein texte » (Full text) vs. documentaire
 Fédérée avec gestion des droits des utilisateurs
Exploitation des contenus
 Classement / navigation / cluster
 Statistique / administration
Intégration
 API, Webservice…
 Gestion des droits (SSO)
30
Morpho-syntaxique
• Correction et phonétique
• Cross-lingue
• Extraction d’entités nommées
Sémantique
• Analyse du sens (meaning)
• Recherche par l’exemple
• Catégorisation
Statistique
• Indexation plein texte
• Analyse de corpus
• Détection des liens
• Extraction de concept
Structurée
• Indexation structurée
• Navigation multidimensionnelle
• Exploitation des métadonnées
COMMENT FAIT ON LA RECHERCHE ?
LES TYPES D’ANALYSE
31
COMMENT AMÉLIORER LA RECHERCHE ?
Registre linguistique
 Lemmatisation (réduction au signifiant)
 Synonomie, mots vides, orthographe
 Sémantique
Registre mathématique
 Pertinence : champs, proximité, usage
 Pondération
 Texte mining
TECHNIQUES AVANCÉES
RECHERCHE FÉDÉRÉE ONE SEARCH FOR ALL
Trouver dans
plusieurs
ensembles de
contenus
Les bases sont hétérogènes et leur plus
petit commun dénominateur (ppcm)
réduit, l’objectif est de ne pas passer à
côté d’une information.
Fonctions de recherche dépendant à la
technologie utilisée (crawling,
connecteur)
33
Export des contenus
indexe
Crawling de base(s) Connecteur
• Contrôle des contenus a
priori
• Temps réel
• Contrôle des contenus à
postériorité (crawler)
• Pas de temps réel
• Gestion des droits
• Temps réel
• Maintenance importante
indexe indexe
INDEXATION DES CONTENUS
SUR QUOI S’EXÉCUTE LA RECHERCHE ?
34
INDEXATION DES CONTENUS
Nombre de bases
Hétérogénéité technologique
Evolutivité du système
Architecture des bases
 Centralisées / réparties
 Bases internes, externes
 Contrôlées ou non (internet)
Puissance de recherche
 Opérateurs disponibles
 Vitesse d’exécution / nombre de recherches
ELÉMENTS D’ARBITRAGE DE CHOIX DES MÉTHODES
ARCHITECTURE DES MOTEURS
LES CAS FRÉQUENTS
Brique intégrée
 embarquée dans une
solution
Brique
« branchée »
 mais indépendante
moteur
moteur
requête
TYPES DE RECHERCHES
Quel est votre
projet ?
 Sachez identifier les
leviers de succès
Recherche (simple)
 trouver quelque chose dans un ensemble
 Souvent « Google like »
o Simple et intelligent
Recherche fédérée
 trouver quelque chose dans plusieurs ensembles
 Souvent plus élaborée
o Simple et puissant
Recherche sur le poste de travail
 Trouver quelque chose sur son ordinateur
 Le plus souvent intégré à l’OS
EXPLOITATION DES RÉSULTATS
FONCTIONS CLÉS
Navigation dans les résultats
 Catégorisation (clustering)
 Affichage par facettes
Trier et classer
 Filtrer et affiner
 Thésaurus, plan de classement
Export
 Liste
 Graphique
Alerte
 Requêtes rejouées périodiquement
 Communication du différentiel
On ne
cherche
jamais que
pour trouver

Offre Search

  • 1.
  • 2.
    OÙ SE TROUVELA VALEUR ? Business Données Contenus « Legacy » Documents Pour l’extraire, vos informations doivent être • Référencées • Intégrées • Uniformisées (indexées) • Liées (entre elles) • Auditées • Reformatées • …
  • 3.
    3 VOTRE MOTEUR DERECHERCHE Le bon moteur pour vos informations se trouve ici ! L’OPEN SOURCE OFFRE UNE LARGE GAMME DE SOLUTIONS
  • 4.
    4 ET DE NOMBREUXOUTILS POUR L’AMÉLIORER Des briques open source pour les fonctions clés :  Analyse sémantique  Expansion de recherche  Clustering automatique  Gestion de thésaurus ginco
  • 5.
  • 6.
    6 Médias e-commerce SecteurPublic Portails DES RÉFÉRENCES…
  • 7.
  • 8.
    10 ELASTICSEARCH UN ÉCOSYSTÈME ORIENTÉDONNÉES ElasticSearch Moteur de recherche et analytics Logstash Collecte, enrichissement de données Marvel Monitoring solution Watcher Alertes & notifications basées sur les données Kibana Visualisation et exploration de données Shield Sécurité et contrôle d’accès aux données. Beats Collecte de données réseaux
  • 9.
    11 ELASTICSEARCH Moteur de rechercheet d’analyse REST  Construit sur Apache Lucene  Chez Smile : remplacement de SolR Licence Open Source  Apache 2 Fonctionnalités uniques  Percolation  Agrégations  Intégration Hadoop & Spark Simple à mettre en œuvre  Courbe d’apprentissage rapide  Déploiement et administration simple QU’EST-CE QUE C’EST ? Recherche fulltext Données hétérogènes & schéma évolutif Indexation temps réel Analyse temps réel Distribué & haute disponibilité
  • 10.
    12 ELASTIC.CO L’ENTREPRISE DERRIÈRE ELASTICSEARCH Partenaireprivilégié avec Smile 2 sièges sociaux  EU : Amsterdam (Pays-Bas)  US : Los Altos (Californie) Présence commerciale & opérationnelle en France Un produit leader  Plus de 8 millions de téléchargements depuis 2008  > 500 000 téléchargements par mois 150 employés Croissance forte à 3 chiffres +400% ces 9 derniers mois BusinessModel •Ventes de support et de formation pour ES •3 niveaux de support (Silver, Gold, Premium). Par nœuds •Différents SLA y compris 24/7 SLA •Produits réservés aux souscripteurs de support : Shield, Marvel & Watcher Investors •Benchmark Capital $10M Series A, 2012 •Index Ventures $24M Series B, 2013 With participation from Benchmark Capital •New Enterprise Associates $70M Series C, 2014 With participation from Benchmark Capital and Index Ventures
  • 11.
  • 12.
    14 USE CASE Répondre àl’enjeu stratégique d’une vision complète du client  Chaque client a des interactions multiples avec votre marque  Chaque canal régénère des traces techniques (Web, mobile, téléphone, magasin) Pourquoi faire ?  Conseil : en magasin, par téléphone, avant un rendez-vous  Recommandation : le bon contenu à la bonne personne  Ciblage d’opération marketing : segmentation, corrélation offre / profil  … Et comment ?  Collecter et analyser de grandes volumétries d’informations sur les clients et les prospects  Exploiter les Framework du Big Data et d’Elastic pour apporter une réponse opérationnelle au métier VUE CLIENT À 360°
  • 13.
    15 Index client à360° USE CASE VUE CLIENT À 360° Clients Prospects Collecte Indexation donnée comportementale Smile_Modules : Système Big Data Un dispositif de collecte des données comportementales (web, in store, téléphone…) A APIs API Vue Client à 360° API Ciblage client API Recommandations … Sources de données traditionnelles CRM Help Desk … Système de traitement Système de stockage / historisation
  • 14.
    USE CASE • Calculd’un score d’appétence par catégorie de produit / offre • Permet d’orienter la relation client lors des contacts 1 to 1 (in-store ou par téléphone) • Permet d’établir des listes de prospection  Ex: Tous les clients intéressés par le rayon « Jeux PS4 »  Prospection automatique (mailing, notifications,…) ou sollicitation ciblée (téléphone) VUE CLIENT À 360° Exemple de notre projet interne Le marketing créé des contenus à forte valeur ajoutée dont la consultation est un indicateur sur d’appétence Relativement simple sur un système e-commerce : la fiche produit
  • 15.
    UN MODULE SMILEPOUR MAGENTO
  • 16.
    UN MOTEUR DERECHERCHE POUR LE E-COMMERCE Objectif du projet : • Disposer d’un moteur de recherche spécialisé dans le e-commerce • Fonctionnalités fulltext et de merchandising à l’état de l’art • Inclure des mécanismes d’optimisation qui s’appuient sur le comportement des utilisateurs • Projet diffusé en Open Source MODULE ELASTICSEARCH POUR MAGENTO Architecture technique Website Users Search Queries Catalog Index Behavioral Data Index Website Usage Collect Data Smile Webtracker Product Data Indexing User Behavior Indexing Smile_ElasticSearch Smile_VirtualCategories Smile_Tracker Smile_SearchOptimizer Smile_Modules : Le dispositif de collecte des données utilisateurs via web tracking permet d’agir sur la pertinence en temps réel Il est construit sur des briques Big Data : Apache Spark & Apache Kafka
  • 17.
  • 18.
    21 SMILE ELASTICSEARCH BOOSTER VOTREINTRANET Facettes  Sélection de facettes multiples  Gestion multi sources et sur les sources  Filtre sur date, sur les notes, sur les auteurs  Personnalisation facile par les développeurs Autocomplétion  Recherche populaires, produits, catégories,  Extensible pour ajouter d’autres contenus : bases, CMS… Amélioration de la recherche plein texte  Pondération de chaque attribut pour la recherche, depuis le back-office  Recherche floue : « Frankenshten » donnera « Frankenstein »
  • 19.
    22 SMILE ELASTICSEARCH BOOSTER VOTREINTRANET Catégories intelligentes  Définition de catégories par des règles (en plus d’une sélection manuelle)  Interface de gestion conviviale et intégrée Optimisations de la pertinence  Ajout de règles métiers pour modifier la pertinence o « Booster les contenus produits ou notés par des experts » o « faire le lien entre un même contenu stocké deux fois »  Extensible par un framework de développements
  • 20.
    23 SMILE ELASTICSEARCH BOOSTER VOTREINTRANET Visualisation des résultats  Affichage des résultats avec et sans l’optimiseur  Permettre de raffiner les résultats Tri au sein des catégories virtuelles  Pour déterminer manuellement les positions des produits au sein des catégories définies automatiquement par des règles o Ex : positionner une « réglementation européenne récente » en fonction d’une requête donnée (mise en avant) Tri dans les résultats de recherche  Permet d’ordonner les produits qui sont affichés pour des recherches définies. o Ex : mise en avant de la robe « Kali » pour la requête de recherche « robe » (ou « robes »…)
  • 21.
    28 + 20 A QUOISERT UN MOTEUR DE RECHERCHE ? Ce que les utilisateurs attendent  Trouver  Fédérer / uniformiser Ce qu’il faut faire  Un moteur rapide et adapté  Une bonne exploitation de l’indexation  La gestion des droits  La prise en compte de tous les contenus (Web / document / produit…)  Gérer le « bruit » et « silence »  Exploiter les outils à valeur ajoutée o Classification, thésaurus, ontologie…
  • 22.
    29 FONCTIONS ESSENTIELLES Indexation descontenus  Crawler – temps différé  Connecteur – temps réel Deux types de recherches  « plein texte » (Full text) vs. documentaire  Fédérée avec gestion des droits des utilisateurs Exploitation des contenus  Classement / navigation / cluster  Statistique / administration Intégration  API, Webservice…  Gestion des droits (SSO)
  • 23.
    30 Morpho-syntaxique • Correction etphonétique • Cross-lingue • Extraction d’entités nommées Sémantique • Analyse du sens (meaning) • Recherche par l’exemple • Catégorisation Statistique • Indexation plein texte • Analyse de corpus • Détection des liens • Extraction de concept Structurée • Indexation structurée • Navigation multidimensionnelle • Exploitation des métadonnées COMMENT FAIT ON LA RECHERCHE ? LES TYPES D’ANALYSE
  • 24.
    31 COMMENT AMÉLIORER LARECHERCHE ? Registre linguistique  Lemmatisation (réduction au signifiant)  Synonomie, mots vides, orthographe  Sémantique Registre mathématique  Pertinence : champs, proximité, usage  Pondération  Texte mining TECHNIQUES AVANCÉES
  • 25.
    RECHERCHE FÉDÉRÉE ONESEARCH FOR ALL Trouver dans plusieurs ensembles de contenus Les bases sont hétérogènes et leur plus petit commun dénominateur (ppcm) réduit, l’objectif est de ne pas passer à côté d’une information. Fonctions de recherche dépendant à la technologie utilisée (crawling, connecteur)
  • 26.
    33 Export des contenus indexe Crawlingde base(s) Connecteur • Contrôle des contenus a priori • Temps réel • Contrôle des contenus à postériorité (crawler) • Pas de temps réel • Gestion des droits • Temps réel • Maintenance importante indexe indexe INDEXATION DES CONTENUS SUR QUOI S’EXÉCUTE LA RECHERCHE ?
  • 27.
    34 INDEXATION DES CONTENUS Nombrede bases Hétérogénéité technologique Evolutivité du système Architecture des bases  Centralisées / réparties  Bases internes, externes  Contrôlées ou non (internet) Puissance de recherche  Opérateurs disponibles  Vitesse d’exécution / nombre de recherches ELÉMENTS D’ARBITRAGE DE CHOIX DES MÉTHODES
  • 28.
    ARCHITECTURE DES MOTEURS LESCAS FRÉQUENTS Brique intégrée  embarquée dans une solution Brique « branchée »  mais indépendante moteur moteur requête
  • 29.
    TYPES DE RECHERCHES Quelest votre projet ?  Sachez identifier les leviers de succès Recherche (simple)  trouver quelque chose dans un ensemble  Souvent « Google like » o Simple et intelligent Recherche fédérée  trouver quelque chose dans plusieurs ensembles  Souvent plus élaborée o Simple et puissant Recherche sur le poste de travail  Trouver quelque chose sur son ordinateur  Le plus souvent intégré à l’OS
  • 30.
    EXPLOITATION DES RÉSULTATS FONCTIONSCLÉS Navigation dans les résultats  Catégorisation (clustering)  Affichage par facettes Trier et classer  Filtrer et affiner  Thésaurus, plan de classement Export  Liste  Graphique Alerte  Requêtes rejouées périodiquement  Communication du différentiel On ne cherche jamais que pour trouver