by
CEO, XIKO / PRÉSIDENTE, AFTAL
Formation
• PhD. Linguistique Appliquée, Traitement Automatique des Langues (TAL a.k.a NLP)
• MSc. TAL + MSc. Ingénierie Linguistique Multilingue
CEO, XiKO (www.xiko.fr)
• KOVERI : IA sémantique pour l’analyse de tous les textes dans toutes les langues
• Applications : marketing programmatique, enrichissement sémantique
Présidente, AFTAL (@AssoForTAL)
• Anciens des Formations en Traitement Automatique des Langues
• Association inter-universitaire (Paris, Toulouse, Lille, Tours, …)
Avant ça/et aussi…
• Expériences en agence et en freelance, R&D Project Manager
• Charges d’enseignement (niveau Licence & Master)
CEO, XIKO / PRÉSIDENTE, AFTAL
Formation
• PhD. Linguistique Appliquée, Traitement Automatique des Langues (TAL a.k.a NLP)
• MSc. TAL + MSc. Ingénierie Linguistique Multilingue
CEO, XiKO (www.xiko.fr)
• KOVERI : IA sémantique pour l’analyse de tous les textes dans toutes les langues
• Marketing programmatique, enrichissement sémantique, Insight-as-a-Service
Présidente, AFTAL (@AssoForTAL)
• Anciens des Formations en Traitement Automatique des Langues
• Association inter-universitaire (Paris, Toulouse, Lille, Tours, …)
Avant ça/et aussi…
• Expériences en agence et en freelance, R&D Project Manager
• Charges d’enseignement (niveau Licence & Master)
CEO, XIKO / PRÉSIDENTE, AFTAL
Formation
• PhD. Linguistique Appliquée, Traitement Automatique des Langues (TAL a.k.a NLP)
• MSc. TAL + MSc. Ingénierie Linguistique Multilingue
CEO, XiKO (www.xiko.fr)
• KOVERI : IA sémantique pour l’analyse de tous les textes dans toutes les langues
• Marketing programmatique, enrichissement sémantique, Insight-as-a-Service
Présidente, AFTAL (@AssoForTAL)
• Anciens des Formations en Traitement Automatique des Langues
• Association inter-universitaire (Paris, Toulouse, Lille, Tours, …)
Avant ça/et aussi…
• Expériences en agence et en freelance, R&D Project Manager
• Charges d’enseignement (niveau Licence & Master)
CEO, XIKO / PRÉSIDENTE, AFTAL
Formation
• PhD. Linguistique Appliquée, Traitement Automatique des Langues (TAL a.k.a NLP)
• MSc. TAL + MSc. Ingénierie Linguistique Multilingue
CEO, XiKO (www.xiko.fr)
• KOVERI : IA sémantique pour l’analyse de tous les textes dans toutes les langues
• Marketing programmatique, enrichissement sémantique, Insight-as-a-Service
Présidente, AFTAL (@AssoForTAL)
• Anciens des Formations en Traitement Automatique des Langues
• Association inter-universitaire (Paris, Toulouse, Lille, Tours, …)
Avant ça/et aussi…
• Expériences en agence et en freelance, R&D Project Manager
• Charges d’enseignement (niveau Licence & Master)
linkedin.com/in/margueriteleenhardt/
AU CŒUR DES RECHERCHES EN TRAITEMENT AUTOMATIQUE DES LANGUES
Traitements automatiques de corpus
Contenus textuels
Expression écrite en langage naturelANALYSEDECORPUS
ANALYSE DE CONTENUS
ACQUISITION DE
CONNAISSANCES
FOUILLE DE TEXTES
EXTRACTION
D’INFORMATION
RECHERCHE
DOCUMENTAIRE
EXTENSION DES INDEX
DE RECHERCHE
& DE REQUÊTES
CATÉGORISATION DE
DOCUMENTS
CLASSIFICATION DE
DOCUMENTS
AU CŒUR DES RECHERCHES EN TRAITEMENT AUTOMATIQUE DES LANGUES
Traitements automatiques de corpus
Contenus textuels
Expression écrite en langage naturelANALYSEDECORPUS
ANALYSE DE CONTENUS
ACQUISITION DE
CONNAISSANCES
FOUILLE DE TEXTES
EXTRACTION
D’INFORMATION
RECHERCHE
DOCUMENTAIRE
EXTENSION DES INDEX
DE RECHERCHE
& DE REQUÊTES
CATÉGORISATION DE
DOCUMENTS
CLASSIFICATION DE
DOCUMENTS
AU CŒUR DES RECHERCHES EN TRAITEMENT AUTOMATIQUE DES LANGUES
Traitements automatiques de corpus
Contenus textuels
Expression écrite en langage naturelANALYSEDECORPUS
ANALYSE DE CONTENUS
ACQUISITION DE
CONNAISSANCES
FOUILLE DE TEXTES
EXTRACTION
D’INFORMATION
RECHERCHE
DOCUMENTAIRE
EXTENSION DES INDEX
DE RECHERCHE
& DE REQUÊTES
CATÉGORISATION DE
DOCUMENTS
CLASSIFICATION DE
DOCUMENTS
LINGUISTIQUE DE CORPUS
AU CŒUR DES RECHERCHES EN TRAITEMENT AUTOMATIQUE DES LANGUES
Traitements automatiques de corpus
Contenus textuels
Expression écrite en langage naturelANALYSEDECORPUS
ANALYSE DE CONTENUS
ACQUISITION DE
CONNAISSANCES
FOUILLE DE TEXTES
EXTRACTION
D’INFORMATION
RECHERCHE
DOCUMENTAIRE
EXTENSION DES INDEX
DE RECHERCHE
& DE REQUÊTES
CATÉGORISATION DE
DOCUMENTS
CLASSIFICATION DE
DOCUMENTS
TRAITEMENT
AUTOMATIQUE DES
LANGUES
LINGUISTIQUE DE CORPUS
QUI INTÈGRE DES TECHNIQUES DE TRAITEMENT AUTOMATIQUE DES LANGUES
Dédiées à la recherche documentaire
Collections de documents
Techniques d’indexation et de rechercheANALYSEDECORPUS
ANALYSE DE CONTENUS
ACQUISITION DE
CONNAISSANCES
FOUILLE DE TEXTES
EXTRACTION
D’INFORMATION
RECHERCHE
DOCUMENTAIRE
EXTENSION DES INDEX
DE RECHERCHE
& DE REQUÊTES
CATÉGORISATION DE
DOCUMENTS
CLASSIFICATION DE
DOCUMENTS
ANALYSEDECORPUS
ANALYSE DE CONTENUS
ACQUISITION DE
CONNAISSANCES
FOUILLE DE TEXTES
EXTRACTION
D’INFORMATION
RECHERCHE
DOCUMENTAIRE
EXTENSION DES INDEX
DE RECHERCHE
& DE REQUÊTES
CATÉGORISATION DE
DOCUMENTS
CLASSIFICATION DE
DOCUMENTS
QUI INTÈGRE DES TECHNIQUES DE TRAITEMENT AUTOMATIQUE DES LANGUES
Dédiées à la recherche documentaire
Collections de documents
Techniques d’indexation et de recherche
QUI INTÈGRE DES TECHNIQUES DE TRAITEMENT AUTOMATIQUE DES LANGUES
Dédiées à la recherche documentaire
Collections de documents
Techniques d’indexation et de rechercheANALYSEDECORPUS
ANALYSE DE CONTENUS
ACQUISITION DE
CONNAISSANCES
FOUILLE DE TEXTES
EXTRACTION
D’INFORMATION
RECHERCHE
DOCUMENTAIRE
EXTENSION DES INDEX
DE RECHERCHE
& DE REQUÊTES
CATÉGORISATION DE
DOCUMENTS
CLASSIFICATION DE
DOCUMENTS
L’USAGE ET L’ATTENTE DES UTILISATEURS FINAUX A CHANGÉ
L’avènement du Natural Language Search
Évolution des algorithmes des moteurs de recherche
Évolution des tactiques SEO
Système de Questions-Réponses Système de mots-clés Système hybrides + techniques TAL & IA
L’USAGE ET L’ATTENTE DES UTILISATEURS FINAUX A CHANGÉ
L’avènement du Natural Language Search
Évolution des algorithmes des moteurs de recherche
Évolution des tactiques SEO
1996 1998 2017
Questions-Réponses mots-clés hybrides + techniques TAL & IA
…
L’USAGE ET L’ATTENTE DES UTILISATEURS FINAUX A CHANGÉ
L’avènement du Natural Language Search
Évolution des algorithmes des moteurs de recherche
Évolution des tactiques SEO
1996 1998 2017
Questions-Réponses mots-clés hybrides + techniques TAL & IA
…
L’USAGE ET L’ATTENTE DES UTILISATEURS FINAUX A CHANGÉ
L’avènement du Natural Language Search
Évolution des algorithmes des moteurs de recherche
Évolution des tactiques SEO
1996 1998 2017
Questions-Réponses mots-clés hybrides + techniques TAL & IA
…
AU CŒUR DES FONCTIONNALITÉS « INTELLIGENTES » DU MOTEUR
MOTEURDERECHERCHE
EXPLORATION CRAWLERS
INDEXATION
SEGMENTATION &
PONDÉRATION
RECHERCHE /
APPARIEMENT
BOOLEENS /
VECTORIEL / LSA
COMPLÉMENTS
CORRECTION
ORTHOGRAPHIQUE
AUTOCOMPLÉTION
LEMMATISATION
ANTI-DICTIONNAIRE
AU CŒUR DES FONCTIONNALITÉS « INTELLIGENTES » DU MOTEUR
MOTEURDERECHERCHE
EXPLORATION CRAWLERS
INDEXATION
SEGMENTATION &
PONDÉRATION
RECHERCHE /
APPARIEMENT
BOOLEENS /
VECTORIEL / LSA
COMPLÉMENTS
CORRECTION
ORTHOGRAPHIQUE
AUTOCOMPLÉTION
LEMMATISATION
ANTI-DICTIONNAIRE
AU CŒUR DES FONCTIONNALITÉS « INTELLIGENTES » DU MOTEUR
MOTEURDERECHERCHE
EXPLORATION CRAWLERS
INDEXATION
SEGMENTATION &
PONDÉRATION
RECHERCHE /
APPARIEMENT
BOOLEENS /
VECTORIEL / LSA
COMPLÉMENTS
CORRECTION
ORTHOGRAPHIQUE
AUTOCOMPLÉTION
LEMMATISATION
ANTI-DICTIONNAIRE
TRAITEMENT
AUTOMATIQUE DES
LANGUES
AU CŒUR DES FONCTIONNALITÉS « INTELLIGENTES » DU MOTEUR
MOTEURDERECHERCHE
EXPLORATION CRAWLERS
INDEXATION
SEGMENTATION &
PONDÉRATION
RECHERCHE /
APPARIEMENT
BOOLEENS /
VECTORIEL / LSA
COMPLÉMENTS
CORRECTION
ORTHOGRAPHIQUE
AUTOCOMPLÉTION
LEMMATISATION
ANTI-DICTIONNAIRE
AU CŒUR DES FONCTIONNALITÉS « INTELLIGENTES » DU MOTEUR
MOTEURDERECHERCHE
EXPLORATION CRAWLERS
INDEXATION
SEGMENTATION &
PONDÉRATION
RECHERCHE /
APPARIEMENT
BOOLEENS /
VECTORIEL / LSA
COMPLÉMENTS
CORRECTION
ORTHOGRAPHIQUE
AUTOCOMPLÉTION
LEMMATISATION
ANTI-DICTIONNAIRE
REPRÉSENTATION DU
CONTENU
DESCRIPTION DU SENS
LA FORME DES MOTS
La segmentation en mots
Quelle définition du mot ?
• Naïve / a-linguistique : chaîne de caractères entre deux séparateurs
• Pas si simple en français... complexe dans d’autres langues (ex : pas de « mot graphique » en chinois)
Apostrophe Trait d’union
Aujourd’hui
L’eau
Demi-sel
Savez-vous
UN OU DEUX MOTS ?
Flexions Sens
Avions
Vis
Glace
Caisse
AMBIGUÏTÉS !
LA FORME DES MOTS
La segmentation en mots
Quelle définition du mot ?
• Naïve / a-linguistique : chaîne de caractères entre deux séparateurs
• Pas si simple en français... complexe dans d’autres langues (ex : pas de « mot graphique » en chinois)
Apostrophe Trait d’union
Aujourd’hui
L’eau
Demi-sel
Savez-vous
UN OU DEUX MOTS ?
Flexions Sens
Avions
Vis
Glace
Caisse
AMBIGUÏTÉS !
LA FORME DES MOTS
La segmentation en mots
Quelle définition du mot ?
• Naïve / a-linguistique : chaîne de caractères entre deux séparateurs
• Pas si simple en français... complexe dans d’autres langues (ex : pas de « mot graphique » en chinois)
Apostrophe Trait d’union
Aujourd’hui
L’eau
Demi-sel
Savez-vous
UN OU DEUX MOTS ?
Flexions Sens
Avions
Vis
Glace
Caisse
AMBIGUÏTÉS !
LE POIDS DES MOTS
La pondération
Quels moyens pour savoir combien « pèse » le mot afin d’indexer une page ?
• Les mots « importants » doivent avoir un poids fort
• TF-IDF : approche la plus répandue
Évaluer le poids d’un terme
dans un document vs. un
corpus / une collection de
documents
TF-IDF
Ordonner les documents potentiellement pertinents
pour répondre à une requête
Utilisation du TF-IDF en RI :
- décrire les documents dans un modèle vectoriel
Mesure de similarité en
fonction de la distance
entre le vecteur « requête »
et les vecteurs
« documents »
RECHERCHE /
APPARIEMENT
LE POIDS DES MOTS
La pondération
Quels moyens pour savoir combien « pèse » le mot afin d’indexer une page ?
• Les mots « importants » doivent avoir un poids fort
• TF-IDF : approche la plus répandue
Évaluer le poids d’un terme
dans un document vs. un
corpus / une collection de
documents
TF-IDF
Ordonner les documents potentiellement pertinents
pour répondre à une requête
Utilisation du TF-IDF en RI :
- décrire les documents dans un modèle vectoriel
Mesure de similarité en
fonction de la distance
entre le vecteur « requête »
et les vecteurs
« documents »
RECHERCHE /
APPARIEMENT
LE POIDS DES MOTS
La pondération
Quels moyens pour savoir combien « pèse » le mot afin d’indexer une page ?
• Les mots « importants » doivent avoir un poids fort
• TF-IDF : approche la plus répandue
Évaluer le poids d’un terme
dans un document vs. un
corpus / une collection de
documents
TF-IDF
Ordonner les documents potentiellement pertinents
pour répondre à une requête
Utilisation du TF-IDF en RI :
- décrire les documents dans un modèle vectoriel
Mesure de similarité en
fonction de la distance
entre le vecteur « requête »
et les vecteurs
« documents »
RECHERCHE /
APPARIEMENT
LE POIDS DES MOTS
La pondération
Quels moyens pour savoir combien « pèse » le mot afin d’indexer une page ?
• Les mots « importants » doivent avoir un poids fort
• TF-IDF : approche la plus répandue
Évaluer le poids d’un terme
dans un document vs. un
corpus / une collection de
documents
TF-IDF
Ordonner les documents potentiellement pertinents
pour répondre à une requête
Utilisation du TF-IDF en RI :
- décrire les documents dans un modèle vectoriel
Mesure de similarité en
fonction de la distance
entre le vecteur « requête »
et les vecteurs
« documents »
RECHERCHE /
APPARIEMENT
LE SENS DES MOTS
Décrire le sens des documents
Comment « donner du sens » à l’appariement ?
• Intégrer des données sémantiques à la représentation des documents
• Défi : flexibilité & capacité d’adaptation de la technologie sémantique
Défi de robustesse face à la
grande variabilité des textes
libres sur le web multilingue
GESTION DES TEXTES
LIBRES (UGC)
LE SENS DES MOTS
Décrire le sens des documents
Comment « donner du sens » à l’appariement ?
• Intégrer des données sémantiques à la représentation des documents
• Défi : flexibilité & capacité d’adaptation de la technologie sémantique
Défi de robustesse face à la
grande variabilité des textes
libres sur le web multilingue
GESTION DES TEXTES
LIBRES (UGC)
Entités de
recherche
Entités
Nommées
Requête
Liens
Document
Moment
…
Personne
Date
Lieu
Organisation
…
Relations
Rachat
Cause
Appartenance
…
Signaux
complexes
Perception
Conseil
Intention d’achat
…
RECHERCHE /
APPARIEMENT
LE SENS DES MOTS
Décrire le sens des documents
Comment « donner du sens » à l’appariement ?
• Intégrer des données sémantiques à la représentation des documents
• Défi : flexibilité & capacité d’adaptation de la technologie sémantique
Défi de robustesse face à la
grande variabilité des textes
libres sur le web multilingue
GESTION DES TEXTES
LIBRES (UGC)
Entités de
recherche
Entités
Nommées
Requête
Liens
Document
Moment
…
Personne
Date
Lieu
Organisation
…
Relations
Rachat
Cause
Appartenance
…
Signaux
complexes
Perception
Conseil
Intention d’achat
…
RECHERCHE /
APPARIEMENT
LE SENS DES MOTS
Décrire le sens des documents
Comment « donner du sens » à l’appariement ?
• Intégrer des données sémantiques à la représentation des documents
• Défi : flexibilité & capacité d’adaptation de la technologie sémantique
Défi de robustesse face à la
grande variabilité des textes
libres sur le web multilingue
GESTION DES TEXTES
LIBRES (UGC)
Entités de
recherche
Entités
Nommées
Requête
Liens
Document
Moment
…
Personne
Date
Lieu
Organisation
…
Relations
Rachat
Cause
Appartenance
…
Signaux
complexes
Perception
Conseil
Intention d’achat
…
RECHERCHE /
APPARIEMENT
DES BÉNÉFICES POTENTIELS
Amélioration de l’expérience de recherche
Confort de l’utilisateur et performance du système
Contextualisation des
résultats
(donnée sémantique +
historique cross-devices +
géolocalisation + …)
CONFORT
Allègement de la charge des
calculs sur les centres de
données
PERFORMANCE
DES BÉNÉFICES POTENTIELS
Amélioration de l’expérience de recherche
Confort de l’utilisateur et performance du système
Contextualisation des
résultats
(donnée sémantique +
historique cross-devices +
géolocalisation + …)
CONFORT
Allègement de la charge des
calculs sur les centres de
données
PERFORMANCE
DES BÉNÉFICES POTENTIELS
Amélioration de l’expérience de recherche
Confort de l’utilisateur et performance du système
Contextualisation des
résultats
(donnée sémantique +
historique cross-devices +
géolocalisation + …)
CONFORT
Allègement de la charge des
calculs sur les centres de
données
PERFORMANCE
UN COÛT RÉEL
Adaptation aux nouveaux standards
Des efforts pour intégrer le Web Sémantique
Adaptation côté éditeurs &
référenceurs
ROI pas forcément
immédiat
EFFORTS
Indexation sémantique des
données non structurées
COMPLEXITÉ
UN COÛT RÉEL
Adaptation aux nouveaux standards
Des efforts pour intégrer le Web Sémantique
Adaptation côté éditeurs &
référenceurs
ROI pas forcément
immédiat
EFFORTS
Indexation sémantique des
données non structurées
COMPLEXITÉ
UN COÛT RÉEL
Adaptation aux nouveaux standards
Des efforts pour intégrer le Web Sémantique
Adaptation côté éditeurs &
référenceurs
ROI pas forcément
immédiat
EFFORTS
Indexation sémantique des
données non structurées
COMPLEXITÉ
POUR RÉPONDRE AUX BESOINS MÉTIER
Avec robustesse et flexibilité
Enrichissement sémantique du contenu en minimisant les coûts / les efforts
 Même sur les sites qui
n’intègrent pas de
descripteurs structurés
pour le Web Sémantique
 En complément des
descripteurs existants
pour le Web Sémantique
 Gestion des signaux
sémantiques complexes
 Robustesse face à la
grande variabilité des
textes libres sur le web
multilingue
POUR RÉPONDRE AUX BESOINS MÉTIER
Quelques applications utiles au SEO
SÉLECTION & CATÉGORISATION DE MOTS-CLÉS
MAPPING SEGMENTS IAB
ENRICHISSEMENT DU CONTENU ÉDITORIALAUDIT SÉMANTIQUE
ENRICHISSEMENT TAGGING
CATÉGORISATION DE SITES
DÉTECTION DES CONTENUS DUPLIQUÉS
MAPPING ONTOLOGIES / TAXONOMIES
NOUVEAUX ANGLES ÉDITORIAUX
ENRICHISSEMENT SÉMANTIQUE
SEGMENTATION CONTEXTUELLE
EXEMPLES
Case : enrichissement sémantique sur 100 domaines / FR / Régie premium
Enrichissement de la taxonomie sur l’ensemble des domaines
• Focus : exemple sur la catégorie « AUTO »
FAMILIALES INTERMEDIAIRES
FORD
AMERICAINES
BMW
DIESEL
GASOLINE
Quelques catégories découvertes pour enrichir « Auto »
EXEMPLES
Case : enrichissement sémantique sur 100 domaines / FR / Régie premium
Enrichissement de la taxonomie sur l’ensemble des domaines
• Focus : exemple sur la catégorie « AUTO »
Exemple de page qualifiée
http://bourse.lefigaro.fr/indices-actions/actu-conseils/renault-annonce-des-tarifs-pour-le-nouvel-espace-3992015
QUALIFICATION
ECONOMIE - FINANCE AUTO
RENAULT
GRANDS MONOSPACES
FRANÇAISES
Taxonomie de base (client) Enrichissements
EXEMPLES
Case : enrichissement sémantique sur 100 domaines / FR / Régie premium
Enrichissement de la taxonomie sur l’ensemble des domaines
• Focus : exemple sur la catégorie « AUTO »
QUALIFICATION
Exemple de page qualifiée
http://www.leparisien.fr/espace-premium/actu/dans-le-retro-la-longue-route-des-vehicules-electriques-21-10-2015-5205945.php
Taxonomie de base (client) Enrichissements
ACTU HYBRIDE
ELECTRIQUE
JAPONAISES
NISSAN
FRANÇAISES
COMPACTES
RENAULT
EXEMPLES
Case : enrichissement sémantique sur 100 domaines / FR / Régie premium
Enrichissement de la taxonomie sur l’ensemble des domaines
• Focus : exemple sur la catégorie « AUTO »
QUALIFICATION
Taxonomie de base (client) Enrichissements
Exemple de page qualifiée
http://forum.doctissimo.fr/viepratique/automobile/67000km-garantie-atlantique-sujet_6086_1.htm
N/A AUTO
FRANÇAISES
RENAULT
CITROËN
COMPACTES
EXEMPLES
Case : identification des centres d’intérêt édito vs. segments d’audience participative / FR / Éditeur
Enrichissement des drivers d’intérêt / nouveaux angles éditoriaux (données éditeur)
• Focus : exemple sur quelques segments d’audience ciblés
Beauty Addict
• Focus on health and body in general ;
Refine the angles of certain subjects, hair
for example
Mam’s
• Good targeting capabilities for subjects
as pregnancy, childlife, educational
environment ; refine and focus on
Leisure
EXEMPLES
Case : identification des centres d’intérêt édito vs. segments d’audience participative / FR / Éditeur
Enrichissement des drivers d’intérêt / nouveaux angles éditoriaux (données éditeur)
• Focus : exemple sur quelques segments d’audience ciblés
Trendista
• Good targeting capabilities for clothing,
fashion. More focus on brands is needed.
This profile is rare in [editors’] forum
Working Girl
• Focus on Professional life subjects ; take
in account women who uses the website
for promoting their activity or searching
for a job
EXEMPLES
Case : détection de brand safety triggers / EN / Démo publique
Affiner un ciblage trop large sur la catégorie « ALCOOL »
• Améliorer l’adéquation entre le contenu et son environnement
KOVERI_health-fitness
KOVERI_culture_entertainment
KOVERI_content-edito
KOVERI_health-fitness_substance-abuse
KOVERI_culture_entertainment-television
Source: http://www.huffingtonpost.fr/2016/04/04/recettes-pompettes-alcool-anpaa-prevention_n_9609504.html?utm_hp_ref=france#
Test realized with our public demo: http://www.xiko.fr/koveri-context-demo/
contact@xiko.fr

Seo camp2017 Marguerite Leenhardt

  • 1.
  • 2.
    CEO, XIKO /PRÉSIDENTE, AFTAL Formation • PhD. Linguistique Appliquée, Traitement Automatique des Langues (TAL a.k.a NLP) • MSc. TAL + MSc. Ingénierie Linguistique Multilingue CEO, XiKO (www.xiko.fr) • KOVERI : IA sémantique pour l’analyse de tous les textes dans toutes les langues • Applications : marketing programmatique, enrichissement sémantique Présidente, AFTAL (@AssoForTAL) • Anciens des Formations en Traitement Automatique des Langues • Association inter-universitaire (Paris, Toulouse, Lille, Tours, …) Avant ça/et aussi… • Expériences en agence et en freelance, R&D Project Manager • Charges d’enseignement (niveau Licence & Master)
  • 3.
    CEO, XIKO /PRÉSIDENTE, AFTAL Formation • PhD. Linguistique Appliquée, Traitement Automatique des Langues (TAL a.k.a NLP) • MSc. TAL + MSc. Ingénierie Linguistique Multilingue CEO, XiKO (www.xiko.fr) • KOVERI : IA sémantique pour l’analyse de tous les textes dans toutes les langues • Marketing programmatique, enrichissement sémantique, Insight-as-a-Service Présidente, AFTAL (@AssoForTAL) • Anciens des Formations en Traitement Automatique des Langues • Association inter-universitaire (Paris, Toulouse, Lille, Tours, …) Avant ça/et aussi… • Expériences en agence et en freelance, R&D Project Manager • Charges d’enseignement (niveau Licence & Master)
  • 4.
    CEO, XIKO /PRÉSIDENTE, AFTAL Formation • PhD. Linguistique Appliquée, Traitement Automatique des Langues (TAL a.k.a NLP) • MSc. TAL + MSc. Ingénierie Linguistique Multilingue CEO, XiKO (www.xiko.fr) • KOVERI : IA sémantique pour l’analyse de tous les textes dans toutes les langues • Marketing programmatique, enrichissement sémantique, Insight-as-a-Service Présidente, AFTAL (@AssoForTAL) • Anciens des Formations en Traitement Automatique des Langues • Association inter-universitaire (Paris, Toulouse, Lille, Tours, …) Avant ça/et aussi… • Expériences en agence et en freelance, R&D Project Manager • Charges d’enseignement (niveau Licence & Master)
  • 5.
    CEO, XIKO /PRÉSIDENTE, AFTAL Formation • PhD. Linguistique Appliquée, Traitement Automatique des Langues (TAL a.k.a NLP) • MSc. TAL + MSc. Ingénierie Linguistique Multilingue CEO, XiKO (www.xiko.fr) • KOVERI : IA sémantique pour l’analyse de tous les textes dans toutes les langues • Marketing programmatique, enrichissement sémantique, Insight-as-a-Service Présidente, AFTAL (@AssoForTAL) • Anciens des Formations en Traitement Automatique des Langues • Association inter-universitaire (Paris, Toulouse, Lille, Tours, …) Avant ça/et aussi… • Expériences en agence et en freelance, R&D Project Manager • Charges d’enseignement (niveau Licence & Master) linkedin.com/in/margueriteleenhardt/
  • 7.
    AU CŒUR DESRECHERCHES EN TRAITEMENT AUTOMATIQUE DES LANGUES Traitements automatiques de corpus Contenus textuels Expression écrite en langage naturelANALYSEDECORPUS ANALYSE DE CONTENUS ACQUISITION DE CONNAISSANCES FOUILLE DE TEXTES EXTRACTION D’INFORMATION RECHERCHE DOCUMENTAIRE EXTENSION DES INDEX DE RECHERCHE & DE REQUÊTES CATÉGORISATION DE DOCUMENTS CLASSIFICATION DE DOCUMENTS
  • 8.
    AU CŒUR DESRECHERCHES EN TRAITEMENT AUTOMATIQUE DES LANGUES Traitements automatiques de corpus Contenus textuels Expression écrite en langage naturelANALYSEDECORPUS ANALYSE DE CONTENUS ACQUISITION DE CONNAISSANCES FOUILLE DE TEXTES EXTRACTION D’INFORMATION RECHERCHE DOCUMENTAIRE EXTENSION DES INDEX DE RECHERCHE & DE REQUÊTES CATÉGORISATION DE DOCUMENTS CLASSIFICATION DE DOCUMENTS
  • 9.
    AU CŒUR DESRECHERCHES EN TRAITEMENT AUTOMATIQUE DES LANGUES Traitements automatiques de corpus Contenus textuels Expression écrite en langage naturelANALYSEDECORPUS ANALYSE DE CONTENUS ACQUISITION DE CONNAISSANCES FOUILLE DE TEXTES EXTRACTION D’INFORMATION RECHERCHE DOCUMENTAIRE EXTENSION DES INDEX DE RECHERCHE & DE REQUÊTES CATÉGORISATION DE DOCUMENTS CLASSIFICATION DE DOCUMENTS LINGUISTIQUE DE CORPUS
  • 10.
    AU CŒUR DESRECHERCHES EN TRAITEMENT AUTOMATIQUE DES LANGUES Traitements automatiques de corpus Contenus textuels Expression écrite en langage naturelANALYSEDECORPUS ANALYSE DE CONTENUS ACQUISITION DE CONNAISSANCES FOUILLE DE TEXTES EXTRACTION D’INFORMATION RECHERCHE DOCUMENTAIRE EXTENSION DES INDEX DE RECHERCHE & DE REQUÊTES CATÉGORISATION DE DOCUMENTS CLASSIFICATION DE DOCUMENTS TRAITEMENT AUTOMATIQUE DES LANGUES LINGUISTIQUE DE CORPUS
  • 11.
    QUI INTÈGRE DESTECHNIQUES DE TRAITEMENT AUTOMATIQUE DES LANGUES Dédiées à la recherche documentaire Collections de documents Techniques d’indexation et de rechercheANALYSEDECORPUS ANALYSE DE CONTENUS ACQUISITION DE CONNAISSANCES FOUILLE DE TEXTES EXTRACTION D’INFORMATION RECHERCHE DOCUMENTAIRE EXTENSION DES INDEX DE RECHERCHE & DE REQUÊTES CATÉGORISATION DE DOCUMENTS CLASSIFICATION DE DOCUMENTS
  • 12.
    ANALYSEDECORPUS ANALYSE DE CONTENUS ACQUISITIONDE CONNAISSANCES FOUILLE DE TEXTES EXTRACTION D’INFORMATION RECHERCHE DOCUMENTAIRE EXTENSION DES INDEX DE RECHERCHE & DE REQUÊTES CATÉGORISATION DE DOCUMENTS CLASSIFICATION DE DOCUMENTS QUI INTÈGRE DES TECHNIQUES DE TRAITEMENT AUTOMATIQUE DES LANGUES Dédiées à la recherche documentaire Collections de documents Techniques d’indexation et de recherche
  • 13.
    QUI INTÈGRE DESTECHNIQUES DE TRAITEMENT AUTOMATIQUE DES LANGUES Dédiées à la recherche documentaire Collections de documents Techniques d’indexation et de rechercheANALYSEDECORPUS ANALYSE DE CONTENUS ACQUISITION DE CONNAISSANCES FOUILLE DE TEXTES EXTRACTION D’INFORMATION RECHERCHE DOCUMENTAIRE EXTENSION DES INDEX DE RECHERCHE & DE REQUÊTES CATÉGORISATION DE DOCUMENTS CLASSIFICATION DE DOCUMENTS
  • 15.
    L’USAGE ET L’ATTENTEDES UTILISATEURS FINAUX A CHANGÉ L’avènement du Natural Language Search Évolution des algorithmes des moteurs de recherche Évolution des tactiques SEO Système de Questions-Réponses Système de mots-clés Système hybrides + techniques TAL & IA
  • 16.
    L’USAGE ET L’ATTENTEDES UTILISATEURS FINAUX A CHANGÉ L’avènement du Natural Language Search Évolution des algorithmes des moteurs de recherche Évolution des tactiques SEO 1996 1998 2017 Questions-Réponses mots-clés hybrides + techniques TAL & IA …
  • 17.
    L’USAGE ET L’ATTENTEDES UTILISATEURS FINAUX A CHANGÉ L’avènement du Natural Language Search Évolution des algorithmes des moteurs de recherche Évolution des tactiques SEO 1996 1998 2017 Questions-Réponses mots-clés hybrides + techniques TAL & IA …
  • 18.
    L’USAGE ET L’ATTENTEDES UTILISATEURS FINAUX A CHANGÉ L’avènement du Natural Language Search Évolution des algorithmes des moteurs de recherche Évolution des tactiques SEO 1996 1998 2017 Questions-Réponses mots-clés hybrides + techniques TAL & IA …
  • 19.
    AU CŒUR DESFONCTIONNALITÉS « INTELLIGENTES » DU MOTEUR MOTEURDERECHERCHE EXPLORATION CRAWLERS INDEXATION SEGMENTATION & PONDÉRATION RECHERCHE / APPARIEMENT BOOLEENS / VECTORIEL / LSA COMPLÉMENTS CORRECTION ORTHOGRAPHIQUE AUTOCOMPLÉTION LEMMATISATION ANTI-DICTIONNAIRE
  • 20.
    AU CŒUR DESFONCTIONNALITÉS « INTELLIGENTES » DU MOTEUR MOTEURDERECHERCHE EXPLORATION CRAWLERS INDEXATION SEGMENTATION & PONDÉRATION RECHERCHE / APPARIEMENT BOOLEENS / VECTORIEL / LSA COMPLÉMENTS CORRECTION ORTHOGRAPHIQUE AUTOCOMPLÉTION LEMMATISATION ANTI-DICTIONNAIRE
  • 21.
    AU CŒUR DESFONCTIONNALITÉS « INTELLIGENTES » DU MOTEUR MOTEURDERECHERCHE EXPLORATION CRAWLERS INDEXATION SEGMENTATION & PONDÉRATION RECHERCHE / APPARIEMENT BOOLEENS / VECTORIEL / LSA COMPLÉMENTS CORRECTION ORTHOGRAPHIQUE AUTOCOMPLÉTION LEMMATISATION ANTI-DICTIONNAIRE TRAITEMENT AUTOMATIQUE DES LANGUES
  • 22.
    AU CŒUR DESFONCTIONNALITÉS « INTELLIGENTES » DU MOTEUR MOTEURDERECHERCHE EXPLORATION CRAWLERS INDEXATION SEGMENTATION & PONDÉRATION RECHERCHE / APPARIEMENT BOOLEENS / VECTORIEL / LSA COMPLÉMENTS CORRECTION ORTHOGRAPHIQUE AUTOCOMPLÉTION LEMMATISATION ANTI-DICTIONNAIRE
  • 23.
    AU CŒUR DESFONCTIONNALITÉS « INTELLIGENTES » DU MOTEUR MOTEURDERECHERCHE EXPLORATION CRAWLERS INDEXATION SEGMENTATION & PONDÉRATION RECHERCHE / APPARIEMENT BOOLEENS / VECTORIEL / LSA COMPLÉMENTS CORRECTION ORTHOGRAPHIQUE AUTOCOMPLÉTION LEMMATISATION ANTI-DICTIONNAIRE REPRÉSENTATION DU CONTENU DESCRIPTION DU SENS
  • 24.
    LA FORME DESMOTS La segmentation en mots Quelle définition du mot ? • Naïve / a-linguistique : chaîne de caractères entre deux séparateurs • Pas si simple en français... complexe dans d’autres langues (ex : pas de « mot graphique » en chinois) Apostrophe Trait d’union Aujourd’hui L’eau Demi-sel Savez-vous UN OU DEUX MOTS ? Flexions Sens Avions Vis Glace Caisse AMBIGUÏTÉS !
  • 25.
    LA FORME DESMOTS La segmentation en mots Quelle définition du mot ? • Naïve / a-linguistique : chaîne de caractères entre deux séparateurs • Pas si simple en français... complexe dans d’autres langues (ex : pas de « mot graphique » en chinois) Apostrophe Trait d’union Aujourd’hui L’eau Demi-sel Savez-vous UN OU DEUX MOTS ? Flexions Sens Avions Vis Glace Caisse AMBIGUÏTÉS !
  • 26.
    LA FORME DESMOTS La segmentation en mots Quelle définition du mot ? • Naïve / a-linguistique : chaîne de caractères entre deux séparateurs • Pas si simple en français... complexe dans d’autres langues (ex : pas de « mot graphique » en chinois) Apostrophe Trait d’union Aujourd’hui L’eau Demi-sel Savez-vous UN OU DEUX MOTS ? Flexions Sens Avions Vis Glace Caisse AMBIGUÏTÉS !
  • 27.
    LE POIDS DESMOTS La pondération Quels moyens pour savoir combien « pèse » le mot afin d’indexer une page ? • Les mots « importants » doivent avoir un poids fort • TF-IDF : approche la plus répandue Évaluer le poids d’un terme dans un document vs. un corpus / une collection de documents TF-IDF Ordonner les documents potentiellement pertinents pour répondre à une requête Utilisation du TF-IDF en RI : - décrire les documents dans un modèle vectoriel Mesure de similarité en fonction de la distance entre le vecteur « requête » et les vecteurs « documents » RECHERCHE / APPARIEMENT
  • 28.
    LE POIDS DESMOTS La pondération Quels moyens pour savoir combien « pèse » le mot afin d’indexer une page ? • Les mots « importants » doivent avoir un poids fort • TF-IDF : approche la plus répandue Évaluer le poids d’un terme dans un document vs. un corpus / une collection de documents TF-IDF Ordonner les documents potentiellement pertinents pour répondre à une requête Utilisation du TF-IDF en RI : - décrire les documents dans un modèle vectoriel Mesure de similarité en fonction de la distance entre le vecteur « requête » et les vecteurs « documents » RECHERCHE / APPARIEMENT
  • 29.
    LE POIDS DESMOTS La pondération Quels moyens pour savoir combien « pèse » le mot afin d’indexer une page ? • Les mots « importants » doivent avoir un poids fort • TF-IDF : approche la plus répandue Évaluer le poids d’un terme dans un document vs. un corpus / une collection de documents TF-IDF Ordonner les documents potentiellement pertinents pour répondre à une requête Utilisation du TF-IDF en RI : - décrire les documents dans un modèle vectoriel Mesure de similarité en fonction de la distance entre le vecteur « requête » et les vecteurs « documents » RECHERCHE / APPARIEMENT
  • 30.
    LE POIDS DESMOTS La pondération Quels moyens pour savoir combien « pèse » le mot afin d’indexer une page ? • Les mots « importants » doivent avoir un poids fort • TF-IDF : approche la plus répandue Évaluer le poids d’un terme dans un document vs. un corpus / une collection de documents TF-IDF Ordonner les documents potentiellement pertinents pour répondre à une requête Utilisation du TF-IDF en RI : - décrire les documents dans un modèle vectoriel Mesure de similarité en fonction de la distance entre le vecteur « requête » et les vecteurs « documents » RECHERCHE / APPARIEMENT
  • 31.
    LE SENS DESMOTS Décrire le sens des documents Comment « donner du sens » à l’appariement ? • Intégrer des données sémantiques à la représentation des documents • Défi : flexibilité & capacité d’adaptation de la technologie sémantique Défi de robustesse face à la grande variabilité des textes libres sur le web multilingue GESTION DES TEXTES LIBRES (UGC)
  • 32.
    LE SENS DESMOTS Décrire le sens des documents Comment « donner du sens » à l’appariement ? • Intégrer des données sémantiques à la représentation des documents • Défi : flexibilité & capacité d’adaptation de la technologie sémantique Défi de robustesse face à la grande variabilité des textes libres sur le web multilingue GESTION DES TEXTES LIBRES (UGC) Entités de recherche Entités Nommées Requête Liens Document Moment … Personne Date Lieu Organisation … Relations Rachat Cause Appartenance … Signaux complexes Perception Conseil Intention d’achat … RECHERCHE / APPARIEMENT
  • 33.
    LE SENS DESMOTS Décrire le sens des documents Comment « donner du sens » à l’appariement ? • Intégrer des données sémantiques à la représentation des documents • Défi : flexibilité & capacité d’adaptation de la technologie sémantique Défi de robustesse face à la grande variabilité des textes libres sur le web multilingue GESTION DES TEXTES LIBRES (UGC) Entités de recherche Entités Nommées Requête Liens Document Moment … Personne Date Lieu Organisation … Relations Rachat Cause Appartenance … Signaux complexes Perception Conseil Intention d’achat … RECHERCHE / APPARIEMENT
  • 34.
    LE SENS DESMOTS Décrire le sens des documents Comment « donner du sens » à l’appariement ? • Intégrer des données sémantiques à la représentation des documents • Défi : flexibilité & capacité d’adaptation de la technologie sémantique Défi de robustesse face à la grande variabilité des textes libres sur le web multilingue GESTION DES TEXTES LIBRES (UGC) Entités de recherche Entités Nommées Requête Liens Document Moment … Personne Date Lieu Organisation … Relations Rachat Cause Appartenance … Signaux complexes Perception Conseil Intention d’achat … RECHERCHE / APPARIEMENT
  • 36.
    DES BÉNÉFICES POTENTIELS Améliorationde l’expérience de recherche Confort de l’utilisateur et performance du système Contextualisation des résultats (donnée sémantique + historique cross-devices + géolocalisation + …) CONFORT Allègement de la charge des calculs sur les centres de données PERFORMANCE
  • 37.
    DES BÉNÉFICES POTENTIELS Améliorationde l’expérience de recherche Confort de l’utilisateur et performance du système Contextualisation des résultats (donnée sémantique + historique cross-devices + géolocalisation + …) CONFORT Allègement de la charge des calculs sur les centres de données PERFORMANCE
  • 38.
    DES BÉNÉFICES POTENTIELS Améliorationde l’expérience de recherche Confort de l’utilisateur et performance du système Contextualisation des résultats (donnée sémantique + historique cross-devices + géolocalisation + …) CONFORT Allègement de la charge des calculs sur les centres de données PERFORMANCE
  • 39.
    UN COÛT RÉEL Adaptationaux nouveaux standards Des efforts pour intégrer le Web Sémantique Adaptation côté éditeurs & référenceurs ROI pas forcément immédiat EFFORTS Indexation sémantique des données non structurées COMPLEXITÉ
  • 40.
    UN COÛT RÉEL Adaptationaux nouveaux standards Des efforts pour intégrer le Web Sémantique Adaptation côté éditeurs & référenceurs ROI pas forcément immédiat EFFORTS Indexation sémantique des données non structurées COMPLEXITÉ
  • 41.
    UN COÛT RÉEL Adaptationaux nouveaux standards Des efforts pour intégrer le Web Sémantique Adaptation côté éditeurs & référenceurs ROI pas forcément immédiat EFFORTS Indexation sémantique des données non structurées COMPLEXITÉ
  • 42.
    POUR RÉPONDRE AUXBESOINS MÉTIER Avec robustesse et flexibilité Enrichissement sémantique du contenu en minimisant les coûts / les efforts  Même sur les sites qui n’intègrent pas de descripteurs structurés pour le Web Sémantique  En complément des descripteurs existants pour le Web Sémantique  Gestion des signaux sémantiques complexes  Robustesse face à la grande variabilité des textes libres sur le web multilingue
  • 43.
    POUR RÉPONDRE AUXBESOINS MÉTIER Quelques applications utiles au SEO SÉLECTION & CATÉGORISATION DE MOTS-CLÉS MAPPING SEGMENTS IAB ENRICHISSEMENT DU CONTENU ÉDITORIALAUDIT SÉMANTIQUE ENRICHISSEMENT TAGGING CATÉGORISATION DE SITES DÉTECTION DES CONTENUS DUPLIQUÉS MAPPING ONTOLOGIES / TAXONOMIES NOUVEAUX ANGLES ÉDITORIAUX ENRICHISSEMENT SÉMANTIQUE SEGMENTATION CONTEXTUELLE
  • 44.
    EXEMPLES Case : enrichissementsémantique sur 100 domaines / FR / Régie premium Enrichissement de la taxonomie sur l’ensemble des domaines • Focus : exemple sur la catégorie « AUTO » FAMILIALES INTERMEDIAIRES FORD AMERICAINES BMW DIESEL GASOLINE Quelques catégories découvertes pour enrichir « Auto »
  • 45.
    EXEMPLES Case : enrichissementsémantique sur 100 domaines / FR / Régie premium Enrichissement de la taxonomie sur l’ensemble des domaines • Focus : exemple sur la catégorie « AUTO » Exemple de page qualifiée http://bourse.lefigaro.fr/indices-actions/actu-conseils/renault-annonce-des-tarifs-pour-le-nouvel-espace-3992015 QUALIFICATION ECONOMIE - FINANCE AUTO RENAULT GRANDS MONOSPACES FRANÇAISES Taxonomie de base (client) Enrichissements
  • 46.
    EXEMPLES Case : enrichissementsémantique sur 100 domaines / FR / Régie premium Enrichissement de la taxonomie sur l’ensemble des domaines • Focus : exemple sur la catégorie « AUTO » QUALIFICATION Exemple de page qualifiée http://www.leparisien.fr/espace-premium/actu/dans-le-retro-la-longue-route-des-vehicules-electriques-21-10-2015-5205945.php Taxonomie de base (client) Enrichissements ACTU HYBRIDE ELECTRIQUE JAPONAISES NISSAN FRANÇAISES COMPACTES RENAULT
  • 47.
    EXEMPLES Case : enrichissementsémantique sur 100 domaines / FR / Régie premium Enrichissement de la taxonomie sur l’ensemble des domaines • Focus : exemple sur la catégorie « AUTO » QUALIFICATION Taxonomie de base (client) Enrichissements Exemple de page qualifiée http://forum.doctissimo.fr/viepratique/automobile/67000km-garantie-atlantique-sujet_6086_1.htm N/A AUTO FRANÇAISES RENAULT CITROËN COMPACTES
  • 48.
    EXEMPLES Case : identificationdes centres d’intérêt édito vs. segments d’audience participative / FR / Éditeur Enrichissement des drivers d’intérêt / nouveaux angles éditoriaux (données éditeur) • Focus : exemple sur quelques segments d’audience ciblés Beauty Addict • Focus on health and body in general ; Refine the angles of certain subjects, hair for example Mam’s • Good targeting capabilities for subjects as pregnancy, childlife, educational environment ; refine and focus on Leisure
  • 49.
    EXEMPLES Case : identificationdes centres d’intérêt édito vs. segments d’audience participative / FR / Éditeur Enrichissement des drivers d’intérêt / nouveaux angles éditoriaux (données éditeur) • Focus : exemple sur quelques segments d’audience ciblés Trendista • Good targeting capabilities for clothing, fashion. More focus on brands is needed. This profile is rare in [editors’] forum Working Girl • Focus on Professional life subjects ; take in account women who uses the website for promoting their activity or searching for a job
  • 50.
    EXEMPLES Case : détectionde brand safety triggers / EN / Démo publique Affiner un ciblage trop large sur la catégorie « ALCOOL » • Améliorer l’adéquation entre le contenu et son environnement KOVERI_health-fitness KOVERI_culture_entertainment KOVERI_content-edito KOVERI_health-fitness_substance-abuse KOVERI_culture_entertainment-television Source: http://www.huffingtonpost.fr/2016/04/04/recettes-pompettes-alcool-anpaa-prevention_n_9609504.html?utm_hp_ref=france# Test realized with our public demo: http://www.xiko.fr/koveri-context-demo/
  • 51.