Comment l’intelligence artificielle
réinvente la fouille de texte
Documation – Data Information Forum 2016
William Lesguillier – Product manager offre Valorisation des Contenus
2
Antidot – Qui sommes-nous ?
● Editeur de logiciels
● Moteurs de recherche| enrichissement des données
● Depuis 1999 | Paris, Lyon, Aix-en-Provence
● 47 collaborateurs, +150 clients
● Mission : délivrer à nos clients des solutions hautement
configurables et innovantes qui créent de la valeur à partir de
leurs données et augmentent leur performance
opérationnelle
3
Parmi nos clients
● Production de contenus
● Industrie
● E-Commerce
● Santé
4
Qu’est-ce que le Machine Learning
● Définition : faculté donnée à un
ordinateur d’apprendre un
comportement à partir d’exemples
● Discipline scientifique : l’Intelligence Artificielle
(IA)
● Mais fondée sur une approche probabiliste, par
opposition aux approches par règles
5
Re-re-renaissance de l’IA
● Après une histoire mouvementée,
l’Intelligence Artificielle est de retour sur le
devant de la scène
● Deux facteurs techniques principaux :
● Le développement de la puissance de calcul
● La disponibilités accrues des données
● Et surtout : des applications directes
6
L’événement qui change tout
William Wilkinson’s ‘An account of the principalities of Wallachia and Modavia’ inspired this author’s most famous novel.
7
L’événement qui change tout
● Puissance de calcul : 100 servers
● Données disponibles : 200 millions de pages
8
L’événement qui change tout
9
ML : illustrations des principes
Dire si un logement se
trouve à New York ou
San Francisco
Altitude des logements
Concept d’attribut
Crédit : http://www.r2d3.us
10
ML : illustrations des principes
Dire si un logement se
trouve à New York ou
San Francisco
Concept de modèle
d’entrainement
11
Données
d’entrainement
Données de test
ML : illustrations des principes
Dire si une maison se
trouve à New York ou
San Francisco
Concept de
surentrainement
12
Qu’est-ce que le Deep Learning ?
● Se base sur les algorithmes de réseaux de
neurones
● Très adapté pour la reconnaissances de signaux
: analyse d’images photo ou vidéo,
reconnaissance sonore, reconnaissance
vocale…
● Avènement grâce à la puissance des GPU
(Graphic Computing Units) très adaptés à ce type
de calcul
13
Approche par couches d’attributs
Yann LeCun, leçon inaugurale au Collège de France : http://www.college-de-france.fr/site/yann-lecun/inaugural-lecture-
2016-02-04-18h00.htm
14
Reconnaissance de texte
Yann LeCun, Collège de France : http://www.college-de-france.fr/site/yann-lecun/inaugural-lecture-2016-02-04-18h00.htm
15
Détection de piétons
Yann LeCun : https://www.youtube.com/watch?v=MnZNSZGNGyc
16
Approches combinées
+ =
17
Approches combinées
18
Machine Learning : pour quoi faire ?
● Reconnaissance du
texte (y compris
manuscrit) et de la
voix
● Traduction
automatique
● Text mining
● Aide à la recherche
d’information
● Assistants personnels
● Assistance au
diagnostic médical
● Smart cities
● Sécurité informatique
● Voiture autonome
● Robotique
● …
19
Le Machine Learning chez Antidot
Enrich Access
Search
Semantic & ComplexText mining
Graph &
Linked Data
20
Classification automatique de texte
Droit de la famille
Droit fiscal
Droit pénal
21
Classification sur rechercheisidore.fr
22
Classification automatique
23
Classifier à partir d’un corpus catégorisé
24
Ou d’un corpus non catégorisé
25
Classification automatique
26
Atelier d’entrainement
27
Atelier d’entrainement
28
Atelier d’entrainement
29
Boucle d’amélioration continue
30
31
Mesurer la qualité des résultats
32
Mesurer la qualité des résultats
33
Précision inégalée
34
Extraction d’entités nommées
35
Extraction d’entités
36
Les avantages du ML pour le text mining
37
Nos autres rendez-vous Documation
● Démonstration Content Classifier
● Speed Demo sur le stand de Sollan aujourd’hui de
12h30 à 12h45
● Conférence avec Spark Archives
● Demain à 10h30
● Notre stand D23
38
Sources et ressources
● Wikipedia : Histoire de l’intelligence artificielle
● TEDx: Ken Jennings, « Watson, Jeopardy and me, the obsolete know-it-all »
● TechRepublic : IBM Watson: The inside story of how the Jeopardy-winning supercomputer was
born, and what it wants to do next
● A visual introduction to machine learning
● Wired : Google’s Artificial Brain Learns to Find Cat Videos
● IBM : machine learning applications
● Le Monde : série d’articles de Morgane Tual sur l’intelligence artificielle
● Yann LeCun : leçon inaugurale au Collège de France
● Yann LeCun, Marc'Aurelio Ranzato : Deep Learning tutorial
● Olivier Ezratty : série de billets de blog sur l’IA
● Tastehit.com : Google DeepMind's AlphaGo: How it works
Merci de votre attention
A vos questions !
@AntidotNet
info@antidot.net

Comment l’intelligence artificielle réinvente la fouille de texte

  • 1.
    Comment l’intelligence artificielle réinventela fouille de texte Documation – Data Information Forum 2016 William Lesguillier – Product manager offre Valorisation des Contenus
  • 2.
    2 Antidot – Quisommes-nous ? ● Editeur de logiciels ● Moteurs de recherche| enrichissement des données ● Depuis 1999 | Paris, Lyon, Aix-en-Provence ● 47 collaborateurs, +150 clients ● Mission : délivrer à nos clients des solutions hautement configurables et innovantes qui créent de la valeur à partir de leurs données et augmentent leur performance opérationnelle
  • 3.
    3 Parmi nos clients ●Production de contenus ● Industrie ● E-Commerce ● Santé
  • 4.
    4 Qu’est-ce que leMachine Learning ● Définition : faculté donnée à un ordinateur d’apprendre un comportement à partir d’exemples ● Discipline scientifique : l’Intelligence Artificielle (IA) ● Mais fondée sur une approche probabiliste, par opposition aux approches par règles
  • 5.
    5 Re-re-renaissance de l’IA ●Après une histoire mouvementée, l’Intelligence Artificielle est de retour sur le devant de la scène ● Deux facteurs techniques principaux : ● Le développement de la puissance de calcul ● La disponibilités accrues des données ● Et surtout : des applications directes
  • 6.
    6 L’événement qui changetout William Wilkinson’s ‘An account of the principalities of Wallachia and Modavia’ inspired this author’s most famous novel.
  • 7.
    7 L’événement qui changetout ● Puissance de calcul : 100 servers ● Données disponibles : 200 millions de pages
  • 8.
  • 9.
    9 ML : illustrationsdes principes Dire si un logement se trouve à New York ou San Francisco Altitude des logements Concept d’attribut Crédit : http://www.r2d3.us
  • 10.
    10 ML : illustrationsdes principes Dire si un logement se trouve à New York ou San Francisco Concept de modèle d’entrainement
  • 11.
    11 Données d’entrainement Données de test ML: illustrations des principes Dire si une maison se trouve à New York ou San Francisco Concept de surentrainement
  • 12.
    12 Qu’est-ce que leDeep Learning ? ● Se base sur les algorithmes de réseaux de neurones ● Très adapté pour la reconnaissances de signaux : analyse d’images photo ou vidéo, reconnaissance sonore, reconnaissance vocale… ● Avènement grâce à la puissance des GPU (Graphic Computing Units) très adaptés à ce type de calcul
  • 13.
    13 Approche par couchesd’attributs Yann LeCun, leçon inaugurale au Collège de France : http://www.college-de-france.fr/site/yann-lecun/inaugural-lecture- 2016-02-04-18h00.htm
  • 14.
    14 Reconnaissance de texte YannLeCun, Collège de France : http://www.college-de-france.fr/site/yann-lecun/inaugural-lecture-2016-02-04-18h00.htm
  • 15.
    15 Détection de piétons YannLeCun : https://www.youtube.com/watch?v=MnZNSZGNGyc
  • 16.
  • 17.
  • 18.
    18 Machine Learning :pour quoi faire ? ● Reconnaissance du texte (y compris manuscrit) et de la voix ● Traduction automatique ● Text mining ● Aide à la recherche d’information ● Assistants personnels ● Assistance au diagnostic médical ● Smart cities ● Sécurité informatique ● Voiture autonome ● Robotique ● …
  • 19.
    19 Le Machine Learningchez Antidot Enrich Access Search Semantic & ComplexText mining Graph & Linked Data
  • 20.
    20 Classification automatique detexte Droit de la famille Droit fiscal Droit pénal
  • 21.
  • 22.
  • 23.
    23 Classifier à partird’un corpus catégorisé
  • 24.
    24 Ou d’un corpusnon catégorisé
  • 25.
  • 26.
  • 27.
  • 28.
  • 29.
  • 30.
  • 31.
    31 Mesurer la qualitédes résultats
  • 32.
    32 Mesurer la qualitédes résultats
  • 33.
  • 34.
  • 35.
  • 36.
    36 Les avantages duML pour le text mining
  • 37.
    37 Nos autres rendez-vousDocumation ● Démonstration Content Classifier ● Speed Demo sur le stand de Sollan aujourd’hui de 12h30 à 12h45 ● Conférence avec Spark Archives ● Demain à 10h30 ● Notre stand D23
  • 38.
    38 Sources et ressources ●Wikipedia : Histoire de l’intelligence artificielle ● TEDx: Ken Jennings, « Watson, Jeopardy and me, the obsolete know-it-all » ● TechRepublic : IBM Watson: The inside story of how the Jeopardy-winning supercomputer was born, and what it wants to do next ● A visual introduction to machine learning ● Wired : Google’s Artificial Brain Learns to Find Cat Videos ● IBM : machine learning applications ● Le Monde : série d’articles de Morgane Tual sur l’intelligence artificielle ● Yann LeCun : leçon inaugurale au Collège de France ● Yann LeCun, Marc'Aurelio Ranzato : Deep Learning tutorial ● Olivier Ezratty : série de billets de blog sur l’IA ● Tastehit.com : Google DeepMind's AlphaGo: How it works
  • 39.
    Merci de votreattention A vos questions ! @AntidotNet [email protected]

Notes de l'éditeur

  • #6 Loi de Moore. Plus de données grâce au Big Data et aux objets connectés.
  • #7 2011 : victoire d’IBM Watson sur les deux meilleurs champions de Jeopardy. A plate couture. Evénements précurseurs (source Wikipedia) : le 11 mai 1997, Deep Blue est devenu le premier système informatique de jeu d'échecs à battre le champion du monde en titre, Garry Kasparov134. En 2005, un robot de Stanford a remporté le DARPA Grand Challenge en conduisant de manière autonome pendant 131 milles sur une piste de désert sans avoir fait de reconnaissance préalable135. Deux ans plus tard, une équipe de Carnegie-Mellon remporte le DARPA Urban Challenge, cette fois en navigant en autonome pendant 55 milles dans un environnement urbain tout en respectant les conditions de trafic et le code de la route136. En février 2011, dans un match de démonstration du jeu télévisé Jeopardy!, les deux plus grands champions de Jeopardy!, Brad Rutter et Ken Jennings ont été battus avec une marge confortable par le système de questions-réponses conçu par IBM, au centre de recherche Watson137. https://fr.wikipedia.org/wiki/Histoire_de_l%27intelligence_artificielle
  • #8 Si on y réfléchit à deux fois, 200 millions de pages ce n’est pas grand chose à l’échelle de l’information disponible sur le web.
  • #9 Le système analyse la question et recherche les réponses potentielles en puisant dans un historique des questions/réponses Jeopardy et dans une base documentaire. Mais la particularité du système réside dans la façon dont les réponses potentielles trouvées sont choisies. Les ingénieurs d’IBM n’ont pas développé un algorithme décisionnel classique pour parvenir à ce choix, ils ont laissé la machine apprendre quelles sont les bonnes réponses de sorte que nul ne peut définir aujourd’hui quel est l’agencement de paramètres réellement utilisé par Watson lorsqu’il fait ce choix.
  • #10 http://www.r2d3.us/visual-intro-to-machine-learning-part-1/
  • #15 Laboratoires Bel, lecture automatique de texte, 1992. Yann LeCun, Collège de France : http://www.college-de-france.fr/site/yann-lecun/inaugural-lecture-2016-02-04-18h00.htm
  • #16 Yann LeCun : https://www.youtube.com/watch?v=MnZNSZGNGyc
  • #23 Issu du site de notre client http://www.rechercheisidore.fr Classification automatique de 3,5 millions de documents de recherche en sciences humaines et sociales selon plus de trente disciplines.
  • #26 Issu du site de notre client http://caij.qc.ca Classification automatique de 1,5 millions de décisions juridiques (ie jurisprudence) selon plus de 100 domaines de droit.
  • #36 Implémenté au journal Le Point pour assister à l’étiquetage des articles de la rédaction.
  • #37 Meilleure qualité Peu d’adhérence à la langue Temps de traitement courts, temps de mise en œuvre court, maintenance très peu chronophage.