Natural Language Processing (NLP) with .NET for #dotnetby meetup-29

Natural Language Processing
(NLP) with .NET
@sergey_tihon
#dotnetby meetup-29

Sergey Tihon
• Solution Architect, EPAM Systems
• Microsoft MVP (Development Technologies)
• Author of F# Weekly (sergeytihon.com)
• Open Source enthusiast
• Stanford.NLP.NET
• OpenNLP.NET
• SwaggerProvider
• … (fsprojects)
• https://twitter.com/sergey_tihon
• Belarus, Minsk
2@sergey_tihon

Про что этот доклад
1. Разберемся что такое NLP, какие задачи решаются и где они
встречаются
@sergey_tihon 3

2. Разберем Reference Architecture
• Enterprise Document Search
• Chat bots
@sergey_tihon 4

• Chat bots
3. Разберем доступные нам инструменты
• .NET Framework
• Cloud API (MS LUIS, IBM Watson, Google)
• Популярные NuGet пакеты (Stanford NLP, OpenNLP и другие)
@sergey_tihon 5

• Chat bots
• .NET Framework
4. Примеры будут на F#
@sergey_tihon 6

• Chat bots
• .NET Framework
5. Не будет примеров работы с русским языком
@sergey_tihon 7

• Chat bots
• .NET Framework
5. Не будет примеров работы с русским языком
6. Но (я надеюсь) каждый узнает что-то новое!
@sergey_tihon 8

Русский язык
Каталог NLPub организован по вики-
принципу и содержит сведения об
инструментах, ресурсах, методах и
алгоритмах, необходимых для
успешного построения систем
автоматической обработки русского
языка
https://nlpub.ru/Обработка_текста
• MyStem - морфологический анализ
текста на русском языке
https://tech.yandex.ru/mystem/
• Томита-парсер - извлечения
структурированных данных из текста на
естественном языке
https://tech.yandex.ru/tomita/
• Linguistic technologies (API)
• Translate API
• Dictionary API
• SpeechKit
• Predictor API
@sergey_tihon 9

Задачи в NLP
@sergey_tihon 10

Задачи в NLP
• Sentence Segmentation – разбить текст на предложения
• Tokenization – разбить предложение на токены (слова + символы)
• Part-Of-Speech Tagging – определить часть речи (слова в
предложении)
• Stemming – найти базовую форму слова (например убрать
временную форму)
• Named Entity Recognition – распознать какие токены являются
известными сущностями (Имя, Дата, Место)
• Speech Synthesis – синтез речи (текст –> речь)
11@sergey_tihon

Задачи в NLP
• Syntactic Parsing – построить синтаксическое дерево
• Sentiment Analysis – определить эмоцию в тексе (на сколько
юзер доволен или недоволен)
• Relationship Extraction – найти отношения между словами в
предложении (объект – субъект)
• Text Similarity – посчитать на сколько похожи два текста
• Information Extraction – извлечение структурированной
информации из текста
• Speech Recognition – распознавание речи (речь –> текст)
12@sergey_tihon

Задачи в NLP
• Machine Translation – автоматический машинный перевод текста
или аудио
• Natural Language Generation – генерация текста (описать что
нарисовано на картинке)
• Automatic Summarization – сгенерировать текст описывающий
увиденное (описание к видео)
• Question Answering – понять и найти ответ на вопрос
• Conversation Interfaces – система взаимодействующая с юзером
через диалог (чат-боты)
13@sergey_tihon

Enterprise
Document
Search
@sergey_tihon 14

Документы хранятся в разных системах
15@sergey_tihon

Собираем документы вместе
16@sergey_tihon
Импортированныедокументы

Extract reusable parts
17@sergey_tihon
Автоматически
сгенерированные
документы
Анализ
док-ов

Index & metadata enrichment
18@sergey_tihon
документы
Анализ
док-ов
Crawler
Обогащение
метаданными

Добавляем search assistant
19@sergey_tihon
документы
Анализ
док-ов
Assistant
Search
Crawler

Enterprise Document Search
20@sergey_tihon
документы
Анализ
док-ов
Assistant
Search
Crawler

Отличия от веб-поиска (Google/Yandex)
1. Поиск по документам а не по веб страницам
a) Много повторяющегося текста и дубликатов (нету page / site rank)
b) Большие документы (презентации достигают 2Гб)
c) Сложности с онлайн превью
@sergey_tihon 21

Отличия от веб-поиска (Google/Yandex)
1. Поиск по документам а не по веб страницам
a) Много повторяющегося текста и дубликатов (нету page / site rank)
b) Большие документы (презентации достигают 2Гб)
c) Сложности с онлайн превью
2. “Мало” пользователей (по сравнению с Google/Yandex)
a) Сложно обучаться на поведении пользователей
b) Узкоспециализированные запросы
c) Приходится обучатся на контенте и сильно зависеть от процессов
компании и данных в разных системах.
@sergey_tihon 22

Синтез речи (Speech Synthesis)
24
System.Speech.dll присутствует в .NET начиная с версии 3.0 (т.е. с 2006г)
@sergey_tihon

Распознавание речи (Speech Recognition)
25
Грамматика распознаваемого языка – это набор правил или
ограничений, которые определяют, что механизм
распознавания может распознать как “значимый ввод”.
Речь ограниченная
грамматикой
Свободная речь
@sergey_tihon

Распознавание речи (Speech Recognition)
26@sergey_tihon

System.Speech vs Microsoft.Speech
https://msdn.microsoft.com/en-us/magazine/dn857362.aspx
System.Speech.dll Microsoft.Speech.dll
Native code API (C++) Managed code API (C#)
Часть OS (Windows Vista+) Устанавливается отдельно
Не распространяется с приложением Можно распространять вместе с приложением
Работает с грамматиками (Grammars)
или со свободной речью
Нужно создавать грамматики (Grammars)
Тренируется под юзера Не нуждается в тренировке
27@sergey_tihon

Облачный API
28@sergey_tihon

Популярные области применения
Чат-боты Персональные
ассистенты
Поиск
29@sergey_tihon

31
Архитектура информационного чат-бота
1. Пользователь начинает общение с ботом
@sergey_tihon

32
2. Авторизуемузнаем пользователя
@sergey_tihon

33
3. Пользователь задает вопрос
@sergey_tihon

34
4. Когнитивные сервисы распознают намеренье
пользователя
@sergey_tihon

35
5. В случае неоднозначности, намеренье уточняется
@sergey_tihon

36
5. В случае неоднозначности намеренье уточняется
6. Бот делает запрос за данными
@sergey_tihon

37
5. В случае неоднозначности намеренье уточняется
6. Бот делает запрос за данными
7. Собираем телеметрию чтобы следить за
поведением и улучшать бота
https://dev.botframework.com
@sergey_tihon

Language Understanding Intelligent Service (LUIS)
38@sergey_tihon

Что такое намеренье (intent)?
39
Message from User
"increase volume on TV"
намеренье
сущность
@sergey_tihon

Что такое намеренье (intent)?
40
Message from User
"increase volume on TV"
намеренье
сущность
@sergey_tihon

Conversation
Conversation
Virtual Agent
Language
Language Translator
Natural Language Classifier
Speech
Speech to Text
Text to Speech
Vision
Visual Recognition
Empathy
Personality Insights
Tone Analyzer
Discovery
Discovery
Natural Language
Understanding
Discovery News
Knowledge Studio
Аналог LUIS.ai

42
https://speech-to-text-demo.ng.bluemix.net
@sergey_tihon

Что есть в NuGet?
43@sergey_tihon

01. Stanford.NLP.CoreNLP (74887)
02. Syn.Bot (30506)
03. AboditNLP (28543)
04. AboditUnits (21475)
05. Stanford.NLP.POSTagger (18541)
06. Stanford.NLP.NER (18256)
07. Stanford.NLP.Parser (16880)
08. OpenNLP (15033)
09. Language Detection (11171)
10. Autofac.Extras.AboditNLP (10978)
44@sergey_tihon
02. Syn.Bot (34648) +13.5%
03. Microsoft.Recognizers.Text (32467) New
04. AboditNLP (31821) +21%
05. Microsoft.Recognizers.Text.Number (31760)
06. Microsoft.Recognizers.Text.NumberWithUnit (31670)
07. Microsoft.Recognizers.Text.DateTime (31198)
11. OpenNLP (19784) +32%
13. Language Detection (16326) +46%
2018, April 2018, August

02. Syn.Bot (34648)
03. Microsoft.Recognizers.Text (32467)
11. OpenNLP (19784)
45@sergey_tihon

02. Syn.Bot (34648)
11. OpenNLP (19784)
47@sergey_tihon

LanguageDetection
.NET порт Language Detection Library for Java
• Языковые профили на основе данных из Wikipedia
• Определяет язык текста используя наивный
байесовский фильтр
• 99%+ точность для 53 языков
48@sergey_tihon

02. Syn.Bot (34648)
11. OpenNLP (19784)
49@sergey_tihon

Abodit NLP
Abodit NLP это проект Ian Mercer’a. Проект
начинался как персональный, с целью соединить
системы умного дома с чат-системами.
Вместо задач общего понимания текста,
фокусируется на задачах распознавания токенов
и сопоставления их с реальными объектами с
которым можно взаимодействовать (комнаты,
датчики, системы управления и т.д.)
http://nlp.abodit.com
50@sergey_tihon

02. Syn.Bot (34648)
11. OpenNLP (19784)
51@sergey_tihon

Syn.Bot – OSCOVA & SIML
Автономный фреймворк для
разработки ботов (с поддержкой
.NET Standard, Xamarin, Mono).
Позволяет создавать ботов
которые работают офлайн.
Поддерживают:
- диалоги
- распознавание намеренья
- распознавание сущностей
52@sergey_tihon
Synthetic Intelligence Network a brand of REVARN™ Cybernetics.

02. Syn.Bot (34648)
11. OpenNLP (19784)
53@sergey_tihon

Stanford NLP Group
https://nlp.stanford.edu
Stanford CoreNLP is written in Java; recent releases require Java 1.8+
54@sergey_tihon

IKMV.NET Compiler. http://www.ikvm.net
IKVMCompiler
Java Class A
Java Class B
Java Class C
A .NET implementation of the Java class libraries
.NET Class A .NET Class B .NET Class C
My.dllMy.jar
55@sergey_tihon

Терминология
Аннотация – метаданные, ассоциированные с объектом (текстом,
предложением, словом)
Аннотатор – объект который добавляет одну или несколько
аннотаций к объекту (может иметь зависимости на другие
аннотации)
Pipeline – последовательность аннотаторов
56@sergey_tihon

Stanford CoreNLP Server - http://corenlp.run
57@sergey_tihon

58
http://sergey-tihon.github.io/Stanford.NLP.NET/
@sergey_tihon

Примеры или какой пакет выбрать?
// Подсказка: Вот этот! ;)
// P.S. Но не больше одного за раз !!!
59@sergey_tihon

Простой API для CoreNLP
Функциональность Аннотация Класс Метод
Sentence Splitting ssplit Document .sentences() / .sentence(int)
Coreference Resolution dcoref Document .coref()
Tokenization tokenize Sentence .words() / .word(int)
Part of Speech Tagging pos Sentence .posTags() / .posTag(int)
Lemmatization lemma Sentence .lemmas() / .lemma(int)
Named Entity Recognition ner Sentence .nerTags() / .nerTag(int)
Constituency Parsing parse Sentence .parse()
Dependency Parsing depparse Sentence
.governor(int) /
.incomingDependencyLabel(int)
Natural Logic Polarity natlog Sentence
.natlogPolarities() /
.natlogPolarity(int)
Open Information Extraction openie Sentence .openie() / .openieTriples()
60@sergey_tihon

Функциональность Аннотация Класс Метод
Sentence Splitting ssplit Document .sentences() / .sentence(int)
Coreference Resolution dcoref Document .coref()
Tokenization tokenize Sentence .words() / .word(int)
Part of Speech Tagging pos Sentence .posTags() / .posTag(int)
Lemmatization lemma Sentence .lemmas() / .lemma(int)
Named Entity Recognition ner Sentence .nerTags() / .nerTag(int)
Constituency Parsing parse Sentence .parse()
Dependency Parsing depparse Sentence
.governor(int) /
.incomingDependencyLabel(int)
Natural Logic Polarity natlog Sentence
.natlogPolarities() /
.natlogPolarity(int)
Open Information Extraction openie Sentence .openie() / .openieTriples()
61@sergey_tihon
Не очень-то просто на самом деле

62@sergey_tihon

Запуск CoreNLP Server локально
# Запуск сервера используя все jar файлы текущей директории
# В корневой директории распакованного zip архива, используя Java8
java -mx4g –cp "*" edu.stanford.nlp.pipeline.StanfordCoreNLPServer
–port 9000 –timeout 15000
https://stanfordnlp.github.io/CoreNLP/corenlp-server.html
63@sergey_tihon

CoreNLP Server REST API
@sergey_tihon 64

Клиент для Core NLP Server
До pipeline.annotate: После pipeline.annotate:
65@sergey_tihon

Из чего состоит pipeline (Аннотаторы)
Аннотатор Имя класса Генерируемые аннотации
tokenize TokenizerAnnotator TokensAnnotation
ssplit WordsToSentencesAnnotator SentencesAnnotation
pos POSTaggerAnnotator PartOfSpeechAnnotation
lemma MorphaAnnotator LemmaAnnotation
ner NERClassifierCombiner NamedEntityTagAnnotation and NormalizedNamedEntityTagAnnotation
parse ParserAnnotator TreeAnnotation, BasicDependenciesAnnotation,
CollapsedDependenciesAnnotation,
CollapsedCCProcessedDependenciesAnnotation
dcoref DeterministicCorefAnnotator CorefChainAnnotation
Полный список - https://stanfordnlp.github.io/CoreNLP/annotators.html
66@sergey_tihon

Извлечение данные из аннотаций
Annotation, CoreMap и CoreLabel работают как словарь, где ключом является java.lang.Class аннотации
67@sergey_tihon

java.lang.Class аналог System.Type
68@sergey_tihon

02. Syn.Bot (34648)
11. OpenNLP (19784)
70@sergey_tihon

OpenNLP
https://opennlp.apache.org
Описание:
• Language Detector
• Sentence Detector
• Tokenizer
• Name Finder (NER)
• Document Categorizer
• Part-of-Speech Tagger
• Lemmatizer
• Chunker
• Parser
• Coreference Resolution
Мануалы по тренировке
новых моделей!
71@sergey_tihon

Open NLP для .NET
Независимое переписывание
Apache OpenNLP на C#:
• Поддержка .net standard 2.0
• Обратно совместима с
моделями от
• Переписывается вручную (без
автоматических тулов)
Хорошо:
• Полностью совпадает по
функционалу с Java версией
(1.9.1)
Плохо:
• Нет поддержки .net core
• Зависит от IKVM.NET
Knuppe.SharpNL
https://github.com/knuppe/SharpNL https://github.com/sergey-tihon/OpenNLP.NET
OpenNLP.NET
72@sergey_tihon

OpenNLP.NET Парсер
73@sergey_tihon

Дерево разбора предложения
74
Penn Treebank II tag set
Part-of-speech tags (Части речи)
• DT – determiner (определяющее слово)
• JJ – adjective (прилагательное)
• NN – noun (существительно)
• VBZ - verb, 3rd person singular present
(глагол, 3ее лицо, ед. число)
• IN - conjunction, subordinating or
preposition (союз, предлог)
Chunk tags (Групповые теги)
• NP – noun phrase (словосочетание)
• PP – prepositional phrase (фраза с
предлогом)
• VP – verb phrase (глагольная фраза)
Скриншот c corenlp.run
@sergey_tihon

Понимание вопросов
75@sergey_tihon
http://sergey-tihon.github.io/Stanford.NLP.Fsharp/so_questions.html
Making Tree Kernels practical for Natural Language Learning
http://www.aclweb.org/anthology/E06-1015
Assistant
Search
1. Получить вопрос
2. Построить
синтаксическое дерево
3. Выделить ключевые
слова и фразы
4. Построить запрос в
поисковую систему

Обучение модели распознавания токенов
(TokenNameFinderModel, NER)
76@sergey_tihon

Советы
1. Проверяйте наличие облачного API решающего вашу задачу
1. Проще всего использовать
2. Цена зависит от количества запросов
3. Нужно оправлять данные за пределы организации
4. Чаще всего модели не настраиваются под ваши данные
@sergey_tihon 78

Советы
2. Прототипируйте / проверяйте идеи со Stanford NLP
1. Качественные модели
2. Pipeline обработки данных расширяем, достаточно много примеров
3. Лицензия GLP v3 (платно для коммерческого использования)
@sergey_tihon 79

Советы
2. Прототипируйте / проверяйте идеи со Stanford NLP
1. Качественные модели
2. Pipeline обработки данных расширяем, достаточно много примеров
3. Лицензия GLP v3 (платно для коммерческого использования)
3. Используйте OpenNLP в остальных случаях
1. Лицензия Apache (всегда бесплатно)
2. Есть реализация под .NET Core
@sergey_tihon 80

Матчасть
81@sergey_tihon

Dan Jurafsky & Chris Manning:
Natural Language
82@sergey_tihon

Natural Language Processing with Deep
Learning (Winter 2017)
http://web.stanford.edu/class/cs224n/
83@sergey_tihon

Natural Language Processing (NLP) with .NET for #dotnetby meetup-29

More Related Content

What's hot (8)

Similar to Natural Language Processing (NLP) with .NET for #dotnetby meetup-29 (20)

More from Sergey Tihon (7)

Natural Language Processing (NLP) with .NET for #dotnetby meetup-29

Editor's Notes