Word2Vec
WASEDA UNIVERSITY
内田 裕貴
1
勉強会の目的
- 自然言語処理の様々な場面で使用される
Word2Vec,単語のベクトル表現について知ってもらう
- 併せて自身の勉強をするため
2
火と炎
は別の
単語
水と海
は別の
単語
従来のコンピュータ
似た意味を持つ単語を考慮できない
炎
U+E7828E
火
U+E781AB
水
U+E6B0B4
海
U+E6B5B7
3
りんご
と似ている(意味が近い)
と思う単語を選んでください
トマト
英語
犬
同じ食べ物
だからトマト
4
英語 日本語
ドイツ語
りんご
トマト
バナナ
ベクトル空間表現
単語をこのようにプロットすることができれば
似た意味の単語を考慮することができる
5
女の王様
はなんてい
うの?
King –
man +
woman
queen
日本の東
京はドイツ
で言うと?
Tokyo –
Japan +
Germany
Berlin
6
Word2Vecでは、単語のベクトルを獲得する際
周辺単語を使用する
「犬」 : 「散歩する」「飼う」
「猫」 : 「野良」「飼う」
「日本語」:「学ぶ」「複雑」
周辺単語が似てるため、
犬と猫が近いものとして学習する
7
Skip-gram
入力された単語をもとに周辺語を出力する、ニューラルネットワーク
犬
走る
8http://www.randpy.tokyo/entry/word2vec_skip_gram_model
Skip-gram
ある単語を入力データに、周辺語を教師データにして重みを学習する
[“公園”, ”で”, “犬”, ”が”, ”走る”]
犬
公園
で
が
走る
9http://www.randpy.tokyo/entry/word2vec_skip_gram_model
単語ベクトル表現
入力データと重みを掛け合わせたものが単語をベクトルに変換したもの
(=wordEmbedding)
犬
0
0
0
0
1
0
0
…
…
0.12
0.60
…
…
…
0.51
ベクトルに変換!
10http://www.randpy.tokyo/entry/word2vec_skip_gram_model
まとめ
犬U+E78AAC、猫E78CABのように処理されるため
「意味の近さ」などの情報は失われてしまい、近い意味の単語を判断
することができない
Word2Vecは単語をベクトルに変換するもので
これを用いれば似た意味を持つ単語を判断することができる
11
参考
- Word2Vecによる自然言語処理
- なぜ自然言語処理にとって単語の分散表現は重要なのか?
(https://qiita.com/Hironsan/items/a58636f946dd51f670b0)
- word2vec(Skip-Gram Model)の仕組みを恐らく日本一簡潔にまとめて
みた(http://www.randpy.tokyo/entry/word2vec_skip_gram_model)
12

More Related Content

PPTX
Stage 3 a minna l42 and l45 part 2
ODP
書こう!正規表現 vol.2 文字クラス(例外)
ODP
書こう!正規表現 vol.3 ()
ODP
書こう!正規表現 vol.2 文字クラス(基本)
PPTX
dont_count_predict_in_acl2014
PDF
100816 nlpml sec2
PDF
【2016年度】勉強会資料_word2vec
PPTX
【論文紹介】Distributed Representations of Sentences and Documents
Stage 3 a minna l42 and l45 part 2
書こう!正規表現 vol.2 文字クラス(例外)
書こう!正規表現 vol.3 ()
書こう!正規表現 vol.2 文字クラス(基本)
dont_count_predict_in_acl2014
100816 nlpml sec2
【2016年度】勉強会資料_word2vec
【論文紹介】Distributed Representations of Sentences and Documents

Similar to Word2vec (20)

PPTX
Enriching Word Vectors with Subword Information
PPTX
Interop2017
PDF
Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...
PPTX
A Unified Model for Word Sense Representation and Disambiguation
PDF
言語と画像の表現学習
PDF
単語の分散表現と構成性の計算モデルの発展
PDF
PPTX
Enriching Word Vectors with Subword Information
PDF
読解支援@2015 08-10-3
PPTX
Retrofitting Word Vectors to Semantic Lexicons
PDF
論文読み会 Enriching Word Vectors with Subword Information
PDF
リクルート式 自然言語処理技術の適応事例紹介
PPTX
[論文紹介] Skip-Thought Vectors
PDF
4thNLPDL
PDF
2016word embbed
PDF
DeepLearning論文紹介@Ace12358
PDF
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
PDF
Query and output generating words by querying distributed word representatio...
PDF
詳説word2vec
PDF
TensorFlow math ja 05 word2vec
Enriching Word Vectors with Subword Information
Interop2017
Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...
A Unified Model for Word Sense Representation and Disambiguation
言語と画像の表現学習
単語の分散表現と構成性の計算モデルの発展
Enriching Word Vectors with Subword Information
読解支援@2015 08-10-3
Retrofitting Word Vectors to Semantic Lexicons
論文読み会 Enriching Word Vectors with Subword Information
リクルート式 自然言語処理技術の適応事例紹介
[論文紹介] Skip-Thought Vectors
4thNLPDL
2016word embbed
DeepLearning論文紹介@Ace12358
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
Query and output generating words by querying distributed word representatio...
詳説word2vec
TensorFlow math ja 05 word2vec
Ad

Word2vec

Editor's Notes

  • #4: 実際には火や炎という文字はシンボルでしかないため、文字コードに変換され処理される。そのため意味の近さなどの、単語が持つ情報は失われてしまいます。」
  • #6: このように、単語をベクトル空間上に表現することができれば似た意味を持つ単語を計算することができるようになります。
  • #8: Word2Vecでは、周辺単語を学習している ここにおける、「意味が近い」は「代替可能な確率が高い」と定義 「私は英語が得意なんです」 「私が好きなものはりんごです」 この代替可能な確率を計算するために、Skip-gramを用いている
  • #9: Skip-gramは 学習させたニューラルネットに単語を入力すると、中間層を通り、 入力層は縦 隠れそうは縦300 横数万
  • #10: Skip-gramは、単語から、周辺単語を予測するニューラルネットワーク。 なので、単語を入力データ、その周辺単語を教師データにして学習を行います。 入力層では、例えばwikipediaだと、数万単語が出てくるため、そのボキャブラリーを構築している。数万単語 そのボキャブラリーの中のどこにあるかが●で表されている。 隠れそうは、数万*200の値が格納されている。 この200個の値が単語ベクトルとなります。 この200個の値を使用して一つ一つの単語が表現されている。
  • #11: Skip-gramは、単語から、周辺単語を予測するニューラルネットワーク。 なので、単語を入力データ、その周辺単語を教師データにして学習を行います。