SlideShare a Scribd company logo
Don’t count, predict!
A systematic comparison of context-counting vs.
context-predicting semantic vectors
Marco Baroni, Georgiana Dinu,
German Kruszewski
ACL 2014
読む人:東北大学 D1 高瀬翔
単語の意味をどう表現する?
• 分布仮説[Harris, 64]
– 似た文脈で出現する単語は似た意味を持つ
– 単語の意味を文脈の分布で表現できる
• 様々な工夫
– 単語間の共起情報尺度(e.g., 共起頻度,PMI)
– 次元圧縮(e.g., PCA,Matrix Factorization)
代表作 作家 陸上競技 文学賞 時速 筋肉 順位 書く
フランツ・カフカ 1 1 0 1 0 0 0 1
大江健三郎 1 1 0 1 0 0 0 1
パオロ・バチガルピ 1 1 0 1 0 0 0 1
ウサイン・ボルト 0 0 1 0 1 1 1 0
カール・ルイス 0 0 1 0 1 1 1 0
作家
陸上
選手
作家
最近:predictiveモデルが流行
• 低次元,密な空間で単語のベクトルを予測(学習)
– 利点1:既存手法(カウントモデル)を一つのモデルで表現
• カウントモデル:共起頻度カウント→PMI計算→次元圧縮
– 利点2:大規模データに対してもスケールする
• 補足(個人の意見):火付け役はword2vec?
– 実装が公開されていて,簡単に使用可能
• コンパイルしてコーパスを突っ込むだけ
– ACL2014ではword2vecを引用した論文が大量に
カウントモデル vs. predictiveモデル
• どちらが良いのか気になるのが人情
• 個々のタスクでの比較は報告されている
– 単語の類似度[Huang+ 12],フレーズの類似度[Blacoe+ 12],
analogy[Mikolov+ 13]
– タスク横断的に検証,報告したものはない
• 本研究の目的:単語の意味表現の質について,
カウントモデルとpredictiveモデルの性能を様々
な実験を通して比較
– 実質的にはカウントモデル vs. word2vec
– (他のpredictiveモデルも載ってるが,ほぼ比較なし)
論文の概要図
コーパス
共起情報の集計
(頻度,PMI,…)
代表作 作家 …
フランツ・カフカ 3.4 5.6 …
大江健三郎 3.8 4.2 …
… … … …
フランツ・カフカ 6.9 -3.2
大江健三郎 7.8 -2.8
… … …
次元圧縮
(NMF,
SVD,…)
フランツ・カフカ -5.8 1.7
大江健三郎 -6.9 1.2
… … …word2vec
(CBOW)
カウントモデル
VS.
predictiveモデル
様々なタスクで比較
まずはカウントモデルの概要説明
コーパス
共起情報の集計
(頻度,PMI,…)
代表作 作家 …
フランツ・カフカ 3.4 5.6 …
大江健三郎 3.8 4.2 …
… … … …
フランツ・カフカ 6.9 -3.2
大江健三郎 7.8 -2.8
… … …
次元圧縮
(NMF,
SVD,…)
共起情報の集計
• 窓幅 n 以内の単語との
• Pointwise Mutual Information(PMI)
– 二単語(wi, wj)の相関の強さ
– 片方が出現したとき必ずもう一方も出現で最大に
• Local Mutual Information(LMI)[Evert+ 05]
PMI(wi,wj ) = log(
p(wi,wj )
p(wi )* p(wj )
)
LMI(wi,wj ) = p(wi,wj )*log(
p(wi,wj )
p(wi )* p(wj )
)
In 1912, Kafka wrote the story…
n n
次元圧縮
• 単語の文脈ベクトルの次元を k に圧縮
– 行列の圧縮テクニックを利用(SVD,NMF)
• SVD(特異値分解)
– UkとΣkから m × k の行列を作成
• NMF(Nonnegative Matrix Factorization)[Lee+ 00]
– 行列を非負の要素からなる二つの行列で近似
U
(m×m
)
行列
(m × n)
=
VT
(n × n)
Σ
(m × n)
k
Uk
k
Σk
行列
(m × n)
≅
k
m
m
m × k の行列を
圧縮結果とする
word2vecの概要を説明
コーパス
フランツ・カフカ -5.8 1.7
大江健三郎 -6.9 1.2
… … …word2vec
(CBOW)
word2vec(CBOW)
• 周辺(窓幅 n)の単語から中央の単語ベクトルを予測
• skip-gram(周辺単語を予測するモデル)より高速,大規模
データでは高性能
• 高速化,精度向上のための様々な工夫
– Hierarchical softmax,negative sampling,subsampling
– (時間の都合上今回は説明しません…)
n
n
training time. The basic Skip-gram formulation defines p(wt + j |wt ) using the softmax fun
p(wO |wI ) =
exp v′
wO
⊤
vwI
W
w= 1 exp v′
w
⊤
vwI
where vw and v′
w are the “input” and “output” vector representations of w, and W is
ber of words in the vocabulary. This formulation is impractical because the cost of c
∇ logp(wO |wI ) is proportional to W, which is often large (105
–107
terms).
2.1 Hierarchical Softmax
A computationally efficient approximation of the full softmax is the hierarchical softma
context of neural network language models, it was first introduced by Morin and Bengio
main advantage is that instead of evaluating W output nodes in the neural network to o
probability distribution, it is needed to evaluate only about log2(W) nodes.
The hierarchical softmax uses a binary tree representation of the output layer with the W
its leaves and, for each node, explicitly represents the relative probabilities of its child nod
define a random walk that assigns probabilities to words.
More precisely, each word w can be reached by an appropriate path from the root of the
n(w, j ) be the j -th node on the path from the root to w, and let L(w) be the length of thi
wI wO ここの計算が大変(全単語対象)
なので様々な工夫を行う
カウントモデル vs. word2vec
• 訓練コーパス(モデルの作成用):28億単語
– ukWaC,English Wikipedia,British National Corpusを結合
• 単語:頻出単語30万個
• 評価タスク:5種類のタスク,14個のデータセット(既存研究から)
– Semantic relatedness
– Synonym detection
– Concept categorization
– Selectional preference
– Analogy
• 評価対象
– パラメータを変えてタスクに適用,モデルの性能や頑健さを検証
Semantic relatedness
• 単語ペアについて人手で意味的に似ているか/関連があるかを
付与したデータを用意
– 単語間に人手による類似度付与
– king,queen:9
– tiger,cat:8
– drink,ear:1
– king,cabbage:0
• モデルから得たベクトルで計算した類似度と人手による類似度が
対応するか検証
– 類似度:コサイン類似度
– 相関の測定:類似度順に並べ,順位の一致率を見る
• 5種類のデータセット
king,queen:0.8
tiger,cat:0.6
king,cabbage:0.04
drink,ear:0.01
単語ベクトル間のコサイン類似度
順位の一致率を見る
Synonym detection
• 同義語を選ぶ4択問題
• 入力と最もコサイン類似度の高い候補を出力
• 正解率を測定
• 1種類のデータセット(TOEFL)
入力:levied
候補
imposed(正解)
believed
requested
correlated
Concept categorization
• 単語とその意味カテゴリのデータを用意
– helicopters,motorcycles→vehicle
– dogs,elephants→animal
• モデルから得たベクトルに基づきクラスタリン
グ,正確なクラスタができているか検証
– クラスタリング:CLUTOを利用
– Repeated bisectionでクラスタリング
• データを二つのクラスタに分割,を繰り返す
• 3種類のデータセット
Selectional preference
• ある動詞とその主語や目的語として典型的な名詞の
ペアを集めたデータを用意
– personはeatの主語として典型的
– personはeatの目的語としては非典型的
• 動詞の主語/目的語に頻出の20単語のベクトルの平
均と対象の単語のコサイン類似度測定,データと比較
• 2種類のデータセット
eat
I
He
Animal
……
20単語
↓
単語ベクトルの平均personのベクトル
類似度測定
Analogy
• 単語対の意味的/統語的関係の類推テスト
– 意味的関係
• man-woman,king-?(正解:queen)
• brother-sister,grandson-? (正解:granddaughter)
– 統語的関係
• work-works,speak-? (正解:speaks)
• have-had,eat-? (正解:ate)
• モデルから得たベクトルの足し引き結果と最も類似度
の高い単語
– v(man)-v(woman)+v(king)と最も近い単語は?
• 3種類のデータセット
– 統語のみ,意味のみ,両方
カウントモデル vs. word2vec(再掲)
• 訓練コーパス(モデルの作成用):28億単語
– ukWaC,English Wikipedia,British National Corpusを結合
• 単語:頻出単語30万個
• 評価タスク:5種類のタスク,14個のデータセット(既存研究から)
– Semantic relatedness
– Synonym detection
– Concept categorization
– Selectional preference
– Analogy
• 評価対象
– パラメータを変えてタスクに適用,モデルの性能や頑健さを検証
各手法でのパラメータ
窓幅 共起情報 次元圧縮 次元
2,5 PMI,LMI なし,SVD,NMF 300k(次元圧縮なし),
200,300,400,500
窓幅 hs negative
sampling
subsampling 次元
2,5 なし,
あり
なし(hsあり),
5,10
なし,あり 200,300,400,500
カウントモデルのパラメータ
2 * 2(次元圧縮なし) + 2 * 2 * 2 * 4(次元圧縮) = 36通り
word2vecのパラメータ
2 * 3 * 2 * 4 = 48通り
各タスクで最も良い結果の比較
(各結果のパラメータが異なる)
• word2vec(pre)はどのタスクでもカウントモデル(cnt)
より良い性能
– カウントモデルもそれほど悪い訳ではない
• 一部のタスクではword2vecはstate-of-the-artの結果
よりも高性能
– state-of-the-artは各タスクに特化した手法で得た値
• 知識の利用,人手のルール,大規模コーパスの利用…
– state-of-the-artに勝てるword2vecはスゴい
semantic
relatedness
concept
categorization
synonym
detection analogy
selectional
preference
Semantic relatednessに最適化
(パラメータ固定)
• Semantic relatednessの一部のデータで最も性
能が良かったパラメータでの結果
– 開発データでチューニングした状況を想定
• カウントモデル,word2vecともにそこそこ高い値
– カウントモデルもきちんとチューニングすれば悪くな
い結果を出せる
semantic
relatedness
concept
categorization
synonym
detection analogy
selectional
preference
タスク横断で最も悪い結果
(パラメータ固定)
• 全タスクに適用し,最も悪かったパラメータでの比較
• カウントモデルはボロボロ
– パラメータ設定に失敗すると酷い結果になる
• word2vecはそこそこ高い値
– カウントモデルのベスト時と同等の性能
• word2vecは非常に頑健
– パラメータの設定を誤ってもそこそこの結果が出せる
semantic
relatedness
concept
categorization
synonym
detection analogy
selectional
preference
各パラメータでのタスク横断の順位
• 各パラメータで作成したベクトルを全タスクに適用,性能の良い順
– 各タスクでの順位の平均が高い順
• word2vecの平均ランク>カウントモデルの平均ランク
– 全体的にword2vec>カウントモデルという傾向
• カウントモデルではPMI,SVDを使用すると良い
• word2vecではnegative sampling,subsamplingを利用すると良い
カウントモデル word2vec
まとめ
• カウントモデルとpredictiveモデル(主にword2vec)を
様々な実験を通して比較
• 性能はword2vec>カウントモデル
– word2vecで得た単語ベクトルはstate-of-the-artな性能
– パラメータに対して頑健
• 残る疑問:predictiveモデルの次元とは何なのか?
– 潜在的な意味を表現しているのか?
– カウントモデルで得られるベクトルとの表現力の差は?
• Predictiveモデルの研究はまだ始まったばかりだ!
– この先は君の目で確かめてみてくれ!

More Related Content

PPTX
Retrofitting Word Vectors to Semantic Lexicons
Sho Takase
 
PPTX
Learning Composition Models for Phrase Embeddings
Sho Takase
 
PDF
STAIR Lab Seminar 202105
Sho Takase
 
PDF
4thNLPDL
Sho Takase
 
PDF
単語の分散表現と構成性の計算モデルの発展
Naoaki Okazaki
 
PDF
Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...
Naoaki Okazaki
 
PDF
NeurIPS2020参加報告
Sho Takase
 
PDF
Skip gram shirakawa_20141121
Mathematical Systems Inc.
 
Retrofitting Word Vectors to Semantic Lexicons
Sho Takase
 
Learning Composition Models for Phrase Embeddings
Sho Takase
 
STAIR Lab Seminar 202105
Sho Takase
 
4thNLPDL
Sho Takase
 
単語の分散表現と構成性の計算モデルの発展
Naoaki Okazaki
 
Pennington, Socher, and Manning. (2014) GloVe: Global vectors for word repres...
Naoaki Okazaki
 
NeurIPS2020参加報告
Sho Takase
 
Skip gram shirakawa_20141121
Mathematical Systems Inc.
 

What's hot (20)

PDF
Word2vec alpha
KCS Keio Computer Society
 
PDF
深層ニューラルネットワーク による知識の自動獲得・推論
Naoaki Okazaki
 
PDF
Semantic_Matching_AAAI16_論文紹介
Masayoshi Kondo
 
PDF
2016word embbed
Shin Asakawa
 
PDF
TensorFlow math ja 05 word2vec
Shin Asakawa
 
PPTX
深層学習による自然言語処理の研究動向
STAIR Lab, Chiba Institute of Technology
 
PPTX
Minimally Supervised Classification to Semantic Categories using Automaticall...
sakaizawa
 
PPTX
ノンパラメトリックベイズを用いた逆強化学習
Shota Ishikawa
 
PPTX
Distributed Representations of Sentences and Documents
sakaizawa
 
PPTX
Nl237 presentation
Roy Ray
 
PDF
(DL hacks輪読) Difference Target Propagation
Masahiro Suzuki
 
PDF
グラフニューラルネットワークとグラフ組合せ問題
joisino
 
PDF
質問応答システム入門
Hiroyoshi Komatsu
 
PDF
第64回情報科学談話会(岡﨑 直観 准教授)
gsis gsis
 
PDF
自然演繹に基づく文間の含意関係の証明を用いたフレーズアライメントの試み
Hitomi Yanaka
 
PDF
教師なしオブジェクトマッチング(第2回ステアラボ人工知能セミナー)
STAIR Lab, Chiba Institute of Technology
 
PPTX
KB + Text => Great KB な論文を多読してみた
Koji Matsuda
 
PDF
Chainer with natural language processing hands on
Ogushi Masaya
 
PDF
2015 08 survey
marujirou
 
PPTX
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)
Ohsawa Goodfellow
 
深層ニューラルネットワーク による知識の自動獲得・推論
Naoaki Okazaki
 
Semantic_Matching_AAAI16_論文紹介
Masayoshi Kondo
 
2016word embbed
Shin Asakawa
 
TensorFlow math ja 05 word2vec
Shin Asakawa
 
深層学習による自然言語処理の研究動向
STAIR Lab, Chiba Institute of Technology
 
Minimally Supervised Classification to Semantic Categories using Automaticall...
sakaizawa
 
ノンパラメトリックベイズを用いた逆強化学習
Shota Ishikawa
 
Distributed Representations of Sentences and Documents
sakaizawa
 
Nl237 presentation
Roy Ray
 
(DL hacks輪読) Difference Target Propagation
Masahiro Suzuki
 
グラフニューラルネットワークとグラフ組合せ問題
joisino
 
質問応答システム入門
Hiroyoshi Komatsu
 
第64回情報科学談話会(岡﨑 直観 准教授)
gsis gsis
 
自然演繹に基づく文間の含意関係の証明を用いたフレーズアライメントの試み
Hitomi Yanaka
 
教師なしオブジェクトマッチング(第2回ステアラボ人工知能セミナー)
STAIR Lab, Chiba Institute of Technology
 
KB + Text => Great KB な論文を多読してみた
Koji Matsuda
 
Chainer with natural language processing hands on
Ogushi Masaya
 
2015 08 survey
marujirou
 
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)
Ohsawa Goodfellow
 
Ad

Viewers also liked (20)

PDF
第1回メドレー読書会
Shengbo Xu
 
PDF
Topic model
saireya _
 
PDF
NLP若手の回 ACL2012参加報告
Hiroyuki TOKUNAGA
 
PDF
クラスタリングとレコメンデーション資料
洋資 堅田
 
PDF
異常検知と変化検知 9章 部分空間法による変化点検知
hagino 3000
 
PDF
機械学習アルゴリズムの絵本
Hirokazu Nishio
 
PDF
単語・句の分散表現の学習
Naoaki Okazaki
 
PDF
Viabl: Relationship Automation In SugarCRM
Viabl
 
PPTX
Evaluation Question 1 - Part 2.
ToriScott
 
PPTX
Club Antioquia digital
dianamariagilpino
 
DOC
A call for unity 1. english
HarunyahyaEnglish
 
PPTX
Eleições regionais CNE 2014
Junta Regional de Aveiro do CNE
 
PDF
Dạy học tích hợp mô đun công nghệ sản xuất nghề may thời trang hệ trung cấp t...
https://www.facebook.com/garmentspace
 
PPT
Be the captain of your career - stc14
Jack Molisani
 
PPS
德珍_絕美的工筆畫
guestfa8d19
 
PDF
Don't let the cat eat the baby's face
Elle Geraghty
 
PPT
Did you know about Blood??
WBC Software Lab
 
PPT
Taxes & Fees
Robert Dickey
 
第1回メドレー読書会
Shengbo Xu
 
Topic model
saireya _
 
NLP若手の回 ACL2012参加報告
Hiroyuki TOKUNAGA
 
クラスタリングとレコメンデーション資料
洋資 堅田
 
異常検知と変化検知 9章 部分空間法による変化点検知
hagino 3000
 
機械学習アルゴリズムの絵本
Hirokazu Nishio
 
単語・句の分散表現の学習
Naoaki Okazaki
 
Viabl: Relationship Automation In SugarCRM
Viabl
 
Evaluation Question 1 - Part 2.
ToriScott
 
Club Antioquia digital
dianamariagilpino
 
A call for unity 1. english
HarunyahyaEnglish
 
Eleições regionais CNE 2014
Junta Regional de Aveiro do CNE
 
Dạy học tích hợp mô đun công nghệ sản xuất nghề may thời trang hệ trung cấp t...
https://www.facebook.com/garmentspace
 
Be the captain of your career - stc14
Jack Molisani
 
德珍_絕美的工筆畫
guestfa8d19
 
Don't let the cat eat the baby's face
Elle Geraghty
 
Did you know about Blood??
WBC Software Lab
 
Taxes & Fees
Robert Dickey
 
Ad

Similar to dont_count_predict_in_acl2014 (20)

PPTX
【論文紹介】Distributed Representations of Sentences and Documents
Tomofumi Yoshida
 
PPTX
A Unified Model for Word Sense Representation and Disambiguation
sakaizawa
 
PDF
言語と画像の表現学習
Yuki Noguchi
 
PDF
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
禎晃 山崎
 
PDF
100816 nlpml sec2
shirakia
 
PPTX
Improving Distributional Similarity with Lessons Learned from Word Embeddings
Hiroki Nakayama
 
PPTX
Probabilistic fasttext for multi sense word embeddings
Makoto Takenaka
 
PPTX
Neural word embedding as implicit matrix factorization の論文紹介
Masanao Ochi
 
PDF
サブカルのためのWord2vec
DeNA
 
PPTX
Word2vec
yuki uchida
 
PPTX
Machine Learning Seminar (5)
Tomoya Nakayama
 
PPTX
Interop2017
tak9029
 
PPTX
Approximate Scalable Bounded Space Sketch for Large Data NLP
Koji Matsuda
 
PDF
A scalable probablistic classifier for language modeling: ACL 2011 読み会
正志 坪坂
 
PPTX
Mtg121024
Kosuke Kagawa
 
PPTX
[論文紹介] Skip-Thought Vectors
Hiroki Shimanaka
 
PDF
論文読み会 Enriching Word Vectors with Subword Information
Kanji Takahashi
 
PPTX
Variational Template Machine for Data-to-Text Generation
harmonylab
 
PDF
Deep Learningと自然言語処理
Preferred Networks
 
PDF
読解支援@2015 08-10-3
sekizawayuuki
 
【論文紹介】Distributed Representations of Sentences and Documents
Tomofumi Yoshida
 
A Unified Model for Word Sense Representation and Disambiguation
sakaizawa
 
言語と画像の表現学習
Yuki Noguchi
 
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
禎晃 山崎
 
100816 nlpml sec2
shirakia
 
Improving Distributional Similarity with Lessons Learned from Word Embeddings
Hiroki Nakayama
 
Probabilistic fasttext for multi sense word embeddings
Makoto Takenaka
 
Neural word embedding as implicit matrix factorization の論文紹介
Masanao Ochi
 
サブカルのためのWord2vec
DeNA
 
Word2vec
yuki uchida
 
Machine Learning Seminar (5)
Tomoya Nakayama
 
Interop2017
tak9029
 
Approximate Scalable Bounded Space Sketch for Large Data NLP
Koji Matsuda
 
A scalable probablistic classifier for language modeling: ACL 2011 読み会
正志 坪坂
 
Mtg121024
Kosuke Kagawa
 
[論文紹介] Skip-Thought Vectors
Hiroki Shimanaka
 
論文読み会 Enriching Word Vectors with Subword Information
Kanji Takahashi
 
Variational Template Machine for Data-to-Text Generation
harmonylab
 
Deep Learningと自然言語処理
Preferred Networks
 
読解支援@2015 08-10-3
sekizawayuuki
 

More from Sho Takase (9)

PDF
Transformerを多層にする際の勾配消失問題と解決法について
Sho Takase
 
PDF
ニューラルネットワークを用いた自然言語処理
Sho Takase
 
PDF
Rethinking Perturbations in Encoder-Decoders for Fast Training
Sho Takase
 
PDF
Robust Neural Machine Translation with Doubly Adversarial Inputs
Sho Takase
 
PDF
Breaking the Softmax Bottleneck via Learnable Monotonic Pointwise Non-lineari...
Sho Takase
 
PDF
Enriching Word Vectors with Subword Information
Sho Takase
 
PDF
Harnessing Deep Neural Networks with Logic Rules
Sho Takase
 
PPTX
NLP2015 構成性に基づく関係パタンの意味計算
Sho Takase
 
PPTX
Lexical Inference over Multi-Word Predicates
Sho Takase
 
Transformerを多層にする際の勾配消失問題と解決法について
Sho Takase
 
ニューラルネットワークを用いた自然言語処理
Sho Takase
 
Rethinking Perturbations in Encoder-Decoders for Fast Training
Sho Takase
 
Robust Neural Machine Translation with Doubly Adversarial Inputs
Sho Takase
 
Breaking the Softmax Bottleneck via Learnable Monotonic Pointwise Non-lineari...
Sho Takase
 
Enriching Word Vectors with Subword Information
Sho Takase
 
Harnessing Deep Neural Networks with Logic Rules
Sho Takase
 
NLP2015 構成性に基づく関係パタンの意味計算
Sho Takase
 
Lexical Inference over Multi-Word Predicates
Sho Takase
 

dont_count_predict_in_acl2014

Editor's Notes

  • #4: predictive modelはneural language model,word embeddingとも呼ばれる
  • #5: 理論的に何を表しているのか…みたいな話はしません
  • #6: ここまで3分
  • #8: 窓幅 n でどういう単語と共起しているかを集計します
  • #9: 概念の説明はしません…ので,すみませんが… 行列で共起頻度の高いものをまとめる(頻出要素をまとめる?) 何をやっているかは説明しないですが,捉えられるものが違う
  • #12: うーん,本当はdmとcwとの比較もやっているけど,それは記載しなくても良いか?(この論文の趣向がよく分からないけど,こんな感じか?) 確かに36通り, ここまで7,8分くらいでいけると良い?
  • #14: levied:(税を)課する
  • #18: うーん,本当はdmとcwとの比較もやっているけど,それは記載しなくても良いか?(この論文の趣向がよく分からないけど,こんな感じか?) 確かに36通り, 評価対象について,図示しておいた方が分かりやすいのでは?感(文字で書いても分からない)
  • #19: ここまでで12分くらい
  • #20: word2vecをダウンロードしてコンパイルするだけでstate-of-the-artを達成可能! 全タスクで最も良かったパラメータでの結果を記載 synonymのstate-of-the-artはcount modelらしいぞ?
  • #21: パラメータ固定での結果の比較 semantic relatednessの一番左のデータを開発データとして,これで最も良い性能を出したベクトルの比較
  • #22: selectional preferenceはマイナスにいく(相関を取っているので) 酷い結果になることを示唆している
  • #23: 各タスクに適用したときの順位が出るけど,その平均順位はmean rank
  • #24: パラメータ調整を死ぬほど頑張らなくても良いので嬉しい 16~17分の予定