Topic discovery through data dependent and random projections

Topic Discovery through Data
Dependent and Random Projections
ICML読会
2013/7/9

概要
• トピックモデルで推定されるトピック別
単語行列（分布）で、キ－ワ－ド抽出や
クラスタリングについて、十分な文書量
がある場合の統計的な性質を証明し、実
証もしている
• 既存のトピックモデルで使用されるGibbs
サンプリングやNMF-basedアルゴリズムと
のパフォ－マンス比較
• シミュレ－ション・テキストデ－タの実
証実験

目次
1. グラフィカルモデル
2. 推定ステップ概要
3. 推定ステップ１
4. 推定ステップ２
5. 推定ステップ３
6. 検証実験

グラフィカルモデル
－通常のLDAとの違い－

Θ（K行M列):文書・トピック分布
β（W行K列):潜在トピック・単語分布
X（W行M列):文書より観測した単語の出現頻
度
X_i : the i − th row of X
( the cross-document patterns of word i )
K:潜在トピック
数
W:単語数
M:文書数

他方この論文では、X（観測量）から特徴的
な単語を見つけ、クラスタリングし、最後に
βを推定。
対数尤度などは出て来ません！
むしろ、
 特徴的な単語を見つける事の統計的根拠
 クラスタリングが出来る事の統計的根拠
 一次方程式(X= β*Θ, β=X*Θ^-1)によるβの推
定
を、文書量が十分大きい場合に確率収束する

1. 仮定
 一つのトピックには一つの特徴的な単語
2. 特徴的な単語の発見
 コ－パス中の各文書の単語頻度が観測さ
れた時、特徴的な単語を抽出します
 Data Dependent Projections Algorithm
 Random Projections Algorithm
 Binning Algorithm
3. 特徴的な単語のクラスタリング
4. トピック推定

推定ステップ２
－特徴的な単語の発見－

特徴的な単語の発見（DDPアルゴリズム）
適当なd∈R^+で、単語iについて上式が真とな
る単語jの集合を作る。次に、もし全てのj ∈J_i
（j≠i）が以下の式を満たし、適当なγ ∈R^+が
与えられた場合、単語iを特徴的な単語とす
る。
d・γ ∈R^+では、単語iが特徴的な単語であれ
ば、文書量が無限時には上式が1に確率収束

推定ステップ２
－特徴的な単語の
クラスタリング－

特徴的な単語のクラスタリング
X_i : Ｘのi行目
XとX’は異なるドキュメント群（コ－
パスを二分割）
もし、行列Rが正定値行列であれば、
文書量が十分大きい時、iとｊが同一トピックの
場合、常にD_{i,j}はゼロに確率収束する。
さらに、 iとｊが異なるトピックであれば、
C_{i,j}は正の実数に確率収束する。

検証実験①
－逆シミュレ－ション－

K:潜在トピック数
W:単語数
M:文書数
βを所与として、再度X（文書より観測した単
語の出現頻度)を計算。その後、初期値を正解
デ－タにし、パフォ－マンスの観点でアルゴ
リズムを比較；
Step1. トピック別の単語行列（分布）を生成
Step2. 文章別のトピック行列（分布）をDir(α)
から生成
Step3. 文書別の単語行列（分布）を生成

シミュレ－ション方法
Step1.1 iid 1×K row-vectors corresponding to
nonnovel words are generated uniformly
Step1.2 W_1 iid Uniform[0, 1] values are gener-
ated for the nonzero entries in the rows of novel
words.
Step1.3 The resulting matrix is then column-
normalized to get one realization of β
ρ := W_1/W
Step2. M iid K × 1 column-vectors are generated
for the θ matrix according to a Dirichlet prior
Step3. we obtain X by generating N iid words for
each document

モデル評価と既存手法との比較
評価方法は、文章中から50個の単語
をランダムに選択し、エラ－の平均
W = 500, ρ = 0.2,
N = 100,K = 5;
W =500, ρ = 0.2,
M = 500,K = 10

検証実験②
－テキストコ－パス－

NIPSデ－タセット NY Times
 most of the topics extracted by RP
and DDP are similar and are
comparable with that of Gibbs
 For example,
 RecL2 is not extracted
 RecL2 miss “weather” and
“emotions”
Chip designと
いうトピッ
ク

まとめ
 ノンパラメトリックモデルによる特徴的な
単語抽出とクラスタリング手法
 本論文は確率的トピックモデルというよ
り、特徴的な単語やクラスタリングの妥当
性を統計量を使って議論しています
 さらに、その統計量がどのような場合に確
率収束するかも議論しています
 証明まで出来ませんでした、すみませ
ん・・・

Topic discovery through data dependent and random projections

More Related Content

Viewers also liked (19)

Similar to Topic discovery through data dependent and random projections (20)

More from Takanori Nakai (17)

Topic discovery through data dependent and random projections