SlideShare a Scribd company logo
Topic Discovery through Data
Dependent and Random Projections
ICML読会
2013/7/9
概要
• トピックモデルで推定されるトピック別
単語行列(分布)で、キ-ワ-ド抽出や
クラスタリングについて、十分な文書量
がある場合の統計的な性質を証明し、実
証もしている
• 既存のトピックモデルで使用されるGibbs
サンプリングやNMF-basedアルゴリズムと
のパフォ-マンス比較
• シミュレ-ション・テキストデ-タの実
証実験
目次
1. グラフィカルモデル
2. 推定ステップ概要
3. 推定ステップ1
4. 推定ステップ2
5. 推定ステップ3
6. 検証実験
グラフィカルモデル
-通常のLDAとの違い-
Θ(K行M列):文書・トピック分布
β(W行K列):潜在トピック・単語分布
X(W行M列):文書より観測した単語の出現頻
度
X_i : the i − th row of X
( the cross-document patterns of word i )
K:潜在トピック
数
W:単語数
M:文書数
通常は、
p(w|α,β) = ∫ dz p(w|z, β) * p(z|α)
p(z|α) = ∫dΘ p(z, Θ|α)
p(w|z, β) = ∫dφ p(w, φ|z, β)
= ∫dφ p(w,|z, φ) * p(φ| β)
(α、βはディリクレ分布に従う。)
より、 p(w|α,β)の対数尤度を明示的に書き下
す。
次に、Jensenの不等式から対数尤度の下限値
の最大値を求め(Eステップ)、対数尤度を
最大化(Mステップ)し、α・βを求める。た
他方この論文では、X(観測量)から特徴的
な単語を見つけ、クラスタリングし、最後に
βを推定。
対数尤度などは出て来ません!
むしろ、
 特徴的な単語を見つける事の統計的根拠
 クラスタリングが出来る事の統計的根拠
 一次方程式(X= β*Θ, β=X*Θ^-1)によるβの推
定
を、文書量が十分大きい場合に確率収束する
推定ステップ概要
1. 仮定
 一つのトピックには一つの特徴的な単語
2. 特徴的な単語の発見
 コ-パス中の各文書の単語頻度が観測さ
れた時、特徴的な単語を抽出します
 Data Dependent Projections Algorithm
 Random Projections Algorithm
 Binning Algorithm
3. 特徴的な単語のクラスタリング
4. トピック推定
推定ステップ2
-特徴的な単語の発見-
特徴的な単語の発見(DDPアルゴリズム)
適当なd∈R^+で、単語iについて上式が真とな
る単語jの集合を作る。次に、もし全てのj ∈J_i
(j≠i)が以下の式を満たし、適当なγ ∈R^+が
与えられた場合、 単語iを特徴的な単語とす
る。
d・γ ∈R^+では、単語iが特徴的な単語であれ
ば、文書量が無限時には上式が1に確率収束
推定ステップ2
-特徴的な単語の
クラスタリング-
特徴的な単語のクラスタリング
X_i : Xのi行目
XとX’は異なるドキュメント群(コ-
パスを二分割)
もし、行列Rが正定値行列であれば、
文書量が十分大きい時、iとjが同一トピックの
場合、常にD_{i,j}はゼロに確率収束する。
さらに、 iとjが異なるトピックであれば、
C_{i,j}は正の実数に確率収束する。
検証実験①
-逆シミュレ-ション-
K:潜在トピック数
W:単語数
M:文書数
βを所与として、再度X(文書より観測した単
語の出現頻度)を計算。その後、初期値を正解
デ-タにし、パフォ-マンスの観点でアルゴ
リズムを比較;
Step1. トピック別の単語行列(分布)を生成
Step2. 文章別のトピック行列(分布)をDir(α)
から生成
Step3. 文書別の単語行列(分布)を生成
シミュレ-ション方法
Step1.1 iid 1×K row-vectors corresponding to
nonnovel words are generated uniformly
Step1.2 W_1 iid Uniform[0, 1] values are gener-
ated for the nonzero entries in the rows of novel
words.
Step1.3 The resulting matrix is then column-
normalized to get one realization of β
ρ := W_1/W
Step2. M iid K × 1 column-vectors are generated
for the θ matrix according to a Dirichlet prior
Step3. we obtain X by generating N iid words for
each document
モデル評価と既存手法との比較
評価方法は、文章中から50個の単語
をランダムに選択し、エラ-の平均
W = 500, ρ = 0.2,
N = 100,K = 5;
W =500, ρ = 0.2,
M = 500,K = 10
検証実験②
-テキストコ-パス-
NIPSデ-タセット NY Times
 most of the topics extracted by RP
and DDP are similar and are
comparable with that of Gibbs
 For example,
 RecL2 is not extracted
 RecL2 miss “weather” and
“emotions”
Chip designと
いうトピッ
ク
まとめ
 ノンパラメトリックモデルによる特徴的な
単語抽出とクラスタリング手法
 本論文は確率的トピックモデルというよ
り、特徴的な単語やクラスタリングの妥当
性を統計量を使って議論しています
 さらに、その統計量がどのような場合に確
率収束するかも議論しています
 証明まで出来ませんでした、すみませ
ん・・・

More Related Content

Viewers also liked (19)

PPTX
Perdão dos pecados
vildon alves dos reis
 
PPS
Velas Precisam Ficar Acesas
Marlene Camargo
 
PPTX
advento e natal: Irmã Matilde Ramirez
José Luiz Silva Pinto
 
PPTX
4º domingo da páscoa o bom pastor
Rosiane Paes
 
PPTX
Neste domingo estaremos celebrando a pascoa
vildon alves dos reis
 
PPT
Espiritualidade bíblica
Eugenio Hansen, OFS
 
PPTX
HIERARQUIA DA IGREJA CATÓLICA
Virna Salgado Barra
 
PPT
Calendário litúrgico
mbsilva1971
 
PDF
O que é espiritualidade
Angela Brito
 
PPT
Espiritualidade crista
luciano
 
PPTX
Espiritualidade: O que é isso?
marivalim
 
PPTX
Ano liturgico
Jean
 
PDF
Quaresma momento de estender as mãos ao próximo
Bernadetecebs .
 
PPT
Formação em Liturgia
iaymesobrino
 
PPT
Igreja católica apostólica romana
Mateus Lima
 
PPT
Curso de liturgia
mbsilva1971
 
PPTX
Aula qual é o verdadeiro significado da páscoa
Metodista_Barreto
 
PPT
Slide A Pascoa
Martha Melo Silva
 
Perdão dos pecados
vildon alves dos reis
 
Velas Precisam Ficar Acesas
Marlene Camargo
 
advento e natal: Irmã Matilde Ramirez
José Luiz Silva Pinto
 
4º domingo da páscoa o bom pastor
Rosiane Paes
 
Neste domingo estaremos celebrando a pascoa
vildon alves dos reis
 
Espiritualidade bíblica
Eugenio Hansen, OFS
 
HIERARQUIA DA IGREJA CATÓLICA
Virna Salgado Barra
 
Calendário litúrgico
mbsilva1971
 
O que é espiritualidade
Angela Brito
 
Espiritualidade crista
luciano
 
Espiritualidade: O que é isso?
marivalim
 
Ano liturgico
Jean
 
Quaresma momento de estender as mãos ao próximo
Bernadetecebs .
 
Formação em Liturgia
iaymesobrino
 
Igreja católica apostólica romana
Mateus Lima
 
Curso de liturgia
mbsilva1971
 
Aula qual é o verdadeiro significado da páscoa
Metodista_Barreto
 
Slide A Pascoa
Martha Melo Silva
 

Similar to Topic discovery through data dependent and random projections (20)

PPTX
20151221 public
Katsuhiko Ishiguro
 
PDF
第47回TokyoWebMining, トピックモデリングによる評判分析
I_eric_Y
 
PDF
データに隠れた構造を推定して予測に活かす 〜行列分解とそのテストスコアデータへの応用〜
Atsunori Kanemura
 
PDF
KDD2014 勉強会
Ichigaku Takigawa
 
PPTX
トピックモデル3章後半
Shuuji Mihara
 
PPTX
Mining topics in documents standing on the shoulders of Big Data. #KDD2014読み...
Hiroki Takanashi
 
PPTX
Minimally Supervised Classification to Semantic Categories using Automaticall...
sakaizawa
 
PDF
潜在ディリクレ配分法
y-uti
 
PDF
クラスタリングとレコメンデーション資料
洋資 堅田
 
PDF
Topic Model Survey (wsdm2012)
ybenjo
 
PDF
トピックモデルの話
kogecoo
 
PDF
第5章 拡張モデル(前半)
Akito Nakano
 
PDF
Topic model
saireya _
 
PDF
逐次ベイズ学習 - サンプリング近似法の場合 -
y-uti
 
PPTX
All-but-the-Top: Simple and Effective Postprocessing for Word Representations
Makoto Takenaka
 
PPTX
Acl読み会2014
tempra28
 
PDF
Detecting Research Topics via the Correlation between Graphs and Texts
Shunya Ueta
 
PPTX
トピックモデルの基礎と応用
Tomonari Masada
 
PDF
201803NC
Naoki Hayashi
 
PDF
Appendix document of Chapter 6 for Mining Text Data
Yuki Nakayama
 
20151221 public
Katsuhiko Ishiguro
 
第47回TokyoWebMining, トピックモデリングによる評判分析
I_eric_Y
 
データに隠れた構造を推定して予測に活かす 〜行列分解とそのテストスコアデータへの応用〜
Atsunori Kanemura
 
KDD2014 勉強会
Ichigaku Takigawa
 
トピックモデル3章後半
Shuuji Mihara
 
Mining topics in documents standing on the shoulders of Big Data. #KDD2014読み...
Hiroki Takanashi
 
Minimally Supervised Classification to Semantic Categories using Automaticall...
sakaizawa
 
潜在ディリクレ配分法
y-uti
 
クラスタリングとレコメンデーション資料
洋資 堅田
 
Topic Model Survey (wsdm2012)
ybenjo
 
トピックモデルの話
kogecoo
 
第5章 拡張モデル(前半)
Akito Nakano
 
Topic model
saireya _
 
逐次ベイズ学習 - サンプリング近似法の場合 -
y-uti
 
All-but-the-Top: Simple and Effective Postprocessing for Word Representations
Makoto Takenaka
 
Acl読み会2014
tempra28
 
Detecting Research Topics via the Correlation between Graphs and Texts
Shunya Ueta
 
トピックモデルの基礎と応用
Tomonari Masada
 
201803NC
Naoki Hayashi
 
Appendix document of Chapter 6 for Mining Text Data
Yuki Nakayama
 
Ad

More from Takanori Nakai (17)

PPTX
Sentence-State LSTM for Text Representation
Takanori Nakai
 
PDF
WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...
Takanori Nakai
 
PDF
ICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @Dena
Takanori Nakai
 
PDF
Note : Noise constastive estimation of unnormalized statictics methods
Takanori Nakai
 
PDF
Adaptive subgradient methods for online learning and stochastic optimization ...
Takanori Nakai
 
PDF
GBDTを使ったfeature transformationの適用例
Takanori Nakai
 
PDF
Learning Better Embeddings for Rare Words Using Distributional Representations
Takanori Nakai
 
PDF
Preference-oriented Social Networks_Group Recommendation and Inference
Takanori Nakai
 
PDF
高次元データの統計:スパース正則化の近似誤差と推定誤差
Takanori Nakai
 
PDF
Analysis of Learning from Positive and Unlabeled Data
Takanori Nakai
 
PDF
Positive Unlabeled Learning for Deceptive Reviews Detection
Takanori Nakai
 
PDF
Modeling Mass Protest Adoption in Social Network Communities using Geometric ...
Takanori Nakai
 
PDF
Similarity component analysis
Takanori Nakai
 
PDF
Unsupervised Graph-based Topic Labelling using DBpedia
Takanori Nakai
 
PDF
Psychological Advertising_Exploring User Psychology for Click Prediction in S...
Takanori Nakai
 
PDF
PUCKモデルの適用例:修論を仕上げた後、個人的にやっていたリサーチ
Takanori Nakai
 
PDF
金利期間構造について:Forward Martingale Measureの導出
Takanori Nakai
 
Sentence-State LSTM for Text Representation
Takanori Nakai
 
WSDM2018 読み会 Latent cross making use of context in recurrent recommender syst...
Takanori Nakai
 
ICLR2017読み会 Data Noising as Smoothing in Neural Network Language Models @Dena
Takanori Nakai
 
Note : Noise constastive estimation of unnormalized statictics methods
Takanori Nakai
 
Adaptive subgradient methods for online learning and stochastic optimization ...
Takanori Nakai
 
GBDTを使ったfeature transformationの適用例
Takanori Nakai
 
Learning Better Embeddings for Rare Words Using Distributional Representations
Takanori Nakai
 
Preference-oriented Social Networks_Group Recommendation and Inference
Takanori Nakai
 
高次元データの統計:スパース正則化の近似誤差と推定誤差
Takanori Nakai
 
Analysis of Learning from Positive and Unlabeled Data
Takanori Nakai
 
Positive Unlabeled Learning for Deceptive Reviews Detection
Takanori Nakai
 
Modeling Mass Protest Adoption in Social Network Communities using Geometric ...
Takanori Nakai
 
Similarity component analysis
Takanori Nakai
 
Unsupervised Graph-based Topic Labelling using DBpedia
Takanori Nakai
 
Psychological Advertising_Exploring User Psychology for Click Prediction in S...
Takanori Nakai
 
PUCKモデルの適用例:修論を仕上げた後、個人的にやっていたリサーチ
Takanori Nakai
 
金利期間構造について:Forward Martingale Measureの導出
Takanori Nakai
 
Ad

Topic discovery through data dependent and random projections