Topic Modeling of Short Texts: A Pseudo-Document View

  • PTM认为大量的短文本是从数量少得多但大小正常的潜在文档中产生的,这些潜在文档被称为伪文档。
  • 通过学习伪文档而不是短文本的主题分布,PTM具有固定数量的参数,并在训练语料相对不足时获得避免过拟合的能力。

2.1Basic Model

  • 现在我们给出PTM的形式化描述。我们假设有K个主题 φzz=1K{φ_z }^K_{z=1}φzz=1K,每一个都是规模为V的词汇表上的多项分布。有D个短文本 dss=1D{ds}^D_{s=1}dss=1D 和P伪文档dl′l=1P{ {d}^{'}_{l}}^P_{l=1}dll=1P。**短文本是观察文档,伪文档是潜伏文档。提出了多项式分布ψψψ来对伪文档上的短文本分布进行建模。我们进一步假设每个短文本属于且仅属于一个伪文档。**短文本中的每个单词都是先从其伪文档的主题分布θ采样一个主题z,然后采样一个单词w ~ φ 生成的z 。

  • Remark1 (PTM从P个伪文档而不是D个短文本中寻找主题,P≪DP\ll DPD。)

    • PTM中引入伪文档是对抗数据稀疏性负面的关键因素。为了更好地理解这一点、假设有D个短文本,每个文本平均有N个tokens。已经证明,**当N太小时,即使D是非常大的,LDA也无法准确地学习主题。**这是因为在这种情况下,分散在不同短文本中用于主题学习的同现词的短缺并没有得到改善。然而,**PTM从P个伪文档而不是D个短文本中寻找主题,P≪DP\ll DPD。**因此,我们可以粗略估算出每个伪文档平均有N′{N}^{'}N个tokens, N′=DN/P≫N{N}^{'} = DN / P \gg NN=DN/PN,这意味着单词共现的潜在改进。
  • Remark2 (给定短文本所属的唯一伪文档,PTM根据LDA的过程生成短文本。)

    • 除了自聚合话题模型(self - aggregate Topic Model, SATM),像PTM这样的自聚合方法在文献中仍然很少见到。虽然PTM和SATM都将短文本聚合成伪文档,但它们的生成过程有本质上的不同。SATM假定短文本的生成过程是两阶段的。第一阶段遵循标准LDA生成常规大小的伪文档,第二阶段将通过unigram的混合过程从其伪文档生成每个短文本。第一阶段意味着采样一个单词将花费O(PK)O(PK)O(PK)时间,这是非常密集的。第二阶段意味着推理过程必须独立估计伪文档在短文本上的概率分布,因此参数的数量会随着语料库的大小线性增长,在训练样本不足的情况下可能会导致严重的过拟合问题。与之形成鲜明对比的是,给定短文本所属的唯一伪文档,PTM根据LDA的过程生成短文本。这意味着采样一个单词只需要O(K)的时间,并且参数的数量是固定的,以避免过拟合。
  • Remark3

    • 讨论PTM和so-called Pachinko Allocation Model (PAM)的异同也是很有趣的。PAM被提出使用一个有向无环图来捕获主题之间的任意相关性,因此被认为是LDA的一个更一般的版本。因此,尽管四层层次PAM(Figure 2b)显示了与PTM(Figure 2a)相似的模型结构,但它们在本质上是不同的。在Figure 2b中,PAM的第二层由捕获第三层子主题(全部用蓝色表示)之间共性的超级主题组成。从这个意义上说,我们可以从第三层到第二层获得数量减少的话题。相比之下,PTM的第二层中的节点表示伪文档(绿色),因此比第三层中的主题节点(蓝色)在数量上更多,并且应该更好地被视为可以生成短文本的特定主题的组合主题。

2.2 Sparsification

  • 如上所述,PTM中的伪文档本质上是由各种简短文本的特定主题组合而成的混合主题。沿着这条线,人们很自然地猜测,当伪文档的数量越来越少时,它们的主题表示往往是模棱两可的。为了解决这个问题,我们在这里提出了SPTM,这是PTM的一种稀疏化版本,应用Spike和Slab先验对伪文档的主题分布进行处理。

  • “Spike and Slab”先验是数学中一个非常成熟的方法。它可以解耦分布的稀疏性和平滑性。在细节上,辅助伯努利变量被引入先验,用来表示特定变量的“开”或“关”状态。因此**,一个模型可以确定相应的变量是否出现**。在我们的例子中,这表示是否选择了一个主题出现在特定的伪文档中

  • 请注意,Spike和Slab先验可能有空选择,这将导致概率分布定义不清。Wang和Blei在主题分布中引入了从未出现过的术语,这可能会给推理过程带来更大的困难。因此,我们应用了Lin等人提出的弱平滑先验和平滑先验,通过直接应用Spike和Slab先验,可以避免分布定义不清。此外,它导致了一个更简单的推理过程,这确保了我们的模型的可扩展性。为了更好地描述我们的稀疏增强模型,我们首先给出了主题选择器(topic selectors)、平滑先验(smoothing prior)和弱平滑先验(weak smoothing prior)的定义。

    • 定义1:对于伪文档dl′{d}^{'}_ldl,主题选择器bl,k,k∈1,⋅⋅⋅,kb_{l,k}, k∈{1,···,k}bl,kk1⋅⋅⋅k,是一个二元变量,表示主题k是否与dl′{d}^{'}_ldl相关。bl,kb_{l,k}bl,k
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值