基于LDA模型的文本分类研究
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(2)
(5)
通过 EM (期望最大化算法) 求最大似然函数:
l ( α β ) = å log p ( di|α β )
i=1 M
并且 θ 和 ϕ 分别单独出现于右式第一项和第二项。对 ϕ 积分 (3) 得到 P ( w|z ) 值如下:
æ Γ (Wβ ) ö ÷ P ( w|z ) = ç çΓ βW÷ è ( ) ø
彭程 (1985—) , 男, 硕士生。E-mail: 274130384@ 收稿日期: 2009-08-11; 修回日期: 2009-10-11
特定关系对词进行筛选, 从而达到降维的目的。这类方法忽 视了词的同义和多义情况, 没有考虑词与词之间语义上的联系。 [3] 潜在语义索引 (Latent Semantic Indexing, LSI) 就是一 种根据词条的共现信息探查词条之间内在的语义联系的方 法。LSI 在文本分类中的应用得到了深入的研究, 降维效果显 著, 但在 LSI 模型中, 对稀有类别很重要的分类特征, 可能因为 在整个文档集中不重要而被滤掉, 最终的分类性能往往会受 损。而且, 算法实现的复杂性也是 LSI 模型不可忽视的一个问题。 基于此, 本文提出了一种基于 LDA (Latent Dirichlet Allocation) 模型的文本分类方法。避免了文本表示方法采用 VSM 方法产生的高维稀疏特征空间的问题, 同时又克服了采用 LSI 所带来的分类性能受损问题。在语料库上进行的分类实验表 明, 是一种能有效提高文本分类性能和效率的文本分类器构 造的新方法。
采用 LDA 模型对整个文档集进行主题建模, 主题数 T 对
其 中 ,zi 是 潜 在 变 量 , 表 示 第 i 个 词 汇 wi 取 自 该 主 题 ,
P ( wi|zi = j ) 是词汇 wi 属于主题 j 的概率,P ( zi = j ) 给出文档 d
j
LDA 模型拟合文档集的性能影响很大。本文采用贝叶斯统计 中标准方法予以解决。为此首先确定α, β的值, 然后为 T 选择 合适的值。这实际上是一个模型选择的问题。在 LDA 模型 中, 其自然 α 和 β 分别是 θ 和 ϕ 上的 Dirichlet 先验概率假设, 共轭的特点说明通过对 θ 和 ϕ 积分可以求取联合概率 P ( w z ) 的值。
å j=1
T
Γ (n j Õ w
(w)
+β
)
Γ n j + Wβ
(w)
((.))( Nhomakorabea)(
)
wn
j
i
ö ÷dθ (4) ø
其中,Γ (.) 是标准的 gamma 函数, n j 表示词汇 w 分配给主题 j 的频数, n j 表示分配给主题 j 的所有词数。因为 P ( w|T ) 可以 近似为一系列 P ( w|z ) 的调和平均值。所以按下式求取其值:
P ( w z ) = P ( w|z ) P ( z )
属于主题 j 的概率。第 j 个主题表示为词表中 V 个词的多项式
θ jd = P ( zi = j ) 。于是文本 d 中 “发生” 词汇 w 的概率为: P ( w|d ) = å φ w •θ jd
j j=1 T
分布 φ wi = P ( wi|zi = j ) , 文本表示成 K 个隐含主题上的随机混合
1
引言
[1]
文本自动分类 是信息检索与数据挖掘领域的研究热点 与核心技术, 近年来得到了广泛的关注和快速的发展, 已经取 得了惊人的进展。它是信息检索、 机器学习和自然语言处理 的热点和关键技术之一。文本自动分类的目标是从已知的文 本训练集合中找到分类规则, 得到一个学习器, 并且使该学习 器在对今后未知的新文本分类时, 具有较好的预测精度。文 本分类系统主要包括文本表示、 预处理、 特征降维、 分类方法 和效果评估 5 个部分。 在文本分类中, 文本表示通常选择向量空间模型 (Vector Space Model, VSM) 算法, 选择词作为特征项, 将文档集构造 为一个高维、 稀疏的词条-文本矩阵。在构造分类器之前, 对于 词条-文本矩阵的降维, 有利于提高分类器的效率和性能。经 常使用的特征提取的评价函数包括文档词频 (Document Frequency, DF) 、 卡方 (Chi-Square, CHI) 、 互信息 (Mutual Information, MI) 、 信息增益 (Information Gain, IG) 、 术语强度 (Term [2] Strength, TS) 等。这些方法的一个共同特点就是假定词之间 是互相独立, 正交的。通过计算词项和类别之间存在的某种
1 = 1 P ( w|T ) M
存在 θ, β 配对, 无法计算出解析式, 需要求出近似解。在 LDA 模型中, 可采用 Laplace 近似、 变分推理 (Variational Inference) 、 Gibbs 抽样以及期望-扩散 (Expectation Propagation) 等 近似推理算法获取待估参数值。 Thomas L.Griffiths[5] 等人提 出 Gibbs 抽样在困惑度和运行速度方面均优于变分推理和期 望-扩散算法。
下面是 LDA 模型应用于文档集主题建模的符号约定: (1) 词是文本数据的基本单元, 是用{1, 2, …, V}索引的词 表的分项。词表中的第 v 个词用一个 V 维的向量 w 表示, 其中
w v = 1 w u = 0 。 对于任意 u ¹ v , wn (2) 文档是 N 个词的序列, 用 d = {w1 w 2 w n} 表示,
150
2011, 47 (13)
Computer Engineering and Applications 计算机工程与应用
基于 LDA 模型的文本分类研究
姚全珠, 宋志理, 彭 程 YAO Quanzhu, SONG Zhili, PENG Cheng
西安理工大学 计算机科学与工程学院, 西安 710048 School of Computer Science & Engineering, Xi’ an University of Technology, Xi’ an 710048, China YAO Quanzhu, SONG Zhili, PENG Cheng.Research on text categorization based on puter Engineering and Applications, 2011, 47 (13) : 150-153. Abstract:When the text corpuses are high-dimensional and large-scale, the traditional dimension reduction algorithms will expose their limitations.A Chinese text categorization algorithm based on LDA is presented.In the discriminative frame of Support Vector Machine (SVM) , Latent Dirichlet Allocation (LDA) is used to give a generative probabilistic model for the text corpus, which reduces each document to fixed valued features——The probabilistic distribution on a set of latent topics. Gibbs sampling is used for parameter estimation.In the process of modeling the corpus, a latent topics-document matrix associated with the corpus has been constructed for training SVM.Standard method of Bayes is used for reference to get the best number of pared to Vector Space Model (VSM) for text expression combined SVM and the classifier based on Latent Semantic Indexing (LSI) combined SVM, the experimental result shows that the proposed method for text categorization is practicable and effective. Key words:text categorization; Latent Dirichlet Allocation (LDA) ; Gibbs sampling; Bayes statistics theory 摘 要: 针对传统的降维算法在处理高维和大规模的文本分类时存在的局限性, 提出了一种基于 LDA 模型的文本分类算法, 在
是序列中的第 n 个词。
(3) 文档集是 M 个文档的集合, 表示成 D = {d1 d 2 d M } 。 假设有 k 个主题, 则文档 d 中的第 i 个词汇 wi 的概率可以
表示为如下:
P ( wi ) = å P ( wi|zi = j ) P ( zi = j )
j=1 T
3.1
模型选择
判别模型 SVM 框架中, 应用 LDA 概率增长模型, 对文档集进行主题建模, 在文档集的隐含主题-文本矩阵上训练 SVM, 构造文本 分类器。参数推理采用 Gibbs 抽样, 将每个文本表示为固定隐含主题集上的概率分布。应用贝叶斯统计理论中的标准方法, 确定 最优主题数 T。在语料库上进行的分类实验表明, 与文本表示采用 VSM 结合 SVM, LSI 结合 SVM 相比, 具有较好的分类效果。 关键词: 文本分类; 潜在狄利克雷分配 (LDA) 模型; Gibbs 抽样; 贝叶斯统计理论 DOI: 10.3778/j.issn.1002-8331.2011.13.043 文章编号: 1002-8331 (2011) 13-0150-04 文献标识码: A 中图分类号: TP181
(.)
T
的最大似然估计量 α、 β, 估计 α、 β 的参数值, 从而确定 LDA 模 型。其中文本 d “发生” 的条件概率分布:
æ ö Γ ç å αi ÷ è i ø æ k αi - 1 ö æ N k V P ( d|α β ) = ç Õθi ÷ç å å Õ θi βij Õ Γ ( αi ) è i = 1 øè n = 1 i = 1 j = 1
2
LDA 基本思想
LDA[4]对离散数据集 (如文档集) 建模的概率增长模型, 是
一个三层贝叶斯模型, 对文档进行一个简短的描述, 保留本质
作者简介: 姚全珠 (1960—) , 男, 博士, 教授, 主要研究方向为数据库, 软件工程方法学, 自然语言处理, 机器学习; 宋志理 (1985—) , 男, 硕士生;
姚全珠, 宋志理, 彭 的统计信息, 有助于高效地处理大规模的文档集。
程: 基于 LDA 模型的文本分类研究
2011, 47 (13)
151
(2) 采用 LDA 模型对语料库进行主题建模, 参数推理采用 Gibbs 抽样, 迭代足够多的次数, 每个文本表示固定隐含主题 集上的概率分布。得到文档集的隐含主题 - 文本矩阵 At ´ d , t 表示隐含主题集的主题数量, d 表示文档数。 (3) 在 LDA 模型建模得到的文档集的隐含主题-文本矩阵 上训练支持向量机 (SVM) , 构造文本分类器, 得到 SVM 分类 模型。 (4) 将预处理后的待分类文本作为式 (9) 中的文本 d, 运行 Gibbs 抽样算法, 迭代较少的次数, 按式 (10) 、 式 (11) 计算对应 的 ϕ 和 θ 值。获得待分类文本 d 的隐含主题集的概率分布向量。 (5) 引入 SVM 分类模型, 预测待分类文本的类别。 (1)