基于改进LSA的文档聚类算法
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Abstract: Th is p ap e r p rop osed a new algo rithm of docum en t c lustering based on m od ified la ten t sem an tic ana lys is. N ew m ethod of fea2
小 型 微 型 计 算 机 系 统 Journal of Chinese Computer System s
2009 年 5 月 第 5 期 Vol130 No. 5 2009
基于改进 L SA 的文档聚类算法
俞 辉
(中国石油大学 计算机与通信工程学院 , 山东 东营 257061 ) E - m ail: huiyu @m ail . hdp u. edu. cn
fied L a ten t S em an tic A na lys is) , 采用了新的特征提取方法构建
词 - 文档矩阵 , 利用潜在语义分析对词 — — — 文档矩阵进行奇
收稿日期 : 2009 2 02 2 28 作者简介 : 俞 辉 , 男 , 1974 年生 , 硕士 , 讲师 , 研究方向为数据挖掘 、 嵌入式系统 .
964
小 型 微 型 计 算 机 系 统
2009 年
异值分解以达到垃圾信息过滤的目的 , 同时使得向量空间模 型中文档的高维表示变成在潜在语义空间中的低维表示 , 缩 小了问题的规模 . 然后将共现数据对转换成概率统计模型来 计算 , 并在聚类分析中设计新的文档相似度计算方法 , 提高了 聚类精度 . 本文第二部分详细描述了改进的潜在语义分析方法 , 第 三部分是本文的实验与结果分析部分 , 第四部分是结论与将 来的工作 .
tu re ex trac tion w as used to cons truc t w o rd 2docum en t m atrix. L aten t sem an tic analysis w h ich stem s from linear algeb ra p erfo rm ed a S in 2 gu la r V a lue D ecom p os ition of w o rd - docum en t m a trix, so tha t no t i m p o rtan t info rm a tion w as filte red, and the h igh d i m ens ion rep re2 sen t of docum en t in V ec to r Sp ace M ode l w as changed to low d im ens ion rep resen t in laten t sem an tic sp ace. C o 2occu rrence data w as changed to p robab ilis tic m ode l by m od ified la ten t sem an tic ana lys is, the p e rfo rm ance of c lus te ring w as im p roved. Exp erim en ta l resu lt show s that the p rop osed clus ter algo rithm is effec tive.
摘 要 : 提出一种基于改进潜在语义分析 M L SA (M od ified L aten t S em an tic A na lys is ) 的文档聚类算法 . 采用新的特征提取方法 构建词 - 文档矩阵 , 利用潜在语义分析对词 - 文档矩阵进行奇异值分解以达到垃圾信息过滤的目的 , 同时使得向量空间模型中 文本的高维表示变成在潜在语义空间中的低维表示 , 缩小了问题的规模 . 然后将共现数据对转换成概率统计模型来计算 , 提高 了聚类质量 . 实验表明 , 本文提出的方法是有效的 . 关 键 词 : 文档聚类 ; 潜在语义分析 ; 奇异值分解 中图分类号 : TP311 文献标识码 : A 文 章 编 号 : 1000 2 1220 ( 2009 ) 05 2 0963 2 04
D ocum en t C luster in g A lgor ithm Ba sed on M od if ied La ten t Seman tic Ana lysis
YU H u i
( Institu te of C omp u ter & C omm un ica tion Engineering, C h ina U n iversity of Petroleum, D ongying 257061, C h ina )
P ( w j | d i ) = 6 P ( w j | zk ) P ( zk | d i )
k =1 k
( 3)
上式中的 p ( w j | zk ) 为潜在语义在词上的分布概率 , 也可 以解释为词对潜在语义的贡献度 , 通过对 p ( w j | zk ) 排序可以 得到潜在语义的一个直观的词的表示 . p ( zk | di ) 表示文档中 潜在语义的分布概率 . 然后使用最大期望 EM ( Exp ectation M ax im iza tion ) 算法 对潜在语义模型进行拟合 . 在使用随机数初始化之后 , 交替实 施 E 步骤和 M 步骤进行迭代计算 . 在 E 步骤中计算 ( d i , w j ) 对产生潜在语义 zk 的先验概率 : P (w j | zk ) P ( zk | d i ) ( 4) P ( zk | d i , w j ) = k 6 P (w j | zl ) P ( zl | d i )
值 , 通过计算文档之间的相似度 , 将相似度大的文档聚成类 . 由于文档中出现的词汇量巨大 , 因此表示文档的向量维数往 往是高维的 , 使得在计算相似度时计算量巨大 , 并且很多情况 下是稀疏矩阵 ; 另外 , 虽然可以利用词的权值量化文档向量 , 但无法刻画文档的语义 , 仅仅只是统计了词的频率而已 , 加之 文档本身一词多义和多词同义的干扰 , 造成聚类的准确性不 高 . 潜在语义分析 L SA ( L a ten t S em an tic A na lys is ) 的出发点是 认为文本中的词与词之间存在某种联系 , 即存在某种潜在的 语义结构 , 这种潜在的语义结构隐含在文档中词语的上下文 使用模式中 , 通过对词 — — — 文档矩阵 A 的奇异值分解计算 , 并提取 k 个最大的奇异值及其对应的奇异矢量构成新矩阵来 近似表示原文档集的词 — — — 文档矩阵 . 本文提出一种改进的潜在语义分析方法 M L SA (M od i2
I ( X) = - 6 P ( xi ) 3 logP ( xi )
i =1 k
法为 : 对于 A ′ n 3 m = U n 3 n 3 D n3 m 3 V ′ m 3 m 的等价形式 , 根据奇 异值的含义 , 对奇异值降序排列后截取前 k 个秩 , 用 Ak 近似 的代替 A ′ , 并进行特征空间的转换 , 从而实现了降低特征空 间维数及降低特征元素分布稀疏度的目标 , 凸现出词和文档 之间的语义关系 . 对于给定文档集 D = { d1 , d2 , …, dn }和词集 W = {w 1 , w 2 , …, wm }以及上面经过奇异值分解后 k秩近似矩 阵 Ak , 其中 a ij代表不同词语 w j 在文档 di 中的权值 ; 概率 p ( d i , w j ) = p ( d i ) 3 p ( w j | d i ) 背后隐藏着潜在的语义空间 Z = { z1 , z2 , … zk } , k为指定的一个常数 . 按照潜在语义的实际意 义 , 概率值越大的潜在因素表明其越具有共性 , 与其他文档的 区分性也就越小 , 因此从具有较大概率值的潜因素难以找到 文档真正要表达的语义 ; 反之 , 较小概率值的潜在因素 , 应包 含丰富的个性化信息 , 能够表达文档区别于其他文档的语义 信息 . 假设词 — — — 文档对之间是条件独立的 , 并且潜在语义在 文档或词上分布也是条件独立的 , 那么可使用下列公式来表 示词 — — — 文档的条件概率 :
Key words: docum en t clustering; la ten t sem an tic ana lysis; s ingu la r va lue decom p 不仅数量多 , 而且经常是杂乱的 、 无特定 结构的 . 为了从海量信息中快速 、 准确地获取有用信息 , 文档 聚类技术一直显得非常重要 , 它作为信息过滤 、 信息检索 、 搜 索引擎 、 文本数据库 、 数字化图书馆等领域的技术基础 , 有着 广阔的应用前景 . 文本聚类指的是将文档集合中的文档分为更小的簇 , 要 求同一簇内的文档之间相似性尽可能大 . 聚类分析的方法有很多 , 可分为基于层次的方法 、 基于划 分的方法 、 基于密度的方法 、 基于网格的方法和基于模型的方 法 . 基于层次的方法是对给定数据对象集合进行层次的分解 , 根据层次分解的形成 , 可分为凝聚的和分裂的两类 . B IRCH, CU R E 就属于基于层次的方法 . 基于划分的方法首先得到初 始的 k 个划分 , 然后采用迭代定位技术 , 试图通过将对象从一 个类转移到另一个类来改进划分的质量 . 有代表性的划分方 法包括 K 2 m eans 算法和 K 2 m edo ids 算法 . 基于密度的方法根 据密度的概念对分类对象进行聚类 , 根据某种密度函数来生 成聚类 , 如 DB SCAN [ 1 ] , O PT ICS [ 2 ] 等算法 . 基于网格的方法 是把对象空间量化为有限数目的单元 , 形成一个网格结构 , 所 有的聚类操作都在这个网格结构上进行 , S T IN G [ 3 ] 和 W ave 2 [4 ] C lus ter 就是基于网格方法的典型例子 . 基于模型的方法为
每一类假定一个模型 , 寻找数据对给定模型的最佳拟合 , 如
COBW EB. 另外 , 自组织映射 ( SOM ) 神经网络聚类和基于概
率分布的贝叶斯层次聚类等新的聚类算法也正在不断地开发 与应用 . 常用的文本 聚类 分析利 用向 量空间 模型 V SM ( vecto r
sp ace m odel) 将文档表示为词向量 , 其中每个词对应着一个权
2 改进的潜在语义分析方法 ML SA
将语料中的文档进行分词处理 , 用停用词表去除停用词 , 如“ 我们 ” 、 “ 而且 ” 、 “ 比如 ” 、 “ 然后 ” 等包含的信息量少而且 频率高的词语 , 这样既有助于降低特征空间维数 , 又能消除部 分噪音 , 提高聚类的正确率 . 由于构成文档的词汇数量巨大 , 因此表示文本的向量空 间的维数也相当大 , 可以达到几万维 , 必须进行维数压缩的工 作 . 特征提取的方法主要有 : 信息增益 、 互信息 、 文档频率 、 开 方拟合检验 . 信息增益方法的不足之处在于它没有考虑特征 未发生的情况 , 特别是在类分布和特征值分布高度不平衡的 情况下 , 绝大多数特征并不出现 , 此时的函数值由没有出现的 特征项决定 , 其信息增益的效果会大大降低 . 互信息没有考虑 特征项出现的频率 , 这会导致互信息函数不选择高频有效词 而去选择稀有词作为最佳特征项从而造成误差太大 . 在传统 的 TF ID F 特征选择算法中 , 特征词条的权值与词条频率成正 比 , 与文档频率成反比 , 对于文档频率 , 只考虑包含某个词语 文档数绝对量的多少 , 并不考虑特征词语的分布情况 , 这对于 某一特征词语分布不均衡时权重计算有效 , 其它情况下会有 失效的时候 . 本文采用新的特征提取方法 , 在传统 TF ID F 函数的基础 上乘以能反映特征词语分布贡献度的因子 , 以便更好的刻画 词语的特征 . 假设包含特征词语的文档在每个类中的概率分 布为 P, 根据熵的计算公式 :