一种基于n_gram短语的文本聚类方法研究
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
文档 1|文档 1 文档 2 文档 3
文档 2|文档 1 文档 2
文档 3|文档 1 文档 3 文档 4 文档 5
文档 4|文档 3 文档 4 文档 5
文档 5|文档 3 文档 4 文档 5
(3)利用公式:
∩sim(di,djk )=1 (|di∩djk|/djk>α,α=0.5)
(2)
sim(di,djk )=0 (其他)
趤趭 现代计算机 2011.07
研究与开发
新的最相关文档集,并移去 djl 最相关文档集,最后就得 到文档聚类结果。 例如:
{文档 1 文档 2} {文档 3 文档 4 文档 5}
3 实验与分析 3.1 实 验
本 文 使用 Sogou 实验室的文本分类语料库中的文 本语料[5]。 Sogou 实验室的文本分类语料来源于 Sohu 新 闻网站保存的大量经过手工编辑整理与分类的新闻语 料和对应的分类信息。 其分类体系包括几十个分类节 点,网页规模约为十万篇文档,为各种从事中文文本分 类工作的研究者提供一个标准的较大规模的测试平台。
对词频归一化的词频,其计算方法主要运用 TF*IDF 公
式:
W(t,d)=
tf(t,d)×log2(N / ni+0.01)
(1)
姨Σ[tf(t,d)×log2(N / ni+0.01)]2 i∈d
VSM 模型:
d1 w11 … w1m d2 w21 … w2m
… … … …
dn wn1 … wnm
北京 奥运|文档 1 文档 2
全国 关注|文档 1 文档 3
汶川 地震|文档 3 文档 4
震中 汶川|文档 3 文档 4 文档 5
(2)把 n-gram 短语文档相关模型转换成相关文档
模型 doc-relation_docs={di|dj1 ,dj2 ,… ,djk },其 中 djk 是 与 di 相关的文档, 这一步是利用短语取得的短语与多个 文档关系转变成含相同信息的相关文档关系。 例如:
研究与开发
键 词 集 的 向 量 空 间 模 型 (VSM),此 模 型 是 一 种 统 计 的 文本表示模型, 它没有考虑文档上下文之间的语义关 系,分类精度不高。
对于平面划分法来说其特点是聚类速度较快,比 较适合对 Web 文档集聚类,也适合联机聚类。 但也 有 缺点,例如 K-means 算法要事先确定 k 的取值,且初始 簇中心选取的好坏对聚类结果有较大的影响, 只有当 选取的簇是关于使用的相似度近似于球形时, 它的效 果才是最优的。 但实际情况中,文档很可能不是落在球 形簇内。
为了考查算法的适应性,选取了包含军事、旅游、 教育、健康和体育五个类别的四个中文文本集,分别含 有 50 个、100 个、300 个、500 个文本,进行实验。 在实验 中, 为了更好地验证本方法的聚类结果质量和时间性 能,本文选取了基于划分方法中的 K-means 算法作为对 比方法,并对 K-means 算法在初始簇中心的选取和噪声 点的处理做了一定的改进[6]。 实验结果如表 1、2:
表 1 准确率
表 2 时间复杂度(单位:毫秒)
3.2 实验分析 与 传 统 聚 类 算 法 K-means 相 比 较 进 行 说 明 。 K-
means 算法是以 VSM 进行聚类, 每个文档需要与 k 个 簇中心进行比较,达到性能函数 E 稳定的 t 次运算,时 间复杂度 O(n)=nkt。 n-gram 短语方法是以相关文档模 型进行聚类, 每个文档需要与相关文档集中的 h 个相 关文档进行比较, 在达到最佳聚类结果要进行 t 次整 合运算,时间复杂度 O(n)=nht。此算法还有一个优点是
对于层次凝聚法, 其特点是能够生成层次化的嵌 套簇,准确度较高。 但是在每次合并时,需要全局地比 较簇间的相似度,并选择出最佳的两个簇,因此聚类速 度较慢, 不适合大量文档的集合, 并且不能产生相交 簇。 这样对于聚类速度有较高要求且待聚类数据量较 大等应用领域则不适宜采用这种方法。
2 基于 n-gram 短语的中文ห้องสมุดไป่ตู้本聚类方法
参考文献
[1]马晖男, 吴江宁, 潘东华. 一种修正的向量空 间 模 型在 信 息
检索中的应用. 哈尔滨工业大学学报,2008, 40(4):666~669
[2]Oren Zamir, Oren Etzioni. Web Document Clustering: A
Feasibility Demonstration. In Proc. ACM Sigir'98, 1998:46~54
文本聚类的方法大致可分为平面划分法和层次凝 聚法两种类型, 传统的文本聚类算法主要采用基于关
收稿日期:2011-06-09 修稿日期:2011-07-09 作 者 简 介 :孙 桂 煌 (1977-),男 ,硕 士 研 究 生 ,研 究 方 向 为 数 据 挖 掘 、数 据 库 技 术
现代计算机 2011.07 髾
1 传统聚类算法
1.1 向量空间模型 VSM 在 VSM 中,文档空间被看作是由一组正交特征向
量所形成的向量空间, 每个文档 d 被看作向量空间中 的一个向量:
V(d)={(t1,w1) ,(t2,w2) ,… ,(tn,wn) } 或 V(d)={w1,w2,…,wn}
其中 ti 为特征项,wi 为 ti 在文档 d 中的权值。 wi 一 般 定 义 为 在 ti 文 档 d 中 出 现 频 率 tfji 的 函 数 , 即 wi= ψ(tfji)。 词频分为绝对词频和相对词频,绝对词频是使 用词在文本中出现的频率表示文本, 相对词频是将绝
关键词: 文本聚类; n-gram 短语; 向量空间模型; 相关文档模型
0 引言
随着网络信息的飞速增长,为了让人们能更快、更 准确地获取他们各自所需的信息, 文本挖掘这样的研 究有着不可估量的价值。 文本挖掘就是指在大量文本 集合或语料库上发现隐含、有趣、有用的模式和知识。 文本聚类是文本挖掘的重要技术, 它是在没有指定类 特征的情况下,根据文档间的相似性自动聚集,是一种 无指导的文档分类。 它把一个文本集分成若干称为集 簇 (Cluster)的 子 集 ,每 个 集 簇 的 成 员 之 间 具 有 较 大 的 相似性,而集簇之间的文本具有较小的相似性。
不需要设定簇数目和初始簇中心参数,可减少人为参与 因素的影响, 根据文档集自身信息形成最相似的各个 簇 。 虽 然 在 准 确 率 方 面 n-gram 短 语 方 法 要 优 于 Kmeans 算法,但是在空间复杂度方面,它要比 k-means 算 法需要更多的存储空间。 在 n-gram 短语的提取过程中, 短语中含有重复的词语,当 n=2 时,是 K-means 的 2 倍; 当 n=3 时,是 K-means 的 3 倍,即与 n 成线性关系。
综合比较 n-gram 短语方法和 K-means 算法可得 表 3 结果。
表 3 n-gram 短语方法与 K-means 算法综合性能对比
4 结语
本文提出了基于 n-gram 短语的文本聚类方法,该 方法是先利用 n-gram 短语构建短语文档相关模型,并 将其转换成相关文档模型, 最后在相关文档模型基础 上进行文档聚类的一种方法。 通过实验,结果证明此方 法是一种能获得较好聚类结果的有效方法。
研究与开发
一种基于 n-gram 短语的文本聚类方法研究
孙桂煌 1,2
(1. 福州海峡职业技术学院, 福州 350014; 2. 福建工程学院国脉信息院, 福州 350014)
摘 要: 由于 文 本自 身 特 点使 得 传 统的 文 档 表示 模 型 VSM 不能 很 好 地反 映 文 本 信 息 ,也 让 传 统 数 据挖掘聚类算法得不到很好的性能表现。 针对传统文本聚类方法中文本表示模型 VSM 和 聚类算法的 不 足 ,提出 一 种 基于 n-gram 短 语 的文 本 聚 类方 法 ,该 方法 利 用 n-gram 短语 构 建短语文档相关模型,将其转换成相关文档模型,在相关文档模型基础上进行文档聚类。实 验结果显示,此方法是一种能获得较好聚类结果的有效方法。
数的短语(称为簇间共享短语)对文档聚类贡献度不大,
同时为了减少模型的空间复杂度,则把它们删除,并利用
这些短语构建 n-gram 短语文档相关模型 phrase-rela-
tion_docs={pi|dj1 ,dj2 ,…,djk },其中 djk 是与 pi 相关的文档, 这一步是利用短语获取短语与多个文档关系。 例如:
Learning to Cluster Search Results. The 27th Annual Inter -
文档 3:{文档 3 文档 4 文档 5}
文档 4:{文档 3 文档 4 文档 5}
文档 5:{文档 3 文档 4 文档 5}
(4)利用公式:
∩sim(di,djl )=1 (|di∩djl|/djl>α 或|di∩djl|/di>α,α=0.5) (3) sim(di,djl )=0 (其他)
当 sim(di,djl )=1 时 ,把 di 和 djl 最 相 关 文 档 集 合 成
本 文 所 用 的 n-gram 短 语[4],是 指 当 前 词 语 与 后 继 n-1 个词语所组成的短语。 例如“公安部公布奥运期间 外地进京货车绕行方案”,经过中文分词,得到结果“公 安部 公布 奥运 期间 外地 进 京 货车 绕行 方案”,当 n=2 时, 可得到如下 2-gram 短语:“公安部 公布”、“公
布 奥运”、“奥运 期间”、“期间 外地”、“外地 进”、“进
京”、“京 货车”、“货车 绕行”、“绕行 方案”。
2.2 算法步骤
(1)文 档 分 词 后 去 掉 语 义 小 的 停 用 词 , 在 句 子 范 围
内提取 n-gram 短语(例如 n=2),由于只包含一个文档的
短语(称为文档独有短语)和包含三分之一以上总文档
(2) 短 语 能 够 简 明 准 确 地 描 述 各 个 类 , 从 而 提 高 聚 类的可读性。
一个短语可能是任意的长度, 但该序列不应穿过 短语边界。 短语边界是指文本解析器识别特殊语法记 号时插入到短语间的, 这些记号可以是标点符号标记 (例如句号、逗号等)或者如 HTML 标签,文本的开头和 结尾也被认为是短语边界[3]。 不允许短语穿过短语边界 的原因是短语边界表示论题的转移。
2.1 n-gram 短语
从自然语言处理的角度来看, 语言单位的层次越 高,那么它蕴涵的含义也就越丰富,所需要的语言模型 也就越复杂。 比词更高一级的语言单位是短语,也称为 词组,是指一个具有一个或者更多词的有序序列[2]。 以 短语作为文档的特征能够给文档聚类带来两个重要的 好处:
(1) 短 语 能 够 体 现 文 档 中 更 多 的 信 息 , 从 而 提 高 聚 类的合理性;
计算 di 与 djk 相关度,当 sim(di,djk )=1 时,收容 djk ,
当 sim(di,djk )=0 时,拒绝 djk ,得到 di 最相关 的文档 dj1 ,
dj2 ,…,djl ,这一步是去除相关度不大的文档。 例如:
文档 1:{文档 1 文档 2}
文档 2:{文档 1 文档 2}
[3]Oren Eli Zamir. Clustering Web Documents: A Phrase-Based
Method for Group Search Engine Results.1999,University of
Washington
[4]Hua -jun ZENG, Qi -qai HE, Zheng CHEN, Wei -ying MA.
VSM 采用简洁的特征向量来表示文档 ,这样做有 两个好处: 一方面这种在词的层次上的特征提取方式 使得模型得以大大简化, 对大量文本的集合有较快的 处理速度,能够保证许多应用中的时间复杂性要求;另 一方面不依赖于某个特定领域。 但是 VSM 却丢失了词 之间的邻近以及顺序关系等重要信息, 失去原有文档 的语义,自然就降低了聚类结果的准确率[1]。 由于词集 的这种缺点,为了能得到更好的聚类结果,一个较好的 方法是使用短语的文档表示模型。 1.2 传统聚类算法