一种基于词共现的文档聚类算法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
越大 ,t 出现的概率越高 。因此 ,2个词 的共 同出现更加容 易与某一主题建立相关性关联 ,利 用词共现组合反映文档 ,
更加贴近文档主题的表达 方式 。 C VS 将文档表示为一个共现词组合 。设文档空问抽 T M 取 出的共现词组合 向量 的集合 为 c { , , C l = c C …, ,其 中,C z 为抽取出的第 m 个共现词组合 向量。则文档空 间 D 可表示
[ sr c]T ip pr rsns ou n ls r gag rh bsdo r Abtat hs ae eet ad cme t ut i loi m ae nwod p c en t
tx bet x rsin Iue e r Ooc r neo cme te s bi ed cmeth mevco rsnainmo e,n p l sote e tujc pes .t sst dC —cur c f o u n toet l ht ou n e etr ee t o dladapi s e o h wo e d s t a s h t p t et h
第3 8卷 第 2期
V_ .8 0 3 1






21 0 2年 1月
J nu r 01 a ay 2 2
NO2 .
Co u e n i e rn mp t r g n e i g E
人工 智能 及识别 技 术 ・

文章 编号:1 32( 1) _ol一J 文献标识码:A o 啡_ 4 2 2l_ 23 2 80 f _ 2
中的分布 ,如下 :
D = ld , , , 2… d ) d =( ,i, C ) f lC … i 2 m

() 1 () 2
习的方法 ,获取文本集上的频繁共现词组集合 ,以此作为文
本 的特征 向量 ,从而得 到一种基于词共现 的文档聚类算法 。
2 基于词共现的文档相似性
2 0 00 0
0 0 I 0 5

1 0 00 0
空 间 S=(,, ,) 含义如下 : 1T=(., t} S上的事 7 ,R , 1 () ft …, 为 1
务集合 。2 , i … i} S上的项集 , () = 2 为 , 即文档中的候选词 。
50 00
表示模 型,将其应用于层次聚类算法中 ,并通 过聚类熵 寻找最优 的层 次划分 ,从而准确反映文档之 间的主题相关关系。实验结果表 明,该
算法所获得 的结果 优于其他基于短语 的文档层次聚类算法 。
关健词 :文档 聚类 ;文档模型 ;词共现 ;文档相似度 ;聚类增益
Do u e tCl s e i gAl o ih s d 0 o d Co o c r e c c m n u t rn g r t m Ba e n W r ・ c u r n e
Gr h DI ) a , G 文本表示模型。文献【】 p 3提出基于 D G 的相似度 I
表示当 W 出现 时, t 出现的概率 。然而 ,由于词具有多义现 象 ,w 出现往往关联 多个潜在 的主题变量 , 需要借助其上下
文语境 才可判 断其准确关联 的主 题 ,即 Pt I Pt I , ( W) ( W) ×
收稿 日 : 0 0— 期 2 1-7 5 1 0
24 1





21 0 2年 月 2 1 0日
P( , ) w :—
[g tw wl Ime (  ̄ s . e )
,,


( )
进行层 次聚类 ,生成聚类层次树。聚类增益变化情况如图 l
所示 。聚类增益在第 7 4步取得极 大值 ,对应层次即为最优 3
d c me t ’ e o u n s t me Ex e i n a e ul h w h the ag rt m e u t sb te a t e h a e o u n e a c ia l se i g a g rt m . h . p rme t l s t s o t a l o i r s t h r s l i e trt n o rp r s sd c me t s h h hir r h c l u t rn l o i c h
计算改进 算法 ,将 抽取 出的短语作为 V M 中词 向量 的补充 , S 提高 了 D G 的文档 区分能力 。文献【】 出后缀树文档模型 I 4提
(u i T e ou n, T ) S fx reD cmetS D 是基于一种后缀树的数据结构 , 它可 以进行高效 的字符 串匹配与查询 。
CHANG n , FENG n M A Pe g . Na h Hui

(a Sh o o M aa e n; b Ifr t na dNew r e trTaj iesyTaj 0 0 2 Chn ; 1. c o l f ng me tl .noma o t okC ne, i i Unvri , ini 3 0 7 , ia i n nn t n 2 Deat n f ng me t n ier g TajnIsi t o ra nt cinTaj 0 3 4 C ia . p r t ae n gnei , ini tue f b Co su t , ini 3 0 8 , hn) me o Ma E n n t U n r o n
现 ,则认为它们共现一次 。C VS 认为词与主题之间存在 T M 着潜在关联 , 以通过词出现的规律判断主题 ,即 Pt W 可 ( l )
文本的主题表达存在着信息缺失 ,从而制约了聚类算法 的准 确性 。近年来一些学者开始关注于建 立基于短语 的文档表示 模 型。文献【】 出的从 “ em 的层面来建立文本的特征 。 1 提 Tr” 文 献 【】 出一 种基 于 短语 的文档 标 引图 ( c m n n e 2提 Dou e tId x
e— CF S V M算法 —日一 D G傩法 I
—盘一 s D 算法 r
迭代 次数
图 1 层次聚类增益
23 基于 C V M 的文本相似性 度量 . TS 在 C V M 中 ,将文档看作高维空间中的一 个向量 ,每 T S
个共现词组合作为空间中的一个维度 ,则 2个向量之 间的相
似 度定 义 如 下 :
∑ ( c c × ,) R d d, = _ _ ( ) d ≠d J
1 概述
当前关 于文档 聚 类的研 究多基 于 向量空 间模型 (etr V co S aeMo e V M) pc d l S ,然而 V M 忽略 了词问的语义关联 ,对 , S
共现词组合是指出现 在同一语境 中的 2个词语 ,它忽略 了词语 的位置及先后顺序 ,只要 2个词在 同一语境单元中出
文 献f—, 都是 从短 语 或词组 的层 面构建 文 档表示 模 124 】
型。然而 ,基于序列的词汇组合仅考 虑了相邻 两词之 问的语
义 关 联 ,忽 略 了在 同一 语 境 中词 汇 之 间 存 在 的语 义 关联 。通
为一个 m×z ,的矩 阵。其 中,行 向量 d cI …,m代 表一 F(fC ’ C) i
2 共现词组合文档表示模型 . 1
设 文档 集合 为 D { 。 2 } =d,, d …, ,文档 集 中有词 汇集合
2 共现词组 合介 绍 . 2 共现词组合为共现概 率超 过某一 阈值 的词对 。词的共现 率可以 由下式计算得 出:
基 金项 目:国家 自 然科 学基金 资助项 目 79 15) (0004 作者倚介 :常 鹏( 8 -) 1 0 ,男,助理研究员、博士 , 9 主研方 向: 文 Ema :so @t. u n - i n w j e . l u dc

为了考察基于词共现的文档聚类算法 的性能 ,本文进行 了一组对 比实验 。分别用基于 C VS 算法的层 次聚类算法 T M 与基于 DI G算法 和基于 S D算法 的层次聚类算法进行 比 T
Leabharlann Baidu
较。3种算法花费时间比较如 图 2所示 ,聚类准确性对 比如
图 3所 示 。
() 5

Cf j k
本挖掘;冯 楠 、马 辉 ,讲师 博士
{ ,2 W J 1 , ,潜在主题集合 f ,, t W …, ft …, J 12 K 。相应地 ,文 档集 中有 Ⅳ篇文档 ,d 代表其中的某篇文档向量 ;词汇集 中 w 有 M 个词 汇 , 代表 其中某个词汇 向量 ;潜在主题集 中有 个主题 , t 表示某个潜在主题 向量 。
篇 文 档 ;列 向量 c (lc, , , 表 共 现词 汇组 合 在 文档 j cj2… c ) = , j 代
常词汇在语境单元 中的共现可视 为某种 内在主题关联 ,然而
如果 2个词 汇经常共 同出现在同一语境 中,则认为这 2个词 具有较强 的主题相关性 。本文提 出的 C V M( oo crec T S C —curn e e m V co p c d 1 T r etrS aeMo e 正是基于此论断 ,通 过统计机器学 )
h e a c i a l se i g ag rt m ,t r ug e c u t rn n r p o fn h e tl v lp rii n n c u a e y r fe t he r l to s i e we n i r r h c lc u trn l o i h h o h t l s e g e to y t d t e b s e e a t o ,a d a c r t l e c s t e ai n h p b t e h i i t l
中 圈分类号:T 31 P0. 6
种 基 于词 共 现 的 文档 聚 类算 法
常 鹏 lb a ,冯 , l 楠h ,马 辉 。
(. 1 天津大学 a 管理与经济学部 ;b 信息与 网络 中心 ,天津 30 7 ;2 天津城市建设学院管理工程系,天津 308) . . 002 . 034 摘 要: 为解决文本主题表达存在的信息缺失问题 , 出一种基于词共现 的文档聚类算法 。利用文档集 上的频 繁共现词建立文档主题 向量 提
[ yw rs d cme t ls rn ; ou n d lwodc—cu e c; o u n i l i ;lseiggi Ke o d ] ou n ut g d cme t c e i mo e; r ooc r ne d c met mi ry cutr an s at n DOh 1.9 9 .s.0 032 . 1 . .7 O3 6  ̄i n10 —4 8 0 20 0 0 s 2 2
() r ・, J 丁中蕴含 的规则 ,即抽取 出的共现 词组 3 R={, , t 为 2一 合 。【) “ 为 S上的约束 ,n和 ∥分别为给定 的支持度 4 0={, }
与置信度 的阈值 。根据关联规 则算法抽取 出超过 “和 阈值 的词对 即为文档空问上的共现词组合。
0 2 0 0 4 0 0 6 0 0 8 0 0 10 0 0
聚类划分 。层次聚类增益如图 1 所示。
其 中, Sg e t , 为文档空问中同时包含 W 和 w 的语 e m n( , ) ww 境单元集合 ; 为集合 中的元素个 数;z 为语境单元 的总数 。
本文利用关联规 则抽取共现词组合 ,由于共现词组合为 二元组 ,因此只考虑二元组 的规则抽取 。给定关联规则挖掘
相关文档
最新文档