基于词聚类的热点话题检测算法

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

ｐ修—一特征砒待聚类文档中的出现概率，如式（５）所示进行
计算；ｐ０７彳卜一特征词砌秘在待聚类文档中同时出现的概
率砒（待以聚下简类称文共档现中概出率现），的如文式档（６）数所；示ｄ进ｆ行研计∥算卜；特ｄｆ征（７词＇一踟特秘征
在待聚类文档中同时出现的文档数；＾Ｌ一待聚类文档总数
朋：掣
形∽＝∑彻）
（５）
图ｌ算法的整体框架
文档聚类空问转化为特征词聚类空间，采用基于互信息的词聚类算法产生热点话题类。以ＴＤＴ５语料作为测试语料进行了
热点话题召回率和话题类纯度评测，实验结果表明，采用基于词聚类的算法进行热，董话题检测，热点话题的平均召回率达
到８３．８％，话题类的平均类纯度达到９４．４％，检测出的热点话题类别易于理解。
关键词：互信息；词聚类；热点话题发现；特征词抽取；词汇语义相似度
。＝Ｇ兹暑兹若兹；｝甜Ⅸ川／矿ｆ鬟＾ｃ２，
上式表示对于长（特征词个数大于Ａ．）文档，将前Ａ，个特征词作为有效特征词；反之，对于短（特征词个数小于＾）文档，抽取前九个特征作为有效特征词。
（４）将有效特征词添加到“特征．文档”倒排索引空间。该空间以特征词向量为索引，文档编号和相应的特征词频为检索内容。
长短文章的规则进行特征抽取，以保证特征词提取的有效性。具体预处理过程为：
（１）应用海量分词软件模块对文档进行分词。（２）将文档表示为特征词向量空间形式Ｄ：｛、ｖ何），…，ｗ何），…，ｗ∽）｝，其中ｗ（万）表示文档向量Ｄ中第ｉ个特征ｉ五ｑｆ，的权重，朋表示文档的特征词个数，计算公式如下所示
啡）。撇）×Ｉｏｇ（赭汐
陕西渭河发生洪水
水库、陕西、泄洪、下游、渭南市、防汛、倒灌、洪峰、堤、大堤、县城、水位、沙袋、潘成村、流量、地势……
赵戈、蛙泳、铜、世锦赛、米蝶泳、金牌、接力、混合泳、自由泳、游泳、名列、秒、第一三、半决赛、澳大利亚队……
陕西渭河发生洪水
世界游泳锦标赛在高潮中戛然而止
巨人、浩、巴纳、艾瑞克巴纳、赶来、该片、导演、变成、戏院、酋映、片中、绿、女主角、男主角、力大无比、李安……
１．３词聚类１．３．１基于互信息的词相似度计算
基于语料库的统计方法认为一个词的意义与其所处的上下文中出现的其它词有关，即与该词的语言环境有关忉。因此，表示同一话题的两个词在统计学意义上将具有相同的语言环境。基于此本算法采用互信息定义特征词之间的相似度，并根据词聚类需要进行改进，具体数学描述如下：
２２１４２０ｌｌ，Ｖ０１．３２，Ｎｏ．６计算机工程与设计ＣｏｍｐｕｔｅｒＥｎｇｉｎｅｅｒｉｎｇａｎｄＤｅｓｉｇｎ
基于词聚类的热点话题检测算法
龙志神，程葳（北京城市学院人工智能研究所，北京１０００８３）
摘要：对应用词聚类进行热点话题检测的算法进行了研究。通过将文档分词并用兼顾长短文章的规则进行特征抽取，将
假设特征协与特征协相似，则两个词在特征空间中具有相似的互信息分布，Ｂ哳秘与其它特征词之间的互信息差
别较小，故用式（３）计算特征诃五与特征词，：之间的相似度
∑ｐ∽［ｍｉＩｌ（Ⅳ４）（厂Ｚ）］
Ｆ
ｓｉｍ（３ｑ－石）＝
∑期［ｍａｘ（Ｚｆｆ，：）凡哳）］
，
划Ｄ沪１０ｆ。∈．．Ｄ，
础彳）：呜艘
彤ＵＪ）＝∑矽Ｕ彳，ｎ）
设算法产生的第ｆ个类的纯度如式（９）所示。其中，Ｅ，～Ｅｋ是测试集合中标注的话题，七为标注话题的个数ｋ－－１１７；Ｍ是算法产
生话题中第ｉ个类包含的特征词数；Ｎ；（历）是算法产生的第ｉ个类中关于标注话题ＥＪ的特征词数，本实验通过人工判断和统
间相似度用词间互信息进行度量，此方法在应用国际公认评测语料ＴＤＴ５的实验中，表现了较好性能，其发现热点话题的平均正确率达到９４．４％。
１算法描述
１．１整体框架如图ｌ所示，本算法包括预处理和词聚类两大部分。其
中预处理部分主要负责完成对文档分词、特征向量表示、向量权重计算和特征词抽取等任务。词聚类部分通过对特征向量空间进行基于互信息的聚类，产生以特征词为元素的聚类结果，并经过一定的筛选生成热点话题类。具体描述如下：１．２预处理
２实验及结果分析
２．１实验数据与评测方法本文以国际公认的ＴＤＴ５语料州作为测试集合，用ＴＤＴ５
语料中的１１５６篇（Ⅳ＝１１５６）中文文档作为输入，此１１５６篇文档被人工标注为１１７个话题。经分析发现此１１７个话题中尺寸
万方数据
２２１６２０１１，Ｖ０１．３２，Ｎｏ．６
计算机工程与设计ＣｏｍｐｕｔｅｒＥｎｇｉｎｅｅｒｉｎｇａｎｄＤｅｓｉｇｎ
｛，ｆ｝，构成初始类集合Ｃ＝ｋ，．．．，ａ，…，岛｝；（２）根据式（８）计算类集合每个类对｛ｃ。，Ｑ｝之间的相似度
ｉ（ｃ．，Ｃｋ）
ｉ（ｃｌ，ｎ）＿ｍ…ｉｎ｛ｓｉｎ，（矿，矿））
（８）
；簇：
（３）选取相似度最大的类对｛ｃｌ，“｝＝ａｒｇｍａｘ－ｔ址ｔｔ｛ｓｉｒｅ’（ｃ胁）｝
ｃＲ是类集合的元素个数）进行合并，产生新类ＣＲ＋，＝ｃ，ｕ岛，；
弧万∽＝（：销沮胙Ａ
（６）
由于根据式（３）、式（４）计算的相似度和互信息存在小于零的情况，而在词聚类中，相似度为负值没有明确的物理意义，因此本算法对式（３）进行如式（７）所示的修正
删舻（≯川怒荔鬟嵩。 ∽
１３．２层次聚类本算法采用自底向上的层次聚合聚类算法对特征向量进
行聚类，具体步骤如下：
（１）设特征向量空间Ｆ中每一个特征班就是一个类Ｃ，＝
按照话题尺寸，实验中把前４０个话题作为热点话题进行评测。本实验综合词聚类评测中常用的类纯度评测法９’和ＴＤＴ５
中话题召回率指标对算法进行评测。舍弃ＴＤＴ５中话题精确
度指标进行评价原因是在舆情监控中更关注热点话题是否被发现，即热点话题的召回率，故仅对召回率指标进行评测；类
纯度指标主要用于评测类内部特征词的正确性。具体方法为：
万方数据
龙志讳，程葳：基于词聚类的热点话题检测算法
甲基于互信息的词聚类器
ｌ计剪待聚臻特符词埘问Ｉｆ摹ｊ－亘信息的相似度Ｉ
量Ｎ
２０１１，Ｖ０１．３２，Ｎｏ．６２２１５
式中：Ｆ＿特征向盯量护空ｌ间ｏｇ斩－然Ｚ，／＼…－ｆｌ／Ｊｏｐ＼｝● 筋，ｌ，，ｒ特征词的个数；（４）
Ｉ何巧）——特征词砒和Ｚ的互信息，如式（４）所示进行计算；
因本算法采用的聚类是词聚类，而词聚类是基于特征词进行聚类，故首先需要将文档空间转化为特征词空间；实验发现对文档特征词如不进行必要抽取，不但增加不必要的资源消耗，而且影响算法精度，故算法还需要对文档特征空间进行有效压缩，即进行特征词提取。
本文算法采用具有较高精度的海量分词软件进行分词，然后以当前经典的ＴＦＩＤＦ算法计算特征向量权重，并用兼顾
检测出的话题类标号ｌ
特征词个数２２
２
２１
３
１７
４
１７
百度文库
５
１６
表１排名前５名的话题
特征词
对应人工标注的话题名
吕秀莲、侨务、澎湖，构想、法令、对口、产业、业者、表演、鼻ｆ、’萨摩亚．敬意、草帽、典范、打造、族群、旅游……
吕秀莲出访中南美洲
华县、洪水、渭河、支流、决口、淹没区、落水．防险、一同、罗纹、河堤、王文、抗洪、渭南、刘新文、舟、冲锋……
（４）从类集合中删除老类ｃｆ．和“，构成新的类集合；（５）重复步骤（２）．（４），直到类集合中各元素间的最大相似度
小于相似度阈值岛；
（６）将最终生成的类集合中各类别按照所包含特征词个数由大到小排序，仅保留特征词个数大于阈值Ａ：的类作为最终形
成的热点话题。之所以去掉包含特征词个数较小的类，主要
是因为它们往往不能提供了解一个热点话题所需要的足够信息，所以也构不成热点话题。
李安执导的ｆ绿巨人浩克Ｊ在伦敦帝国戏院首映
最大的话题包含文档７２篇，尺寸最大的前１０个话题每个话题包含文档数目均大于３９篇，尺寸最大的前２０个话题每个话题
包含文档数目均大于１９篇，尺寸最大的前３０个话题每个话题
包含文档数目均大于９篇，尺寸最大的前４０个话题每个话题包含文档数目均大于６篇，尺寸最小的话题仅包含文档ｌ篇。
（１）
式ｄｆ中，：们￡卜ｆ够训卜练—集彳合在文中档包向箭量的Ｄ中文出档现数的：频率Ｍ卜（以训下练简集称词合频的）总；
文档数；训练集合是指专门用于统计特征词文档频率的大规模语料库，本算法中ＮＮ＝６２６，１３ｌ。
Ｏ）将文档特征按照权重由大到小排序Ｗ们’≥…≥ｗ够，）≥…Ｗ蠊，），然后根据式（２）进行特征词抽取。其中＾为文档特征词个数阈值，舅为百分比阈值
Ａｂｓｔｒａｃｔ：Ａｆｌｅｗａｌｇｏｒｉｔｈｍｆｏｒｈｏｔｔｏｐｉｃｄｅｔｅｃｔｉｏｎｕｓｉｎｇｗｏｒｄｓｃｌｕｓｔｅｒｉｎｇｉｓｐｒｏｐｏｓｅｄ．Ｆｉｒｓｔｄｏｃｕｍｅｎｔｓｓｐａｃｅｉｓｃｏｎｖｅａｅｄｔｏｗｏｒｄｓｓｐａｃｅｂｙｗｏｒｄｓｅｇｍｅｎｔａｔｉｏｎａｎｄｅｘｔｒａｃｔｉｏｎｏｆｋｅｙｗｏｒｄｓｃｏｎｓｉｄｅｒｉｎｇｔｈｅｌｅｎｇｔｈｏｆｔｈｅｄｏｃｕｍｅｎｔ，ｔｈｅｎｈｏｔｔｏｐｉｃｃｌｕｓｔｅｒｉｓｄｅｔｅｃｔｅｄｕｓｉｎｇｗｏｒｄｓｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｂａｓｅｄｍｕｔｕａｌｉｎｆｏｒｍａｔｉｏｎ．ＨｏｔｔｏｐｉｃｒｅｃａｌｌａｎｄｔｈｅｐｕｒｅｏｆｔｈｅｔｏｐｉｃｉｓｍｅａｓｕｒｅｄｏｎｔｈｅＴＤＴ５ｃｏｒｐｕｓ．Ｅｘｐｅｒｉｍｅｎｔｓｓｈｏｗｔｈａｔｔｈｅａｖｅｒａｇｅｒｅｃａｌｌｏｆｈｏｔｔｏｐｉｃｄｅｔｅｃｔｉｏｎｒｅａｃｈｅｓｔｏ８３．８％，ｔｈｅａｖｅｒａｇｅｐｕｒｅｏｆｔｈｅｔｏｐｉｃｃｌｕｓｔｅｒｒｅａｃｈｅｓｔｏ９４．４％；ｔｈｅｄｅｔｅｃｔｅｄｈｏｔｔｏｐｉｃｉｓｅａｓｉｌｙｕｎｄｅｒｓｔａｎｄａｂｌｅ．Ｋｅｙｗｏｒｄｓ：ｍｕｔｕａｌｉｎｆｏｒｍａｔｉｏｎ；ｗｏｒｄｃｌｕｓｔｅｒｉｎｇ；ｈｏｔｔｏｐｉｃｄｅｔｅｃｔｉｏｎ；ｋｅｙｐｈｒａｓｅｅｘｔｒａｃｔｉｏｎ；ｓｅｍａｎｔｉｃｓｉｍｉｌａｒｉｔｙｏｆｗｏｒｄｓ
中图法分类号：ＴＰ３９１
文献标识码：Ａ文章编号：１０００．７０２４（２０１１）０６．２２１４．０４
Ｋｉｎｄｏｆｈｏｔｔｏｐｉｃｄｅｔｅｃｔｉｏｎａｌｇｏｒｉｔｈｍｂａｓｅｄｏｎｃｌｕｓｔｅｒｉｎｇｋｅｙｗｏｒｄｓ
ＬＯＮＧＺｈｉ—ｙｉ．ＣＨＥＮＧＷｅｉ（ＩｎｓｔｉｔｕｔｅｏｆＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ，ＢｅｉｊｉｎｇＣｉｔｙＵｎｉｖｅｒｓｉｔｙ，Ｂｅｉｊｉｎｇ１０００８３，Ｃｈｉｎａ）
０引言
网络中的蕈要信息常会被海量数据淹没，因此有效检测网上热点话题，正成为舆情监控、竞争情报等领域的新热点。有关这方面研究大多以话题发现与跟踪…（ｔｏｐｉｃｄｅｔｅｃｔｉｏｎａｎｄｔｒａｃｋｉｎｇ，ＴＤＴ）技术为基础。ＴＤＴ技术可以将关于事件分散的信息有效地汇集并组织起来，所关注的是对热点新闻、突发事件进行话题组织。该技术通过大规模文档自动聚类建立话题酬，话题一般用代表该话题的类的所有文档来表示，即用很多篇文档来表示一个话题。这种话题表示不适合人的认知习惯，人们希望话题表示简单明了，因此出现了话题表示Ⅲ、基于话题的多文档摘要”’等研究。不同于上述面向大规模文档的ＴＤＴ聚类算法，对关键词聚类进行话题检测“ｌ的算法直接对从文档中抽取出的特征词进行聚类，由此产生的类别直接由词构成，即产生的话题直接由特征词表示，避免了话题表示过程。Ｃｈｒｉｓｔｉ明Ｗａｒｔｅｎａ等Ｍ通过ｂｉｓｅｃｔｉｎｇｋ－ｍｅａｎｓ聚类算法对特征词进行聚类从而达到话题检测的目的，其将特征词在上下文本语料中的统计分布特性作为词间相似度距离的衡量标准。本文提出一种基于互信息的词聚类热点话题发现算法，特征词
收稿日期：２０１０－０６－２７；修订日期：２０１０．０８．２９。
基金项目：国家８６３高技术研究发展计划基金项目（２００５从１４７０３０）；国家２４２信息安全计划基金项目（２００５Ａ３７）。
作者简介：龙志秭（１９７９～），女，江西抚州人，硕士，讲师，研究方向为互联网内容安全、自然语言处理；程葳（１９７３一），女，北京人，博士，副教授，研究方向为互联网内容分析、自然语言处理。Ｅ－ｍａｉｈｌｏｎｇｚｈｉｙｉ＠ｂｃｕ．ｅｄｕ．ｃｎ