基于词聚类的热点话题检测算法
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
p修—一特征砒待聚类文档中的出现概率,如式(5)所示进行
计算;p07彳卜一特征词砌秘在待聚类文档中同时出现的概
率砒(待以聚下简类称文共档现中概出率现),的如文式档(6)数所;示d进f行研计∥算卜;特df征(7词'一踟特秘征
在待聚类文档中同时出现的文档数;^L一待聚类文档总数
朋:掣
形∽=∑彻)
(5)
图l算法的整体框架
文档聚类空问转化为特征词聚类空间,采用基于互信息的词聚类算法产生热点话题类。以TDT5语料作为测试语料进行了
热点话题召回率和话题类纯度评测,实验结果表明,采用基于词聚类的算法进行热,董话题检测,热点话题的平均召回率达
到83.8%,话题类的平均类纯度达到94.4%,检测出的热点话题类别易于理解。
关键词:互信息;词聚类;热点话题发现;特征词抽取;词汇语义相似度
。=G兹暑兹若兹;}甜Ⅸ川/矿f鬟^c2,
上式表示对于长(特征词个数大于A.)文档,将前A,个特征 词作为有效特征词;反之,对于短(特征词个数小于^)文档,抽 取前九个特征作为有效特征词。
(4)将有效特征词添加到“特征.文档”倒排索引空间。该 空间以特征词向量为索引,文档编号和相应的特征词频为检 索内容。
长短文章的规则进行特征抽取,以保证特征词提取的有效性。 具体预处理过程为:
(1)应用海量分词软件模块对文档进行分词。 (2)将文档表示为特征词向量空间形式D:{、v何),…,w何),…, w∽)},其中w(万)表示文档向量D中第i个特征i五qf,的权重,朋 表示文档的特征词个数,计算公式如下所示
啡)。撇)×Iog(赭汐
陕西渭河发生洪水
水库、陕西、泄洪、下游、渭南市、防汛、倒灌、洪峰、堤、大堤、县城、水 位、沙袋、潘成村、流量、地势……
赵戈、蛙泳、铜、世锦赛、米蝶泳、金牌、接力、混合泳、自由泳、游泳、名 列、秒、第一三、半决赛、澳大利亚队……
陕西渭河发生洪水
世界游泳锦标赛在高潮中 戛然而止
巨人、浩、巴纳、艾瑞克巴纳、赶来、该片、导演、变成、戏院、酋映、片中、 绿、女主角、男主角、力大无比、李安……
1.3词聚类 1.3.1 基于互信息的词相似度计算
基于语料库的统计方法认为一个词的意义与其所处的上 下文中出现的其它词有关,即与该词的语言环境有关忉。因 此,表示同一话题的两个词在统计学意义上将具有相同的语 言环境。基于此本算法采用互信息定义特征词之间的相似度, 并根据词聚类需要进行改进,具体数学描述如下:
2214 20ll,V01.32,No.6 计算机工程与设计ComputerEngineeringandDesign
基于词聚类的热点话题检测算法
龙志神,程葳 (北京城市学院人工智能研究所,北京100083)
摘要:对应用词聚类进行热点话题检测的算法进行了研究。通过将文档分词并用兼顾长短文章的规则进行特征抽取,将
假设特征协与特征协相似,则两个词在特征空间中具 有相似的互信息分布,B哳秘与其它特征词之间的互信息差
别较小,故用式(3)计算特征诃五与特征词,:之间的相似度
∑p∽[miIl(Ⅳ4)(厂Z)]
F
sim(3q-石)=
∑期[max(Zff,:)凡哳)]
,
划D沪10 f。∈..D,
础彳):呜艘
彤UJ)=∑矽U彳,n)
设算法产生的第f个类的纯度如式(9)所示。其中,E,~Ek是测 试集合中标注的话题,七为标注话题的个数k--117;M是算法产
生话题中第i个类包含的特征词数;N;(历)是算法产生的第i个 类中关于标注话题EJ的特征词数,本实验通过人工判断和统
间相似度用词间互信息进行度量,此方法在应用国际公认评 测语料TDT5的实验中,表现了较好性能,其发现热点话题的 平均正确率达到94.4%。
1算法描述
1.1整体框架 如图l所示,本算法包括预处理和词聚类两大部分。其
中预处理部分主要负责完成对文档分词、特征向量表示、向量 权重计算和特征词抽取等任务。词聚类部分通过对特征向量 空间进行基于互信息的聚类,产生以特征词为元素的聚类结 果,并经过一定的筛选生成热点话题类。具体描述如下: 1.2预处理
2实验及结果分析
2.1实验数据与评测方法 本文以国际公认的TDT5语料州作为测试集合,用TDT5
语料中的1156篇(Ⅳ=1156)中文文档作为输入,此1156篇文档 被人工标注为117个话题。经分析发现此117个话题中尺寸
万方数据
2216 201 1,V01.32,No.6
计算机工程与设计Computer Engineering and Design
{,f},构成初始类集合C=k,...,a,…,岛}; (2)根据式(8)计算类集合每个类对{c。,Q}之间的相似度
i(c.,Ck)
i(cl,n)_m…in{sin,(矿,矿))
(8)
;簇:
(3)选取相似度最大的类对{cl,“}=argmax-t址tt{sire’(c胁)}
cR是类集合的元素个数)进行合并,产生新类CR+,=c,u岛,;
弧万∽=(:销沮胙A
(6)
由于根据式(3)、式(4)计算的相似度和互信息存在小于零 的情况,而在词聚类中,相似度为负值没有明确的物理意义, 因此本算法对式(3)进行如式(7)所示的修正
删舻(≯川怒荔鬟嵩。 ∽
13.2层次聚类 本算法采用自底向上的层次聚合聚类算法对特征向量进
行聚类,具体步骤如下:
(1)设特征向量空间F中每一个特征班就是一个类C,=
按照话题尺寸,实验中把前40个话题作为热点话题进行评测。 本实验综合词聚类评测中常用的类纯度评测法9’和TDT5
中话题召回率指标对算法进行评测。舍弃TDT5中话题精确
度指标进行评价原因是在舆情监控中更关注热点话题是否被 发现,即热点话题的召回率,故仅对召回率指标进行评测;类
纯度指标主要用于评测类内部特征词的正确性。具体方法为:
万方数据
龙志讳,程葳:基于词聚类的热点话题检测算法
甲基于互信息的词聚类器
l计剪待聚臻特符词埘问I f摹j-亘信息的相似度I
量N
2011,V01.32,No.6 221 5
式中:F_特征向盯量护空l间og斩-然Z,/\…-fl/Jop\}● 筋,l, ,r特征词的个数;(4)
I何巧)——特征词砒和Z的互信息,如式(4)所示进行计算;
因本算法采用的聚类是词聚类,而词聚类是基于特征词 进行聚类,故首先需要将文档空间转化为特征词空间;实验发 现对文档特征词如不进行必要抽取,不但增加不必要的资源 消耗,而且影响算法精度,故算法还需要对文档特征空间进行 有效压缩,即进行特征词提取。
本文算法采用具有较高精度的海量分词软件进行分词, 然后以当前经典的TFIDF算法计算特征向量权重,并用兼顾
检测出的话题类标号 l
特征词个数 22
2
21
3
17
4
17
百度文库
5
16
表1排名前5名的话题
特征词
对应人工标注的话题名
吕秀莲、侨务、澎湖,构想、法令、对口、产业、业者、表演、鼻f、’萨摩亚. 敬意、草帽、典范、打造、族群、旅游……
吕秀莲出访中南美洲
华县、洪水、渭河、支流、决口、淹没区、落水.防险、一同、罗纹、河堤、王 文、抗洪、渭南、刘新文、舟、冲锋……
(4)从类集合中删除老类cf.和“,构成新的类集合; (5)重复步骤(2).(4),直到类集合中各元素间的最大相似度
小于相似度阈值岛;
(6)将最终生成的类集合中各类别按照所包含特征词个数 由大到小排序,仅保留特征词个数大于阈值A:的类作为最终形
成的热点话题。之所以去掉包含特征词个数较小的类,主要
是因为它们往往不能提供了解一个热点话题所需要的足够信 息,所以也构不成热点话题。
李安执导的f绿巨人浩克J 在伦敦帝国戏院首映
最大的话题包含文档72篇,尺寸最大的前10个话题每个话题 包含文档数目均大于39篇,尺寸最大的前20个话题每个话题
包含文档数目均大于19篇,尺寸最大的前30个话题每个话题
包含文档数目均大于9篇,尺寸最大的前40个话题每个话题 包含文档数目均大于6篇,尺寸最小的话题仅包含文档l篇。
(1)
式 df中,:们£卜f够训卜练—集彳合在文中档包向箭量的D中文出档现数的:频率M卜(以训下练简集称词合频的)总;
文档数;训练集合是指专门用于统计特征词文档频率的大规 模语料库,本算法中NN=626,13l。
O)将文档特征按照权重由大到小排序W们’≥…≥w 够,)≥…W蠊,),然后根据式(2)进行特征词抽取。其中^为文档 特征词个数阈值,舅为百分比阈值
Abstract:A flew algorithm for hot topic detection using words clustering is proposed.Firstdocuments space is conveaed to words space by word segmentation and extraction ofkey words considering the length ofthe document,then hot topic cluster is detected using words clustering algorithm based mutual information.Hot topic recall and the pure ofthe topic is measured on the TDT5 corpus.Experiments show that the average recall ofhot topic detection reaches to 83.8%,the average pure of the topic cluster reaches to 94.4%;the detected hot topic is easily understandable. Key words:mutual information;word clustering;hot topic detection;key phrase extraction;semantic similarity of words
中图法分类号:TP391
文献标识码:A 文章编号:1000.7024(2011)06.2214.04
Kind of hot topic detection algorithm based on clustering keywords
LONG Zhi—yi. CHENG Wei (Institute of Artificial Intelligence,Beijing City University,Beijing 1 00083,China)
0引 言
网络中的蕈要信息常会被海量数据淹没,因此有效检测 网上热点话题,正成为舆情监控、竞争情报等领域的新热点。 有关这方面研究大多以话题发现与跟踪…(topic detection and tracking,TDT)技术为基础。TDT技术可以将关于事件分散的信 息有效地汇集并组织起来,所关注的是对热点新闻、突发事件 进行话题组织。该技术通过大规模文档自动聚类建立话题酬, 话题一般用代表该话题的类的所有文档来表示,即用很多篇 文档来表示一个话题。这种话题表示不适合人的认知习惯, 人们希望话题表示简单明了,因此出现了话题表示Ⅲ、基于话 题的多文档摘要”’等研究。不同于上述面向大规模文档的TDT 聚类算法,对关键词聚类进行话题检测“l的算法直接对从文档 中抽取出的特征词进行聚类,由此产生的类别直接由词构成, 即产生的话题直接由特征词表示,避免了话题表示过程。 Christi明Wartena等M通过bisectingk-means聚类算法对特征词 进行聚类从而达到话题检测的目的,其将特征词在上下文本 语料中的统计分布特性作为词间相似度距离的衡量标准。本 文提出一种基于互信息的词聚类热点话题发现算法,特征词
收稿日期:2010-06-27;修订日期:2010.08.29。
基金项目:国家863高技术研究发展计划基金项目(2005从147030);国家242信息安全计划基金项目(2005A37)。
作者简介:龙志秭(1979~),女,江西抚州人,硕士,讲师,研究方向为互联网内容安全、自然语言处理; 程葳(1973一),女,北京人,博 士,副教授,研究方向为互联网内容分析、自然语言处理。E-maih longzhiyi@bcu.edu.cn
计算;p07彳卜一特征词砌秘在待聚类文档中同时出现的概
率砒(待以聚下简类称文共档现中概出率现),的如文式档(6)数所;示d进f行研计∥算卜;特df征(7词'一踟特秘征
在待聚类文档中同时出现的文档数;^L一待聚类文档总数
朋:掣
形∽=∑彻)
(5)
图l算法的整体框架
文档聚类空问转化为特征词聚类空间,采用基于互信息的词聚类算法产生热点话题类。以TDT5语料作为测试语料进行了
热点话题召回率和话题类纯度评测,实验结果表明,采用基于词聚类的算法进行热,董话题检测,热点话题的平均召回率达
到83.8%,话题类的平均类纯度达到94.4%,检测出的热点话题类别易于理解。
关键词:互信息;词聚类;热点话题发现;特征词抽取;词汇语义相似度
。=G兹暑兹若兹;}甜Ⅸ川/矿f鬟^c2,
上式表示对于长(特征词个数大于A.)文档,将前A,个特征 词作为有效特征词;反之,对于短(特征词个数小于^)文档,抽 取前九个特征作为有效特征词。
(4)将有效特征词添加到“特征.文档”倒排索引空间。该 空间以特征词向量为索引,文档编号和相应的特征词频为检 索内容。
长短文章的规则进行特征抽取,以保证特征词提取的有效性。 具体预处理过程为:
(1)应用海量分词软件模块对文档进行分词。 (2)将文档表示为特征词向量空间形式D:{、v何),…,w何),…, w∽)},其中w(万)表示文档向量D中第i个特征i五qf,的权重,朋 表示文档的特征词个数,计算公式如下所示
啡)。撇)×Iog(赭汐
陕西渭河发生洪水
水库、陕西、泄洪、下游、渭南市、防汛、倒灌、洪峰、堤、大堤、县城、水 位、沙袋、潘成村、流量、地势……
赵戈、蛙泳、铜、世锦赛、米蝶泳、金牌、接力、混合泳、自由泳、游泳、名 列、秒、第一三、半决赛、澳大利亚队……
陕西渭河发生洪水
世界游泳锦标赛在高潮中 戛然而止
巨人、浩、巴纳、艾瑞克巴纳、赶来、该片、导演、变成、戏院、酋映、片中、 绿、女主角、男主角、力大无比、李安……
1.3词聚类 1.3.1 基于互信息的词相似度计算
基于语料库的统计方法认为一个词的意义与其所处的上 下文中出现的其它词有关,即与该词的语言环境有关忉。因 此,表示同一话题的两个词在统计学意义上将具有相同的语 言环境。基于此本算法采用互信息定义特征词之间的相似度, 并根据词聚类需要进行改进,具体数学描述如下:
2214 20ll,V01.32,No.6 计算机工程与设计ComputerEngineeringandDesign
基于词聚类的热点话题检测算法
龙志神,程葳 (北京城市学院人工智能研究所,北京100083)
摘要:对应用词聚类进行热点话题检测的算法进行了研究。通过将文档分词并用兼顾长短文章的规则进行特征抽取,将
假设特征协与特征协相似,则两个词在特征空间中具 有相似的互信息分布,B哳秘与其它特征词之间的互信息差
别较小,故用式(3)计算特征诃五与特征词,:之间的相似度
∑p∽[miIl(Ⅳ4)(厂Z)]
F
sim(3q-石)=
∑期[max(Zff,:)凡哳)]
,
划D沪10 f。∈..D,
础彳):呜艘
彤UJ)=∑矽U彳,n)
设算法产生的第f个类的纯度如式(9)所示。其中,E,~Ek是测 试集合中标注的话题,七为标注话题的个数k--117;M是算法产
生话题中第i个类包含的特征词数;N;(历)是算法产生的第i个 类中关于标注话题EJ的特征词数,本实验通过人工判断和统
间相似度用词间互信息进行度量,此方法在应用国际公认评 测语料TDT5的实验中,表现了较好性能,其发现热点话题的 平均正确率达到94.4%。
1算法描述
1.1整体框架 如图l所示,本算法包括预处理和词聚类两大部分。其
中预处理部分主要负责完成对文档分词、特征向量表示、向量 权重计算和特征词抽取等任务。词聚类部分通过对特征向量 空间进行基于互信息的聚类,产生以特征词为元素的聚类结 果,并经过一定的筛选生成热点话题类。具体描述如下: 1.2预处理
2实验及结果分析
2.1实验数据与评测方法 本文以国际公认的TDT5语料州作为测试集合,用TDT5
语料中的1156篇(Ⅳ=1156)中文文档作为输入,此1156篇文档 被人工标注为117个话题。经分析发现此117个话题中尺寸
万方数据
2216 201 1,V01.32,No.6
计算机工程与设计Computer Engineering and Design
{,f},构成初始类集合C=k,...,a,…,岛}; (2)根据式(8)计算类集合每个类对{c。,Q}之间的相似度
i(c.,Ck)
i(cl,n)_m…in{sin,(矿,矿))
(8)
;簇:
(3)选取相似度最大的类对{cl,“}=argmax-t址tt{sire’(c胁)}
cR是类集合的元素个数)进行合并,产生新类CR+,=c,u岛,;
弧万∽=(:销沮胙A
(6)
由于根据式(3)、式(4)计算的相似度和互信息存在小于零 的情况,而在词聚类中,相似度为负值没有明确的物理意义, 因此本算法对式(3)进行如式(7)所示的修正
删舻(≯川怒荔鬟嵩。 ∽
13.2层次聚类 本算法采用自底向上的层次聚合聚类算法对特征向量进
行聚类,具体步骤如下:
(1)设特征向量空间F中每一个特征班就是一个类C,=
按照话题尺寸,实验中把前40个话题作为热点话题进行评测。 本实验综合词聚类评测中常用的类纯度评测法9’和TDT5
中话题召回率指标对算法进行评测。舍弃TDT5中话题精确
度指标进行评价原因是在舆情监控中更关注热点话题是否被 发现,即热点话题的召回率,故仅对召回率指标进行评测;类
纯度指标主要用于评测类内部特征词的正确性。具体方法为:
万方数据
龙志讳,程葳:基于词聚类的热点话题检测算法
甲基于互信息的词聚类器
l计剪待聚臻特符词埘问I f摹j-亘信息的相似度I
量N
2011,V01.32,No.6 221 5
式中:F_特征向盯量护空l间og斩-然Z,/\…-fl/Jop\}● 筋,l, ,r特征词的个数;(4)
I何巧)——特征词砒和Z的互信息,如式(4)所示进行计算;
因本算法采用的聚类是词聚类,而词聚类是基于特征词 进行聚类,故首先需要将文档空间转化为特征词空间;实验发 现对文档特征词如不进行必要抽取,不但增加不必要的资源 消耗,而且影响算法精度,故算法还需要对文档特征空间进行 有效压缩,即进行特征词提取。
本文算法采用具有较高精度的海量分词软件进行分词, 然后以当前经典的TFIDF算法计算特征向量权重,并用兼顾
检测出的话题类标号 l
特征词个数 22
2
21
3
17
4
17
百度文库
5
16
表1排名前5名的话题
特征词
对应人工标注的话题名
吕秀莲、侨务、澎湖,构想、法令、对口、产业、业者、表演、鼻f、’萨摩亚. 敬意、草帽、典范、打造、族群、旅游……
吕秀莲出访中南美洲
华县、洪水、渭河、支流、决口、淹没区、落水.防险、一同、罗纹、河堤、王 文、抗洪、渭南、刘新文、舟、冲锋……
(4)从类集合中删除老类cf.和“,构成新的类集合; (5)重复步骤(2).(4),直到类集合中各元素间的最大相似度
小于相似度阈值岛;
(6)将最终生成的类集合中各类别按照所包含特征词个数 由大到小排序,仅保留特征词个数大于阈值A:的类作为最终形
成的热点话题。之所以去掉包含特征词个数较小的类,主要
是因为它们往往不能提供了解一个热点话题所需要的足够信 息,所以也构不成热点话题。
李安执导的f绿巨人浩克J 在伦敦帝国戏院首映
最大的话题包含文档72篇,尺寸最大的前10个话题每个话题 包含文档数目均大于39篇,尺寸最大的前20个话题每个话题
包含文档数目均大于19篇,尺寸最大的前30个话题每个话题
包含文档数目均大于9篇,尺寸最大的前40个话题每个话题 包含文档数目均大于6篇,尺寸最小的话题仅包含文档l篇。
(1)
式 df中,:们£卜f够训卜练—集彳合在文中档包向箭量的D中文出档现数的:频率M卜(以训下练简集称词合频的)总;
文档数;训练集合是指专门用于统计特征词文档频率的大规 模语料库,本算法中NN=626,13l。
O)将文档特征按照权重由大到小排序W们’≥…≥w 够,)≥…W蠊,),然后根据式(2)进行特征词抽取。其中^为文档 特征词个数阈值,舅为百分比阈值
Abstract:A flew algorithm for hot topic detection using words clustering is proposed.Firstdocuments space is conveaed to words space by word segmentation and extraction ofkey words considering the length ofthe document,then hot topic cluster is detected using words clustering algorithm based mutual information.Hot topic recall and the pure ofthe topic is measured on the TDT5 corpus.Experiments show that the average recall ofhot topic detection reaches to 83.8%,the average pure of the topic cluster reaches to 94.4%;the detected hot topic is easily understandable. Key words:mutual information;word clustering;hot topic detection;key phrase extraction;semantic similarity of words
中图法分类号:TP391
文献标识码:A 文章编号:1000.7024(2011)06.2214.04
Kind of hot topic detection algorithm based on clustering keywords
LONG Zhi—yi. CHENG Wei (Institute of Artificial Intelligence,Beijing City University,Beijing 1 00083,China)
0引 言
网络中的蕈要信息常会被海量数据淹没,因此有效检测 网上热点话题,正成为舆情监控、竞争情报等领域的新热点。 有关这方面研究大多以话题发现与跟踪…(topic detection and tracking,TDT)技术为基础。TDT技术可以将关于事件分散的信 息有效地汇集并组织起来,所关注的是对热点新闻、突发事件 进行话题组织。该技术通过大规模文档自动聚类建立话题酬, 话题一般用代表该话题的类的所有文档来表示,即用很多篇 文档来表示一个话题。这种话题表示不适合人的认知习惯, 人们希望话题表示简单明了,因此出现了话题表示Ⅲ、基于话 题的多文档摘要”’等研究。不同于上述面向大规模文档的TDT 聚类算法,对关键词聚类进行话题检测“l的算法直接对从文档 中抽取出的特征词进行聚类,由此产生的类别直接由词构成, 即产生的话题直接由特征词表示,避免了话题表示过程。 Christi明Wartena等M通过bisectingk-means聚类算法对特征词 进行聚类从而达到话题检测的目的,其将特征词在上下文本 语料中的统计分布特性作为词间相似度距离的衡量标准。本 文提出一种基于互信息的词聚类热点话题发现算法,特征词
收稿日期:2010-06-27;修订日期:2010.08.29。
基金项目:国家863高技术研究发展计划基金项目(2005从147030);国家242信息安全计划基金项目(2005A37)。
作者简介:龙志秭(1979~),女,江西抚州人,硕士,讲师,研究方向为互联网内容安全、自然语言处理; 程葳(1973一),女,北京人,博 士,副教授,研究方向为互联网内容分析、自然语言处理。E-maih longzhiyi@bcu.edu.cn