BBS中主题发现原型系统的设计与实现

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

作者简介 % 蒋凡 &&I.I/ ’! 男 ! 安徽淮南人 ! 硕士研究生 ! 主要研究方向为信息检索 ! 征兆发现 $ 高俊波 &&I.!/ ’! 男 ! 江苏无锡人 ! 博士研究生 ! 主要研究方向为数据挖掘 ! 知识发现 $ 张敏 &&I0&/ ’! 男 ! 安徽合肥人 ! 硕士研究生 ! 主要研究领域 % 信息检索 ! 征兆发现 $ 王煦法 &&IJ0/ ’! 男 ! 江苏丹阳人 ! 教授 ! 博士生导师 ! 主要研究领域为智能信息处理 $
6" !6’ 6’ 6" !6’ !6% ) "#345$"", 6%
同理 " 我们沿着回帖传播链计算帖子 5" 对 5% 的影响力为 ’
!&
"#345$""% 7
!#
这样我们可以得到回帖传播链上的帖子之间的影响力 ! 我们假设每个词语的作用相同 " 则可以计算出每个词语在传播帖子之间的影响力时的作用 ! 最后 " 将词语在所有回帖传播链上的影响力求和 " 可以计算出词语在整个论坛中的影响力 ! 在对词语影响力进行排序后 " 我们选取前 <" 个词语作为高影响力词语 ! 通过计算这些词语间的相互关联程度 *;+" 选出相关度大于预定阀值 * 在实验中一般选取为 "$%$ 的词语对 % 我们将根据这些信息构造词语图 -=/. "/0 % 集合 . 中的每个节点代表一个高影响力词语 " 集合 / 中的每一条边为相关度大于预定阀值的词语对 % 我们将通过对图 - 进一步的分析 ( 重构得到主题聚类信息 %
Βιβλιοθήκη Baidu!"
, , 数据库与信息处理
!!!!!!!!" !"
!!!!!!!!"
摘要关键词
!!" 中主题发现原型系统的设计与实现
蒋凡高俊波张敏王煦法 & 中国科学技术大学计算机科学与技术系 ! 合肥 !%""!.’
,,- 论坛已经成为人们获取信息 + 发表言论的重要场所 ! 它由论坛注册用户所发表的大量主题组成 $ 论文针对
息为载体的 ,,- 论坛已经成为人们获取信息 " 发表言论的重要场所 # 当前的网络社区中已经出现了很多目标人群细化 " 拥有自身特色且人气旺盛的社区论坛 $ 每天的在线 ,,- 论坛中都会出现大量由论坛注册用户发表的主题信息 $ 这些主题信息的特点是 % && ’ 数量巨大 ! 一些著名的论坛每日的主题量数以千计 ( &! ’ 以发表时间排序 ! 发表过的主题相隔一段时间后就会被随后的主题淹没 ( &% ’ 内容杂乱 ! 论坛中掺杂了大量的无效信息 $ 这对用户及时 " 准确和方便地从论坛中获取需要的信息造成了很大的障碍 $ 我们需要对大量的主题进行聚类 ! 发现论坛中当前关心的焦点并提取出具有影响力的主题 $ 传统的有影响力主题计算方法是基于简单的统计排序 $ 对每个主题 !"! 论坛系统统计出在某个固定时间段内对 !" 回帖的注册用户数作为衡量 !" 在论坛中影响力的标准 $ 系统对所有主题的影响力进行排序取出前 &" 个影响力最大的主题作为该时间段内的热门主题 ! 即 ) 十大 *$ 这种方法的缺陷在于 %
图’
原帖 !" 及所有在 !" 基础上发表的回帖共同组成了主题 $"
!(!
原型系统架构
我们设计的原型系统的架构如图 & 所示 "’’( 论坛中的文
本数据经过数据获取和预处理操作后被存入本地数据库 ! 原型系统的三个子系统分别对这些数据进行处理 " 最终将计算出的有影响力主题提供给用户 !
!!" 社区论坛
&
引言
随着 ’()*+(*) 网络的普及和互联网用户的增多 ! 以文本信
&& ’ 没有考虑回帖的内容 ! 只是简单地统计了回帖的数量 ( &! ’ 无法对主题进行聚类 ! 发现论坛中若干相关主题组成的当前论坛中关心的热门话题 ( &% ’ 没有考虑到有影响力词语在回复链上传播影响力的作用$ 为了克服传统的有影响力主题计算方法的以上缺陷 ! 我们从论坛中发表的帖子之间的回复关系出发 ! 提出一种对有影响力词语进行聚类的方法发现 ,,- 论坛中具有当前影响力的主题 ! 并设计开发出主题影响力发现的原型系统 $ 该系统能够很好地针对 ,,- 论坛数据提取出有影响力的主题 $
!"’$%& #$()# $*+),-.,/01 #$,)# $,-. # 2 $ / 其中 +),-.,/!1 #$,)# $ 为词语在所有主题中出现的次数总
和 "( 为论坛数据中的主题总数 ") 为词语出现在主题的个数 % 子系统根据每个词语的权重 !*’+%& 过滤掉权重低的词语 % 经过过滤处理后的词语最终存入 /594 表中 % 306/56/:/594 表中则记录了每个帖子所包含的 /594 表中的词语 %
计算机工程与应用 !""#$%&
"*"
子之间的回复关系 ! 我们希望能够找出具有高影响力的主题 ! 我们定义主题的影响力为能够在论坛中受到广泛关注 "引起用户的共鸣 "而且这种有影响力主题能够被传统有影响力主题计算方法所验证 " 或与论坛中当前所关注的主题聚类相关 !
基金项目 % 中国科学院研究生科学与社会实践资助专项
! 原型系统架构设计 !!& 定义
首先 ! 我们定义注册用户在 ,,- 论坛中发表的帖子为 #"! 也就是原帖 $ 其他注册用户可以在原帖 #" 的基础上发表对 #" 的回帖 #$ 或对回帖 #$ 的再次回帖 #%$ 这样形成一条回复链 ! 回复链上的帖子满足单向的回复关系 $ 原帖 #" 和所有在 #" 基础上发表的回帖组成了一个主题 !"$ 我们认为在主题 !" 中发表帖子的用户相对集中地围绕原帖 # " 讨论了某一特定话题 $ 图 " 显示了主题 !" 及其包含的原帖与帖
件 " 通过分析源文件 #$+,-. 文件 $ 的格式将文本数据转换为主题及其所包含的帖子 % 子系统将每个主题作为一条记录按照一定的格式保存在 /0123 表中 " 并根据帖子之间的回复关系将每个帖子作为一条记录按照一定的格式保存在 304456/ 表中! 子系统需要从帖子正文中提取出可以计算影响力的词语 ! 首先利用中文分词程序分离出帖子正文中包含的所有词语 & 接着通过词性过滤方法去除所有非名词的词语 &最后 "为了进一步压缩需要处理词语的规模 " 我们根据词语在主题中出现的频率和出现在主题的个数 " 利用 /7287 公式对每个词语赋予权重 !"#$%&*&+’
-18’"8&" + "8/
子系统负责对图 - 进行聚类 " 并利用计算公式
%,1 *$,)# $*9*$,)# ": $*
图& 原型系统架构图
/
9 *$,)# "8’ "8& " , "8/ $*9 *"*$,)# "8" $$
"*’
!(%
数据获取和预处理
子系统首先在线从 ’’( 论坛中获取 ))* 页面格式的源文
得到每个词语与图中所有聚类的关联度 %,1 *$,)# $*#"<+% 关联度 %,1 *$,)# $ 反映的是词语同图 - 中各个聚类之间的关联程度 % >)? 值高的词语的影响力不一定很高 " 但是它能够同时关联到多个聚类 " 与多个话题有关 % 它能够帮助我们找到那些未能通过高影响力词语计算选出的词语 " 可能通过词语间的相关度计算添加连线连接原来在图 - 中并不相关的高影响力词语而形成新的聚类 " 使图 - 具有了新的意义 % 这些词语在论坛中的影响力不高但是同样反映了论坛中正在引起人们关注的一系列相关主题 % 子系统对词语的 >)? 值进行排序后 " 选取前 %" 个词语作为高 >)? 值词语加入图 - 中 % 图 - 中新增的每个节点代表一个高 >)? 值词语 % 通过重新计算所有这些词语间的相关程度 " 我们在图 - 中添加新的连线连接这些高影响力词语和高 >)? 值词语 " 得到一幅重构的图 -D 和新的聚类 " 记为 ’
传统的 ,,- 论坛中有影响力主题计算方法的不足 !通过计算词语在回帖传播链上的影响力 !提出了一种根据对有影响力词语聚类的方法发现 ,,- 论坛中具有影响力的主题 $ 它能够使用户和论坛管理人员及时 "准确和方便地提取重要的主题信息 $
,,-
主题
影响力
聚类文献标识码 1 中图分类号 23%&&$&
-D18’D"8&D" , "8/D
我们将根据图 -D中的聚类提取出论坛中有影响力的主题 %
!(<
高影响力主题提取
论坛中的每个主题都是由主题 $" 的原帖 !" 发起的 " 随后主
C=%/3)6/% ,,- 98+;7 ?6D E*<’7* 6( =758+)6() 5@6<* 98+ 5*85@* )8 +*)+=*F* =(98+76)=8( 6(> >*@=F*+ 89 <877*()D!’) <8(D=D)D 89 6 A+*6) >*6@ 89 )85=<D >*@=F*+*> EB +*A=D)*+*> ;D*+D!1=7=(A 6) )?* D?8+)6A* 89 )+6>=)=8(6@ 7*)?8> G?=<? <6@<;@6)=(A =(9@;*()=6@ )85=< !6 (*G 7*)?8> =D 5+*D*()*>!,B <6@<;@6)=(A G8+>(D =(9@;*(<* 8( +*/<877*() <?6=(!8;+ 7*)?8> <6( >=D<8F*+B )?* =(9@;*()=6@ )85=< =( ,,- 98+;7 E6D*> 8( <@;D)*+D 89 =(9@;*()=6@ G8+>D!’) <6( )=7*@B !*H6<)@B 6(> <8(F*(=*()@B 5+8F=>* =758+)6() )85=< =(98+76)=8( )8 ;D*+ 6(> 98+;7 76(6A*+$ D$4E03*% % ,,-!)85=< !=(9@;*(<*!<@;D)*+
!" $" !’ !%
!(;
高影响力词语提取及相关度计算
在主题 $" 中 " 如果帖子 !’ 回复了 !"" 我们则认为是 !" 影响
了 !’*!"%+% 我们计算 !"(!’ 所包含词语的交集占 !’ 所包含词语的比值作为帖子 !" 对 !’ 的影响力 " 记为 ’
"#345$""’ *
网络虚拟社区数据获取及预处理计算高影响力词语及相关度聚类计算词语 #$% 值计算主题影响力原型系统界面子系统本地数据库
!(#
主题聚类及高 >)? 词语提取
彼此关联紧密的有影响力词语之间具有较高的相关度 " 它
们在图 - 中的节点相互连接形成一个连通子图 " 我们称为一个聚类 *@.AB,)C $% 不和其它节点相连的孤立节点组成一个只包含自身节点的聚类 % 每个聚类所包含的词语在一起表达了一个相对集中的话题 " 对应了论坛中一系列与之相关的主题 % 我们将图 - 表示成由若干个聚类所组成 " 记为 ’
文章编号 &""!/0%%&/ &!""#’%&/"&#&/"%
#$%&’( )(* +,-.$,$(/)/&0( 01 23&’&(). "4%/$, 103 50-&6 #&%607$34 &( 8!"
9&)(’ :)( ;)0 9<(=0 >?)(’ @&( A)(’ B<1) &4*56+)7*() 89 :875;)*+ -<=*(<* 6(> 2*<?(8@8AB!C-2: !#$%$& !%""!.’