BBS中主题发现原型系统的设计与实现

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

作者简介 % 蒋凡 &&I.I/ ’! 男 ! 安徽淮南人 ! 硕士研究生 ! 主要研究方向为信息检索 ! 征兆发现 $ 高俊波 &&I.!/ ’! 男 ! 江苏无锡人 ! 博士研究生 ! 主要研 究方向为数据挖掘 ! 知识发现 $ 张敏 &&I0&/ ’! 男 ! 安徽合肥人 ! 硕士研究生 ! 主要研究领域 % 信息检索 ! 征兆发现 $ 王煦法 &&IJ0/ ’! 男 ! 江 苏丹阳人 ! 教授 ! 博士生导师 ! 主要研究领域为智能信息处理 $
6" !6’ 6’ 6" !6’ !6% ) "#345$"", 6%
同理 " 我们沿着回帖传播链计算帖子 5" 对 5% 的影响力为 ’
!&
"#345$""% 7
!#
这样我们可以得到回帖传播链上的帖子之间的影响力 ! 我 们假设每个词语的作用相同 " 则可以计算出每个词语在传播帖 子之间的影响力时的作用 ! 最后 " 将词语在所有回帖传播链上 的影响力求和 " 可以计算出词语在整个论坛中的影响力 ! 在对词语影响力进行排序后 " 我们选取前 <" 个词语作为 高影响力词语 ! 通过计算这些词语间的相互关联程度 *;+" 选出相 关度大于预定阀值 * 在实验中一般选取为 "$%$ 的词语对 % 我们 将根据这些信息构造词语图 -=/. "/0 % 集合 . 中的每个节点代 表一个高影响力词语 " 集合 / 中的每一条边为相关度大于预定 阀值的词语对 % 我们将通过对图 - 进一步的分析 ( 重构得到主 题聚类信息 %
Βιβλιοθήκη Baidu!"
, , 数据库与信息处理
!!!!!!!!" !"
!!!!!!!!"
摘 要 关键词
!!" 中主题发现原型系统的设计与实现
蒋 凡 高俊波 张 敏 王煦法 & 中国科学技术大学计算机科学与技术系 ! 合肥 !%""!.’
,,- 论坛已经成为人们获取信息 + 发表言论的重要场所 ! 它由论坛注册用户所发表的大量主题组成 $ 论文针对
息为载体的 ,,- 论坛已经成为人们获 取 信 息 " 发 表 言 论 的 重 要场所 # 当前的网络社区中已经出现了很多目标人群细化 " 拥 有自身特色且人气旺盛的社区论坛 $ 每 天 的 在 线 ,,- 论 坛 中 都会出现大量由论坛注册用户发表的主题信息 $ 这些主题信息 的特点是 % && ’ 数量巨大 ! 一些著名的论坛每日的主题量数以千计 ( &! ’ 以 发 表 时 间 排 序 ! 发 表 过 的 主 题 相 隔 一 段 时 间 后 就 会 被随后的主题淹没 ( &% ’ 内容杂乱 ! 论坛中掺杂了大量的无效信息 $ 这对用户及时 " 准确和方便地从论坛中获取需要的信息造 成了很大的障碍 $ 我们需要对大量的主题进行聚类 ! 发现论坛 中当前关心的焦点并提取出具有影响力的主题 $ 传统的有影响力主题计算方法是基于简单的统计排序 $ 对 每个主题 !"! 论坛系统统计出在某个固定时间段内对 !" 回帖的 注册用户数作为衡量 !" 在论坛中影响力的标准 $ 系统对所有主 题的影响力进行排序取出前 &" 个影响力最大的主题作为该时 间段内的热门主题 ! 即 ) 十大 *$ 这种方法的缺陷在于 %
图’
原帖 !" 及所有在 !" 基础上发表的回帖共同组成了主题 $"
!(!
原型系统架构
我们设计的原型系统的架构如图 & 所示 "’’( 论坛中的文
本数据经过数据获取和预处理操作后被存入本地数据库 ! 原型 系统的三个子系统分别对这些数据进行处理 " 最终将计算出的 有影响力主题提供给用户 !
!!" 社区论坛
&
引言
随着 ’()*+(*) 网络的普及和互联网用户的增多 ! 以文本信
&& ’ 没有考虑回帖的内容 ! 只是简单地统计了回帖的数量 ( &! ’ 无 法 对 主 题 进 行 聚 类 ! 发 现 论 坛 中 若 干 相 关 主 题 组 成 的当前论坛中关心的热门话题 ( &% ’ 没 有 考 虑 到 有 影 响 力 词 语 在 回 复 链 上 传 播 影 响 力 的 作用$ 为了克服传统的有影响力主题计算方法的以上缺陷 ! 我们 从论坛中发表的帖子之间的回复关系出发 ! 提出一种对有影响 力词语进行聚类的方法发现 ,,- 论 坛 中 具 有 当 前 影 响 力 的 主 题 ! 并设计开发出主题影响力发现的原型系统 $ 该系统能够很 好地针对 ,,- 论坛数据提取出有影响力的主题 $
!"’$%& #$()# $*+),-.,/01 #$,)# $,-. # 2 $ / 其 中 +),-.,/!1 #$,)# $ 为 词 语 在 所 有 主 题 中 出 现 的 次 数 总
和 "( 为论坛数据中的主题总 数 ") 为 词 语 出 现 在 主 题 的 个 数 % 子系统根据每个词语的权重 !*’+%& 过滤掉权重低的词语 % 经过 过滤处理后的词语最终存入 /594 表中 % 306/56/:/594 表 中则记录了每个帖子所包含的 /594 表中的词语 %
计算机工程与应用 !""#$%&
"*"
子之间的回复关系 ! 我们希望能够找出具有高影响力的主题 ! 我们定义主题的 影 响 力 为 能 够 在 论 坛 中 受 到 广 泛 关 注 "引 起 用 户 的 共 鸣 "而 且 这种有影响力主题能够被传统有影响力主题计算方法所验证 " 或与论坛中当前所关注的主题聚类相关 !
基金项目 % 中国科学院研究生科学与社会实践资助专项
! 原型系统架构设计 !!& 定义
首先 ! 我们定义注册用户在 ,,- 论坛中发表的帖子为 #"! 也 就 是 原 帖 $ 其 他 注 册 用 户 可 以 在 原 帖 #" 的 基 础 上 发 表 对 #" 的回帖 #$ 或对回帖 #$ 的再次回帖 #%$ 这样形成一条回复链 ! 回 复链上的帖子满足单向的回复关系 $ 原帖 #" 和所有在 #" 基础上发表的回帖组成了一个 主 题 !"$ 我 们 认 为 在 主 题 !" 中 发 表 帖 子 的 用 户 相 对 集 中 地 围 绕 原 帖 # " 讨论了某一特定话题 $ 图 " 显示了主题 !" 及其包含的原帖与帖
件 " 通 过 分 析 源 文 件 #$+,-. 文 件 $ 的 格 式 将 文 本 数 据 转 换 为 主 题及其所包含的帖子 % 子系统将每个主题作为一条记录按照一 定的格式保存在 /0123 表中 " 并 根 据 帖 子 之 间 的 回 复 关 系 将 每 个 帖 子 作 为 一 条 记 录 按 照 一 定 的 格 式 保 存 在 304456/ 表中! 子系统需要从帖子正文中提取出可以计算影响力的词语 ! 首先利用中文分词程序分离出帖子正文中包含的所有词语 & 接 着 通 过 词 性 过 滤 方 法 去 除 所 有 非 名 词 的 词 语 &最 后 "为 了 进 一 步压缩需要处理词语的规模 " 我们根据词语在主题中出现的频 率和出现 在 主 题 的 个 数 " 利 用 /7287 公 式 对 每 个 词 语 赋 予 权 重 !"#$%&*&+’
-18’"8&" + "8/
子系统负责对图 - 进行聚类 " 并利用计算公式
%,1 *$,)# $*9*$,)# ": $*
图& 原型系统架构图
/
9 *$,)# "8’ "8& " , "8/ $*9 *"*$,)# "8" $$
"*’
!(%
数据获取和预处理
子系统首先在线从 ’’( 论坛中获取 ))* 页面格式的源文
得到每个词语与图中所有聚类的关联度 %,1 *$,)# $*#"<+% 关联度 %,1 *$,)# $ 反映的是词语同图 - 中各个聚类之间的 关联程度 % >)? 值高的 词 语 的 影 响 力 不 一 定 很 高 " 但 是 它 能 够 同时关联到多个聚类 " 与多个话题有关 % 它能够帮助我们找到 那些未能通过高影响力词语计算选出的词语 " 可能通过词语间 的相关度计算添加连线连 接 原 来 在 图 - 中 并 不 相 关 的 高 影 响 力词语而形成新的聚类 " 使图 - 具有了新的意义 % 这些词语在 论坛中的影响力不高但是同样反映了论坛中正在引起人们关 注的一系列相关主题 % 子系统对词语的 >)? 值进行排序后 " 选取前 %" 个词语作 为高 >)? 值词语加入图 - 中 % 图 - 中 新 增 的 每 个 节 点 代 表 一 个高 >)? 值词语 % 通过重新计算所有这些词语间的相关程度 " 我 们 在 图 - 中 添 加 新 的 连 线 连 接 这 些 高 影 响 力 词 语 和 高 >)? 值词语 " 得到一幅重构的图 -D 和新的聚类 " 记为 ’
传统的 ,,- 论坛中有影响力主题计算方法的不足 !通过计算词语在回帖传播链上的影响力 !提出了一种根据对有影响力词语 聚类的方法发现 ,,- 论坛中具有影响力的主题 $ 它能够使用户和论坛管理人员及时 "准确和方便地提取重要的主题信息 $
,,-
主题
影响力
聚类 文献标识码 1 中图分类号 23%&&$&
-D18’D"8&D" , "8/D
我们将根据图 -D中的聚类提取出论坛中有影响力的主题 %
!(<
高影响力主题提取
论坛中的每个主题都是由主题 $" 的原帖 !" 发起的 " 随后主
C=%/3)6/% ,,- 98+;7 ?6D E*<’7* 6( =758+)6() 5@6<* 98+ 5*85@* )8 +*)+=*F* =(98+76)=8( 6(> >*@=F*+ 89 <877*()D!’) <8(D=D)D 89 6 A+*6) >*6@ 89 )85=<D >*@=F*+*> EB +*A=D)*+*> ;D*+D!1=7=(A 6) )?* D?8+)6A* 89 )+6>=)=8(6@ 7*)?8> G?=<? <6@<;@6)=(A =(9@;*()=6@ )85=< !6 (*G 7*)?8> =D 5+*D*()*>!,B <6@<;@6)=(A G8+>(D =(9@;*(<* 8( +*/<877*() <?6=(!8;+ 7*)?8> <6( >=D<8F*+B )?* =(9@;*()=6@ )85=< =( ,,- 98+;7 E6D*> 8( <@;D)*+D 89 =(9@;*()=6@ G8+>D!’) <6( )=7*@B !*H6<)@B 6(> <8(F*(=*()@B 5+8F=>* =758+)6() )85=< =(98+76)=8( )8 ;D*+ 6(> 98+;7 76(6A*+$ D$4E03*% % ,,-!)85=< !=(9@;*(<*!<@;D)*+
!" $" !’ !%
!(;
高影响力词语提取及相关度计算
在 主 题 $" 中 " 如 果 帖 子 !’ 回 复 了 !"" 我 们 则 认 为 是 !" 影 响
了 !’*!"%+% 我们计算 !"(!’ 所包含词语的交集占 !’ 所包含词语的比 值作为帖子 !" 对 !’ 的影响力 " 记为 ’
"#345$""’ *
网络虚拟社区 数据获取及预处理 计算高影响力词语 及相关度 聚类计算词语 #$% 值 计算主题影响力 原型系统界面 子系统 本地数据库
!(#
主题聚类及高 >)? 词语提取
彼此关联紧密的有影响力词语之间具有较高的相关度 " 它
们在图 - 中的节点相互连 接 形 成 一 个 连 通 子 图 " 我 们 称 为 一 个聚类 *@.AB,)C $% 不和其它节点相连的孤立节点组成一个只包 含自身节点的聚类 % 每个聚类所包含的词语在一起表达了一个 相对集中的话题 " 对应了论坛中一系列与之相关的主题 % 我们 将图 - 表示成由若干个聚类所组成 " 记为 ’
文章编号 &""!/0%%&/ &!""#’%&/"&#&/"%
#$%&’( )(* +,-.$,$(/)/&0( 01 23&’&(). "4%/$, 103 50-&6 #&%607$34 &( 8!"
9&)(’ :)( ;)0 9<(=0 >?)(’ @&( A)(’ B<1) &4*56+)7*() 89 :875;)*+ -<=*(<* 6(> 2*<?(8@8AB!C-2: !#$%$& !%""!.’
相关文档
最新文档