基于优化随机游走模型的文本热点主题探测研究

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Research on Text-oriented Hot Topics Detection Based on an Optimized Model of Random Walk 作者: 严承希[1];王军[1];李晓杰[2]
作者机构: [1]北京大学信息管理系,北京100871;[2]北京大学心理与认知科学学院,北京100871
出版物刊名: 情报科学
页码: 118-123页
年卷期: 2018年 第1期
主题词: 热点主题探测 随机游走 PageRank 布里渊指数
摘要:�目的/意义】结合随机游走算法PageRank、词共现和多样性测度指标提出一种改进的热点主题探测方法C-BI-PageRank,该方法有效提高了热点主题探测的效率和模型质量。

【方法/过程】首先对PageRank算法进行理论回顾,引入词共现和布里渊系数构建C-BI-PageRank算法模型,然后采用4种不同因素组合的PageRank算法对WebofScience系统2006-2016的应用心理学领域的期刊文献进行实证分析,最后基于波达计数的专家方法进行算法比较与评价,同时也探索其与词频统计之间的相关性问题。

【结果/结论】实证表明C-BI-PageRank不仅在运行效率上收敛快、运行时间少且质量评估优势明显。

该方法引入不同文本主题因素,一定程度解决传统词频分析和机器学习的不足,为热点主题探测方法提供了新思路。

相关文档
最新文档