基于用户权威度与热度分配聚类的微博热点发现
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2020年3月 第 41 卷 第 3 期
计算机工程与设计
COMPUTER ENGINEERING AND DESIGN
Mar. 2020 Vi 41 No. 3
基于用户权威度与热度分配聚类的微博热点发现
曹春萍,黄伟+
(上海理工大学光电信息与计算机工程学院,上海200093)
摘 要:针对微博热点算法未合理进行微博文本和微博用户相结合的问题,提出基于用户权威度与热度分配聚类的微博热 点挖掘算法。对微博文本进行分词,得到特征词并使用改进TF-IDF为特征词分配权重,通过权重大小进行降序排序,对 微博文本进行聚类分析得到主题类簇,使用ULRank算法计算用户权威度,综合特征词权重、用户权威度和引用关系为特 征词分配热度,得到特征词的热度排序结果,获取特征词对应聚类类簇的大概主题即热点话题。实验结果表明,该方法的 吞吐量、运行效率、准确率及F值表现较好,能够较全面地反映当前的热点话题。 关键词:微博数据;特征权重;文本聚类;用户权威度;热度分配 中图法分类号:TP391.1 文献标识号:A 文章编号:1000-7024 (2020) 03-0664-06 doi: 10. 16208/j. issnl000-7024. 2020. 03. 011
Microblog hot topic mining algorithm based on user authority andheatalocationclustering
CAO Chun-ping, HUANG Wei+
(School of Optical-Electrical and Computer Engineering, Universince and Technology, Shanghti 200093, China)
0引言
随着微博成为网民公众公开的表达意愿的平台,政治、 教育、民生、舆情监控等各个领域都与微博话题息息相关, 从而使得信息传播的影响也越来越难以控制。微博信息以 指数级暴增,使得大众对信息的获取增加了难度,而微博 热点话题的发现能够对政府的决策起参照作用,增强用户 信息获取的能力。因此,通过分析微博数据内容,从微博 的海量文本数据中挖掘出热点话题的影响因素和热点话题,
收稿日期:2018-12-10;修订日期:2019-02-28 基金项目:上海市自然科学基金项目(15ZR1429100);国家自然科学基金项目(61402288) 作者简介:曹春萍(1968-),女,甘肃兰州人,硕士,副教授,研究方向为智能数据处理、个性化服务;+通讯作者:黄伟(1994 -), 男,浙江温州人,硕士研究生,CCF学生会员,研究方向为数据挖掘、主题提取’E-mail: 15757101391@
Abstract: Aiming at the problem that Weibo hotspot algorithm can?t reasonably combine Weibo text and Weibo users, a microbloghotspotminingalgorithmbasedonuserauthorityandheatdistributionclusteringwasproposed.Themicroblogtext was segmented to obtain feature words, the improved TF-IDF was used to assign weights to feature words, and the weights were sorJed in descending order.The microblogJexJs were clusJeredJo obJainJopic clusJers.The ULRank algori hm wasusedJo calculaJeuserrighJs.ThefeaJurewordweighJ&userauJhoriyandreferencerelaionshipwereJakenasJhedisJribuionheaJof the feature words & and the heat sorting result of the feature words was obtained. The general theme of a cluster of clusters correspondingtofeaturewordswasahottopic.Experimentalresultsshowthattheproposedmethodhasbe terperformancesinterms ofthroughput operatingeficiency accuracyandF-value anditcanmorefulyreflectthecurrenthottopics. Key words: Weibo data; feature weight; text clustering; user authority; heat allocation
第4%卷第3期
曹春萍,黄伟:基于用户权威度与热度分配聚类的微博热点发现
• 665 •
1相关工作
目前,可以将微博热点挖掘研究分为两大类。一类是 基于微博内容的研究。微博内容的研究主要分为概率模型 和文本聚类两大类方法。概率模型以LDA模型为代表,徐 佳俊等2对微博语料集使用LDA模型,将话题从语料中提 取出来,通过话题空间对应的话题文档,计算话题强度, 最终得到话题强度的排序。林丹等^利用LDA得到的关键 词进行聚类分析,提出文本关联词算法,最后对LDA话题 簇进行优化调整,得到热点话题。虽然当时LDA算法已经 相当成熟,但是它并不能很好得将词之间语义融合到热点 话题中,在话题提取中表现不佳。随着深度学习在自然语 言处理方面的巨大成功,这使得微博热点话题挖掘又有了 一大进步。刘少鹏等4研究了微博时效性、用户喜好及话 题符号对热点话题的影响,通过聚类解决数据稀疏问题, 将分层Dirichlet过程集成到非参数贝叶斯模型中,并提出 了 MdHDP模型。于洁5指出,使用分布式方法得到的 词向量,能够体现词之间的相关性,从而克服微博话题中 数据稀疏的问题。但是采用深度学习的进行文本聚类权值 的选择相对复杂,聚类时间相对较长。这类研究对词频, 特征权重及引用关系的挖掘较准确,但往往会忽视用户的 相关属性对文本聚类的影响,从而会使结果存在一 些偏差。
对政府部门与官方微博在舆情监控以及舆论沟通方面上的 决策具有重要意义E'
但是由于微博文本自身的特点,内容短小、表达随意, 且微博间还包含一些转发评论点赞等引用关系,使得传统 的文本挖掘算法在微博中的表现不是很好。故本文针对微 博的特点,综合微博文本和微博用户之间的关系,将特征 词、用户权威度和微博之间的引用关系考虑到热度分配算 法中,得到特征词的热度排序结果,最后结合文本聚类得 到大概主题即热点话题。
计算机工程与设计
COMPUTER ENGINEERING AND DESIGN
Mar. 2020 Vi 41 No. 3
基于用户权威度与热度分配聚类的微博热点发现
曹春萍,黄伟+
(上海理工大学光电信息与计算机工程学院,上海200093)
摘 要:针对微博热点算法未合理进行微博文本和微博用户相结合的问题,提出基于用户权威度与热度分配聚类的微博热 点挖掘算法。对微博文本进行分词,得到特征词并使用改进TF-IDF为特征词分配权重,通过权重大小进行降序排序,对 微博文本进行聚类分析得到主题类簇,使用ULRank算法计算用户权威度,综合特征词权重、用户权威度和引用关系为特 征词分配热度,得到特征词的热度排序结果,获取特征词对应聚类类簇的大概主题即热点话题。实验结果表明,该方法的 吞吐量、运行效率、准确率及F值表现较好,能够较全面地反映当前的热点话题。 关键词:微博数据;特征权重;文本聚类;用户权威度;热度分配 中图法分类号:TP391.1 文献标识号:A 文章编号:1000-7024 (2020) 03-0664-06 doi: 10. 16208/j. issnl000-7024. 2020. 03. 011
Microblog hot topic mining algorithm based on user authority andheatalocationclustering
CAO Chun-ping, HUANG Wei+
(School of Optical-Electrical and Computer Engineering, Universince and Technology, Shanghti 200093, China)
0引言
随着微博成为网民公众公开的表达意愿的平台,政治、 教育、民生、舆情监控等各个领域都与微博话题息息相关, 从而使得信息传播的影响也越来越难以控制。微博信息以 指数级暴增,使得大众对信息的获取增加了难度,而微博 热点话题的发现能够对政府的决策起参照作用,增强用户 信息获取的能力。因此,通过分析微博数据内容,从微博 的海量文本数据中挖掘出热点话题的影响因素和热点话题,
收稿日期:2018-12-10;修订日期:2019-02-28 基金项目:上海市自然科学基金项目(15ZR1429100);国家自然科学基金项目(61402288) 作者简介:曹春萍(1968-),女,甘肃兰州人,硕士,副教授,研究方向为智能数据处理、个性化服务;+通讯作者:黄伟(1994 -), 男,浙江温州人,硕士研究生,CCF学生会员,研究方向为数据挖掘、主题提取’E-mail: 15757101391@
Abstract: Aiming at the problem that Weibo hotspot algorithm can?t reasonably combine Weibo text and Weibo users, a microbloghotspotminingalgorithmbasedonuserauthorityandheatdistributionclusteringwasproposed.Themicroblogtext was segmented to obtain feature words, the improved TF-IDF was used to assign weights to feature words, and the weights were sorJed in descending order.The microblogJexJs were clusJeredJo obJainJopic clusJers.The ULRank algori hm wasusedJo calculaJeuserrighJs.ThefeaJurewordweighJ&userauJhoriyandreferencerelaionshipwereJakenasJhedisJribuionheaJof the feature words & and the heat sorting result of the feature words was obtained. The general theme of a cluster of clusters correspondingtofeaturewordswasahottopic.Experimentalresultsshowthattheproposedmethodhasbe terperformancesinterms ofthroughput operatingeficiency accuracyandF-value anditcanmorefulyreflectthecurrenthottopics. Key words: Weibo data; feature weight; text clustering; user authority; heat allocation
第4%卷第3期
曹春萍,黄伟:基于用户权威度与热度分配聚类的微博热点发现
• 665 •
1相关工作
目前,可以将微博热点挖掘研究分为两大类。一类是 基于微博内容的研究。微博内容的研究主要分为概率模型 和文本聚类两大类方法。概率模型以LDA模型为代表,徐 佳俊等2对微博语料集使用LDA模型,将话题从语料中提 取出来,通过话题空间对应的话题文档,计算话题强度, 最终得到话题强度的排序。林丹等^利用LDA得到的关键 词进行聚类分析,提出文本关联词算法,最后对LDA话题 簇进行优化调整,得到热点话题。虽然当时LDA算法已经 相当成熟,但是它并不能很好得将词之间语义融合到热点 话题中,在话题提取中表现不佳。随着深度学习在自然语 言处理方面的巨大成功,这使得微博热点话题挖掘又有了 一大进步。刘少鹏等4研究了微博时效性、用户喜好及话 题符号对热点话题的影响,通过聚类解决数据稀疏问题, 将分层Dirichlet过程集成到非参数贝叶斯模型中,并提出 了 MdHDP模型。于洁5指出,使用分布式方法得到的 词向量,能够体现词之间的相关性,从而克服微博话题中 数据稀疏的问题。但是采用深度学习的进行文本聚类权值 的选择相对复杂,聚类时间相对较长。这类研究对词频, 特征权重及引用关系的挖掘较准确,但往往会忽视用户的 相关属性对文本聚类的影响,从而会使结果存在一 些偏差。
对政府部门与官方微博在舆情监控以及舆论沟通方面上的 决策具有重要意义E'
但是由于微博文本自身的特点,内容短小、表达随意, 且微博间还包含一些转发评论点赞等引用关系,使得传统 的文本挖掘算法在微博中的表现不是很好。故本文针对微 博的特点,综合微博文本和微博用户之间的关系,将特征 词、用户权威度和微博之间的引用关系考虑到热度分配算 法中,得到特征词的热度排序结果,最后结合文本聚类得 到大概主题即热点话题。