基于短文本理解和改进聚类的微博热点发现
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
徐 凤平 : 基 于短文本理解和改进聚类的微博热点发现
・ 3 3・
2 相 关 技 术
2 . 1 向量空 间模型
2 ) D i c e系数 S i m( i , . , ) = 生L—一
:
2 ∑W 啪w 卅
1
, 3 ) C o s i n e系数
文本数据 是一种 非结构化数据 ,计算机无法 对其
降维 的方式进 行短文本理解 以及根 据时间窗 口的算 法 改进机 制提升实验 的效率 , 给出实 验过程 , 分析实验结
果并得 出结论 , 提 需要进一步做 的工作 。
1 研 究现状
“ 话题发 现与追踪” 最初是为 了从新 闻报道 中发现 话题并进行后续 的追踪报道 ,研究 的 目标 是进行话题
徐 凤 平
( 南通 师范高等专科 学校 信 息技 术 系, 江 苏 南通 2 2 6 5 0 0 )
摘 要: 微博 短 文 本 具有 内容短 、 特征 稀 疏 、 数 据 量 大等 特 点 , 利 用传 统 方 法对 博 文进 行 热 点话 题发 现 的 效 果都 不理 想 ,
因此提 出 了一种 在 大规 模微 博 数据 集上进 行 热 点发 现 的方 法 。引入 外部知 识 库 来扩展 微 博信 息 , 利 用词 语 的语 义知 识进 行 短 文本 理 解 , 解 决 了由 于微博 文本 内容 短 、 特 征稀 疏产 生 的短 文 本 相似 度 较 难度 量 问题 引入 时问 窗 口机 制 对聚 类 算 法进 行 改进 , 满足 了热 点发 现 的 时效性 . 解决 了微 博 数据 量 大 导致 效 率低 的 问题 。 实验证 明 了方法 的有 效性 关键词 : 关键 词 : 微博 ; 短 文本理 解 ; 聚 类 改进 : 热 点发 现 中图 分 类号 : T P 3 9 1 文 献 标识 码 : A 文章 编 号 : 2 0 9 5 — 7 7 2 6 ( 2 0 1 7 ) 0 6 — 0 0 3 2 — 0 6
他发现凡是热点话题都有持续 时间很短 、 来势猛 、 退 散 快 的特 点 ,并根 据这些 特点成 功地进 行 了热 点提 取 。 S a k a k i 等将 每一个微 博用 户都 视作 一个信 号传感 器 , 根据对 用户地理位置信息 的统计 ,借助微博提前 发现 “ 地震事件 ” 孙 胜 平 等 提 了基 于 V S m o d e l 的
S P & H A算 法 , 该方法结合了 S i n g l e — P a s s 的思想 以及 基 于层 次的聚类 方法 .提高 了热点检测 的效率和最终 的
聚类结 果的质量[ 5 ]
收 稿 日期 : 2 0 1 6 — 0 9 — 2 7
作者简介 :徐凤平( 1 9 8 5 一 ) , 男, 江苏泰 州人 , 讲师 , 硕士, 研 究方 向: 数据挖掘 。
数据 特征过于稀疏 ,这就导致利用 传统 自然语言 处理
方法 计算 微博文本间相似度 的准确率较低 。 在本 文 中,
常使用 的 文本建模 方式有 V S M 和概 率模 型等 ,如 : J . A l l a n提 出将 文本 向量化 . 但不对候 选特征进行 区分 的 表示模 型 微博 的出现 和 发展 为人 们 的信 息 获取 拓宽 r途 径, 通 过挖掘其数据 中的有效信息 , 人们不但 亓 丁 以进 行 舆情监测 、 灾害预警等 , 还能够 帮助企业进行市场 以及 产品的分析工作 。 目前 国内外专家 学者对微博 的信 息 挖 掘 已经 做 了多方 面 的研 究 。M . C a t a l d i 提 m了基 于
第3 4卷
Vo 1 .3 4
第 6期
N O.6
新 乡学 院 学报
J o u r n a l o f Xi n  ̄ i a n g Un i v 7年 6月
J u n . 2 0 1 7
基 于短 文本 理解 和 改进 聚 类 的微 博 热点发 现
进行直接处理 , 为了使计算 机可 以直接处理 , 就 需要使
T i m e l i n e 的检测方法 , 用于从 T w i t t e r 中发现热点话题 。
笔者通过 引入外部知识库来扩 充微博 文本 信息 以提 高
话题关键 词的 同现率 ,利用 词语 的语 义知识来进行 短 文本 理解 以提 高计算 微博短 文本 间相似 度 的准 确性 ,
建模 、 对象相 似度 的计 算 以及算 法的提 出与优化 等1 ] 。 。
样、 发布便捷 且传播迅速等特 点 , 微 博 已经成为 目前 人 们 获取 、 分享信息 的主要 的平 台之一 。 从海量 的微 博信
息 中发现用户关心的热点话题具有 十分重要 的现 实意
义, 但 由于微博文本 内容短 , 发现对话 题起 关键作用 的 词语 在不 同短文本 中出现 的概率远小于长 文本 ,文本
微博是一种基 于用 户关 系的社会性实现 的信 息获 取、 传 播及分享 的平 台。由于具有 长度短 、 表达形 式多
类别 的 自动发现 以及报道 的 自动归类 , 而随着 [ n t e r n e t
技术 的飞速发展 以及 人们对该 领域研 究工作 的深入 ,
其应用 的对象也逐渐发生 了改变 :从最初单一 的新 闻 报道到如今 的网页 、邮件和博 客等各种丰富 的网络资 源。 与此 同时 , 这个领域也衍生 出了新的研究热点 , 如 数据挖 掘 、 热点 发现等 , 其 中主要 的研究 方 向有 : 对 象
并针对微博 数据规模庞大 ,传统话题 发现算法难 以满
足微博热点 时效性要求 的问题 ,提 出了基于 “ 时 间窗 口” 的算法改 进机制 。 本 文主要 内容有 :介绍话题发 现领域 的研究 现状
和热点发现 常用的相关技术 , 提 出热点发现方法 ; 根 据 外部 知识库 扩充短文本语料 、根据 语义知识进行 文本