【CN110232149A】一种热点事件检测方法和系统【专利】
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 201910385776.2
(22)申请日 2019.05.09
(71)申请人 北京邮电大学
地址 100876 北京市海淀区西土城路10号
(72)发明人 吴旭 颉夏青 于泽璇 许晋
方滨兴
(74)专利代理机构 北京辰权知识产权代理有限
公司 11619
代理人 刘广达
(51)Int.Cl.
G06F 16/9535(2019.01)
G06F 16/33(2019.01)
(54)发明名称一种热点事件检测方法和系统(57)摘要本申请公开了一种热点事件检测方法和系统,包括:对文本进行预处理、分词和向量化,计算文本相似度矩阵;对文本相似度矩阵进行聚类,得到聚类结果集;提取聚类结果集中的关键词,计算关键词向量之间的距离;判断距离与阈值之间的关系,若小于等于阈值,则输出关键词向量对应的聚类结果,得到融合结果集;输入融合结果集至分类器,得到热点事件关键词和热点事件对应的文本分类器。通过提取聚类结果的关键词,使用词向量对聚类关键词进行向量化表示,判断关键词向量之间的距离,对同一事件的多方向讨论进行归并,提高语义识别程度。使用分类器对融合结果集进行分类,能够在包含固有话题的数据中检测热点事件,提高热点事件的识
别准确率。权利要求书2页 说明书8页 附图3页CN 110232149 A 2019.09.13
C N 110232149
A
权 利 要 求 书1/2页CN 110232149 A
1.一种热点事件检测方法,其特征在于,包括:
对文本进行预处理、分词和向量化,计算文本相似度矩阵;
对文本相似度矩阵进行聚类,得到聚类结果集;
提取聚类结果集中的关键词,计算关键词向量之间的距离;
判断距离与阈值之间的关系,若小于等于阈值,则输出关键词向量对应的聚类结果,得到融合结果集;
输入融合结果集至分类器,得到热点事件关键词和热点事件对应的文本。
2.如权利要求1所述的一种热点事件检测方法,其特征在于,所述对文本进行预处理、分词和向量化,计算文本相似度矩阵,包括:
对文本进行预处理后,进行分词,得到与各文本对应的多个词和/或词组;
向量化各文本中的各词和/或词组,得到文本向量集合和各文本向量对应的分词集合;
使用各文本向量对应的分词集合计算文本向量集合中的各文本向量之间的距离;
根据各文本向量之间的距离构建文本相似度矩阵。
3.如权利要求1所述的一种热点事件检测方法,其特征在于,所述提取聚类结果集中的关键词,计算关键词向量之间的距离,包括:
使用关键词提取算法提取聚类结果集中的关键词,得到关键词集合;
计算关键词集合中各文档关键词的表示向量,各表示向量组成关键词向量集合;
计算各向量之间的距离,使用所述距离构建聚类相似度矩阵。
4.如权利要求1所述的一种热点事件检测方法,其特征在于,所述判断距离与阈值之间的关系,还包括:
若大于阈值,则将大于阈值的距离对应的聚类结果进行合并;
提取合并后的聚类结果集中的关键词,计算关键词向量之间的距离;
重新判断距离与阈值之间的关系。
5.如权利要求1所述的一种热点事件检测方法,其特征在于,所述输入融合结果集至分类器,得到热点事件关键词和热点事件对应的文本,包括:
去除融合结果集中与动词停用表对应的动词,得到待分类融合结果集;
将待分类融合结果集输入训练好的分类器中进行分类,得到热点事件关键词和热点事件对应的文本。
6.如权利要求5所述的一种热点事件检测方法,其特征在于,在所述输入融合结果集至分类器,得到热点事件关键词和热点事件对应的文本之前,还包括:
构建动词停用表和训练分类器。
7.如权利要求6所述的一种热点事件检测方法,其特征在于,所述构建动词停用表,包括:
采集社交媒体中不对应现实事件的固有热门话题文本数据;
通过分词和词性标注,提取文本数据中的动词;
统计文本数量和动词出现的频率,得到动词在文本中的使用频率;
将使用频率超过预设频率阈值的动词加入停用动词表。
8.如权利要求6所述的一种热点事件检测方法,其特征在于,所述训练分类器,包括:
采集新闻事件标题和新闻专题标题;
2