互联网热点话题发现的设计与实现
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
加特征值数目以及改变阈值大小,进而计算其相关度,训练文档
是人工选择两篇话题内容相关的文档。如表 2 所示。
存储起来。 (3)事件发现与热点判别模块 :通过两层分层聚类的事件
发现算法,将系统分成预处理聚类(KNN 算法聚类)从而实现话 题发现的问题,以天为单位,通过数据所有数据进行处理得到某 天的所有话题划分,发现已知或位置话题。话题聚类通过采用 Single-Pass 算法聚类,以时间顺序进行话题间的聚类,从而时 间在一段时间话题追踪的问题达到热点话题发现得效果。
题,然后后到达的文档跟之前的文档做相似度对比,如何二者相 Ansj 分词器作为本文中文分词。
似度在阈值范围内,就归并至同一个话题,否则两者话题无关,则 新建立一个话题。
Single-Pass 算法的聚类具体过程 : (1)预处理过的话题文档向量空间模型集合 ,并通过训练获 得相似度的域值 β。
3.2 针对文本聚类算法的性能测评 TDT 会议针对其中子任务制定了相关的测评方法及规范。性
(2)关联识别(Link Detection):判断多个切分好的新闻报 道是否是同一个话题,多个报道按照关联程度进行排序。
(3)新话题发现(New Topic Detection): 对于新闻报道中 的切分好的话题进行分类,如果某个话题没有归属类新闻,那么 本文就把这个新话题单独划分成一个归属类,即认为此话题是一 个新话题。
0 引言
随着互联网技术不断的发展,计算机网络给我们带来丰富多 彩的信息资源,但随之而来的是获取信息的难度在不断增加。当 前信息日益膨胀的原因,主要是由网络信息的两个特征造成的 : (1)网络信息规模不断增加(2)网络信息结构杂乱无章。因此,快 速便捷的从互联网中获取所需相关信息的技术将有助于帮助人 们摆脱这个困境。
针对以上存在问题,本文设计一个基于互联网热点话题的搜 索模型及实现方案,具体总体设计如下 :首先,设计定向抓取相
图 1 话题发现与追踪(TDT)研究体系
关网页资源的聚焦爬虫,针对定向主题爬寻网页信息,通过网页 去标签化,页面内容重排等手段,使处理过的文档满足系统需要。 然后,对文档进行中文分词,提取特征值,权重计算等一系列预处 理工作,构建文档向量空间模型。最后,利用话题侦测的研究技 术,针对互联网信息的特点对话题侦测进行设计。通过测试对比 各种文本相似度算法和文本聚类算法,从中选出合适的算法进而 获取互联网热点话题。
4 结束语
(3)
在 本 次 试 验 中,将
,
,即 漏 测 的 权 重
要 高 于 误 测 的 权 重,其 代 价 更 高。同 时 设 定
,
,代入公式(3)进行以下试验测试。
试验 2 :在话题建立空间模型时,本文需要进行特征值提取
以及权值计算,即特征值的数目就是构建向量空间的维度,本文
通过试验对其特征数以及阈值选择作出相应的判断。通过不断增
(4)话题追踪(Topic Track):该任务主要是为了把新的新闻 报道跟以往旧的新闻话题进行相似度比对,如果两者之间存在关
83
网络与信息工程
2016.02、04
联,则进行话题合并,同时话题追踪具有时间效应,也就是随时间 变化而变化。
(5)话题检测(Topic Detection):由于 TDT 系统不具备人类 的思维能力,没有先验行知识,所以在 TDT 系统中必须有能力发 现话题,并且将切好的新闻流归并到已有的旧话题内。
能测试包括漏测系数(如公式 1)与误测系数(如公式 2),这两个 系数是系统对错误文档识别的反应,通过这两个数据来判断系统 输出结果好坏,可以通过标准测试文档跟实际文档结果进行对比
表 1 中文分词模块测评结果
表 2 训练集为 2 时,特征值在不同向量维度及阈值的归一化值测评
85
网络与信息工程
2016.02、04
建一个新的数据类,实现流式数据的增量和动态聚类。Single-
由于测试的分词器有两个是半开源项目,其中 NLPIR 测试
Pass 算法是一种增量算法,适合对流数据进行挖掘,而且算法的 结果很不稳定,多次测量结果差异较大,本文选取了其中较好的
时间效率高 ;不足之处主要表现在该方法具有输入次序依赖特 一组数据。Ansj 分词结果相对稳定,且是开源项目,对于系统移
热点话题的判别根据以下几个原则 :(1)事件受关注时间较 长 ;(2)在事件发生后的某段时间内被关注程度高 ;因此我们采 用 single-pass 算法通过对事件在一段时间内的类聚累积。进行 通过文档话题集的权重值,来判断此话题集是否为热点话题集。
(1) K-MEANS 算法 K-means 算法是基于类比学习,通过将给定的检验元组和它 相似的训练元组进行比较来学习。 K-MEANS 算法的工作原理 : 在一个元素集合 N 中,本文任意挑选出 K 个元素作为本文聚 类的种子值,然后把剩下的其他元素通过距离向量计算公式求出 他们跟这些种子的距离,把他们分别归类到距离最近的种子那一 个划分内,然后将得到聚类划分的均值作为新的聚类种子值,持 续重复上述操作,直到标准测度函数(以元素集合的均方差作为
Design and Implementation of Internet Hot Topic Detection
Yang Ankun (Wuhan research institute of post and telecommunication,Wuhan,430074,China)
Abstract :Aiming at the scale of the network information is increasing,structure out of order problem,this paper designs a model based on the hot topic of Internet search and Realization scheme.In this paper,the system overall architecture and specific implementation are described.the system achieves in JAVA, with the support of real-time,comprehensive,and the characteristics of time granularity. Keywords :Natural Language Processing;Web Crawler;Topic Detection and Tracking;
网络与信息工程
互联网热点话题发现的设计与实现
杨安琨 (武汉邮电科学研究院通信与信息系统,武汉,430074)
摘要 :针对互联网信息规模不断增加,数据结构杂乱无章等问题,本文设计一种基于互联网热点话题的发现模型及实现方案。 本文分别就系统整体架构和具体实现进行了说明,本系统采用 Java 编程实现,具有半实时性,全面性,且可以进行时间粒度划 分等特点。 关键词 :自然语言处理 ;网络爬虫 ;话题侦测与追踪(TDT)
1 话题侦测与追踪
这种流传开来的原因之一很多程度上是由于美国国防部高 级研究计划署(Advanced Research Projects Agency of the U.S. Department of Defense,简称 ARPA)发起的一些系列的研 究与开发计划。第一个计划开始于 1997 年,Allan J(1998)对此 进行了评述,其目的是发展一项设想方案假如在没有人工干预的 情况下,自动的从新闻报道流中发现新的热点话题,从而挖掘出 新的热点信息。下面介绍 TDT 技术设计的主要研究体系,如图 1 所示。
2 热点话题的设计 2.1 总体设计
本系统流程图设计分为信息源采集模块,采集信息预处理模 块,话题ห้องสมุดไป่ตู้现与热点判别模块,热点事件展示模块几个模块。
图 2 热点话题设计系统框架图 (1)信息源采集模块 :通过网络爬虫,从互联网上采集信息, 通过针对不同类型的信息(新闻,论坛,微博等)来源获取,从页面 中抽取有用的(Html 页面信息提取)信息并按格式存储。 (2)采集信息预处理模块 :采集到的每一条信息进行分词, 特征词提取,权值,建立空间向量模型并以适当的对形式按格式
(4)热点时间展示模块 :通过设定时间,把一段时间内的热 点时间按热度展示出来并把相关文本并通过链接把相关事件展 示。
2.2 热点话题发现设计 话题发现系统的设计思路是 :首先 , 给一组训练集合数据,
将获取的数据(标题和正文)进行特征向量提取(中文分词),得到 VSM(Vector Space Model)向量空间模型。然后,用 KNN 聚类算法 进行第一次聚类得到微类集合获得话题集。最后,再用 SinglePass 算法进行二次聚类更全面的相关联的聚类信息,从而获得 热点话题聚类信息。
得到结果。
(1)
忽略 (3)随着阈值的增加算法的误查率会降低,这是因为阈值越
高,文档关联度就会越高,从而使得算法判断错误的机会降低。
(2)
通常情况下,在测评 TDT 系统性能中,我们采用归一化的性 能测评表示
(4)随着阈值的增加漏检率会逐渐增加,这是由于阈值增加 一些关联度较低的文档可能会被忽略过去,没有被算法识别出 来。
的划分中 ;
(5)本次聚类完成,等待下一次文本输入。
(3) 计算每个划分中元素的均值,把这个均值当做新的聚类 3 试验结果和分析
种子 ; (4) 重复执行 (2)、(3) 步,直到每个划分达到稳定分布为止。 3.1 中文分词系统性能测试工作
(2)Single-Pass 算法
本文通过算法筛选合适的中分分词系统,中科院的 NLPIR 分
大。
(3)将得到的相似度的值跟域值进行比较,其中最大的相似
K-MEANS 算法的聚类具体过程 :
度值如果大于阈值 β,则将此文档归类至该话题,跳转至(5)。
(1) 在集合 N 中选取 K 个元素设定为原始的聚类种子 ;
(4)如果最大的相似度值小于该域值 β,则文档 d 不属于该
(2) 依据各个聚类种子的取值,将剩余的元素归类到最相近 话题,另新建一个话题集。
性,即对于同一聚类对象按不同的次序输入,会出现不同的聚类 植等开发很方便。而 Imdict 分词效果很好,是 NLPIR 的简化升级
结果。
版,系统资源消耗较小,由于不支持新词发现,所以将新词做了全
Single-Pass 算法工作原理 :
切分。虽然在测试语料中效果较好,但是在实际应用中,感觉分词
每次处理一篇文档,在处理时会把第一篇文档作为一个话 效果不佳,故而不做选择。综合上述测试,在此系统在本文选择
Single-Pass 算法,是数据流式数据聚类的经典方法。对于 词模块,Ansj 中文分词,Imdict 中文分词系统。本文采用人民
依次到达的数据流,该方法按输入顺序每次处理一个数据,依据 日报切分 / 标注语料库对上述三种合适的分词系统进行测试。测
当前数据与已有类的匹配度大小,将该数据判为已有类或者创 评结果如表 1 所示。
图 3 话题发现设计流程图
图 4 基于 Single-Pass 的聚类算法
84
2016.02、04
网络与信息工程
标准)收敛为一个稳定的值为止。k 个聚类具有以下特点 :各聚
(2)待分类的话题文档 d,将 d 逐一跟已处理过的话题的
类种子内在的聚类关系相对很紧密,而各聚类种子之间差异会很 (1 ≤ i ≤ n)进行相似度计算,得到一系列相似度的值。
TDT 技术是一项综合性技术,它涉及到很多方面的技术其中 核心技术是自然语言处理(NLP)技术。因此测评会把 TDT 技术细 分为五个子任务。
(1)报道切分(story segmentation):针对于新闻报道是由 一系列话题组成的文档这个问题,其任务就是将这些报道的话题 界线找出来进行划分,分成不同话题集。
DOI:10.16520/j.cnki.1000-8519.2016.04.037 网络出版时间:2016-04-06 15:31:39 网络出20版16地.址02:、h0t4tp://www.cnki.net/kcms/detail/11.3927.TN.20160406.1531.404.html