一种基于词聚类信息熵的新闻提取方法

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

一种基于词聚类信息熵的新闻提取方法作者:牛伟农吴林于水源

来源:《软件导刊》2020年第01期

摘要:互联网的飞速发展为大众带来便利的同时也产生了大量冗余信息,利用自然语言处理技术对新话题文章进行提取,控制新话题中虚假新闻传播,可为舆情控制提供有效支持。提出一种基于词聚类信息熵的新闻提取方法,并对“一带一路”相关新闻语料进行实验。实验通过网络爬虫的方式获取相关报道,利用Pkuseg工具分词进行一系列预处理后训练生成

Word2vec词向量,然后利用词频统计筛选出历史高频词进行K-means聚类,将聚类后的词簇作为随机变量计算当前文章的信息熵。若文章的信息熵高于设定阈值,则为新话题文章,需要重点关注。结果表明,该方法在阈值设置为0.65时,新闻提取结果的准确率可达到84%。

关键词:新闻提取;新话题;词向量;聚类;信息熵

DOI: 10. 11907/rjdk.192209

开放科学(资源服务)标识码(OSID):

中图分类号:TP301

文献标识码:A

文章编号:1672-7800( 2020)001-0036-05

0 引言

随着第四媒体的迅速发展,新闻行业迎来了新的发展机遇。自媒体的出现和新闻发布渠道的多样化,为大众获取信息提供了便利。但与此同时.大量信息的产生导致虚假新闻的有效控制受到了阻碍。利用计算机技术在大量新闻数据中提取出新话题新闻,将焦点放在新话题新闻上,可以减少相关工作者需要关注的新闻数量,降低舆情控制难度。自2013年9月“一带一路”倡议提出后,相关报道不断增加,一时间引起轰动[1]。政府部门在面向有关“一带一路”的报道时,需在大量新闻中掌握新话题新闻,关注事态走向,令其向正确的方向发展,确保“一带一路”倡议顺利实施。因此,本文针对“一带一路”相关新闻进行验证分析。

20世纪90年代,随着在日本神户第四届机器翻译高层会议的召开,自然语言处理

( Natural Language Processing,NLP)技术由发展期逐渐进入繁荣期[2]。自然语言处理作为人工智能的一部分,在文本分类[3-4]、问答系统[5]、机器阅读理解[6]和机器翻译[7]等领域有着广泛应用。近年来,网络媒体的发展使得NLP在新闻行业的应用也取得了一定进展。目前,部分学者对新闻信息提取进行了研究,包括基于中文命名实体识别和指代消解的新闻事件要素提取[8]、基于篇章主次关系的单文档摘要抽取[9]以及基于PageRank的新闻关键词提取[10]。当前研究虽然解决了文章关键信息提取的问题,可以帮助读者快速阅读新闻,但并不能很好地处理在多文本中提取新话题新闻的任务。

综上,为减少“一带一路”新闻中相关冗余信息对分析工作带来的干扰,本文提出了一种基于词聚类信息熵的新闻提取方法,用于在多文本中提取新话题新闻。总体流程如下:①利用分词工具对语料进行分词;②由于实验语料相关性较大,去停止词的同时对背景词进行去除;③生成word2vec词向量;④进行词频统计并筛选出历史高频词;⑤对历史高频词进行聚类,以减少单个词的词频变化以及同近义词对结果的影响;⑥在词聚类的基础上计算新闻的信息熵,将高熵新闻作为新话题新闻。

1 理论方法

1.1 Word2vec词向量

语言是人类智慧定义的一种高层符号组合而成的数据,这些数据并不是原生态数据。在自然语言处理领域,需要将其还原成计算机可以理解的形式,即词向量编码,这是进行后续研究的基础。在进行词编码时,需要保证原始文本信息的同时充分表达文本信息。传统方法是,构

建一个很大的词典,给出特定词的上位词及近义词等[11]。但是这种做法需要大量的人工干预,而人为判断带有一定的主观性,难以精确计算词之间的相似度。

2013年,Coogle开源了一款用于词向量计算的工具,即Word2vec[12],其包括CBOW ( Continuous Bag-of-WordsModel)模型和Skip-C ram( Continuous Skip-C ram Model)模型。Word2vec的基础是神经语言模型(Neural NetworkLanguage Model,NNLM[13])。神经语言模型是用给定的前n一1个词预测第n个词,即输入w1,w2,…,wn-1,预测wn。NNLM 模型的缺点是复杂度较高,而Word2vec可以降低模型复杂度。

1.1.1 基于CBOW方法的词向量编码

CBOW可通过一句话的左右窗口去预测中间的词。该模型在输入层(INPUT)输入目标词汇左右的词,即周围词的词向量,经过投影层(PROJECTION)后,在输出层

( OUTPUT)输出当前词的词向量。

例如,在“‘一带一路’是实现共同繁荣的合作共赢之路”这句话中,将“繁荣”设置为目标词(target),再设置一个滑动窗口长度为2,即目标词汇前后各取2个词,加上目标词本身,一共5个词。在这5个词中,除目标词外的其余词为背景词( context)。如图1所示,首先,在输入层输人“实现”、“共同”、“的”、“合作”4個词的词向量;然后,在投影层将输入层的4个词向量求和累加,计算公式为:

1.1.2 基于Skip-Gram方法的词向量编码

Skip-Gram和CBOW相反,Skip-Gram是通过中间的词预测左右的词。Skip-G ram模型输入是当前词的词向量,输出是周围词的词向量。由于没有上下文,Skip-C ram模型在投影层是一个恒等投影[14]。如图2所示,在输入层输人中间词汇“繁荣”的词向量,经过投影层后,在输出层输出“实现”、“共同”、“的”、“合作”4个词的词向量。

Skip-Gram模型的目标函数如式(2)所示,T为语料中的全部词汇数。

本实验语料基于CBOW方法进行词向量训练。Word2vec虽是基于大量语料基础上学习而来体现相互之间关系的词向量,也存在一定问题,其在训练词向量时对每一个滑动窗口单独训练,没有利用包含在全局词共现矩阵中的统计信息,并且由于使用唯一的词向量表示词,对多义词无法很好地表示和处理。

1.2 基于K-means的词聚类

针对Word2vec词向量无法很好表示和处理多义词的缺点以及语言所具有的灵活性[15],本实验提出基于K-means对词向量进行聚类。语言的灵活性表现在,文本中存在多个表述同一

相关文档
最新文档