一种基于词聚类信息熵的新闻提取方法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一种基于词聚类信息熵的新闻提取方法作者:牛伟农吴林于水源
来源:《软件导刊》2020年第01期
摘要:互联网的飞速发展为大众带来便利的同时也产生了大量冗余信息,利用自然语言处理技术对新话题文章进行提取,控制新话题中虚假新闻传播,可为舆情控制提供有效支持。
提出一种基于词聚类信息熵的新闻提取方法,并对“一带一路”相关新闻语料进行实验。
实验通过网络爬虫的方式获取相关报道,利用Pkuseg工具分词进行一系列预处理后训练生成
Word2vec词向量,然后利用词频统计筛选出历史高频词进行K-means聚类,将聚类后的词簇作为随机变量计算当前文章的信息熵。
若文章的信息熵高于设定阈值,则为新话题文章,需要重点关注。
结果表明,该方法在阈值设置为0.65时,新闻提取结果的准确率可达到84%。
关键词:新闻提取;新话题;词向量;聚类;信息熵
DOI: 10. 11907/rjdk.192209
开放科学(资源服务)标识码(OSID):
中图分类号:TP301
文献标识码:A
文章编号:1672-7800( 2020)001-0036-05
0 引言
随着第四媒体的迅速发展,新闻行业迎来了新的发展机遇。
自媒体的出现和新闻发布渠道的多样化,为大众获取信息提供了便利。
但与此同时.大量信息的产生导致虚假新闻的有效控制受到了阻碍。
利用计算机技术在大量新闻数据中提取出新话题新闻,将焦点放在新话题新闻上,可以减少相关工作者需要关注的新闻数量,降低舆情控制难度。
自2013年9月“一带一路”倡议提出后,相关报道不断增加,一时间引起轰动[1]。
政府部门在面向有关“一带一路”的报道时,需在大量新闻中掌握新话题新闻,关注事态走向,令其向正确的方向发展,确保“一带一路”倡议顺利实施。
因此,本文针对“一带一路”相关新闻进行验证分析。
20世纪90年代,随着在日本神户第四届机器翻译高层会议的召开,自然语言处理
( Natural Language Processing,NLP)技术由发展期逐渐进入繁荣期[2]。
自然语言处理作为人工智能的一部分,在文本分类[3-4]、问答系统[5]、机器阅读理解[6]和机器翻译[7]等领域有着广泛应用。
近年来,网络媒体的发展使得NLP在新闻行业的应用也取得了一定进展。
目前,部分学者对新闻信息提取进行了研究,包括基于中文命名实体识别和指代消解的新闻事件要素提取[8]、基于篇章主次关系的单文档摘要抽取[9]以及基于PageRank的新闻关键词提取[10]。
当前研究虽然解决了文章关键信息提取的问题,可以帮助读者快速阅读新闻,但并不能很好地处理在多文本中提取新话题新闻的任务。
综上,为减少“一带一路”新闻中相关冗余信息对分析工作带来的干扰,本文提出了一种基于词聚类信息熵的新闻提取方法,用于在多文本中提取新话题新闻。
总体流程如下:①利用分词工具对语料进行分词;②由于实验语料相关性较大,去停止词的同时对背景词进行去除;③生成word2vec词向量;④进行词频统计并筛选出历史高频词;⑤对历史高频词进行聚类,以减少单个词的词频变化以及同近义词对结果的影响;⑥在词聚类的基础上计算新闻的信息熵,将高熵新闻作为新话题新闻。
1 理论方法
1.1 Word2vec词向量
语言是人类智慧定义的一种高层符号组合而成的数据,这些数据并不是原生态数据。
在自然语言处理领域,需要将其还原成计算机可以理解的形式,即词向量编码,这是进行后续研究的基础。
在进行词编码时,需要保证原始文本信息的同时充分表达文本信息。
传统方法是,构
建一个很大的词典,给出特定词的上位词及近义词等[11]。
但是这种做法需要大量的人工干预,而人为判断带有一定的主观性,难以精确计算词之间的相似度。
2013年,Coogle开源了一款用于词向量计算的工具,即Word2vec[12],其包括CBOW ( Continuous Bag-of-WordsModel)模型和Skip-C ram( Continuous Skip-C ram Model)模型。
Word2vec的基础是神经语言模型(Neural NetworkLanguage Model,NNLM[13])。
神经语言模型是用给定的前n一1个词预测第n个词,即输入w1,w2,…,wn-1,预测wn。
NNLM 模型的缺点是复杂度较高,而Word2vec可以降低模型复杂度。
1.1.1 基于CBOW方法的词向量编码
CBOW可通过一句话的左右窗口去预测中间的词。
该模型在输入层(INPUT)输入目标词汇左右的词,即周围词的词向量,经过投影层(PROJECTION)后,在输出层
( OUTPUT)输出当前词的词向量。
例如,在“‘一带一路’是实现共同繁荣的合作共赢之路”这句话中,将“繁荣”设置为目标词(target),再设置一个滑动窗口长度为2,即目标词汇前后各取2个词,加上目标词本身,一共5个词。
在这5个词中,除目标词外的其余词为背景词( context)。
如图1所示,首先,在输入层输人“实现”、“共同”、“的”、“合作”4個词的词向量;然后,在投影层将输入层的4个词向量求和累加,计算公式为:
1.1.2 基于Skip-Gram方法的词向量编码
Skip-Gram和CBOW相反,Skip-Gram是通过中间的词预测左右的词。
Skip-G ram模型输入是当前词的词向量,输出是周围词的词向量。
由于没有上下文,Skip-C ram模型在投影层是一个恒等投影[14]。
如图2所示,在输入层输人中间词汇“繁荣”的词向量,经过投影层后,在输出层输出“实现”、“共同”、“的”、“合作”4个词的词向量。
Skip-Gram模型的目标函数如式(2)所示,T为语料中的全部词汇数。
本实验语料基于CBOW方法进行词向量训练。
Word2vec虽是基于大量语料基础上学习而来体现相互之间关系的词向量,也存在一定问题,其在训练词向量时对每一个滑动窗口单独训练,没有利用包含在全局词共现矩阵中的统计信息,并且由于使用唯一的词向量表示词,对多义词无法很好地表示和处理。
1.2 基于K-means的词聚类
针对Word2vec词向量无法很好表示和处理多义词的缺点以及语言所具有的灵活性[15],本实验提出基于K-means对词向量进行聚类。
语言的灵活性表现在,文本中存在多个表述同一
含义的词汇,例如,“好处”、“利益”、“甜头”等词汇描述的意义相同,这些同义词、近义词的出现对高频词的筛选工作造成了一定干扰。
一方面,表述同一含义的词汇在语料中均大量出现,高频词中可能存在多个表达相同含义的词汇,导致词汇冗余,选定的高频词汇不具有代表性;另一方面,由于表达方式不同,表述同一含义的词汇可能交替出现,新文章中使用了高频词的替代词,导致高频词在新文章中出现次数减少,而替代词出现次数增加,从而引起信息熵的增加,导致计算误差。
为了减少上述干扰,实验采用对历史高频词进行聚类的方式,将相似词及共现词归为一个类别,统计每个类别中的词汇在新文章中出现的概率。
聚类是一种无监督学习算法,将相似对象归类到一个簇中。
聚类与分类算法的最大区别在于聚类的目标类别未知,分类的目标类别已知。
K-means聚类算法,也称k均值聚类算法( K-means Clustering Algorithm),是一种迭代求解的无监督聚类分析算法[16]。
K-means用来发现给定数据集的k个簇,簇的个数k由用户指定,每个簇中心采用簇中所含值的均值计算而成,即由簇中所有点的中心描述。
其核心原理为:①首先随机确定k个点作为质心;②将数据集中的每一个点分配到每一个簇中,为每个点找到距离其最近的质心;③将每个簇的质心更新为该簇中所有数据点的平均值;④重复第②③步,直到每个簇中的数据点和质心都不再发生变化。
1.3 信息熵在NLP中的应用
1948年,香农借用热力学中熵的概念,提出了“信息熵”的概念,解决了信息的量化度量问题[17]。
信息熵是消除不确定性所需信息量的度量,也即未知事件可能含有的信息量。
一个系统包含了许多不确定性因素(x1,x2,…,xn),这些因素称为随机变量X。
要消除随机变量的不确定性,就要引入更多信息,这些信息的度量用“信息熵”表示。
需要引入的消除不确定性的信息量越多,信息熵越高,系统越不稳定;反之,信息熵越低,系统越稳定。
在自然语言处理中,信息熵反映内容的不确定性。
信息熵描述的是随机变量的不确定性,对于同一个随机变量,不同观测者从不同粒度上观察,得到的信息熵不一样。
对于文本而言,表达语义的最小粒度是词语,因此,本实验从词语的粒度计算文章信息熵。
经过词聚类后,信息熵计算如式(5)、式(6)所示,其中,p(Xk)为第k类中所有词汇出现的频率,labelk表示第k个类别,count(words)为待计算文章中的总词汇数。
值得注意的是,当作为随机变量的词汇在待计算文章中出现次数为0时,设置该词的概率为1 /count(words)2,相较于设置固定极小概率值更具灵活性。
2 实验过程
2.1 数据来源
本实验数据通过网络爬虫技术获取。
网络爬虫是指通过一段程序或者脚本,自动获取网络中的信息。
本实验结合Selenium模拟浏览器和Scrapy爬虫框架进行新闻抓取。
Selenium可以模拟真实浏览器,支持对js加载页面的抓取;Scrapy是一个为爬取网站数据而编写的应用框架,可以极大提高爬取速度。
本爬虫框架的核心工作流程是通过谷歌搜索“一带一路”相关新闻,然后通过xpath规则抽取返回的网页新闻列表链接,将获取到的URL存放到相应数据库中,通过读取数据库中的URL进行下一步新闻详情内容抓取。
详情内容抓取主要包括文章标题、日期、来源、正文4个部分。
新闻抓取流程如图3所示。
2.2 数据预处理
实验语料根据日期对新闻进行正序排序,并对正文内容进行处理分析。
在对正文进行分析前,需要首先对语料进行一系列的分词、去停用词等预处理操作。
其中,分词使用了Pkuseg工具[18]的新闻领域模型,去停用词采用了停用词典的方式。
此外,在预处理阶段还进行了背景词的去除。
实验语料围绕“一带一路”这一主题展开,具有一定的特殊性。
因此,文本的高频词中存在大量背景词,即在所有文章中都频繁出现,但对文章区分度并不大的词汇[19],这些背景词无法满足利用历史高频词发现新话题文章的需求。
因此,本实验剔除了语料中对于新话题文章提取造成干扰的背景词,将剔除背景词后的历史高频词作为计算信息熵的随机事件。
表1中列出了语料中的部分背景词。
2.3 词频统计
对于给定新闻,在计算信息熵前,首先需要确定与信息熵相关的随机变量,即能表达文章信息的词汇。
新闻的高频词在一定程度上表达了文章的主要内容以及一段时间内的新闻话题,因此本实验选取历史高频词作为计算文章信息熵的随机变量。
由于新闻语料的时效性,选取待计算文章前6天内新闻的高频词作为关键词。
图4为2019年4月7日-2019年4月12日时间段内关于“一帶一路”相关文章前20个高频词出现次数折线图,其中横坐标为20个高频词汇,纵坐标为6天内各词汇出现总次数。
通过词频统计发现,历史词汇中有大量词汇出现次数相同,且这些词汇的出现次数集中在10次左右,与前20高频词中末尾的词汇出现次数接近,为避免设置固定高频词个数而带来的高频词缺失误差,设置高频词阈值为10。
如果某高频词的变化曲线趋于平缓,在连续几天内的文章中出现的次数基本保持一致,则该高频词在这段时间内不具有随机性,无法表示文章的信息量变化程度,因此具有这种特性的高频词不作为计算信息熵的随机事件。
图5为前20高频词在2019年4月7日-2019年4月12日时间段内的变化曲线,其中横坐标为该时间段内的文章数,纵坐标为各词汇在每篇文章中的
出现次数。
这20个高频词的出现次数在连续6天内的文章中均具有明显变化,可作为随机变量计算信息熵。
2.4 高频词聚类
使用Word2vec对语料中经过预处理的所有词汇进行训练,维度为200维。
利用已训练好的词向量对高频词进行K-means聚类,将所有的高频词分为20组,结果如表2所示。
若待计算文章中未出现某个高频词,可在同一类别中查看是否出现了其它高频词,将同一类别中所有词汇的出现次数作为某一类别的出现频率。
最后,根据设置的信息熵阈值,判定所计算文章是否属于新话题新闻。
若信息熵高于阈值,则判定为新话题文章。
3 实验结果
将聚类后的高频词组作为随机变量计算文章信息熵,通过改变信息熵阈值加以对比,并采用准确率、精确率、召回率、F值作为评估指标[20]。
准确率、精确率、召回率、F值计算分别如式(7)-式(10)所示。
TP为结果中预测正确的新话题文章数,TN为结果中预测正确的非新话题文章数,FP为结果中预测为新话题文章的非新话题文章数,FN为结果中预测为非新话题文章的新话题文章数。
本文对800条数据进行人工标注,利用Single-Pass对词聚类进行对比实验,表2为Single-Pass聚类的实验结果,表3为对高频词进行K-means聚类后实验结果评估。
Single-Pass算法受聚类后词簇个数以及相似度阈值设定的影响,评估结果低于K-means词聚类结果。
针对K-means词聚类方法,通过设定不同阈值,发现信息熵的阈值为0.6时,准确率为61%,但精确率为35%,说明真正的新话题文章在所有预测为新话题文章中所占比例仅为35%。
当阈值设置为0.65时,实验结果准确率、精确率、召回率分别为84%、62%、83%,实验结果较好。
当阈值设置为0.7时,准确率为73%,精确率为42%,说明真正新话题文章占预测为新话题文章的比例为42%,表明在预测为新话题的文章中.有较多为非新话题文章;召回率为50%,表示预测出的真正新话题文章占所有真正新话题文章的比例为50%,表明仅能预测出一半的新话题文章,实验结果意义不大。
综上,设置判定新话题文章的信息熵阈值为
0.65,其综合评价指标F值为70%,说明实验结果较为有效。
4 结语
本文通过分析在多文本中提取新话题新闻的任务需求,提出了一种基于词聚类的提取方法。
该方法针对当代新闻的特点以及计算机对新闻进行处理的研究现状,在Word2vec、K-means聚类、信息熵的基础上,采用词聚类信息熵的方法对新闻进行新话题文章判定,并对“一带一路”语料进行了实验。
实验结果表明,该方法具有一定效果。
本文方法中使用了历史高频词作为随机变量,信息熵越高,说明词汇变化越显著,而词汇的明显变化往往是由于新话题
的出现。
因此,对于提取出的文章,政府部门可以及时了解当前新话题,对新话题中具有误导倾向的话题进行及时更正,控制舆论走向,维持社会稳定。
目前,本文成果已应用于《“一带一路”建设国际传播力监测》项目中,并已收到相关采纳证明,为我国现阶段发展“一带一路”的领导层决策提供了有力参考和支撑。
此外,本实验仍然存在一些不足,在实验过程中,未就文章长度对信息熵计算的影响进行优化,这是需要突破的一个关键点。
参考文献:
[1] 刘晓.“一带一路”对外传播研究[D].湘潭:湘潭大学,2016.
[2] 宋一凡.自然语言处理的发展历史与现状[J].中国高新科技,2019(3):64-66.
[3]陈慧,田大钢,冯成刚.多种算法对不同中文文本分类效果比较研究[J].软件导刊,2019,18(5):73-78.
[4] HOWARD J,RUDER S.Universal language model fine-tuning fortext
classification[ DB/OL].https: ///abs/1607.03250, 2018.
[5]QU C,YANG L, QIU M,et al.Bert with history answer emhedding forconversational question answering [DB/OL]. https:///abs/1905.05412. 2019.
[6] JOSHI M, CHOI E, WELD D S,et al.Triviaqa:a large scale distantlysupervised challenge dataset for reading comprehension[DB/OL].https: ///abs/1705.03551, 2017.
[7]WANG Q, LI B,XIAO T,et al.Learning deep transformer models formachine translation[ DB/OL].https: ///abs/1906.01787, 2019.
[8]虞金中,杨先凤,陈雁,等.基于混合模型的新闻事件要素提取方法[J].计算机系统应用,2018,27( 12):169-174.
[9]张迎,王中卿,王红玲.基于篇章主次关系的单文档抽取式摘要方法研究[J].中文信息学报,2019,33(8):67-76.
[10]顾亦然,许梦馨.基于PageRank的新闻关键词提取算法[J].电子科技大学学报,2017,46(5):777-783.
[11] 江大鹏.基于词向量的短文本分类方法研究[D].杭州:浙江大学,2015.
[12]RONG X.Word2vec parameter learning explained[ DB/OL]. http:
///paper/4066349, 2014.
[13]BENGIO Y, DUCHARME R, VINCENT P, et al.A neural prohabilis-tic language model[J].Journal of Machine Learning Research, 2003(3):1137-1155.
[14] 郑捷.NLP汉语自然语言处理原理与实践[M].北京:电子工业出版社.2017.
[15]胡馨月.Twitter事件检测中的語义和情感分析[D].成都:电子科技大学.2017.
[16]COATES A,NG A Y.Learning feature representations with K-means[ M]. Springer Press,2012.
[17] 吴中庆.广义德·摩根定理及广义香农定理的推广[J].江汉石油学院学报,1989(4):67-73.
[ 8]LUO R X. XU J J,ZHANG Y. et al.Pkuseg:a toolkit for multi-do-main Chinese word segmentation[ DB/O L]. https: ///abs/1906.11455vl. 2019.
[19] 周楠,杜攀,靳小龙,等.面向舆情事件的子话题标签生成模型ET-TAG[J].计算机学报,2018,41(7):1490-1503.
[20]李航,统计学习方法[M].北京:清华大学出版社,2012.
(责任编辑:孙娟)
基金项目:中国传媒大学青年理工科规划项目( 3132018XNC1834)
作者简介:牛伟农(1994-),女,中国传媒大学智能融媒体教育部重点实验室硕士研究生,研究方向为自然语言处理;吴林(1979-),男,中国传媒大学智能融媒体教育部重点实验室博士研究生,研究方向为大数据分析、自然语言处理、机器学习;于水源(1964-),男,博士,中国传媒大学智能融媒体教育部重点实验室教授、博士生导师,研究方向为计量语言学、智能信息处理。
本文通讯作者:吴林。