期刊关键词抽取方法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
期刊关键词抽取方法
1引言
关键词是与文章内容和主旨密切相关的短语,被广泛应用于新闻报道、学术期刊等领域。关键词可以提高文档的管理和检索效率,还可以为一些文本挖掘任务提供丰富的语义信息,例如文档的分类、聚类、检索、分析和主题搜索等任务[1]。期刊的关键词对应学术期刊中的keywords部分,包含简单关键词(SimpleWord,SW)和复杂关键词(ComplexWord,CW)两大部分,其中SW表示由一个简单词组成的关键词,CW表示由多个简单词组成的关键词。根据IEEEExplorer[2]统计数据显示,每年约有24万篇新学术期刊被收录。根据某些学科期刊的要求,在文献发表时作者需要在期刊中对关键词进行注明。但仍有一些学科的出版物与早期发行的期刊、书籍、文献的部分章节不包含关键词等信息。缺乏关键词会在期刊的查阅和参考过程中造成困难。虽然可以使用索引对全文进行检索,但这种方法工作量大、且检索结果依赖于分词效果,难以给出准确的检索结果。而关键词抽取就是从文章中选择一小部分单词或短语来描述文章重要内容[3]。因此,需要寻找一种有效的期刊关键词抽取方法。针对传统方法的不足并结合最新研究成果,本文提出了一种基于融合词性的BiLSTM-CRF的期刊关键词提取方法。在实现数据时序和语义信息挖掘的同时,也保证了单词与单词之间的关联性。在真实数据上的实验结果表明融合词性的BiLSTM-CRF模型是一种有效的期刊关键词自动抽取方法。
2相关工作
目前,关键词抽取任务主要有两种方法,基于无监督的方法和基于有监督的方法[4,5]:2.1基于无监督的方法:无监督方法仅通过一些事先规定的关键
词权重的量化指标,计算权重排序关键词重要性来实现。TFIDF是字符串频率关键词[6,7]抽取的一种典型方法,其本质是无监督的,可以简单快捷的进行关键词抽取。该方法仅扫描语料库一次,即可获得所有单词的文本频率。但除了词频之外,仍需要考虑许多因素,例如词的词性以及在文本中的位置等。为了提高该方法的性能,必须人工的对其许多规则进行设计[5]。在新闻领域,字符串频率方
法比有监督的机器学习方法更有效。因为机器学习的方法在模型训练时需要花费大量的时间,并且文档需要标注。其次,每天都会发生新事件,新闻的内容具有多样性。但无监督方法只提供了单词在文本中的相对重要程度,无法有效地综合利用词法和语义信息对候选关键词进行排序[8]。2.2基于有监督的方法:有监督的方法将关键词抽取问题视为判断每个候选关键词是否为关键词的二分类问题,
它需要一个已经标注关键词的文档集合来训练分类模型,即通过在一个有标注的
数据集上训练分类器,以便决定候选词中哪些是关键词。不同的机器学习算法可
以训练出不同的分类器,如朴素贝叶斯[9],决策树[10]、最大熵算法[11]和支持向量机[12]等是关键词抽取中的代表性方法,通过大量数据来训练分类器。可见有监督方法可以利用更多信息具有更大的优势,且实验效果比无监督方法好[4]。
这种方法具有较高的准确性和较强的稳定性,但需要很大的语料库,且所有文本需要进行标注。标注人员具有一定的主观性并且标注任务具有复杂性。不同的标注人员在进行同一个文本的标注时,具有不同的认知和看法,标注的质量会影响模型的性能。并且上述方法都将关键词抽取问题视为一个二分类问题,对每个单词独立处理,忽略了文本结构信息。为解决该问题,可以将关键词抽取问题转化为序列标注问题,常用的模型有最大熵模型(MaximumEntropy,ME),隐马尔科夫模型(HiddenMarkovModel,HMM),条件随机场模型(ConditionalRandomField,CRF)。其中CRF模型的应用最为广泛,性能也最好,可以较为精确的实现关键词的有效提取,但却需要人工设计特征,特征设计的优劣与否将会直接影响到模型的性能和最终的抽取效果。随着深度学习的不断发展,深度神经网络,尤其是长短期记忆网络(LongShortTermMemory,LSTM)模型,前
一时刻隐藏层的信息可以加入到当前时刻的输出,通过LSTM层可以高效地利用上下文信息,处理长序列依赖问题。通过结合LSTM模型和CRF模型,综合利用多种信息,可以使得效果更好[13]。在近期的研究中,已有学者将BiLSTM-CRF
网络模型用于开放式关系抽取[14]、命名实体识别[15]、中文分词[16]等自然语言处理任务中。Alzidy等已经将BiLSTM-CRF网络用于关键词抽取任务中[17],使用固定的词嵌入来表示单词,输入网络,得到序列标注结果。
3融合词性与BiLSTM-CRF的抽取模型
针对从文本中自动抽取关键词的问题,现有的解决方法大多基于二分类的思想。这种方法忽略了单词之间的关联性,将每个词视为独立的部分,因此无法通过联系上下文来准确把握文的有效信息,从而导致模型具有较差的关键词抽取能力。针对该问题,本文结合条件随机场与深度学习中双向长短期记忆网络(BidirectionalLongShortTermMemory,BiLSTM)模型可以自动提取特征的优势,将期刊关键词的抽取问题转化为序列标注问题,提出了融合词性与BiLSTM-CRF的期刊关键词抽取方法。融合词性与BiLSTM-CRF的关键词抽取模型如图1所示:关键词自动抽取模型共包含三大部分:(1)对期刊文本进行分词和词性标注的预处理;(2)将预处理后的文本使用word2vec模型进行WordEmbedding向量化,获取字词的向量表达式;(3)使用BiLSTM-CRF模型实现关键词的自动抽取。3.1特征提取:(1)词性标注在关键词组合的过程中,可能会采用不同的词性组合方式,但通过对期刊中大量的关键词研究发现,期刊中的关键词一般由名词,形容词和动词组合形成[13],因此在实验中需要对词性进行标注,例如:信号控制单元(n+vn+n),高性能电池(ad+n),其中,n表示名词,vn表示动词,ad表示形容词。加入词性特征对期刊关键词的识别有一定作用。(2)依存句法分析依存句法分析就是确定一个句子中词语与词语之间的依存关系或者对句子的句法结构进行分析。词语之间的依存关系主要有介宾关系、动宾关系、主谓关系等。本文采用语言技术平台[18](LanguageTechnologyPlatform,LTP),对期刊文本进行依存