一种面向人物表征的新闻文本发生地抽取方法[发明专利]
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 202011336057.0
(22)申请日 2020.11.25
(71)申请人 哈尔滨工业大学
地址 150001 黑龙江省哈尔滨市南岗区西
大直街92号
(72)发明人 张宏莉 关皓天 王星 方滨兴
杨语晨 方依 孟超
(74)专利代理机构 黑龙江立超同创知识产权代
理有限责任公司 23217
代理人 杨立超
(51)Int.Cl.
G06F 16/9537(2019.01)
G06F 16/29(2019.01)
G06F 40/295(2020.01)
G06F 40/30(2020.01)
G06N 3/04(2006.01)G06N 3/00(2006.01)
(54)发明名称一种面向人物表征的新闻文本发生地抽取方法(57)摘要一种面向人物表征的新闻文本发生地抽取方法,属于信息提取领域,用以解决在人物表征过程中现有的命名实体识别算法缺少语义结构信息分析,导致新闻文本中出现多个地名时难以分辨新闻发生地的问题。
本发明的技术要点包括,对新闻文本数据集中新闻文本进行预处理;对预处理后的新闻文本中的实体及实体类别、段落特征、句子特征、词特征进行标注;对标注后的新闻文本中的地名关系进行抽取,构建新的地名实体知识图谱;并采用基于深度森林算法gcForest对新闻文本数据集中的新闻发生地进行预测抽取。
本发明可用于新闻事件相关人物的
特性表征。
权利要求书2页 说明书8页 附图1页CN 112307364 A 2021.02.02
C N 112307364
A
1.一种面向人物表征的新闻文本发生地抽取方法,其特征在于,包括以下步骤,
步骤一、建立新闻文本数据集;
步骤二、对新闻文本数据集中新闻文本进行预处理;
步骤三、利用命名实体识别算法对预处理后的新闻文本的句子中的实体及实体类别进行标注;
步骤四、对预处理后的新闻文本中的段落特征进行标注,包括段落文本类别特征提取、段落词性特征标注和段落语义依存关系标注;
步骤五、对预处理后的新闻文本中的句子特征进行标注,包括新闻文本与句子的类别特征提取,句子与标题的相对距离特征提取,句子标题相似度特征提取以及相邻句子相似度提取;
步骤六、对预处理后的新闻文本中的词特征进行标注,包括地名地理特征提取和地名频次特征提取;
步骤七、对经过步骤三、步骤四、步骤五、步骤六标注后的新闻文本中的发生地关系进行抽取,构建新的地名实体知识图谱;
步骤八、根据所述新的地名实体知识图谱,采用基于深度森林算法gcForest对新闻文本数据集中的新闻发生地进行预测抽取。
2.根据权利要求1所述一种面向人物表征的新闻文本发生地抽取方法,其特征在于,步骤二中所述预处理包括缩略词处理、指代消解和词向量微调。
3.根据权利要求2所述一种面向人物表征的新闻文本发生地抽取方法,其特征在于,所述缩略词处理包括通过构建的缩略词词库将缩略词进行展开,以识别新闻文本中出现的指代性缩略词;所述指代消解包括通过对句子进行语义结构分析,将句子中的指代词替换为相对应的名词实物;所述词向量微调包括引入预训练语言模型Bert,根据新闻文本数据集对Bert模型生成的词向量进行微调,获得词向量结果。
4.根据权利要求1所述一种面向人物表征的新闻文本发生地抽取方法,其特征在于,步骤四中所述段落文本类别特征提取包括通过文本分类算法判断新闻文本所属类别;所述段落词性特征标注包括结合POS tagging词性标注方法构建Bi-LSTM模型,获得段落词性特征标注;所述段落语义依存关系标注包括通过对句子语义结构分析,获得段落语义依存关系标注。
5.根据权利要求1所述一种面向人物表征的新闻文本发生地抽取方法,其特征在于,步骤五中所述新闻文本与句子的类别特征提取包括通过文本分类算法判断句子所属类别,并将该类别与段落文本类别特征进行比较来判断句子与整篇新闻文本的相关度;所述句子与段落标题的相对距离特征提取包括通过对新闻文本长度及句子,与新闻文本标题距离的计算,获得句子与段落标题的相对距离;所述句子标题相似度特征提取包括通过文本相似度算子计算句子与标题的相似度;所述相邻句子相似度提取包括通过文本相似度算子计算句子与其相邻句子的相似度。
6.根据权利要求1所述一种面向人物表征的新闻文本发生地抽取方法,其特征在于,步骤六中所述地名地理特征提取包括对已知地名数据集及已知地名实体知识图谱信息的查询,获得地名的行政区划、经纬度;所述地名频次特征提取包括结合地名地理特征获取的地名的出现频次特征对叫法不同但指代地点相同的地名进行分析。
7.根据权利要求1所述一种面向人物表征的新闻文本发生地抽取方法,其特征在于,步骤七具体包括以下步骤,
步骤七一、采取基于Bi-LSTM的关系抽取方法分析新闻文本句子中实体间的关系;
步骤七二、训练关系抽取模型KGM,并使用所述关系抽取模型KGM从新闻文本中抽取出构成关系的地名实体对;
步骤七三、将实体对加入到地名实体知识图谱中,即获得新的地名实体知识图谱。
8.根据权利要求1所述一种面向人物表征的新闻文本发生地抽取方法,其特征在于,步骤八具体包括以下步骤,
步骤八一、使用动态扫描窗对待抽取新闻数据集进行多粒度扫描,获得待抽取新闻数据集的特征向量;
步骤八二、将得到的特征向量输入到级联森林模型中进行预测训练,获取新闻发生地抽取结果。
9.根据权利要求8所述一种面向人物表征的新闻文本发生地抽取方法,其特征在于,步骤八二中级联森林模型中每一层选取多种不同类型的随机森林。
10.根据权利要求8所述一种面向人物表征的新闻文本发生地抽取方法,其特征在于,步骤八二中级联森林模型中每一层输入数据通过以下步骤获取,每个随机森林中的每一个决策树对于输入特征向量会产生一个针对生成类别的分布向量,将所有决策树产生的分布向量进行平均,获取每个随机森林对应的类分布向量;然后将每个随机森林输出的类分布向量与初始输入特征向量进行拼接,作为下一层的输入数据。
一种面向人物表征的新闻文本发生地抽取方法
技术领域
[0001]本发明涉及信息提取领域,具体涉及一种面向人物表征的新闻文本发生地抽取方法。
背景技术
[0002]目前,众多的研究人员就事件发生地抽取工作进行了广泛的研究。
其中,有一些研究政治科学(political science)的研究人员提出了一些相关的研究成果。
例如在一些相关工作中,作者分别以俄罗斯高加索地区(Russia’s North Caucasus)犯罪数据以及茅茅起义数据(Mau Mau rebellion)为数据集,分析事件发生地与政治事件之间的关系,两篇文章均使用了地名字典库作为事件发生地分析的依据,这种方式的优点是提高了地点识别的精准度(precision),但缺点是如果出现了其中不存在的地名便无法识别,模型也难以在其他系统中复用。
[0003]事件的分析需要对文本信息进行处理,识别文本中的位置名称是命名实体识别(NER)的一部分。
目前,众多的研究人员就NER技术以及事件提取技术等方面进行了广泛的研究工作,并取得了很多重要的研究成果。
Agarwal等提出的模型结合了Stanford NER工具和基于概念的词汇表,从推文中提取位置信息。
为了从提取的位置短语中滤除噪声项,他们使用了具有以下三个特征的朴素贝叶斯分类器,分别是单词本身的POS标签,该单词前后各三个单词。
为了消除地名的歧义,作者从世界地名录数据的倒排索引搜索和谷歌地图API的搜索组合中提取了经度和纬度信息用于地理位置的优化。
Kazama等提出使用动词和多字名词之间依赖关系的大规模聚类来构建用于检测日文文本中的命名实体的地名词典。
他们认为,由于依赖关系捕获了多个单词的语义,因此他们的集群字典是NER的一个很好的地名词典。
此外,他们还将群集地名录与从维基百科中提取的地名词典相结合,以提高准确性。
Ozer Ozdikis等提出了运用词汇之间的范式关系抽取Twitter文本中地点发生地的方式,由于其规定的范式有限,所以算法并不具有普适性;综上所述,现有技术在解决特定人物的表征问题时缺少对语义结构信息的分析,且当新闻文本中出现多个地名时难以分辨新闻发生的地点。
发明内容
[0004]鉴于以上问题,本发明提出一种面向人物表征的新闻文本发生地抽取方法,用以解决在人物表征过程中现有的命名实体识别算法缺少语义结构信息分析,导致新闻文本中出现多个地名时难以分辨新闻发生地的问题。
[0005]一种面向人物表征的新闻文本发生地抽取方法,包括以下步骤,
[0006]步骤一、建立新闻文本数据集;
[0007]步骤二、对新闻文本数据集中新闻文本进行预处理;
[0008]步骤三、利用命名实体识别算法对预处理后的新闻文本的句子中的实体及实体类别进行标注;
[0009]步骤四、对预处理后的新闻文本中的段落特征进行标注,包括段落文本类别特征提取、段落词性特征标注和段落语义依存关系标注;
[0010]步骤五、对预处理后的新闻文本中的句子特征进行标注,包括新闻文本与句子的类别特征提取,句子与标题的相对距离特征提取,句子标题相似度特征提取以及相邻句子相似度提取;
[0011]步骤六、对预处理后的新闻文本中的词特征进行标注,包括地名地理特征提取和地名频次特征提取;
[0012]步骤七、对经过步骤三、步骤四、步骤五、步骤六标注后的新闻文本中的发生地关系进行抽取,构建新的地名实体知识图谱;
[0013]步骤八、根据所述新的地名实体知识图谱,采用基于深度森林算法gcForest对新闻文本数据集中的新闻发生地进行预测抽取。
[0014]进一步地,步骤二中所述预处理包括缩略词处理、指代消解和词向量微调。
[0015]进一步地,所述缩略词处理包括通过构建的缩略词词库将缩略词进行展开,以识别新闻文本中出现的指代性缩略词;所述指代消解包括通过对句子进行语义结构分析,将句子中的指代词替换为相对应的名词实物;所述词向量微调包括引入预训练语言模型Bert,根据新闻文本数据集对Bert模型生成的词向量进行微调,获得词向量结果。
[0016]进一步地,步骤四中所述段落文本类别特征提取包括通过文本分类算法判断新闻文本所属类别;所述段落词性特征标注包括结合POS tagging词性标注方法构建Bi-LSTM模型,获得段落词性特征标注;所述段落语义依存关系标注包括通过对句子语义结构分析,获得段落语义依存关系标注。
[0017]进一步地,步骤五中所述新闻文本与句子的类别特征提取包括通过文本分类算法判断句子所属类别,并将该类别与段落文本类别特征进行比较来判断句子与整篇新闻文本的相关度;所述句子与段落标题的相对距离特征提取包括通过对新闻文本长度及句子,与新闻文本标题距离的计算,获得句子与段落标题的相对距离;所述句子标题相似度特征提取包括通过文本相似度算子计算句子与标题的相似度;所述相邻句子相似度提取包括通过文本相似度算子计算句子与其相邻句子的相似度。
[0018]进一步地,步骤六中所述地名地理特征提取包括对已知地名数据集及已知地名实体知识图谱信息的查询,获得地名的行政区划、经纬度;所述地名频次特征提取包括结合地名地理特征获取的地名的出现频次特征对叫法不同但指代地点相同的地名进行分析。
[0019]进一步地,步骤七具体包括以下步骤,
[0020]步骤七一、采取基于Bi-LSTM的关系抽取方法分析新闻文本句子中实体间的关系;[0021]步骤七二、训练关系抽取模型KGM,并使用所述关系抽取模型KGM从新闻文本中抽取出构成关系的地名实体对;
[0022]步骤七三、将实体对加入到地名实体知识图谱中,即获得新的地名实体知识图谱。
[0023]进一步地,步骤八具体包括以下步骤,
[0024]步骤八一、使用动态扫描窗对待抽取新闻数据集进行多粒度扫描,获得待抽取新闻数据集的特征向量;
[0025]步骤八二、将得到的特征向量输入到级联森林模型中进行预测训练,获取新闻发生地抽取结果。
[0026]进一步地,步骤八二中级联森林模型中每一层选取多种不同类型的随机森林。
[0027]进一步地,步骤八二中级联森林模型中每一层输入数据通过以下步骤获取,每个随机森林中的每一个决策树对于输入特征向量会产生一个针对生成类别的分布向量,将所有决策树产生的分布向量进行平均,获取每个随机森林对应的类分布向量;然后将每个随机森林输出的类分布向量与初始输入特征向量进行拼接,作为下一层的输入数据。
[0028]本发明的有益技术效果是:在人物画像应用中,针对人物表征过程中命名实体识别算法缺少语义结构信息分析,导致新闻文本中出现多个地名时难以分辨新闻发生地的问题,提出一种全新的基于深度森林算法以及知识图谱的面向人物表征的新闻文本发生地抽取方法,相比于经典的命名实体识别方法,加入了对于语义信息的理解,具有较高的准确度,实现了较高的新闻文本发生地识别率和鲁棒性。
附图说明
[0029]本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。
所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。
[0030]图1示出了根据本发明实施方式一种面向人物表征的新闻文本发生地抽取方法的示意性流程图。
具体实施方式
[0031]在下文中将结合附图对本发明的示范性实施例进行描述。
为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。
然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。
此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本发明内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
[0032]本发明将新闻中所描述的主题内容称为该篇新闻的文本事件,新闻文本事件定义如下:一个新闻文本事件至少要有一个参与者和事件触发词:参与者可以是人或者指代词(美国总统,她,我)、动物(猫,狗)、物体(火车,飞机),通常情况下文本事件参与者都是作为主语或宾语出现;文本事件触发词同时是动词,描述了一个行为或者结果;且文本事件与文本主题密切相关。
新闻文本事件包含几大要素:包括时间、地点、人物等,由于文本事件与文本主题密切相关,则文本事件地点即本发明所要抽取的发生地,称之为新闻文本发生地。
[0033]针对人物表征过程中命名实体识别算法缺少语义结构信息分析,导致新闻文本中出现多个地名时难以分辨新闻发生地的问题,本发明提出一种全新的基于深度森林算法以及知识图谱的面向人物表征的新闻文本发生地抽取方法,抽取人物相关新闻文本的发生地可作为该人物地理属性的一部分,从而进一步完善该人物的人物表征。
图1示出了根据本发明实施方式一种面向人物表征的新闻文本发生地抽取方法的示意性流程图。
[0034]该方法包括以下步骤:
[0035]步骤一、建立新闻文本数据集;
[0036]根据本发明实施例,本发明采用的两个数据集为The Atrocities Event Data新闻数据集和自行爬取的网络新闻数据集,其中,The Atrocities Event Data是关于若干地点的暴行和大规模杀戮的新闻报道的集合,数据集中已进行人工标注,标注注释包括受害者、焦点位置以及报告事件的报告;自行爬取的网络新闻数据集是从近100个英文新闻网站中使用网络爬虫爬取得到的共334782条新闻文本。
[0037]步骤二、对新闻文本数据集中新闻文本进行预处理,从而使得新闻文本中的句子包含的信息更充实;其中,预处理包括缩略词处理、指代消解和词向量微调;
[0038]缩略词处理包括通过构建的缩略词词库将缩略词进行展开,以识别新闻文本中出现的指代性缩略词;
[0039]根据本发明实施例,在英文文本中,通常具有大量的缩略词,比如通常使用NYC表示New York City,使用US表示United States等,本发明建立了一个与地名有关的缩略词库,可以将其理解为一个“缩略词-地名”的字典。
处理时将新闻文本中遇到的缩略词在缩略词词库中进行搜索,如果存在则替换为完整的地名,否则不进行处理。
[0040]指代消解包括通过对句子进行语义结构分析,将句子中的指代词替换为相对应的名词实物,以避免之后的步骤中对于语义的理解出现偏差。
[0041]根据本发明实施例,在新闻文本中关于地名指代可能会出现两种不同的情况:1)在前文中提及了某城市的名称,如White House,在后文中可能会使用The House指代前文的White House;2)极少数新闻中可能会出现包含our country、our city等词的句子。
这些情况都是噪声,为了避免这种情况,本发明先对训练集中的每篇新闻文本进行指代消解,去除噪声,提高特征提取的效果进而能够提升最终的抽取结果。
[0042]词向量微调包括引入预训练语言模型Bert,根据新闻文本数据集对Bert模型生成的词向量进行微调,获得词向量结果;
[0043]根据本发明实施例,现有模型无法理解自然语言的词语,因此需要将这些词转化为机器能够理解的向量,简单的做法是用一个高维的向量表示词,将这些词进行编码,即可用向量表示词。
Bert模型是基于Transformers架构的双向编码器,通过对左右的上下文的联合来预训练未标记文本得到深层的双向表示,是一个能力较强的预训练模型。
[0044]步骤三、利用命名实体识别算法对预处理后的新闻文本的句子中的实体及实体类别进行标注;
[0045]根据本发明实施例,通过引入命名实体识别算法spaCy(开源的第三方库),将句子中的实体及实体类别进行标注,为之后步骤中的地点判定提供依据。
首先对新闻文本进行实体识别,识别出其中的人名与地名集合后,再对新闻文本进行人工标注。
[0046]步骤四、对预处理后的新闻文本中的段落特征进行标注,包括段落文本类别特征提取、段落词性特征标注和段落语义依存关系标注。
[0047]步骤四一、段落文本类别特征提取包括通过文本分类算法判断新闻文本所属类别;
[0048]根据本发明实施例,将新闻文本分成9个类别,分别是食品安全、突发事件、民生权益、吏治反腐、社会矛盾、政治、经济、军事以及其他;目前已知的文本分类算法有很多,比如
贝叶斯分类算法、K近邻算法、决策树、遗传算法等,本发明中文本分类算法采用非监督学习算法-隐含狄利克雷分布LDA算法。
[0049]步骤四二、段落词性特征标注包括结合POS tagging词性标注方法构建Bi-LSTM模型,获得段落词性特征标注;
[0050]根据本发明实施例,长短期记忆网络LSTM(Long Short-Term Memory)是一个特殊的循环神经网络,前向的LSTM与后向的LSTM结合成Bi-LSTM模型,该模型通过深度学习方法可以获得较高的词性标注准确率。
[0051]步骤四三、段落语义依存关系标注包括通过对句子语义结构分析,获得段落语义依存关系标注。
[0052]步骤五、对预处理后的新闻文本中的句子特征进行标注,包括新闻文本与句子的类别特征提取,句子与标题的相对距离特征提取,句子标题相似度特征提取以及相邻句子相似度提取。
[0053]步骤五一、新闻文本与句子的类别特征提取,包括通过文本分类算法判断句子所属类别,并将该类别与段落文本类别特征进行比较来判断句子与整篇新闻文本的相关度;[0054]根据本发明实施例,句子与整篇新闻文本的相关度高说明句子中包含新闻发生地的可能性大。
[0055]步骤五二、句子与段落标题的相对距离特征提取,包括通过对新闻文本长度及句子,与新闻文本标题距离的计算,获得句子与段落标题的相对距离;
[0056]根据本发明实施例,由于大多数新闻文本具有主题句大多位于段落较前位置的特征,计算句子与标题的相对距离可作为判定句子重要程度的依据。
[0057]步骤五三、句子标题相似度特征提取,包括通过文本相似度算子计算句子与标题的相似度;
[0058]根据本发明实施例,使用TF-IDF算法计算句子与标题之间的相似度,句子与标题的相似度可作为该句子是否是文章的中心句子的判断依据。
[0059]步骤五四、相邻句子相似度提取,包括通过文本相似度算子计算句子与其相邻句子的相似度;
[0060]根据本发明实施例,使用TF-IDF算法计算相邻句子之间的文本相似度,用以解决在自然语言文本中可能会出现的事件指代现象,即可能在一篇文章中出现如下的情况:在某关联度很高的句子中不包含任何地名,其后的句子中出现了地名,但与标题的相似度不高。
因此,在抽取发生地时需要考虑附近关联度。
[0061]步骤六、对预处理后的新闻文本中的词特征进行标注,包括地名地理特征提取和地名频次特征提取。
[0062]步骤六一、地名地理特征提取,包括对已知地名数据集及已知地名实体知识图谱信息的查询,获得地名的行政区划、经纬度;
[0063]根据本发明实施例,已知地名数据集为Mordecai数据集。
[0064]步骤六二、地名频次特征提取,包括结合地名地理特征获取的地名的出现频次特征对叫法不同但指代地点相同的地名进行分析。
[0065]步骤七、对经过步骤三、步骤四、步骤五、步骤六标注后的新闻文本中的发生地关系进行抽取,构建新的地名实体知识图谱。