基于Sentence2vec与半监督算法的中文问答提问模式抽取
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
0
引言
随着移动互联网的普及与发展,大量结构各异、不同领
域的文本不断涌现。为了从这些开放式的文本中抽取非限定 类型的关系实例,开放式关系抽取的概念被提出 [1]。关系抽取 作为信息抽取中的重要步骤,最终目的是建立文本中实体或 事件间语义逻辑上的关联,并形成结构化表示
[2 ,3]
。问答对是
其中一种特殊形式的文本。作为人工客服记录、社区论坛页 面文档、智能搜索引擎等众多类型文本的载体,问答对包含 着丰富的信息与知识,面向问答对的开放式关系抽取正成为 业界研究的热点。 问答对是一种上下文具有逻辑关联性的文本,孤立的问
————————————————————————————————————————————————
基于 Sentence2vec 与半监督算法的中文问答提问模式抽取
作者 机构 DOI 预排期卷 摘要 张金壬,章韵,王宇 南京邮电大学 计算机学院、软件学院、网络空间安全学院 10.3969/j.issn.1001-3695.2018.01.0020 《计算机应用研究》 2019 年第 36 卷第 7 期 关系抽取是信息抽取中一项重要任务,在处理问答对形式的文本时,除了文本中实体间的关 系抽取之外,作为连接问句和答句之间关系的提问模式同样需要抽取。通过有监督的标注算 法 ( 条件随机场) 与基于模板元组自举的半监督算法的结合在抽取实体间关系时有不错的表 现。但传统半监督中发现句式模板的方式难以迁移到提问模式抽取中,针对这种情况通过引 入句向量计算文本相似度并选取句式模板, 提出一种基于 sentence2vec 技术与半监督算法结 合的模型。对于最终实验,采用随机抽样进行验证。实验结果表明,相较于传统的半监督算 法,本文的方法得到了更高的准确率和召回率。 关键词 作者简介 关系抽取;提问模式;条件随机场;自举;句向量 张 金 壬 ( 1991- ) ,男,江苏扬州人,硕士研究生,主要研究方向为自然语言处理 (zhangjinren@) ;章韵,男,江苏南京人,教授,硕导,博士研究生,主要研究 方向为计算机通信、无线传感及云计算;王宇(1992-) ,男,江苏南京人,博士研究生,主要 研究方向为自然语言处理. 中图分类号 访问地址 投稿日期 修回日期 发布日期 引用格式 TP391 /article/02-2019-07-016.html 2018 年 1 月 10 日 2018 年 3 月 8 日 2018 年 4 月 12 日 张金壬, 章韵, 王宇. 基于 Sentence2vec 与半监督算法的中文问答提问模式抽取[J/OL]. 2019, 36(7). [2018-04-12]. /article/02-2019-07-016.html.
—————————— 收稿日期:2018-01-10;修回日期:2018-03-08
作者简介:张金壬(1991-) ,男,江苏扬州人,硕士研究生,主要研究方向为自然语言处理( zhangjinren@) ;章韵,男,江苏南京人,教授, 硕导,博士研究生,主要研究方向为计算机通信、无线传感及云计算;王宇(1992-) ,男,江苏南京人,博士研究生,主要研究方向为自然语言处理.
为连接问句和答句之间关系的提问模式同样需要抽取。通过有监督的标注算法(条件随机场)与基于模板元组自举的半 监督算法的结合在抽取实体间关系时有不错的表现。但传统半监督中发现句式模板的方式难以迁移到提问模式抽取中, 针对这种情况通过引入句向量计算文本相似度并选取句式模板,提出一种基于 sentence2vec 技术与半监督算法结合的 模型。对于最终实验,采用随机抽样进行验证。实验结果表明,相较于传统的半监督算法,本文的方法得到了更高的 准确率和召回率。 关键词:关系抽取;提问模式;条件随机场;自举;句向量 中图分类号:TP391 doi: 10.3969/j.issn.1001-3695.2018.01.0020
对于关系聚类的结果无法定义,而且对于低频的关系表述难 以抽取,因此无监督算法一般不独立解决抽取问题。无监督 算法中基于深度学习的文本聚类思想与其他机器学习算法结 合是目前主流的方法,其中基于稀疏表示的分类( SRC)方法 在模式识别和机器学习方面取得了许多成功 sentence2vec[12]
[11]
[19]
身过于依赖特征模板构建以及大量人工标注量,当数据量增 大时,算法无法有效覆盖数据。半监督算法能够有效提升召 回率,经典的如 DIPRE[8] ,该方法的关键在于如何发现包含正 ”[9] 的现象。无
确元组的句子模式,传统做法,出现“语义漂移
[10]
监督算法的思路是对可能包含关系词的文本进行聚类,将聚 类结果中的高频词作为关系类型 。无监督学习的问题在于
Question pattern extraction based on Sentence2vec and semi-supervised algorithm for Chinese Q&A
Zhang Jinren, Jin Yun, Wang Yu
(School of Computer Science, Nanjing University of Posts & Telecommunications, Nanjing 210003, China) Abstract: Relation extraction is an important task in information extraction. While dealing with the question-answer pairs, in addition to the relations among the entities in the texts, the question pattern as the relation connected questions and the answers also needs to be extracted. The combination of the supervised labeling algorithm (conditional random field) and the semisupervised algorithm based on a feature template (bootstrapping) has a good performance when extracting relationships between entities. However, the method to find the template in the traditional semi-supervised algorithm was hard to move to the extraction of the question pattern. Therefore, a model based on the combination of sentence2vec technology and semi-supervised algorithm is proposed, which introduce the sentence vector to calculate the text similarity and select the sentence template. Random sampling validation is used to verify the final result. The experimental results show that the method has higher precision and recall values than the traditional semi-supervised algorithm. Key words: Relation extraction; Question pattern; Conditional random field; Bootstrapping; sentence2vec 句或者答案在内容和逻辑上是缺失的。而连接问句与答案的 关系就是提问模式。针对问答对形式的文本,关系抽取包括 提问模式抽取(即问题与答案之间的关系)及内容关系抽取 (即实体与实体间的关系)[4]。目前,针对实体间关系抽取的 研究较为成熟,但将部分算法迁移到提问模式抽取时,算法 的性能会下降。中文问答对当中的提问模式抽取挑战在于, 除去一些规整的特殊字符,提问模式的表述方式会有很多, 甚至相互文本之间的间隔很远。另外中文当中的一词多义情 况也是需要克服的问题。完善面向问答对的关系抽取技术, 对理解用户语义和提问意图、构建智能问答系统、促进建立 知识库等方面有着重要意义[5]。 目前提问模式抽取的方法主要分为基ence2vec 与半监督算法的中文问答提问模式抽取
第 36 卷第 7 期
机器学习两种方法。在面向开放式问答对的抽取过程中,需 要充分考虑文本的冗余性以及抽取方法的轻量化,因此,基 于规则模板和模式学习等知识工程方法[6]由于本身移植性和覆 盖率等问题无法很好的解决开放式提问模式抽取。 基于机器学习的方法可以分为三种:有监督算法、半监 督算法和无监督算法。在有监督学习中,一些传统算法能够 准确抽取出关系元组,如基于图模型的算法 CRF[7] ,但算法本
。
。
就是一种轻量级基于深度学习的无监督稀疏表
2
提问模式抽取模型
示算法,本文将利用其在计算文本相似度方面的优异性能用 于改进半监督算法。 为了提升提问模式抽取的性能,本文提出一种基于 sentence2vec 的半监督算法模型。在提问模式的关系元组中, 提问模式的两端可能是实体,也可能是多个实体与关系构成 的事件。为了便于描述,结合 TAC 对事件的定义,本文将问 题中除了提问模式的字符串序列(即对提问内容的描述部分) 称为提问事件 E1,答案字符序列称为对 E1 的答案事件 E2,提 问模式为两者之间的关系 R ,最终将一条问答对生成形如 (E1, R,E2)的三元组。本文的方法首先通过有监督算法得到提问模 式的种子集,再通过半监督算法用以扩充抽取元组量,对传 统半监督算法中通过匹配实体发现句式的方法提出了改进, 利用 sentence2vec 技术与半监督算法结合,与传统方法对比实 验结果表明,本文的算法抽取的正确提问模式数量明显增加, 覆盖率也有了明显的提升,有效的提升了半监督算法的性能。
已经有不少成果, Brin 等利用半监督学习的方法,设计出 DIPRE(Dual Iterative Pattern Relation Expansion )系统。 该系统通过对少量种子模板的不断迭代,实现了自动抽取 Web 页面上的实体信息和实体关系。Banko 等人首次提出了 OpenIE (OIE)的概念,他设计的 TextRunner 系统采用启发式规则进 行自动标注得到种子模板,并对种子模板学习生成分类器, 进而进行抽取[15]。Wu 等人提出的 WOE 又借助维基百科的条 目属性等信息进行标注,提高了标注的质量[16]。 中文领域中的关系抽取目前也取得了很多成果。吴友政 等提出一种基于无监督算法的提问模式抽取方法,结合模板 匹配,在面向开放式文本抽取时,取得了不错的效果 [17] 。刘 安安等人设计了面向句子级的开放式关系抽取系统 TMS ,该 系统通过启发式的模板对其进行筛选,在句子级的关系抽取 比传统的方式性能有所提升 [18] 。王明印等人提出了 SCOERE 的半监督开放式关系抽取方法,对的句子进行二元实体关系 进行标注,并通过自学习的方式提高了监督学习方法的性能
第 36 卷第 7 期 优先出版
计算机应用研究 Application Research of Computers
Vol. 36 No. 7 Online Publication
基于 Sentence2vec 与半监督算法的中文问答提问模式抽取
张金壬,章 韵,王 宇
(南京邮电大学 计算机学院、软件学院、网络空间安全学院, 南京 210003) 摘 要:关系抽取是信息抽取中一项重要任务,在处理问答对形式的文本时,除了文本中实体间的关系抽取之外,作