基于BI-LSTM-CRF模型的限定领域知识库问答系统

合集下载

基于知识图谱问答系统的技术实现

基于知识图谱问答系统的技术实现

文章编号:2096-1472(2021)-02-38-07DOI:10.19644/ki.issn2096-1472.2021.02.008软件工程 SOFTWARE ENGINEERING 第24卷第2期2021年2月V ol.24 No.2Feb. 2021基于知识图谱问答系统的技术实现魏泽林1,2,张 帅1,2,王建超1,2(1.大连东软信息学院,辽宁 大连 116023;2.大连东软教育科技集团有限公司研究院,辽宁 大连 116023)*******************;*********************;***********************摘 要:知识图谱是实现对话机器人的一类重要工具。

如何通过一套完整流程来构建基于知识图谱的问答系统是比较复杂的。

因此,本文从构建基于知识图谱的问答系统的全流程角度总结了多个主题:知识图谱类型、知识图谱构建与存储、应用在知识图谱对话中的语言模型、图空间内的语义匹配及生成。

进一步,本文在各主题的垂直领域归纳了常用方法及模型,并分析了各子模块的目的和必要性。

最后,本文通过总结出的必要模块及流程,给出了一种基于知识图谱的问答系统的基线模型快速构建方法。

该方法借助了各模块的前沿算法且有效地保证了拓展性、准确性和时效性。

关键词:知识图谱;问答系统;对话机器人;语言模型;语义匹配中图分类号:TP183 文献标识码:AImplementation of Question Answering based on Knowledge GraphWEI Zelin 1,2, ZHANG Shuai 1,2, WANG Jianchao 1,2( 1.Dalian Neusoft University of Information , Dalian 116023, China ;2.Research Institute , Dalian Neusoft Education Technology Group Co . Limited , Dalian 116023, China )*******************;*********************;***********************Abstract: Knowledge graph is an important tool for realizing chatbots. The lifecycle of constructing a question answering system based on knowledge graph is a complex task. This paper summarizes a number of topics from the perspective of building a knowledge graph-based question answering system. The topics include knowledge graph types, knowledge graph construction and storage, language models used in knowledge graph dialogue, semantic matching and generation in graph space. Furthermore, this paper summarizes commonly used methods and models in vertical areas of topics, and analyzes the purpose and necessity of sub-modules. A method for quickly constructing a baseline model of a knowledge graph based question answering system will be presented. The proposed method relies on the cutting-edge algorithms and effectively guarantees scalability, accuracy and timeliness.Keywords: knowledge graph; question answering system; chatbot; language model; semantic matching1 引言(Introduction)知识问答系统在二十世纪五六十年代时就已经出现。

基于机器学习的自动智能问答系统设计与实现

基于机器学习的自动智能问答系统设计与实现

基于机器学习的自动智能问答系统设计与实现自动智能问答系统是一类基于机器学习的人工智能应用,这类系统能够理解用户的自然语言问题并给出准确的回答。

在本文中,我们将介绍基于机器学习的自动智能问答系统的设计与实现。

首先,为了建立一个有效的问答系统,我们需要构建一个大规模的问题-答案数据集。

这个数据集应涵盖各种领域的问题和答案,以便系统能够回答用户提出的不同类型的问题。

同时,数据集应具备高质量和多样性,以提高系统的回答准确性和泛化能力。

一种常用的方法是通过爬虫技术从互联网上收集问题-答案对。

我们可以指定特定的网站或社交媒体平台作为数据源,并使用自然语言处理技术提取问题和答案。

另外,我们还可以借助人工标注的方式来构建数据集,即通过人工手动匹配问题和答案。

这种方式虽然比较耗费人力和时间,但可以保证数据集的质量。

接下来,我们需要选择适当的机器学习算法来训练问答系统。

目前,常用的算法包括基于规则的方法和基于机器学习的方法。

前者需要人工编写一系列规则来指导系统回答问题,而后者能够自动学习问题和答案之间的关联。

对于基于机器学习的方法,一种常见的框架是使用深度神经网络模型。

我们可以使用循环神经网络(RNN)或者变种模型如长短期记忆(LSTM)来处理序列数据,即将问题和答案表示为一个序列。

通过将问题和答案编码为向量表示,我们可以计算它们之间的相似度并找到与问题最匹配的答案。

在训练模型时,我们需要为模型提供大量的训练数据。

我们可以将问题和答案作为输入和输出对,使用监督学习的方法来进行训练。

具体来说,我们可以使用梯度下降算法最小化模型的损失函数,以提高模型对问题的准确回答。

然而,仅仅训练一个模型并不能保证其具有良好的性能。

对于一个实际应用的问答系统来说,还需要考虑其他因素。

例如,我们需要实时地检索和匹配问题和答案,这要求系统具备高效的查询能力。

此外,我们还要考虑系统的可扩展性,以应对用户量增加时的负载压力。

在实现一个基于机器学习的自动智能问答系统时,我们还要考虑用户体验。

基于BERT嵌入BiLSTMCRF模型的中文专业术语抽取研究

基于BERT嵌入BiLSTMCRF模型的中文专业术语抽取研究

基于BERT嵌入BiLSTMCRF模型的中文专业术语抽取研究一、概要随着自然语言处理技术的不断发展,中文专业术语抽取已经成为了研究的热点。

本文提出了一种基于BERT嵌入BiLSTMCRF模型的中文专业术语抽取方法。

该方法首先使用BERT模型对文本进行特征提取,然后将提取到的特征输入到BiLSTMCRF模型中进行序列标注。

通过对比实验,我们发现该方法在中文专业术语抽取任务上取得了显著的性能提升。

同时我们还对模型进行了调优和改进,以进一步提高其性能和鲁棒性。

本文的研究为中文专业术语抽取提供了一种有效的解决方案,具有一定的理论和实际应用价值。

1. 研究背景和意义随着自然语言处理技术的不断发展,文本挖掘和信息抽取已经成为了学术界和工业界的热点问题。

在众多的自然语言处理任务中,专业术语抽取是一项具有重要意义的任务。

专业术语是指在特定领域内具有特殊含义和用途的词汇,它们在文本中的出现频率较低,但对于理解文本内容和进行知识推理具有重要价值。

因此研究如何从大量的非结构化文本数据中自动抽取专业术语,对于提高文本分析的效率和准确性具有重要的理论和实际意义。

然而现有的专业术语抽取方法仍然存在一些局限性,首先这些方法主要针对单个领域的专业术语抽取,对于跨领域的专业术语抽取仍存在困难。

其次现有的方法往往需要人工提取特征或设计复杂的模型结构,这增加了算法的复杂性和计算成本。

此外现有方法在处理长文本和多义词等问题时也存在一定的局限性。

2. 相关工作概述在自然语言处理领域,文本挖掘和信息抽取一直是一个重要的研究方向。

针对中文专业术语抽取问题,研究者们提出了许多方法,如基于规则的方法、基于统计的方法和基于机器学习的方法等。

这些方法在一定程度上提高了专业术语抽取的准确性和效率,但仍然存在一些局限性,如对未登录词的处理不足、对长文本的处理能力有限以及对于歧义词汇的处理不够准确等。

近年来随着深度学习技术的快速发展,基于BERT等预训练模型的中文专业术语抽取方法逐渐成为研究热点。

bilstm crf模型ner原理

bilstm crf模型ner原理

bilstm crf模型ner原理BiLSTM-CRF模型是一种用于命名实体识别(NER)任务的神经网络模型,其原理基于双向长短时记忆网络(BiLSTM)和条件随机场(CRF)的组合。

首先,我们来介绍一下BiLSTM。

长短时记忆网络(LSTM)是一种循环神经网络(RNN),用于解决序列数据建模中的长依赖问题。

在传统的RNN中,前面的信息往往会逐渐模糊或丢失,而LSTM通过引入门控机制来选择性地保留和遗忘信息。

LSTM由输入门、遗忘门和输出门组成,每个门根据当前输入和上一状态来决定是否保留或遗忘某些信息。

与传统的单向LSTM不同,BiLSTM通过在序列的前向和后向分别运行两个LSTM来获得更全面的上下文信息。

在BiLSTM的基础上,结合CRF进行序列标注任务的解码。

CRF是一种判别式无向图模型,广泛应用于序列标注问题。

CRF的目标是通过条件概率最大化来选择整个标签序列的最优路径。

在NER任务中,给定输入序列,BiLSTM可以为每个位置输出一个标签分数向量,表示该位置属于各个类别的概率。

然后,通过CRF层,将这些标签分数进行整体优化,在考虑上下文关系的同时,选择最优的标签序列。

BiLSTM-CRF模型的训练过程一般包括两个步骤:前向过程和反向过程。

在前向过程中,输入序列经过BiLSTM层,得到每个位置的标签分数向量;然后,在CRF层中,使用动态规划算法计算整个句子的最优标签序列及其概率。

在反向过程中,通过计算损失函数(如负对数似然)对模型参数进行反向传播更新,使得模型能够学习到更准确的参数。

BiLSTM-CRF模型在NER任务中具有以下优点:1. BiLSTM能够捕捉到上下文信息,包括前后词和字符级别的特征,有助于解决NER中的消歧问题。

2. CRF能够对标签序列进行全局优化,考虑到上下文的依赖关系,提高了模型的准确性。

3. BiLSTM-CRF模型能够处理任意长度的输入序列,适用于多个领域的NER任务。

基于Bi—LSTM—CRF网络的语义槽识别

基于Bi—LSTM—CRF网络的语义槽识别

基于Bi—LSTM—CRF网络的语义槽识别作者:徐梓翔车万翔刘挺来源:《智能计算机与应用》2017年第06期摘要:关键词:中图分类号:文献标志码: A文章编号: 2095-2163(2017)06-0091-04Abstract: The main purpose of natural language understanding is to transform natural language to structural representation. One of the methods of natural language understanding is slot filling. In the slot filling task, the input is natural language and the output is slots which is predefined based on the specified intent, such as from location, to location in flight intent. So the paper treats slot filling task as sequence labeling task, then makes experiments with Bi-LSTM-CRF model on slot filling task. The result shows that Bi-LSTM-CRF model has the significant improvement comparing with traditional statistical methods like CRF. Concretely, F1 is used to evaluate the model results.0引言随着人工智能浪潮的兴起,智能聊天机器人成为人们研究的热门,人们希望机器像人一样思考,与人类对话,并成为人类的帮手。

基于改进Bi-LSTM-CRF的网络安全领域知识图谱构建

基于改进Bi-LSTM-CRF的网络安全领域知识图谱构建

基于改进Bi-LSTM-CRF的网络安全领域知识图谱构建
连耿雄
【期刊名称】《信息技术》
【年(卷),期】2022(46)12
【摘要】针对网络安全领域实体识别,提出基于改进Bi-LSTM-CRF知识图谱的网络安全实体识别方法。

该方法首先通过人工特征模板提取局部上下文特征,然后采用神经网络模型自动提取字符特征和文本全局特征。

实验结果表明,通过参数调整分析后,迭代次数为40、Dropout=0.5、模型微调为true时,此时模型最优,与其他模型相比,提出的模型在网络安全实体数据集上的识别精确率和F值更高。

【总页数】7页(P130-135)
【作者】连耿雄
【作者单位】华南理工大学
【正文语种】中文
【中图分类】TP391
【相关文献】
1.基于BI-LSTM-CRF模型的限定领域知识库问答系统
2.基于属性图模型的领域知识图谱构建方法
3.基于数据增强的领域知识图谱构建方法研究
4.基于自然语言处理的材料领域知识图谱构建方法
5.基于BERT模型的领域知识图谱构建研究
因版权原因,仅展示原文概要,查看原文内容请购买。

基于BiLSTM-IDCNN-CRF模型的生态治理技术领域命名实体识别

基于BiLSTM-IDCNN-CRF模型的生态治理技术领域命名实体识别

第38卷第3期 计算机应用与软件Vol 38No.32021年3月 ComputerApplicationsandSoftwareMar.2021基于BiLSTM IDCNN CRF模型的生态治理技术领域命名实体识别蒋 翔1,2,3 马建霞1,2 袁 慧41(中国科学院西北生态环境资源研究院 甘肃兰州730000)2(中国科学院兰州文献情报中心 甘肃兰州730000)3(中国科学院大学经济与管理学院图书情报与档案管理系 北京100190)4(中国移动通信集团北京有限公司 北京100007)收稿日期:2019-08-11。

国家自然科学基金项目(71373260);国家重点研发计划项目(2016YFC0503706)。

蒋翔,硕士生,主研领域:自然语言处理,情报分析与科技评价。

马建霞,研究馆员。

袁慧,硕士。

摘 要 在生态治理技术领域中,有大量的文献数据没有得到充分的开发与利用。

提出基于字嵌入的BiL STM IDCNN CRF模型,结合BiLSTM网络和IDCNN网络获取到的不同粒度的特征。

在生态治理技术数据集中取得的F1值为0.7207,均高于现有主流模型取得的成绩。

实验验证了字嵌入方法的有效性和模型的性能,同时也为其他文本书写规范不统一且专业性较强的领域命名实体识别提供了思路。

关键词 命名实体识别 自然语言处理 生态治理技术 神经网络 字嵌入中图分类号 TP391.1 TP183 文献标志码 A DOI:10.3969/j.issn.1000 386x.2021.03.020NAMEDENTITYRECOGNITIONINTHEFIELDOFECOLOGICALMANAGEMENTTECHNOLOGYBASEDONBILSTM IDCNN CRFMODELJiangXiang1,2,3 MaJianxia1,2 YuanHui41(NorthwestInstituteofEco EnvironmentandResource,ChineseAcademyofSciences,Lanzhou730000,Gansu,China)2(LanzhouInformationCenter,ChineseAcademyofSciences,Lanzhou730000,Gansu,China)3(DepartmentofLibraryInformationandArchivesManagement,SchoolofEconomicsandManagement,UniversityofChineseAcademyofSciences,Beijing100190,China)4(ChinaMobileCommunicationsGroupBeijingCo.,Ltd.,Beijing100007,China)Abstract Inthefieldofecologicalmanagementtechnology,alargeamountofliteraturedatahasnotbeenfullydevelopedandutilized.ABiLSTM IDCNN CRFmodelbasedoncharacterembeddingisproposed,whichcombinesthedifferentgranularitycharacteristicsobtainedbyBiLSTMnetworkandIDCNNnetwork.TheF1valueobtainedintheecologicalmanagementtechnologydatasetwas0.7207,whichwashigherthantheexistingmainstreammodels.TheexperimentsverifytheeffectivenessofthecharacterembeddingmethodandtheperformanceoftheBiLSTM IDCNN CRFmodel,anditprovidsideasforthenamedentityrecognitioninotherfieldswithdifferenttextwritingnormsandstrongprofessionalism.Keywords Namedentityrecognition Naturallanguageprocessing Ecologicalmanagementtechnology Neuralnetwork Characterembedding0 引 言自然语言处理(NatureLanguageProcessing,NLP)是一门融语言学、计算机科学、数学于一体的交叉学科。

基于CRF和Bi-LSTM的保险名称实体识别

基于CRF和Bi-LSTM的保险名称实体识别

基于CRF和Bi-LSTM的保险名称实体识别陈彦妤;杜明【摘要】在保险领域智能问答应用研究中,用户提问时大量使用缩写、简写的保险名称,降低了问题语义理解的准确率.为解决这个问题,本文提出使用条件随机场(CRF)与双向长短记忆循环神经网络相结合的模型(Bi-LSTM-CRF),加入预先训练好的字嵌入向量进行训练的方法来识别保险名称.实验结果表明,CRF结合双向的LSTM的方法相较于传统机器学习的方法,在保险领域命名实体的识别中具有更好的性能,显著提高了保险名称识别的准确率和召回率.【期刊名称】《智能计算机与应用》【年(卷),期】2018(008)003【总页数】4页(P111-114)【关键词】Bi-LSTM-CRF;命名识别识别;保险智能问答【作者】陈彦妤;杜明【作者单位】东华大学计算机科学与技术学院,上海201620;东华大学计算机科学与技术学院,上海201620【正文语种】中文【中图分类】TP391.1引言社会保险作为现代经济的分支产业和风险管理的基本手段,是衡量经济发达程度和国民生活水平的有效标志。

但是目前大部分民众对于保险领域相关知识却甚少涉猎。

在参保人面临选择、产生问题时,如何利用智能问答[1]相关技术,准确理解用户的查询意图,为其提供专业、精准的问答服务,更好地辅助参保人做出选择即已成为互联网保险领域的热门趋势。

但保险行业是一个门类庞杂、内容泛化的实践领域。

且保险领域内的许多专有名词,例如保险名称,字数普遍较多,且构成较为复杂。

所以人们在提出问题时常常不能准确地表达出完整的保险名称,而是使用简写、别名等方式进行描述,甚至常常会发生错别字、歧义等混淆事件。

这种情况给用户问句的理解带来了很大的困难。

同时,句子内的标点符号、句子构成方式、空格等都会对保险名称的识别造成重大影响。

综上分析可知,研究识别用户问句中的保险名称则有着不可忽视的实际应用价值。

1 相关工作目前,学术界对于命名实体识别[2]的研究,根据模型和算法的不同,现已陆续推出了成效可观的各类技术成果,对其可给出如下重点表述。

基于改进BiLSTM-CRF模型的网络安全知识图谱构建

基于改进BiLSTM-CRF模型的网络安全知识图谱构建

现代电子技术Modern Electronics TechniqueMar. 2024Vol. 47 No. 62024年3月15日第47卷第6期0 引 言随着互联网技术的发展,企业的网络资产比重逐渐增大。

根据2022年中国互联网发展报告[1]显示,来自网络空间的安全威胁愈发严重,经济财产损失风险逐年攀升。

前沿网络安全防控智能化技术更注重于从全维度、多视角的方面来感知网络空间威胁,而挖掘企业各类网络攻击的关联性、策略、后果等要素能够有效地提升企业对网络安全运维管理的效率[2]。

知识图谱(Knowledge Graph, KG )通过在特定领域海量数据中抽取的知识构建领域知识图谱,数据规模、特殊语义关系使其实用性变得更强[3]。

目前,企业内的网络空间中所存在的威胁知识大部分没有形成很好的知识组织,在面向企业的网络安全运维的场景下,缺少能够有效涵盖网络空间威胁信息、反映企业网络安全态势以及支撑辅助安全决策的知识图谱;开源的漏洞信息库和威胁信息库等大多都是半结构化知识,而企业日常的网络安全运维数据中又包含大量的结构化和非结构化的报告,这些异构数据难以被企业直接利用来进行网络空间的防护。

知识图谱能够有效地整合这些存在潜在联系的网络安全运维相关知识,将离散的多源异构数据通过基于深度学习的信息提取模DOI :10.16652/j.issn.1004‐373x.2024.06.003引用格式:黄智勇,余雅宁,林仁明,等.基于改进BiLSTM‐CRF 模型的网络安全知识图谱构建[J].现代电子技术,2024,47(6):15‐21.基于改进BiLSTM⁃CRF 模型的网络安全知识图谱构建黄智勇1,2, 余雅宁1, 林仁明2, 黄 鑫1, 张凤荔1(1.电子科技大学 信息与软件工程学院, 四川 成都 610054; 2.四川省市场监督管理局数据应用中心, 四川 成都 610066)摘 要: 针对网络安全领域的图谱构建任务,基于BiLSTM‐CRF 模型引入了外部网络安全词典来加强网络安全文本的特征,并结合多头注意力机制提取多层特征,最终在网络安全数据集取得了更优异的结果。

bilstm crf模型ner原理

bilstm crf模型ner原理

bilstm crf模型ner原理BILSTM-CRF模型在命名实体识别(NER)任务中如何发挥作用?命名实体识别(NER)是自然语言处理(NLP)中的一个重要任务,其目标是从给定的文本中识别出具有特定意义的实体,例如人名、地名、机构名等。

BILSTM-CRF模型是一种经典的用于NER任务的深度学习模型,其结合了双向长短期记忆网络(BILSTM)和条件随机场(CRF),旨在克服传统机器学习方法在NER中的局限性。

首先,让我们了解一下BILSTM模型和CRF模型的原理:BILSTM(双向长短期记忆网络)模型是一种循环神经网络(RNN)的变体,它能够有效地捕捉文本中的上下文信息。

BILSTM通过正向和反向两个LSTM对输入序列进行处理,正向的LSTM按照正常的顺序读取序列,而反向的LSTM则按照相反的顺序读取序列。

通过这种方式,BILSTM能够同时考虑到当前单词的前后上下文信息,从而更好地抓住单词的语义特征。

CRF(条件随机场)是一种统计模型,主要用于序列标注任务。

在NER任务中,CRF模型帮助我们对标注的序列进行建模,对于每个标签之间的转移概率进行建模,从而使得整个序列的标签预测更加准确。

CRF模型通过定义一组特征函数来捕捉输入序列和标记序列之间的关系,并通过最大化条件概率来进行参数的估计和预测。

BILSTM-CRF模型将BILSTM和CRF两个模型结合起来,形成一个端到端的模型框架。

首先,BILSTM通过双向处理序列,提取了丰富的上下文特征。

然后,将BILSTM的输出作为CRF的输入,CRF模型通过定义特征函数和转移概率来对输出序列进行建模,从而得到最终的标签预测结果。

BILSTM-CRF模型相比传统机器学习方法有以下几个优势:首先,BILSTM-CRF模型能够有效地捕捉文本中的上下文信息。

传统的机器学习方法通常会将每个单词作为独立的特征进行处理,忽略了单词之间的关系。

而BILSTM-CRF模型通过双向处理序列,能够充分考虑到单词的上下文信息,从而更好地捕捉单词的语义特征。

bilstm crf模型ner原理

bilstm crf模型ner原理

bilstm crf模型ner原理BILSTM-CRF模型NER原理序言命名实体识别(Named Entity Recognition, NER)是自然语言处理中一个重要的任务,可以从大量的文本数据中提取出有关人名、地名、组织机构名、时间、日期和数量等实体信息,对信息抽取、信息检索、信息聚类和信息推荐等领域都有着重要的应用,如金融信息提取、新闻热点分析、医学实体识别等。

目前NER的主流方法主要有规则模板、统计分析和深度学习等。

其中深度学习方法已经成为新一代的NER模型,取得了很好的效果。

本文简单介绍了深度学习NER模型BILSTM-CRF的原理,提供了一些相关的技术知识。

一、BILSTM-CRF概述BILSTM-CRF模型是将双向长短时记忆网络(Bidirectional Long Short-Term Memory,BILSTM)和条件随机场模型(Conditional Random Field,CRF)结合起来的一种模型,主要应用于序列标注任务中,如命名实体识别、词性标注、语义分析等。

该模型是在BILSTM 模型的基础上,增加了CRF层来提高模型的性能。

BILSTM-CRF模型的输入是一段文本序列,输出是相应的标签序列,其中标签用于表示文本中的实体或其他语言学信息。

在预测标签时,模型利用文本序列中的上下文信息,从而可以更准确地识别实体。

二、BILSTM模型BILSTM模型是一种适用于序列标注问题的神经网络模型,它可以从输入序列中抽取高纬度的特征信息,从而更好地捕捉上下文信息。

BILSTM模型由两个LSTM网络组成,一个向前LSTM和一个向后LSTM,其具体操作方式如下:在BILSTM中,输入序列首先通过前向LSTM和反向LSTM生成两个隐藏状态序列$h^{f}$和$h^{b}$,然后将两个隐藏状态序列连接起来,形成一个新的隐藏状态序列$h_{i}=[h^{f}_{i};h^{b}_{i}]$,其中“;”表示连接运算符。

人工智能自然语言技术练习(习题卷13)

人工智能自然语言技术练习(习题卷13)

人工智能自然语言技术练习(习题卷13)第1部分:单项选择题,共45题,每题只有一个正确答案,多选或少选均不得分。

1.[单选题]关于梯度下降是一个什么样的算法,什么样的思想,下列说法正确的是A)迭代优化B)一次求解C)求解函数最大值D)迭代求代价函数最小值答案:A解析:2.[单选题]下列 Python 中的预定义字符描述正确的是( )。

A)\w:与\W 反义,非数字、非字母和非字B)\s:空白字符C)\D:数字D)\d:非数字答案:D解析:3.[单选题]大五码是()地区标准汉字字符集(CNS11643)。

A)美国B)欧洲C)中国台湾D)中国大陆答案:C解析:4.[单选题]KS检验与卡方检验的相同点A)处理方式相同B)得到的效果相同C)二者都用于类别数据D)都采用实际频数和期望频数只差进行检验答案:D解析:5.[单选题]Bagging在做回归任务的时候最终是如何得到结果的?A)每个基学习器预测结果进行平均B)每个基学习器预测结果进行投票,得票数最多的类为预测类C)从众多分类结果中,随机出来一个结果D)不去定答案:A解析:6.[单选题]真正正确的占所有预测为正的比例,这个计算方式可以计算出来什么?A)精确率答案:A解析:7.[单选题]感知器的学习规则属于()A)梯度下降法B)飞度法C)ADB算法D)梯度上升法答案:A解析:8.[单选题]BP算法最早时,是在以下哪个任务中得到了最早的应用A)手写数字识别B)CPUC)GPUD)不确定答案:A解析:9.[单选题]在命题逻辑中,知识以()的形式表示。

A)公式B)方程C)值D)数值答案:A解析:10.[单选题]词义消歧可以看成是一种标注问题,但是要使用()A)词性标记B)语性标记C)词义标记D)语义标记答案:D解析:11.[单选题]从工程的角度出发去看,随机森林有什么优点A)随机森林的每棵树训练是相互独立的,可以串行生成,调高训练的效率B)随机森林的每棵树训练是相互独立的,可以并行生成,调高训练的效率C)随机森林的每棵树训练是相互独立的,可以并行生成,降低训练的效率D)不确定答案:B解析:12.[单选题]下述( )不是人工智能中常用的知识格式化表示方法。

基于语言模型的问答系统设计与实现

基于语言模型的问答系统设计与实现

基于语言模型的问答系统设计与实现随着人工智能技术的不断发展,基于语言模型的问答系统也越来越得到广泛应用。

此类问答系统可以自主进行语言理解、信息抽取和答案生成,大大提高了人们对于知识的获取效率。

本篇文章将就基于语言模型的问答系统的设计与实现进行探讨。

一、问答系统的基本概念问答系统(Question Answering, QA)指的是一类可以直接回答用户提问的自然语言处理系统。

它通过对自然语言进行语义分析,寻找与问题相关的信息,然后将答案准确地表述成自然语言。

问答系统可以分为两类:基于检索的问答和基于知识图谱的问答。

前者是指从大规模的文本中查找与问题相似的语句,并从中选取其中最相关的部分作为答案。

后者是指根据预先构建的知识图谱(即用图谱表示的知识体系),在图谱中查找相关实体并进行推理。

二、基于语言模型的问答系统的设计语言模型是指用概率方法描述语言的一种形式化模型。

在问答系统中,语言模型用于对输入的自然语言进行理解。

基于语言模型的问答系统通常由以下几个模块构成:1. 语言理解模块:该模块用于对输入的自然语言进行初步分析,包括分词、词性标注、实体识别和语法分析等。

在该模块中可以采用一些深度学习模型,例如循环神经网络(Recurrent Neural Network, RNN)和长短时记忆网络(Long Short-Term Memory, LSTM),以获得更好的语言理解效果。

2. 信息抽取模块:该模块用于从输入的文本中抽取与问题相关的信息,例如实体、属性和关系等。

在信息抽取模块中可以采用一些开源的工具,例如Stanford CoreNLP和OpenIE等。

3. 答案生成模块:该模块用于将抽取出的信息转化成自然语言表述的答案。

在答案生成模块中可以采用一些生成式模型,例如神经机器翻译(Neural Machine Translation, NMT)和循环神经网络语言模型(Recurrent Neural Network Language Model, RNNLM)等。

基于深度学习的智能问答系统综述2024

基于深度学习的智能问答系统综述2024

引言概述:随着技术的发展,智能问答系统在信息检索和自然语言处理领域逐渐崭露头角。

基于深度学习的智能问答系统借助深度学习算法,通过对大量数据的学习和模式识别,实现对问题的理解和准确答案的提供。

在本文中,我们将对基于深度学习的智能问答系统进行综述,分析其原理和应用。

正文内容:1.深度学习在智能问答系统中的应用1.1基于深度学习的问答模型构建1.1.1通用问答模型1.1.2领域专属问答模型1.2深度学习算法在问答模型中的作用1.2.1神经网络在问题理解中的应用1.2.2递归神经网络在答案中的应用1.3数据集构建和训练技术1.3.1语料库的构建和准备1.3.2数据预处理和特征提取1.3.3模型训练和优化2.基于深度学习的智能问答系统的挑战2.1语义理解问题2.1.1词义消歧和指代消解2.1.2语义相似度计算2.2知识表示和检索问题2.2.1知识图谱的构建和维护2.2.2知识图谱和问题匹配2.3多模态问答问题2.3.1图像和文本融合2.3.2多模态特征提取和学习3.基于深度学习的智能问答系统的应用领域3.1电商领域3.1.1商品推荐和价格比较3.1.2售后服务和投诉处理3.2酒店和旅游领域3.2.1预订和查询服务3.2.2旅游景点推荐和路线规划3.3医疗领域3.3.1健康咨询和诊断辅助3.3.2医疗知识普及和教育4.基于深度学习的智能问答系统的发展趋势4.1强化学习和对抗网络的应用4.1.1强化学习在问答系统中的作用4.1.2对抗网络在答案中的应用4.2大规模预训练模型的优化和应用4.2.1BERT和模型对问答系统的影响4.2.2预训练模型与问题方向的结合4.3自监督学习和迁移学习的研究4.3.1自监督学习在问答系统中的应用4.3.2迁移学习在不同领域问答系统中的迁移5.智能问答系统的未来展望5.1知识图谱和语义理解的进一步发展5.2多模态融合和跨媒体问答的研究5.3个性化和上下文感知的智能问答系统5.4技术与人文社会问题的综合考虑总结:本文对基于深度学习的智能问答系统进行了综述,从深度学习在问答模型构建中的应用、系统面临的挑战、各个领域中的应用、发展趋势以及未来展望进行了详细阐述。

基于深度学习的人工智能智能问答系统设计

基于深度学习的人工智能智能问答系统设计

基于深度学习的人工智能智能问答系统设计随着人工智能技术的不断发展和普及,智能问答系统已经成为了现代化人机交互的重要组成部分,对于人们的日常生活和工作都有着极为重要的影响。

基于深度学习的人工智能智能问答系统设计,可以有效地提高系统的智能度和准确度,让用户能够更加便捷地获取信息和解决问题。

本文将从深度学习的概念、人工智能智能问答系统的工作原理以及设计思路等方面进行探讨。

一、深度学习的概念深度学习是一种利用多个处理层次对数据进行表征学习的机器学习方法,它的核心是神经网络。

与传统的机器学习方法不同,深度学习技术不需要对输入特征进行手动选择和提取,而是直接从原始数据中学习特征。

通过使用多个神经网络层来组成深度神经网络,可以自动地从数据中学习有效的特征表示,从而提高各种任务的准确度和泛化性能。

二、人工智能智能问答系统的工作原理智能问答系统是一种基于自然语言处理和人工智能技术实现的系统,它能够根据用户提出的问题,自动地从大量的知识库中检索并返回相关的答案。

智能问答系统通常包括三个组成部分:自然语言理解、知识库检索以及答案生成。

自然语言理解是智能问答系统的核心基础技术之一,它主要是将用户提出的问题通过自然语言处理技术转化为计算机可以理解的形式,如分词、词性标注、实体识别等。

在这一过程中,智能问答系统需要将问题进行语义分析和语义匹配,确定问题所包含的重要信息和问题类型,为后续的知识库检索提供基础。

知识库检索是智能问答系统的核心技术之一,它主要是根据用户提出的问题,从事先构建好的知识库中检索并提取与问题相关的信息。

在这一过程中,智能问答系统需要利用特定的语义匹配算法对知识库中的数据进行检索与比对,以找出与用户提出的问题最为相关的信息。

知识库包括从各个领域中收集的大量数据,比如百度百科、维基百科等。

答案生成是智能问答系统的核心技术之一,它主要是根据自然语言理解和知识库检索结果,自动地生成符合用户需求的合适答案。

在这一过程中,智能问答系统需要将检索到的信息按照一定的逻辑结构进行组合和转换,生成易于理解的自然语言表达形式,并保证答案的正确性和可靠性。

基于深度学习的智能问答系统研究

基于深度学习的智能问答系统研究

基于深度学习的智能问答系统研究一、引言随着互联网技术的快速发展,人们对于个性化服务和智能化交互的需求不断提高,智能问答系统应运而生。

智能问答系统是以自然语言为交互方式,利用人工智能技术进行语义理解和知识推理,从而对用户提出的问题进行回答。

基于深度学习的智能问答系统是当前研究的热点之一,它利用深度学习模型实现对文本数据的理解和推理能力,进一步提升了智能问答系统的效果和应用范围。

本文将从问题的自然语言理解、知识表示和推理、回答生成等角度深入介绍基于深度学习的智能问答系统的相关研究。

二、问题的自然语言理解智能问答系统的核心部分是问题的自然语言理解,即将用户提出的问题转化为计算机可识别的形式。

深度学习技术在问题自然语言理解中扮演着重要的角色,常用的深度学习模型有循环神经网络(RNN)、长短时记忆网络(LSTM)、门控循环单元(GRU)和卷积神经网络(CNN)等。

在问题自然语言理解中,首先需要进行分词和词性标注。

利用RNN或LSTM等循环神经网络模型进行序列模型学习,可以实现对于自然语言不同层面的理解,从而精确地进行语义解析和关系提取。

在GRU模型中,引入了门控机制和遗忘机制,更加有效地捕捉了序列信息中的长程依赖和上下文关系。

而CNN模型在自然语言处理中,可通过卷积和池化操作实现对于文本信息的抽取和特征提取。

三、知识表示和推理知识表示和推理是智能问答系统中另一个重要的部分,它为系统提供了知识库和知识关系的存储和推理能力。

在基于深度学习的智能问答系统中,常用的知识表示方式包括本体(Ontology)、知识图谱(Knowledge Graph)、向量空间模型(Vector Space Model)等。

本体是一种用于知识共享和重用的形式化描述工具,通过类、属性和关系等概念实现知识的描述和推理。

知识图谱则通过向量空间模型,将词语和实体转化为节点,将它们之间的关系转化为边,从而实现高效的知识表示和推理。

向量空间模型则通过向量计算的方式,将文本信息转化为连续向量,再进行比较和计算。

基于BERT-BiLSTM-CRF_古籍文献命名实体识别

基于BERT-BiLSTM-CRF_古籍文献命名实体识别

第44卷㊀第3期㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀湖北科技学院学报㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀Vol.44,No.3㊀2024年6月㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀Journal of Hubei University of Science and Technology㊀㊀㊀㊀㊀㊀㊀㊀Jun.2024文章编号:2095-4654(2024)03-0151-06㊀㊀㊀㊀基于BERT-BiLSTM-CRF古籍文献命名实体识别㊀㊀㊀㊀蔡维奕(西北民族大学㊀数学与计算机科学学院,甘肃㊀兰州㊀730030)摘㊀要:古籍文献中存在着大量的多字词㊁歧义词㊁异体字等问题,使得古籍文献命名实体识别成为了一项具有挑战性的任务㊂本文提出一种基于BERT-BiLSTM-CRF模型的古籍文献命名实体识别方法㊂该方法首先用预训练语言模型BERT来建模字的上下文表示,然后通过BiLSTM模型对BERT的输出进行加工,解决长距离依赖问题,得到更加丰富的特征信息,最后通过CRF模型对这些特征进行联合建模,从而实现对古籍文献中命名实体的精确识别㊂实验结果显示,BERT-BiLSTM-CRF性能超过了所有基线模型㊂关键词:BiLSTM模型;BERT模型;古籍文献中图分类号:TP391.1㊀㊀㊀㊀㊀㊀㊀㊀文献标识码:A㊀㊀㊀㊀㊀开放科学(资源服务)标识码(OSID ):㊀㊀古籍文献包含了丰富的历史㊁文化和语言信息,对于人类文明的研究和传承具有重要意义㊂古籍文献的命名实体识别旨在自动识别出古籍文本中人名㊁地名㊁机构名等实体㊂它是正确分析处理古籍文献文本的基础步骤,也是深度挖掘㊁分析古代人文知识与文化的重要前提㊂然而,由于古籍文献的特殊性,如书写方式㊁语言习惯等,使得古籍文献命名实体识别(Named Entity Recognition,NER)成为了一项具有挑战性的任务㊂近年来,学界已有多项研究[1-3]关注史籍㊁方志㊁诗词㊁中医等类目的古籍命名实体识别,构建了一些针对垂直领域的小型标注数据集,实体标注的体系和规范有所差异,识别范围往往由三种基本实体类别扩充至人文计算研究所需的多种特殊类别,如书名㊁药物名㊁疾病名㊁动植物名等㊂这些研究所构建针对特殊领域的小型标注数据集,实体类型有差异㊂另一方面,古文字词含义的多样性㊁行文结构的连续性以及多用繁体字㊁无句点等特点,也增加了古籍文献命名实体识别任务的复杂和困难程度㊂在过去的几年中,深度学习技术在自然语言处理领域取得了巨大的成功,BERT(Bidirectional En-coder Representations from Transformers)模型[4]作为其中的代表之一,以其卓越的性能和广泛的应用受到了广泛关注㊂基于BERT的古籍文献NER任务[3]已经成为了当前研究的热点之一㊂然而,由于BERT模型本身是一个字词级别的模型,而古籍文献中存在着大量的多字词㊁歧义词㊁异体字等问题,这就需要我们对BERT进行改进和优化㊂本文提出了一种基于BERT-BiLSTM-CRF模型的古籍文献NER方法㊂该方法首先用预训练语言模型BERT来建模字的上下文表示的基础上,引入了BiLSTM[5](Bi-directional Long Short Term Memo-ry)和CRF[6](conditional Rondom Fields)模型,通过BiLSTM模型对BERT的输出进行加工,得到更加丰富的特征信息,然后通过CRF模型对这些特征进行联合建模,从而实现对古籍文献中命名实体的精确识别㊂本文的主要贡献包括:∗收稿日期:2023-12-08(1)提出了一种基于BERT-BiLSTM-CRF模型的古籍文献命名实体识别方法;(2)在公开数据集上进行了大量实验,并与其他方法进行了对比;(3)分析了实验结果,探讨了该方法的优缺点和改进方向㊂一㊁相关工作在自然语言处理领域,命名实体识别(NER)是一个重要的任务,其目的是从文本中识别出具有特定意义的实体,如人名㊁地名㊁机构名等㊂近年来,深度学习技术在自然语言处理领域取得了巨大的成功,其中基于预训练语言模型的NER方法已经成为了当前研究的热点之一㊂1.预训练语言模型预训练语言模型是指在大规模文本数据上进行无监督预训练的语言模型,它可以学习到丰富的语言知识,并将这些知识应用于各种自然语言处理任务中㊂其中BERT是一种基于Transformer架构的预训练语言模型,它通过双向编码器对输入序列进行编码,从而学习到上下文相关的词向量表示㊂BERT 模型在多项自然语言处理任务上取得了卓越的性能,如情感分析[7,8]㊁问答系统[9]㊁文本分类等[10]㊂2.基于BERT的命名实体识别方法基于BERT的命名实体识别方法是自然语言处理领域中的研究热点之一,在多个数据集上均取得了优秀的表现㊂目前,基于BERT的命名实体识别方法的研究现状主要包括以下几个方面: (1)模型结构的改进:通过引入不同的模型结构来提高命名实体识别的性能㊂例如,将BERT与BiLSTM㊁CRF等模型结合[11-13],可以更好地捕捉上下文信息和标签之间的依赖关系㊂(2)数据增强的研究:由于命名实体识别数据集通常较小,对模型的训练和泛化能力造成了一定的影响㊂因此,研究者通过数据增强等方法来扩充训练数据集[14],从而提高模型的性能㊂(3)多语言命名实体识别:由于BERT在多语言上均有较好的表现,因此研究者将其应用于多语言命名实体识别任务中㊂例如,通过使用跨语言预训练模型来进行多语言实体识别[15]㊂(4)迁移学习:在预训练阶段,BERT学习了大量无标签的语言数据,从而捕获了丰富的语言特征㊂然而,对于特定的下游任务,这些预训练的语言表示可能不够精确,因此需要进行微调㊂迁移学习是一种常用的微调方法,它利用预训练模型已经学习到的知识来帮助解决新的任务㊂在迁移学习中,预训练模型首先被加载并冻结(即不参与训练),然后使用任务特定的数据来微调模型的顶部层(通常是全连接层)㊂通过这种方式,模型可以利用已经学习到的知识来改善对新任务的适应能力㊂将BERT预训练模型进行微调,可用于不同领域和不同任务的命名实体识别[16,17]㊂本文把中文训练的BERT-Base-Chinese语言模型,运用于古籍文献,本质上将BERT预训练模型作微调,进行迁移学习,并结合BiLSTM㊁CRF等模型结合更好地捕捉上下文信息和标签之间的依赖关系㊂图1㊀模型总体结构图二㊁模型基于BERT-BiLSTM-CRF的古籍文献NER方法旨在提高古籍文献NER任务的准确性㊂它是一种基于预训练语言模型BERT㊁双向LSTM和条件随机场(CRF)的命名实体识别方法㊂该方法BERT-BiLSTM-CRF模型的结构如图1所示㊂首先使用BERT预训练语言模型对输入序列进行编码,然后将编码结果输入到BiLSTM序列模型中,从而学习到上下文相关的特征表示㊂最后,通过CRF模型对标签序列进行建模,从而实现对命名实体的识别㊂1.BERT层BERT是一种基于Transformer架构的预训练语言模型,它通过双向编码器对输入序列进行编码,在本文方法中主要学习古文字的上下文相关的向量表示㊂BERT通过两个阶段的训练来获得上下文相关的输出字向量表示:第一阶段是无监督的预训练,用于学习通用的语言知识;第二阶段是有监督的微调,用于将BERT模型应用于特定的自然语言处理任务㊃251㊃湖北科技学院学报㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀总第44卷中㊂在古籍文献NER任务中,一个输入可表示为s =(w1,w2, ,w n),其中w i表示输入的第i的字㊂每个字w i编码由三部分组成:(1)token embedding:将字转换成固定维度的向量㊂每个字会被转换成768维的向量表示㊂此外,两个特殊的token会被插入到tokenization的结果的开头([CLS])和结尾([SEP])㊂(2)segment embedding:用于区分一个token属于句子对中的哪个句子㊂Segment Embeddings包含两种向量表示㊂前一个向量是把0赋给第一个句子中的各个token,后一个向量是把1赋给第二个句子中的各个token㊂如果输入仅仅只有一个句子,那么它的segment embedding就是全0㊂(3)position embedding:由于Transformers无法编码输入的序列的顺序性,所以BERT在各个位置上学习一个向量表示来将序列顺序的信息编码进来㊂最终,古文字w i由三个embedding编码连接得到,即E i=E token E seg E pos㊂经过BERT层,得到每个字的向量表示:X i=Bert(E i)㊂2.Bi-LSTM层本文采用双向LSTM来学习每个古文字的中间表示,其优点可利用远距离的特征㊂对每一个LSTM 单元由多个实向量组合而成,包括输入门向量i t,忘记门向量f t,输出门向量o t,内存单元c t和隐藏状态h t㊂各变量内计算公式如下:i t=σ(W(i)x t+U(i)h t-1+b(i)f t=σ(W(f)x t+U(f)h t-1+b(f)o t=σ(W(o)x t+U(o)h t-1+b(o)u t=tanh(W(u)x t+U(u)h t-1+b(u)c i=i t☉u t+f t☉c t-1h t=o t☉tanh(c i)式中σ,tanh表示神经元的激活函数㊂W,U是权重矩阵,b是偏差向量㊂对于序列中的每个字,其输入为BERT层的输出,即x t㊂输出为h t,在Bi-LSTM网络中,其输出向量为左㊁右LSTM的输出连接组成,即h t=[h➝t,h t]㊂3.CRF层最后,本文采用CRF对标签序列进行全局建模,并考虑标签之间的依赖关系㊂具体地,对BiL-STM层的输出序列h1, ,h n作为CRF的特征输入,一个标签序列y=y1, ,y n的条件概率采用下面公式计算为:o i=Wh ip(y|s)=eði o i[y i]+T[y i,y i-1]ðy'eði o i[y'i]+T[y'i,y'i-1]其中y'=y'1, ,y'n是一个候选标签序列输出, W为发射矩阵,T为状态转移矩阵㊂在推断时,采用Viterbi算法发现概率最高的标签序列㊂在训练时,采用交叉熵损失,具体地,假设给定古文序列的黄金标签是g=g1, ,g n该实例的损失函数定义如下:L ner=-log p(g|s)三、实验与分析1.数据集文本采用2023中国计算语言学大会古籍命名实体识别评测数据集,由北京大学数字人文研究中心组织标注,语料来源是网络上公开的部分中国古代正史纪传文本㊂数据集以 二十四史 为基础语料,包含13部书中的22卷语料,随机截断为长度约100字的片段,标注了人名(PER)㊁书名(BOOK)㊁官职名(OFI)三种实体,总计15.4万字(计标点)㊂数据集统计如下:表1㊀实验用数据集统计总字数实例数人名数书名数官职数实体总数15.4万字23476670213336310246㊀㊀标签方案采用 BISO ,其中 B 表示实体的开始字符, I 表示实体的其它字符, S 表示只含单字实体, O 表示非实体字符㊂下面给出一个标签例子:友_B-PER倫_I-PER幼_O亦_O明_O敏_O,_ O通_O論_B-BOOK語_I-BOOK㊁_O小_B-BOOK 學_I-BOOK,_O曉_O音_O律_O㊂_O存_S-PER已_O死_O,_O太_B-PER祖_I-PER以_O友_B-PER 倫_I-PER為_O元_B-OFI從_B-OFI馬_I-OFI軍_I -OFI指_I-OFI揮_I-OFI使_I-OFI},_O表_O右_B -OFI威_I-OFI武_I-OFI將_I-OFI軍_I-OFI㊂2.实验设置实验时标注语料按8ʒ1ʒ1分别分为训练集㊁开发集和测试集㊂主要超参数设置如表2所示㊂㊃351㊃2024年第3期㊀㊀㊀㊀㊀㊀㊀㊀㊀蔡维奕:基于BERT-BiLSTM-CRF古籍文献命名实体识别表2㊀超参设置表超参值超参值dropout0.5L21e-8 Batch size16Learing rate1e-5 Optimizer Adm Learning rate decay0.05 Momentum0.9Learning rate clipping 5.0㊀㊀实验采用精度(P)㊁召回率(R)和F1值三个指标评估模型性能,分别表示如下:P=预测正确的实体数预测的总实体数R=预测正确的实体数总实体数F1=2∗P∗RP+R3.实验结果为了比较本文采用的模型,实验引入3个基线,分别描述如下:(1)CRF:结合了最大熵模型和隐马尔可夫模型的特点,在序列标注任务中取得了很好的效果,特征采用相连5个窗口内的字符及其组合㊂(2)BiLSTM-CRF:结合BiLSTM与CRF,字向量表示随机初始化㊂模型参数与本文所提出模型的对应组件相同㊂(3)BERT-CRF:使BERT学习到字符的表示,并做为特征直接输出到CRF㊂模型参数与本文所提出模型的对应组件相同㊂表3给出基线与本文所提模型的实验结果㊂可以发现,仅采用离散特征的CRF模型性能远低于采用密向量表示的模型㊂在三个密向量表示的模型,采用预训练语言模型的BERT-CRF的性能高于未采用预训练语言模型的BiLSTM-CRF㊂本文所采用模型充分利用BERT与BiLSTM的优点,在精度㊁召回率和F1值都取得最高的分数㊂表3㊀基线与本文所提模型的实验结果模型P R F1CRF82.4882.3282.40BiLSTM-CRF89.8787.5488.69BERT-CRF92.590.6591.57BERT-BiLSTM-CRF93.591.292.34 4.实验分析本节从学习率㊁训练批大小方面分析了超参对性能的影响,此外,也比较分析了不同实体类型㊁不同文本长度的性能㊂(1)学习率影响图2显示了不同学习率对性能的影响,可以看到,当学习率为1e-5时,本文模型在精度㊁召回率和F1值达到了最好的性能㊂图2㊀不同学习率的性能(2)批训练大小的影响批训练大小也是重要超参之一㊂图3显示了不同批训练大小的F1值,可以看出,当批训练大小为16时,模型取得了最好的性能㊂图3㊀不同批训练大小的性能(3)不同类型实体识别结果表3给出不同类型的命名实体的识别比较结果㊂可以看出,书名实体的识别效果最差,人名识别效果最好,主要原因是书名的训练实例太少,而人名的训练实例比较多㊂此外,本文采用模型在所有的类型上都超过了BERT-CRF的识别性能㊂表3㊀模型对不同类型命名实体的识别比较类型BERT-CRF BERT-BiLSTM-CRF 人名(PER)92.4593.86书名(BOOK)83.4685.6官职名(OFI)91.1391.65 (4)不同文本长度的实验结果BiLSTM能抓住长距离依存特征㊂实验比较了不同文本长度的识别性的影响㊂我们样本按句子长度分为4组:小于10㊁大于等于10及小于30㊁大于等于30及小于50㊁大于等于50.表4给出本文模型与BERT-CRF的比较结果㊂可以看出,当文本长度㊃451㊃湖北科技学院学报㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀总第44卷小于10时,两个模型性能基本相同㊂随着文本长度增大,两个模型的识别性能差距不断变大,当长度大于50时,本文模型超过BERT-CRF模型达到2.11%㊂这显示本文模型能有效抓住长文本的长距离依存信息㊂表4㊀不同长度文本的识别F1值比较文本长度BERT-CF BERT-BiLSTM-CRF<1097.3197.3410ɤ㊃ɤ3094.1094.2130<㊃ɤ5088.5389.04>5078.3580.46㊀㊀(5)实例分析为了更好地与基线进行比较,表5给出了本文方法与BiLSTM-CRF在古文命名实体识别的实例分析㊂在例子1中,BiLSTM-CRF方法由于缺少更多的上下文语义信息,并没有识别出人名{王鐵槍| PER}㊂在例子2中,本文所提方法识别出了所有的实体,而BiLSTM-CRF把两个OFI实体没有识别准确,这说明本文所提方法能获得更多边界信息㊂表5㊀实例分析与比较序号句子实例BiLSTM-CRF BERT-BiLSTM-CRF1持一鐵槍,騎而馳突,奮疾如飛,而佗人莫能舉也,軍中號{王鐵槍|PER}㊂持一鐵槍,騎而馳突,奮疾如飛,而佗人莫能舉也,軍中號王鐵槍㊂持一鐵槍,騎而馳突,奮疾如飛,而佗人莫能舉也,軍中號{王鐵槍|PER}㊂2壬午,{匡國軍節度使|OFI}{劉知俊|PER}爲{潞州行營招討使|OFI}㊂癸巳,改卜郊㊂{張文蔚|PER}薨㊂壬午,匡國軍{節度使|OFI}{劉知俊|PER}爲潞州行營{招討使|OFI}㊂癸巳,改卜郊㊂{張文蔚|PER}薨㊂壬午,{匡國軍節度使|OFI}{劉知俊|PER}爲{潞州行營招討使|OFI}㊂癸巳,改卜郊㊂{張文蔚|PER}薨四㊁结论古籍文献命名实体识别是正确分析处理古籍文献文本的基础步骤,也是深度挖掘㊁分析古代人文知识与文化的重要前提㊂本文采用BERT-BILSTM-CRF模型实现对古籍文献命名实体识别,实验表明模型的准确率㊁召回率和F1值均达到了较好的效果㊂此外实验也显示本模型能有效抓住长距离文本的依存信息㊂虽然书名实体识别性能不佳,这主要是由于训练语料太少,模型训练不充分所致㊂本文主要研究人名㊁书名㊁官职名三类古籍文献命名实体㊂后期研究工作中,将收集整理更大规模的古籍文献命名实体语料,研究更多的不同类型的古籍文献命名实体,并进一步研究模型各项参数,训练更好的模型,为古籍文献命名实体识别提供帮助㊂参考文献:[1]㊀崔丹丹,刘秀磊,陈若愚,等.基于Lattice LSTM的古汉语命名实体识别[J].计算机科学,2020,47(S2):18-22.[2]㊀胡为,刘伟,石玉敬.基于BERT-BiLSTM-CRF的中医医案命名实体识别方法[J].计算机时代,2022(9):119-122+135.[3]㊀余馨玲,常娥.基于DA-BERT-CRF模型的古诗词地名自动识别研究 以金陵古诗词为例[J].图书馆杂志,2023,42(10):87-94+73.[4]㊀Devlin J,Chang MW,Lee K.Bert:Pre-training of deepbidirectional transformers for language understanding[J/OL].https:///pdf/1810.04805.pdf.11Oct.2018.[5]㊀Schuster M,Paliwal KK.Bidirectional recurrent neuralnetworks[J].IEEE transactions on Signal Processing.1997,45(11):2673-2681.[6]㊀McCallum A.Efficiently inducing features of conditionalrandom fields[C].//Inproceedings of the Nineteenthconference on Uncertainty in Artificial Intelligence,USA,7Aug.2002.[7]㊀Gao Z,Feng A,Song X,etal.Target-dependent senti-ment classification with BERT[J].Ieee Access,2019(7):154290-154299.[8]㊀Catelli R,Pelosi S,Esposito M.Lexicon-based vs Bert-based sentiment analysis:A comparative study in Italian[J].Electronics,2022,11(3):374.[9]㊀Guven Z A,Unalir M O.Natural language based analysisof SQuAD:An analytical approach for BERT[J].ExpertSystems with Applications,2022,195:116592. [10]Esmaeilzadeh A,Taghva K.Text classification using neu-ral network language model(nnlm)and bert:An empiri-cal comparison[C].//Intelligent Systems and Applica-tions:Proceedings of the2021Intelligent Systems Confer-ence(IntelliSys)Volume3.Springer International Pub-lishing,2022:175-189.[11]Souza F,Nogueira R,Lotufo R.Portuguese named entityrecognition using BERT-CRF[J/OL].https://arxiv.㊃551㊃2024年第3期㊀㊀㊀㊀㊀㊀㊀㊀㊀蔡维奕:基于BERT-BiLSTM-CRF古籍文献命名实体识别org/pdf/1909.10649.pdf.23Sep.2019. [12]Alsaaran N,Alrabiah M.Arabic named entity recogni-tion:A BERT-BGRU approach[J].Computers,Materi-als and Continua,2022,68:471-485.[13]Jiang S,Zhao S,Hou K,etal.A BERT-BiLSTM-CRFmodel for Chinese electronic medical records named entityrecognition[C].//12th international conference on intelli-gent computation technology and automation(ICICTA).IEEE,2019:166-169.[14]Tikhomirov M,Loukachevitch N,Sirotina A,ingbert and augmentation in named entity recognition for cy-bersecurity domain[C].//Natural Language Processingand Information Systems:25th International Conference onApplications of Natural Language to Information Systems,Germany,24–26June,2020.[15]Hakala K,Pyysalo S.Biomedical named entity recogni-tion with multilingual BERT[C].//Proceedings of the5thworkshop on BioNLP open shared tasks.ACL,2019:56-61.[16]Labusch K,Kulturbesitz P,Neudecker C,etal.BERTfor named entity recognition in contemporary and historicalGerman[C].//Proceedings of the15th conference on nat-ural language processing.ACL,2019:8-11. [17]Montejo-Ráez,A and Jiménez-Zafra,S.M.Current Ap-proaches and Applications in Natural Language Processing[J].Applied Sciences,2022,12(10):4859.Named Entity Recognition in Ancient Books andLiterature Based on BERT-BiLSTM-CRFCAI Wei-yi(School of Mathematics and Computer Science Northwest Minzu University,Lanzhou730030,China)Abstract:There are a lot of complex words,ambiguous words,variant characters,and other problems in ancient texts,making named entity recognition in ancient texts a challenging task.This paper proposes a named enti-ty recognition method for ancient texts based on the BERT-BiLSTM-CRF model.This method first uses a pre-trained language model BERT to model the context representation of characters,then processes the output of BERT through a BiLSTM model to solve the problem of long-distance dependencies and obtain richer feature information. Finally,these features are jointly modeled through a CRF model to achieve accurate identification of named entities in ancient documents.Experimental results show that the performance of BERT-BiLSTM-CRF exceeds all baseline models.Key words:Bilstm model;Bert model;Ancient texts责任编辑:彭茜珍㊃651㊃湖北科技学院学报㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀㊀总第44卷。

219433889_基于BERT—BiLSTM—CRF_模型的运营商文本命名实体与关系联合提取

219433889_基于BERT—BiLSTM—CRF_模型的运营商文本命名实体与关系联合提取

33Internet Technology互联网+技术基于BERT—BiLSTM—CRF 模型的运营商 文本命名实体与关系联合提取摘要:本文使用大规模预训练汉语模型的 BERT-BiLSTM-CRF 方法,从运营商的非结构化文本数据中联合提取命名实体与关系。

首先,通过运营商非结构化文本数据建立运营商文本语料库,对语料进行文本标签标注;然后,提出一种基于运营商文本命名实体与关系提取的 BERT-BiLSTM-CRF 模型方法。

实验结果表明,该技术在运营商文本命名实体与关系联合提取中适用性较强,在运营商文本的命名实体与关系联合提取中,F1 值高达 93.2%,可以将该方法应用到实际问题解决中。

关键词:BERT;BiLSTM;CRF;实体识别;词嵌入一、引言随着信息化发展和数据积累,电信运营商拥有数量巨大的用户,沉淀了海量结构化和非结构化数据,作为非结构化的对话文本是运营商办理客户业务和处理客户问题的重要数据资源。

运营商非结构化的对话文本数据具有非结构化、口语化、业务性强等特点,对该数据进行数据挖掘和实体与关系的抽取可以有效利用其中包含的语义信息,推动运营商智能化发展。

实体和关系抽取研究如何自由文本中抽取所需命名实体和关系的技术,但中文自然语言具有表达的灵活性,运营商文本信息具有专业性的特点,进行运营商的文本信息提取是当前研究的难点问题,探索相关有效的信息提取方法具有重要价值。

二、相关工作对运营商领域知识提取的方法研究主要涉及两个方面:①运营商非结构化中文语料库构建与运营商领域文本词嵌入技术;②运营商命名实体识别与关系提取技术。

(一)中文运营商语料库与词嵌入技术词向量是一种表示自然语言中词的方法,把每个词都表示为一个N 维空间内的点,即一个高维空间内的向量。

通过这种做法,把自然语言计算转换为向量计算。

词嵌入技术(Word Embeddings)是一种将文本中的每个字符、词、句封装为向量表达式的技术,是机器学习算法执行自然语言处理的基础。

AI技术在自然语言处理中的优化方法

AI技术在自然语言处理中的优化方法

AI技术在自然语言处理中的优化方法一、引言随着人工智能(AI)技术的快速发展,自然语言处理(Natural Language Processing,NLP)成为一个备受关注的领域。

NLP是指通过计算机与人类语言之间的交互,实现对文字、语音等自然语言的处理和理解。

然而,由于自然语言本身的复杂性和多样性,要实现准确、高效的自然语言处理仍然面临很多挑战。

因此,优化方法成为提升AI技术在自然语言处理中表现的重要途径。

二、文本预处理文本预处理是自然语言处理中至关重要的一步。

它包括分词、清洗数据、去除噪声等操作。

分词是将连续文本划分为独立单元或单词,便于计算机理解和处理。

传统方法使用规则和词典来进行分词,但这种方法往往会因为规则不完善或难以覆盖所有情况而导致错误。

近年来,基于神经网络的分词模型如BiLSTM-CRF等取得了显著进展,并且能够更好地适应不同类型和领域的文本。

三、词向量表示词向量表示是将词语映射到低维实数向量空间的过程。

传统的one-hot编码方式不能很好地反映词语之间的语义关系,因此提出了基于分布假设的词向量模型。

其中,word2vec和GloVe等模型广泛应用于自然语言处理任务中。

它们通过学习大规模文本数据中单词的上下文信息,生成高质量且低维度的词向量表示,从而为后续任务提供了更好的输入。

四、句法分析与语义理解句法分析和语义理解是自然语言处理中两个重要且密切相关的任务。

句法分析旨在将一段文字分解为其组成部分,并确定它们之间的结构关系。

常见的方法包括依存句法分析和短语结构句法分析。

随着深度学习技术的发展,基于神经网络的句法分析模型取得了较好效果,并在多项NLP任务中实现了 state-of-the-art 的性能。

语义理解旨在从自然语言中抽取并推断出更高级别、更抽象意义的信息。

例如,问答系统需要理解用户问题并准确地回答问题。

深度学习方法如循环神经网络(RNN)和注意力机制(Attention)等已广泛用于语义理解。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

计算机与现代化㊀2018年第7期JISUANJIYUXIANDAIHUA总第275期文章编号:1006 ̄2475(2018)07 ̄0053 ̄05收稿日期:2018 ̄01 ̄08基金项目:国家自然科学基金面上项目(51675362)作者简介:程树东(1989 ̄)ꎬ男ꎬ安徽舒城人ꎬ太原科技大学计算机科学与技术学院硕士研究生ꎬ研究方向:物联网与传感网ꎬ机器学习ꎻ胡鹰(1976 ̄)ꎬ男ꎬ山西太原人ꎬ副教授ꎬ硕士生导师ꎬ硕士ꎬ研究方向:重大装备建模与控制ꎬ信息处理ꎮ基于BI ̄LSTM ̄CRF模型的限定领域知识库问答系统程树东ꎬ胡㊀鹰(太原科技大学计算机科学与技术学院ꎬ山西太原030024)摘要:随着开放领域问答系统的发展ꎬ迫切需要机械行业与人工智能融合ꎬ建立面向机械领域的知识库问答系统是十分必要的ꎮ基于机械行业数据和自然语言处理技术ꎬ本文提出采用条件随机场和长短期记忆神经网络结合构建网络模型ꎬ提升信息抽取性能ꎬ建立机械行业的知识库问答系统ꎮ通过实验数据对比分析ꎬ本文模型取得了较好的效果ꎮ关键词:条件随机场ꎻ长短期记忆网络ꎻ信息抽取ꎻ问答中图分类号:TP391.1㊀㊀㊀文献标识码:A㊀㊀㊀doi:10.3969/j.issn.1006 ̄2475.2018.07.011LimitedDomainKnowledgeQuestionAnsweringSystemBasedonBI ̄LSTM ̄CRFCHENGShu ̄dongꎬHUYing(SchoolofComputerScienceandTechnologyꎬTaiyuanUniversityofScienceandTechnologyꎬTaiyuan030024ꎬChina)Abstract:Withthedevelopmentofopenfieldquestion ̄answeringsystemandtheurgentneedoftheintegrationofmechanicalin ̄dustryandartificialintelligenceꎬitisnecessarytoestablishaknowledgebasequestionansweringsystemformachineryfield.Basedonmechanicalindustrydataandnaturallanguageprocessingtechniquesꎬanetworkmodelbasedonconditionalrandomfieldandlongandshorttermmemoryneuralnetworkisproposedtoimprovetheinformationextractionperformanceandtoestab ̄lishaknowledgebasequestion ̄answeringsysteminmachineryindustry.Throughthecomparativeanalysisofexperimentaldataꎬthemodelhasachievedgoodresults.Keywords:CRFꎻLSTMꎻinformationextractionꎻquestionanswering0㊀引㊀言在机械行业ꎬ矫直机是冶金工业生产中对板材矫直时必不可少的设备ꎮ宋凯等[1]比较详细地介绍了全液压矫直机的结构和技术特点ꎮ但以前主要是由人工进行操作控制ꎮ随着机器学习的快速发展ꎬ国家也大力推动各行各业与人工智能的深度融合ꎬ创新生产力ꎬ促进经济发展ꎮ在此形势下ꎬ矫直机也借助人工智能技术实现智能化ꎬ解放生产力ꎮ张凯等[2]利用分类学习粒子群优化算法取得了使液压矫直机控制性能更佳的参数组合ꎮ由于矫直机智能控制系统的性能对金属板材矫直质量起着关键作用ꎬ而知识的质量与数量又是决定矫直机智能控制专家系统性能的重要因素ꎬ因此ꎬ构建一种高效的机械领域知识库问答系统ꎬ以解决机械领域的知识快速获取很有必要ꎮ信息抽取(InformationExtraction)是把非结构化文本数据进行结构化处理ꎬ以便于机器处理ꎮ据此ꎬ本文提出通过信息抽取技术完成对知识的自动获取建立知识库ꎬ并结合BI ̄LSTM ̄CRF模型建立知识库问答系统ꎮ自动问答系统通常被定义为这样一种任务:用户将以自然语言描述的问题提交到一个系统中ꎬ系统在自动理解用户问题的基础上输出答案ꎮ其主要有开放域问答系统和面向限定领域问答系统2个研究方向ꎮ然而当前ꎬ研究的热点主要是开放域问答系统ꎮ面向限定领域问答系统与开放域问答系统的不同点主要在于:限定领域的问答系统能利用大量领域相关知识来提高系统的实用性ꎮ在目前开放域问答系统取得较大进步的同时ꎬ发展面向限定领域的问答系统是很有必要的ꎮ因此ꎬ本文在开放领域问答系统相关技术的基础上ꎬ面向机械领域利用深度学习技术对建立机械领域的知识库问答系统进行研究ꎮ54㊀计㊀算㊀机㊀与㊀现㊀代㊀化2018年第7期1㊀相关工作知识库问答系统是指通过海量数据构建知识库ꎬ对用户输入的以自然语言形式描述的问题(例如金属型材矫直的设备是什么?)能够分析理解ꎬ再从知识库中查找出能回答该问题的准确的知识答案(例如矫直机)的信息系统ꎮ基于知识库的问答系统在人工智能领域具有很长的发展历史ꎮ传统的构建知识库问答系统的研究思路主要是使用语义解析(SemanticParsing)ꎮ该方法是将自然语言通过语言学知识经过分析处理转化为一系列形式化的逻辑表达形式(lambda表达式㊁依存组合语义树等)ꎬ再进行逻辑解析ꎬ以获得一种能够表达整个问题语义的逻辑形式ꎬ再通过相应的查询语句在知识库中查询答案ꎮ由于这类方法需要大量人工标注的自然语言语句 逻辑表达形式 对ꎬ因此很难扩展到大规模知识库的情况ꎮ由于神经网络的发展ꎬ研究者们逐渐使用向量建模对问答系统进行研究ꎮ该类方法首先分析输入的问题ꎬ并通过信息抽取技术提取出问题实体ꎬ对问题进行分类ꎬ进而查询得到知识库中以该实体节点为中心的子图ꎮ由于答案和问题主题的关联性ꎬ因此ꎬ将知识子图中的所有节点和边都作为该问题的候选答案ꎮ再将问题和所有候选答案映射为分布式向量ꎬ并通过训练数据学习得到问题和答案的向量表达的得分尽量高的参数模型ꎮ训练生成模型后ꎬ通过模型对问题及其候选答案的向量表达进行测试评分ꎬ再按得分高低从候选中得出最终答案ꎮ对于文本的信息抽取ꎬ主要有2种方法ꎮ第一种是基于规则ꎮ乔磊等[3]对需要抽取的人物信息进行规则描述ꎬ并构建正则表达式ꎬ实现半结构化人物属性信息的提取ꎮ另一种是基于统计ꎮ郑轶[4]通过序列标注的问题思路从人物百科中抽取人物信息ꎬ利用条件随机场对生语料进行序列标注ꎬ并从语料中提取特征ꎬ有效提高了信息抽取的效率ꎮ王宗尧等[5]基于CRF模型有效地对中文短文本信息流进行了话题提取ꎮ而翟菊叶等[6]利用CRF与规则相结合的方法识别中文电子病历的命名实体ꎬ提高了准确率ꎮYao等[7]通过依存分析技术来获得问题的依存分析树ꎬ再从问句中找到其涉及的主要实体ꎬ进而查询得到知识库中以该实体为中心的子图ꎬ最后从问题的依存树和子图中抽取多种特征并送入逻辑回归模型中进行分类ꎮBordes等[8 ̄9]通过前馈神经网络对问句和候选答案进行语义编码ꎬ以将其分别转换为相同维度的特征向量ꎬ最后将2个向量的点积值作为问题候选答案的得分ꎮ近几年ꎬ随着深度学习在多个领域的快速发展和应用ꎬ研究者开始将其应用在问答系统中ꎬ以改善传统方法存在的不足ꎮLi等[10]通过卷积神经网络对问句中隐含的答案类型㊁关系和上下文信息分别进行语义编码ꎬ提升了向量建模方法的特征获取ꎬ取得很好的效果ꎮYih[11]等使用卷积神经网络改善语义解析方法ꎮ周博通等[12]使用双向LSTM模型结合注意力机制实现实体消歧和答案选择ꎮ在此基础上ꎬ本文使用深度学习技术和信息抽取方法进行向量建模ꎬ以提高问答系统的性能ꎻ提出一种BI ̄LSTM ̄CRF模型ꎬ结合信息抽取技术ꎬ以构建面向机械领域的知识库问答系统ꎮ2㊀基于BI ̄LSTM ̄CRF的问答系统2.1㊀CRFLafferty等[13]于2001年提出条件随机场(Condi ̄tionalRandomFieldsꎬCRF)ꎬ它是无向图模型ꎬ当输入节点值给定时ꎬ可以用于计算指定输出节点值的条件概率ꎮ比如线性条件随机场ꎬ如果将X={x1ꎬx2ꎬ ꎬxT}表示为输入的观测序列ꎬY={y1ꎬy2ꎬ ꎬyT}定义为其对应的状态序列ꎬ则在给定一个观测序列时ꎬCRF定义状态序列的条件概率为:P(Y|X)=1z(X)exp(ðTi=2ðkλkfk(yi-1ꎬyiꎬxi)+ðTi=1ðkλᶄkfᶄk(yiꎬxi))(1)其中ꎬz(X)是以观测序列X为条件的归一化因子ꎬfk和fᶄk分别是转移特征函数及状态特征函数ꎬλk和λᶄk则分别是相应特征函数的权值ꎮ因此Y的最大概率标记序列为Y∗=argmax{P(Y|X)}ꎮ近些年ꎬ研究CRF通过大量标注训练数据训练生成模型ꎬ在命名实体识别上取得了较大的成果ꎮ因此ꎬ本文通过CRF构建信息抽取模块以提取输入问题的实体ꎮ通过大量标注了问题实体的问题数据ꎬ由CRF训练生成模型ꎬ以抽取出其它问题中的实体ꎮ2.2㊀LSTM1997年ꎬHochreiter等[14]在循环神经网络的基础上提出了LSTM单元ꎬ它解决了RNN的梯度消失和长期依赖问题ꎮLSTM单元如图1所示ꎬ其记忆单元可以用于保存历史信息ꎬ通过输入门㊁输出门和遗忘门可以控制历史信息的更新和利用ꎮ设h为LSTM单元输出ꎬc为LSTM记忆单元的值ꎬx为输入数据ꎮLSTM单元的更新可以分为以下几个步骤:ft=σ(Wf [ht-1ꎬxt]+bf)(2)it=σ(Wi [ht-1ꎬxt]+bi)(3)㊀2018年第7期程树东等:基于BI ̄LSTM ̄CRF模型的限定领域知识库问答系统55㊀ot=σ(Wo [ht-1ꎬxt]+bo)(4)Ctᶄ=tanh(WC [ht-1ꎬxt]+bC)(5)Ct=ftˑCt-1+itˑCtᶄ(6)ht=otˑtanh(Ct)(7)图1㊀LSTM单元结构公式(2)~公式(4)分别用来计算遗忘门㊁输入门㊁输出门的值ꎬ其接受上一时刻记忆单元的输出ht-1和当前时刻记忆单元的输入xtꎬ并乘以各自的权重矩阵ꎬ再加上偏置向量ꎬ最后通过Sigmoid函数产生一个0到1之间的值来对信息进行筛选ꎮ公式(5)和公式(6)更新LSTM单元的状态信息ꎮ公式(7)为计算记忆单元的最终输出ꎬ其通过tanh函数对当前时刻的LSTM单元状态进行计算ꎬ使模型变为非线性ꎬ并由输出门决定哪些信息被最终输出ꎮ但由于LSTM神经网络的信息输入是单方向的ꎬ从而会忽略未来的上下文信息ꎮ因此ꎬ通过双向LSTM对一个训练序列向前向后各训练一个LSTM模型ꎬ再将训练的2个模型的输出进行线性组合ꎬ使得序列中每一个节点都能获得完整的上下文信息ꎮ2.3㊀基于BI ̄LSTM ̄CRF的问答系统2.3.1㊀预处理在特征选择之前ꎬ本文先进行文本分词ꎬ本文使用的分词工具为开源的结巴分词ꎮ由于本文语料为机械行业的技术资料文献等ꎬ所以本文中含有大量的机械行业专业词汇ꎮ为了增加分词的准确性ꎬ本文加入大量的机械行业词汇作为文本分词的用户词典ꎮ本文选用500本机械文献进行实验ꎬ实验中使用自定义词典进行分词和未使用自定义词典进行分词进行实验ꎮ实验结果如图2所示ꎬ结果表明ꎬ使用自定义词典分词相对于默认词典分词ꎬ其准确率㊁召回率和F值都有所提升ꎮ图2㊀自定义词典与默认词典分词结果对比2.3.2㊀BI ̄LSTM ̄CRF模型BI ̄LSTM ̄CRF模型是综合利用双向LSTM神经网络和CRF的优点ꎬ在BI ̄LSTM神经网络的隐藏层后再加入一层CRF线性层ꎬ将BI ̄LSTM网络和CRF模型结合起来形成新模型ꎬ模型结构如图3所示ꎮ该模型通过双向LSTM层很好地结合了上下文的特征ꎬ并且经由CRF层有效地考虑了句子前后的标签信息ꎮ与单独的BI ̄LSTM神经网络相比较ꎬ该模型添加了一个标注之间的状态转移矩阵作为CRF层的参数ꎮ该模型通过引入状态转移矩阵Aꎬ然后再设定矩阵P为双向LSTM网络的输出ꎮ其中Aiꎬj表示时序上从第i个状态转移到第j个状态的概率ꎬPiꎬj表示在输入观测序列中第i个词为第j个标注的概率ꎮ则函数S(XꎬY)=ðni=1(Ayiꎬyi+1+Piꎬyi)为与观测序列X对应的标注序列Y=(y1ꎬy2ꎬ ꎬyn)的预测输出ꎮ图3㊀BI ̄LSTM ̄CRF模型结构对于输入的问句ꎬ利用CRF模型抽取实体和关系ꎬ将其映射到知识库中ꎬ寻找知识库子图ꎬ获取问题候选答案ꎬ再通过预处理向量化ꎬ送入BI ̄LSTM ̄CRF模型提取特征值ꎬ并对问题及候选答案进行评分ꎬ以此获取最终答案ꎮ2.3.3㊀训练方法首先将问题与候选答案构成问题 答案对文本ꎬ每一行是问题与候选答案组成的语句ꎬ并将候选答案是问题正确结果的标记为1ꎬ否则标记为0ꎮ以此作为训练文本ꎬ将其分为训练集和验证集ꎮ如此ꎬ将搜索新问题的答案变成了根据问题实体从知识库中查找候选答案ꎬ再与问题组成句子ꎬ并根据训练生成的56㊀计㊀算㊀机㊀与㊀现㊀代㊀化2018年第7期模型进行分类ꎮ将 问题 答案 对形成的文本进行分词ꎬ并通过fastText训练的词向量模型ꎬ根据词典索引ꎬ表示为向量矩阵ꎬ作为神经网络的输入ꎮ将其分批量送进双向LSTM神经网络ꎬ对LSTM的输出结果再通过CRF根据标签序列调整参数ꎬ通过对验证集的预测值与真实值比较ꎬ降低训练总损失ꎬ完成训练ꎮ3㊀实㊀验3.1㊀词的向量表示Hinton[15]于1986年提出词的分布式表示ꎬ其基本思想是通过学习训练数据将每个词映射成N维实数向量ꎬ并通过词之间的距离来计算语义相似度ꎮ本文使用Facebook于2016年开源的快速文本分类工具fastText的词表征功能来训练词向量ꎬ训练语料来自中文维基百科和机械行业文献资料ꎬ在去除多余标签后ꎬ语料大小约为950MBꎬ再用其训练生成150维的词向量ꎮ3.2㊀实验语料源数据主要由3部分组成ꎬ机械行业科技论文1000篇ꎬ基础技术资料800篇ꎬ行业技术规范400篇ꎮ依据哈尔滨工业大学社会计算与信息检索研究中心提出的中文问题分类体系ꎬ利用源数据ꎬ针对描述类㊁人物类㊁地点类㊁数字类㊁时间类㊁实体类(主要指物质㊁材料㊁术语等)等6大类问题ꎬ构建了问答系统的训练㊁测试语料ꎮ语料分布如表1所示ꎮ表1㊀训练语料和测试语料的问题分布数据集训练集测试集描述类2000700人物类1800600地点类2100900数字类25001100时间类2200950实体类1900650总体1250049003.3㊀评估方法针对不同的问题类型ꎬ开放领域问答系统在评测时可以专门制定评测方法ꎮ目前ꎬ评测开放领域问答系统的国际会议主要有日语问答评测平台NICIR㊁英语问答评测平台TRECQATrack和多语言问答评测CLEF等ꎮ采用的评测指标主要包括准确率㊁平均排序倒数(MRR)㊁CWS等ꎮ其中:MRR=ðNi=11标准答案在系统给出的排序结果中的位置(8)当系统给出的排序结果中存在标准答案时ꎬ以第一个匹配结果计算得分ꎻ当系统给出的排序结果中不存在标准答案时ꎬ得分为0ꎮ最终分数为所有分数之和ꎮCWS=1NðNi=1前i个提问中被正确回答的提问数i(9)其中ꎬN表示测试集中提问的个数ꎮ上述指标是在开放领域问答系统中对输出答案质量进行评价的主要指标ꎮ而面向限定领域的问答系统的评测在开放领域问答基础上ꎬ增加了一些指标ꎮAnne等[16]从构建航天工程领域问答系统出发ꎬ提出了以用户为中心ꎬ以任务为基点的限定领域问答系统评测方法ꎬ包括系统响应时间㊁系统可靠性㊁答案完整性㊁答案准确性㊁答案相关性㊁答案有用性等ꎮ由于系统可靠性㊁答案完整性㊁答案有用性等指标难以准确评估ꎬ因此ꎬ此次实验出于实用性考虑ꎬ主要使用准确率和消耗响应时间这2个指标来对系统进行测评ꎮ3.4㊀实验结果杨煜等[17]利用Google开源的Tensorflow框架实现了基于LSTM神经网络的人体动作分类系统ꎮTensorflow简化了机器学习模型的代码实现ꎮ此实验模型使用Python3.5和Google开源的Tensorflow框架实现ꎮ将训练语料经过分词和向量化处理后ꎬ送入BI ̄LSTM ̄CRF模型ꎮ为验证BI ̄LSTM ̄CRF模型在问答系统上的有效性ꎬ实验与上文相关工作中提到的LSTM方法进行了比较ꎬ结果如表2所示ꎮ表2㊀问答系统模型实验对比结果数据集LSTMBI ̄LSTM ̄CRF准确率/%时间/s准确率/%时间/s描述79.110180.5124人物84.39484.4106地点83.311983.2133数字83.212484.7139时间82.911783.1121实体78.89380.297㊀㊀由表2可知ꎬ将LSTM与CRF结合起来构建的BI ̄LSTM ̄CRF模型ꎬ在实验数据中的准确率较通用的LSTM模型有所提升ꎬ但消耗时间略有增加ꎮ由于消耗时间是测试子集的总体时间ꎬ因此在实际应用中ꎬ平均响应时间增加不大ꎬ可以忽略ꎮ虽然BI ̄LSTM ̄CRF模型整体表现不错ꎬ但在地点类问题子集上ꎬ准确率却不如LSTM模型ꎮ经分析后发现ꎬ造成此种情形主要是由于此次训练样本不够多ꎮ在训练样本不足时ꎬBI ̄LSTM ̄CRF相比LSTM优势并不明显ꎮ但在训练样本足够时ꎬBI ̄LSTM ̄CRF能取得更大的优势ꎮ在地点类问题上准确率与训练样本量的变化趋势如图4所示ꎮ总之ꎬBL ̄LSTM ̄CRF模型提升了限定领域问答系统的性能ꎬ取得了较好的效果ꎮ㊀2018年第7期程树东等:基于BI ̄LSTM ̄CRF模型的限定领域知识库问答系统57㊀图4㊀模型训练样本量与准确率变化趋势4 结束语本文分析了问答系统的现状以及条件随机场㊁长短期记忆网络等机器学习算法的成功应用ꎬ提出用深度学习的方法来改善问答系统中存在的不足ꎮ本文尝试综合利用条件随机场与长短期记忆网络的优点ꎬ结合构造成新的模型对问答系统进行研究ꎬ以发掘一种提高问答系统性能的机器学习框架ꎮ借助实验ꎬ对混合长短时记忆网络和CRF的学习框架(BI ̄LSTM ̄CRF)与传统方法进行了比较ꎬ发现结合两者的优点ꎬ可以更好地理解问题ꎬ提高准确率ꎮBI ̄LSTM ̄CRF模型在不制定繁琐的特征规则的情况下ꎬ也取得了较好的准确率ꎮ对于训练数据不足的问题ꎬ除了收集和标记更多数据之外ꎬ还有待利用更好的学习方法在现有训练数据基础上学习更多的特征ꎬ这也将是下一步的研究方向ꎮ参考文献:[1]㊀宋凯ꎬ肖川.全液压热矫直机的结构特点及应用[J].山西冶金ꎬ2016ꎬ39(3):91 ̄92.[2]㊀张凯ꎬ宋锦春ꎬ李松ꎬ等.基于分类学习粒子群优化算法的液压矫直机控制[J].机械工程学报ꎬ2017ꎬ53(18):202 ̄208.[3]㊀乔磊ꎬ李存华ꎬ仲兆满ꎬ等.基于规则的人物信息抽取算法的研究[J].南京师大学报(自然科学版)ꎬ2012ꎬ35(4):134 ̄139.[4]㊀郑轶.基于条件随机场的人物信息抽取[J].计算技术与自动化ꎬ2015ꎬ34(4):132 ̄136.[5]㊀王宗尧ꎬ刘金岭ꎬ崔俊峰ꎬ等.基于CRF模型的短文本信息流话题提取[J].淮阴工学院学报ꎬ2016ꎬ25(5):6 ̄9.[6]㊀翟菊叶ꎬ陈春燕ꎬ张钰ꎬ等.基于CRF与规则相结合的中文电子病历命名实体识别研究[J].包头医学院学报ꎬ2017ꎬ33(11):124 ̄125.[7]㊀YaoXuchenꎬVanDurmeB.Informationextractionoverstructureddata:Questionansweringwithfreebase[C]//MeetingoftheAssociationforComputationalLinguistics.2014:956 ̄966.[8]㊀BordesAꎬChopraSꎬWestonJ.Questionansweringwithsubgraphembeddings[J].ComputerScienceꎬ2014:arX ̄iv:1406.3676.[9]㊀BordesAꎬWestonJꎬUsunierN.Openquestionansweringwithweaklysupervisedembeddingmodels[C]//Proceed ̄ingsoftheEuropeanConferenceonMachineLearningandKnowledgeDiscoveryinDatabases.2014:165 ̄180. [10]LiDongꎬWeiFuruꎬZhouMingꎬetal.Questionansweringoverfreebasewithmulti ̄columnconvolutionalneuralnet ̄works[C]//Proceedingsofthe53rdAnnualMeetingoftheAssociationforComputationalLinguistics&the7thInter ̄nationalJointConferenceonNaturalLanguageProcessing.2015:260 ̄269.[11]YihWen ̄tauꎬChangMing ̄WeiꎬHeXiaodongꎬetal.Se ̄manticparsingviastagedquerygraphgeneration:Questionansweringwithknowledgebase[C]//Proceedingsofthe53rdAnnualMeetingoftheAssociationforComputationalLinguisticsandthe7thInternationalJointConferenceonNaturalLanguageProcessing.2015:1321 ̄1331. [12]周博通ꎬ孙承杰ꎬ林磊ꎬ等.基于LSTM的大规模知识库自动问答[J].北京大学学报(自然科学版)ꎬ2018ꎬ54(2):286 ̄292.[13]LaffertyJꎬMccallumAꎬPereiraF.Conditionalrandomfields:Probabilisticmodelsforsegmentingandlabelingse ̄quencedata[C]//Proceedingsofthe18thInternationalConferenceonMachineLearning.2001:282 ̄289. [14]HochreiterSꎬSchmidhuberJ.Longshort ̄termmemory[J].NeuralComputationꎬ1997ꎬ9(8):1735 ̄1780. [15]HintonGE.Learningdistributedrepresentationsofcon ̄cepts[C]//Proceedingsofthe8thAnnualConferenceoftheCognitiveScienceSociety.1986:46 ̄61.[16]DiekemaARꎬYilmazelOꎬLiddyED.Evaluationofre ̄stricteddomainquestion ̄answeringsystems[C]//Proceed ̄ingsoftheACLWorkshoponQuestionAnsweringinRe ̄strictedDomain.2004.[17]杨煜ꎬ张炜.TensorFlow平台上基于LSTM神经网络的人体动作分类[J].智能计算机与应用ꎬ2017ꎬ7(5):41 ̄45.。

相关文档
最新文档