基于BLSTM_attention_CRF模型的新能源汽车领域术语抽取

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Abstract:Inordertoimprovetheaccuracyandrecallrateofterminologyextractionresultsinthefieldofnewenergyvehicles, thispaperpresentedadomainterminologyextractionmodelforthenewenergyvehiclespatenttext.Traditionaldomaintermi nologyextractionmethodsrelytoomuchonhumandefinedfeaturesandspecializeddomainknowledgetoautomaticallymine implicitfeatureswhoserecognitionperformancegreatlydependsonthequalityoftheselectedfeatures.Inordertosolvethe problems,thispaperproposedamodelfromtheperspectitractedthedomaintermsbyacom binationofBLSTM (bidirectionallongshortterm memory)modelbasedontheattentionmechanism andCRF(conditional randomfields)model(BLSTM_attention_CRFmodel),andthenitcorrectedtheresultbyacombinationofdictionaryand rules.ExperimentalresultsshowthattheaccuracyofBLSTMATTCRFmodelcanreachmorethan86%,whichshowsthat BLSTMATTCRFmodeliseffectivetotermextractionofnewenergyvehicles. Keywords:domaintermextraction;attentionmechanism;bidirectionallongshorttermmemory;conditionalrandomfields; dictionary;rules
第 36卷第 5期 2019年 5月
计算机应用研究 ApplicationResearchofComputers
Vol36No5 May2019
基于 BLSTM_attention_CRF模型的 新能源汽车领域术语抽取
马建红,张亚梅,姚 爽,张炳斐,郭昌宏
(河北工业大学 计算机科学与软件学院,天津 300401)
TerminologyextractionfornewenergyvehiclebasedonBLSTM_attention_CRFmodel
MaJianhong,ZhangYamei,YaoShuang,ZhangBingfei,GuoChanghong
(SchoolofComputerScience& Software,HebeiUniversityofTechnology,Tianjin300401,China)
摘 要:为提高新能源汽车领域术语抽取准确率,面向新能源汽车专利文本提出一种领域术语抽取模型。传 统 的 领 域 术 语 抽 取 方 法 过 度 依 赖 人 工 定 义 特 征 和 领 域 知 识 ,无 法 自 动 挖 掘 隐 含 特 征 ,其 识 别 性 能 过 度 依 赖 所 选特征的质量。从深度学习的角度出发,提出了一种基于 attention的双向长短时记忆网络(bidirectionallong shortterm memory,BLSTM)与条件随机场(conditionalrandom fields,CRF)相结合的领域术语 抽 取 模 型 (BLSTM_ attention_CRF模型),并使用基于词典与规则相结合的方法对结果进行校正,准确率可达到 86%以上,方法切 实可行。 关键词:领域术语抽取;attention机制;双向长短时记忆网络;条件随机场;词典;规则 中图分类号:TP391 文献标志码:A 文章编号:10013695(2019)05022138505 doi:10.19734/j.issn.10013695.2017.11.0741
利文本及新能源汽车相关文献,发现专利文本中的新能源汽车 领域术语主要存在以下特点:
a)中文领域 术 语 是 一 个 开 放 的 集 合,随 着 时 间 转 移 会 不 断出现新词,所以抽取过程中的新词发现情况无法很好处理。
b)新能源汽车领域术语组合方式多变,词长主要从 2~10 字不等,其中包含较多的长术语和中英文混合的术语,如 AC/ DC电源、CAN总线接口。
0 引言
领域术语是以语音或文字为载体来表达或限定专业概念 的约定性符号 [1],可 以 是 词,也 可 以 是 词 组,在 我 国 又 称 为 名 词或科技名词。领域术语抽取技术在自然语言处理领域被广 泛研究,并应用于多个领域,如文本分类、句法分析、自然语言 生成、语料库语言学、统计机器翻译、信息检索、自动问答系统 等领域[2]。随着科学技术的不断发展、新技术的不断涌现,以 及互联网大数据、云计算时代的到来,使得特定领域的术语抽 取需求不断扩大、更新,以往靠人工收集和非监督学习算法的 抽取已经远远不能满足人们的需求,利用计算机自动抽取领域 术语已经成为 必 然 [3]。 专 利 文 献 具 有 新 颖 性、可 靠 性 和 权 威 性,是科技信息工作的重要研究对象,通常被认为是一种重要 的知识来源。专利中的领域术语能够准确快捷地了解专利的 方向以及核心技术,专利的有效利用能够提高国家和企业的发 展速度[4~6]。由此,本文面向新能源汽车领域的专利文本抽取 领域术语,基于深度学习建立自动抽取模型。经过大量分析专
相关文档
最新文档