专利技术功效特征自动抽取方法探索——以6G领域为例

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

摘 要:[目的/意义]在自动摘要技术的基础上,结合专利特性,提出一种专利技术功效特征的自动抽取方法。

[方法/过程]抽取对象包括核心技术内容、功能效用描述两部分;根据专利的文本结构特性设计抽取方案;对所抽取到的技术内容语句进行核心性计算和评价,对所抽取到的功能效用语句进行情感分析,凝练和筛选后得到专利技术功效特征。

[结果/结论]样本对比试验显示,本文提出的方法较同类方法在ROUGE值上有所提升,能够较好地实现专利技术功效特征的自动抽取。

关键词:专利技术功效文本挖掘特征抽取
中图分类号:G306 文献标识码:A
0引言
当今专利信息的海量性正导致科技工作者的信息超载和迷航,这就使凝练专利核心内容,抽取专利关键特征的自动化工作日显重要。

专利关键信息自动提取能使用户快速吸收专利信息,同时为专利撰写提供可靠参考,降低信息噪音,优化专利检索与专利分析工作流程。

专利的关键特征应当包括两大方面:技术内容特征和功能效用特征。

发明人研发的新技术内容是一个方面,该技术能为人类生产生活提供什么样的功能和效用是另一方面。

专利的分类是以功能为原则的,同一功能可以通过不同的技术实现,因此,同一类目下的专利可以在技术内容上具有不同的学科特征;反之,同一技术内容可以服务于不同的功能,实现不同的效用,因此,相同技术内容的专利可以分布在不同的类目下,表现出不同的功效特征。

基于以上两个方面,我们在提取专利特征时必须包括两个部分:专利的技术内容特征和专利的功能效用特征,合称为专利技术功效特征。

本文将在已有的专利文本自动摘要方法的基础上,结合专利文本的特性,构建一种专利技术功效特征的自动抽取方法,力图通过更精准地定位专利的核心技术,更客观地描述专利的功能效用,实现专利关键信息的有效凝练和充分表达。

1研究基础
目前情报学界提取专利关键信息的基本手段是自动摘要技术,根据采用的方法,该技术分为生成式文本摘要和抽取式文本摘要。

(1)生成式摘要:生成式摘要对文章语义信息进行提取,通过模型生成符合主题中心的句子,允许模型有一定概率生成新的词语或短语,有较高灵活性。

主要包括基于图、深度学习两大方法类。

近年来,深度学习技术应用是主流,在框架应用上,有应用
基金项目:本文系国家社科基金西部项目“创新经济学视野下专利引用关系的再认识及其情报学意义再研究”(编号20XTQ008)阶段性成果。

作者简介:向姝璇(1997—),女,四川成都人,硕士研究生,主要研究领域为信息管理方法与应用;李睿(1972—),女,四川成都人,毕业于中国科学院研究生院,博士,教授,博士生导师,主要研究领域为科技情报、科学计量与评价。

通讯作者:李睿。

物力;对于技术性较强的文本,生成式摘要在结果准确度、可读性上有欠缺。

(2)抽取式摘要:抽取式摘要的决定因素是句子的权重,根据预设摘要长度考虑句子个数,按照权重排序择取排名靠前的句子构成摘要。

尤其适用于科技文献,能够提高摘要内容的正确性,避免生成不准确甚至是错误的信息[8]。

主要包括基于图、特征评分、机器学习、深度学习四大方法类。

基于图的,用于抽取式摘要的主要有Lexrank[9]、Textrank[10]等。

在特征构建上,典型的特征包括句子的位置信息[11]、句子中是否有关键词[12]、句子和标题相似度[13]等。

机器学习、深度学习也为摘要抽取提供思路,有学者[14]对句子特征进行提取和识别,通过岭回归判断是否属于摘要;有学者[15]通过LSTM,将单文档摘要任务建模为一个序列化标注任务。

抽取式摘要的主要缺点在于:摘要不够简洁,句子间存在冗余;得到的句子语言连贯性较差,缺失合理逻辑。

目前情报学界针对专利的自动摘要方法大多是单文档抽取式摘要[16-18]。

现有问题主要有:没有将专利技术特征与功效特征放在同等重要的位置上,忽视功效评价;对于摘要抽取的范围,则大多宽泛地从权利要求书和说明书中一并抽取,缺少差异性分析和区别设计;此外,在句子权重修正方法上忽视了专利本身的特征。

本文将在现有专利文献自动摘要技术的基础上,针对以上问题,改进性地提出针对专利的技术功效特征自动抽取方法。

2方法设计
2.1理论基础
专利文献记载的是采用某种技术手段实现对产品进性地设计技术功效特征的自动抽取方法。

2.2技术思路
专利技术功效特征抽取是抽取满足条件的句子构成集合。

对于句子的定义,不按照常规以句号作为分句标志,根据不同部分的内容特征设置相应的分隔符。

如图1,句子抽取包括核心技术、功效描述两部分。

专利技术功效抽取范围应包括其权利要求书与说明书。

其中,说明书一般分为技术领域、背景技术、发明内容与具体说明四大板块。

根据各部分的内容特征设置相应抽取范围与抽取方法如下。

(1)核心技术部分:该部分句子从权利要求书全文、说明书发明内容与具体说明两大部分进行抽取。

权利要求书是以说明书为依据,以科学术语定义该专利或专利申请所给予的保护范围,说明书的发明内容部分主要呈现技术细节。

如果一个句子在两部分以相似度高的形式出现,说明该句子既呈现了技术细节,又属于专利保护范围,可以认为其是核心技术的概率大。

因此,根据句子在两部分出现形式的相似度设置权重W1。

在权利要求和说明书发明内容部分,一般来说靠前句子概括性、重要性较高,可据句子所处位置设置权重W2;排名较后的句子在重要性上可能是并列关系,因此,对于W2需进行调参。

与标题相似度高的句子通常体现了中心思想和主体技术,可据此设置权重W3。

对于该部分句子,根据Textrank权重计算并调整完毕后,需考虑句子之间的差异性避免冗余。

预期保留五个句子,故依次计算句子与后面五句句子的相似度,超过预设阈值则删除排名靠后的句子,最终保留前五句。

该部分句子以分号、句号为分隔符,分号代表每一分句对技术组成的描述是并列关系,但其
因位置造成的重要性会有所差异。

数后几段,考虑通过具体定位与情感分析排除对现有技术的负面性评价,提取正面评价概率大的句子。

根据说明书内容结构,该部分直接以换行符进行切分。

图1 抽取结果的内容结构示意图
2.3技术基础
句子抽取需要进行句子相似度评价、重要度评价与情感评价,对应技术基础如下。

2.3.1 句子相似度评价
对于句子语义相似度评价,有基于字符串、基于统计、基于知识库、基于深度学习四大类方法。

其中,基于深度学习的方法分为无监督方法与有监督方法[22]。

根据文章[23],自然语言处理发展阶段可以用五个世界范围来描述,第一个世界范围的技术已发展完备,该阶段的发展主要集中于文本表示上,Word2Vec、GloVe 等词向量表示是该阶段重要成果。

Doc2Vec模型基于自监督学习方法,由Word2Vec 改进得来,更适合处理需考虑词语排序的文本,有Distributed Memory(DM)与Distributed Bag of Words (DBoW)两种方法。

DM模型通过句向量和词向量进行平均或首尾相接来预测下一个词,其中句向量用于记忆当前段落的主题或确实的内容,每一次滑动采样,均通过输出层softmax函数预测当前位置最大概率会出现的词语;DBoW模型是输入文档向量,预测该文档中随机抽样的单词,每一次随机梯度下降迭代中抽取一个文本窗口,再从该文本窗口中随机采样一个词,2.3.2 句子重要度评价
基于规则、基于无监督机器学习、基于统计机器学习、基于深度学习的自动摘要方法对应不同的句子重要度评价方法。

其中,无监督机器学习算法主要是基于图的算法。

Pagerank算法是一种网页排序算法,其设计借鉴了学术界对于论文重要性评价的方法,即重要性与引用次数正相关。

Textrank设计来源于Pagerank算法,其本质是无监督图排序算法,基本思想是投票打分机制。

Textrank将经过停用词过滤后的句子作为图网络的顶点,将句子间相似度作为图网络的边,用两个句子的相似性作为转移概率,设置条件带入迭代计算直至收敛,得到权重靠前的句子。

Textrank算法被广泛用于关键词与摘要抽取中,与网页Pagerank值的理解类似,如果一个单词或句子能以较大概率囊括其他内容表达的信息,那么,这个单词或者句子比较重要。

该算法获取到的词语或句子可能存在互相近似度过高的情况,即存在冗余,因此,需要借助合理的方法使得结果的多样性与重要性达到平衡。

Textrank算法的重要特征在于,不需要依靠大量语料和模型训练,能够基于单文档的信息获得其关键词或者摘要。

Textrank 句子顶点权重的计算公式如公式2-1,其中V为句子集,E为边集,d为阻尼系数为可变参数,根据已有的实验一般取 0.85。

对于Textrank算法来说,单词或句子的相似度计算方法是需要着重考虑的。

(2-1)2.3.3 句子情感评价
情感分析包括基于情感字典、机器学习、深度学习的方法。

SnowNLP是一个中文文本处理库,其情感分析功能是基于机器学习的,预置了利用贝叶斯模型
行调整;对于句子情感评价,使用SnowNLP进行情感倾向的判别。

专利技术功效特征抽取如图2。

(1)步骤一:限定核心技术抽取范围,根据句子
在权利要求书和说明书中出现的形式相似度设置权重W1,据技术特征句出现的文本结构位置设置权重W2,根据技术特征句与专利标题的相似度设置权重W3,对Textrank计算出的权重再根据句子相似度进行调整,得到低冗余的技术特征句集合,形成核心技术部分。

(2)步骤二:限定功效描述抽取范围,对句子进行情感分析,提取陈述该专利在功能效用上的优势的正面句,形成功效描述部分。

图2 专利技术功效特征自动抽取过程示意图
3专利技术功效特征抽取
3.1核心技术内容抽取
以分号、句号为分隔,分别对专利权利要求书,说明书发明内容部分分句得到句子集合C与D,得到句子c i,d j,经去停用词等预处理得到其句向量ec i,ed j,计算余弦相似度sim1,通过Textrank得到句子初始权重W0。

在权利要求书部分、说明书发明内容部分出现的形式越相似则其越重要,计算ec i与ed j的相似度sim2,得出权重W1。

如公式3-1,对于句子s
根据句子与标题相似度得到的权重W3计算如下。

如公式3-3,对于句子s:
W3=1+sim1(en,es) (3-3)对于该部分的句子,通过Textrank权重计算得到W0,再根据公式3-4进行权重调整得到最终句子权重W,并根据W对句子进行排名。

预期取排名前五位的句子,则依次将句子与后面的五个句子进行比较,相似度大于λ时删除排名靠后的句子。

最终取排名前t 位的句子s i作为核心技术内容部分句子集合A1最终结果,如公式3-5。

W=W0*W1*W2*W3 (3-4)MMR(A1={s i|Rank(W(s i))≤5, s i∈C∪D} (3-5)3.2 功能效用描述抽取
设功效评价部分句子集合为A2。

如公式3-6,提取说明书背景技术最后一段p1、发明内容的第一段p2,具体说明倒数第后十段统一用p3表示。

通过情感分析取积极类别概率P最大的一段。

如公式3-7,对于专利技术功效特征集合A则有:
A2={p i |P(p i)=max{P(p1),P(p2),P(p3)}} (3-6)A= A1∪A2 (3-7)
4领域样本实验
4.1 领域样本选取
实验选择6G领域专利进行技术功效特征抽取。

于Incopat专利数据库以DES=“6G”为检索式,通过该检索式限定了所选取专利均为6G技术领域,下载50篇专利全文作为实验数据。

考虑到技术的传承性,本文选取5G
领域专利文本,包括权利要求、说明书
(3-2)
元词组,通过算法得到的摘要与标准参考摘要的词语共现情况对摘要质量进行评价,其值为N元词召回率。

经研究,ROUGE-2在单文档摘要任务中有较好效果,ROUGE-1适用于较短的摘要[26],参考NLPCC中文单文档新闻摘要评测任务,增加了评价指标ROUGE-4,笔者编写相关算法实现所述评价。

通过DBoW方法进行Doc2Vec模型训练。

经调试,本次模型中参数设置为100维有最佳效果。

得到模型后,按照前文所述步骤进行技术功效特征抽取并与专利标准摘要对比。

本文对W2(根据句子位置设置的权重)的参数e进行了调参试验。

为验证本文提出的权重的有效性(包括根据在权利要求书与说明书发明内容部分出现形式的相似度设置权重W1;据句子与标题相似度设置权重W3),分别评价了不考虑某项权重时技术功效特征抽取结果。

textrank4zh包是针对中文文本的优化后的Textrank算法实现,本文通过textrank4zh包取排名靠前的句子作为专利摘要集合,与通过本文模型抽取的句子进行比较。

此外,本文复现了同类专利摘要抽取PatentRank算法[27],选取其实验得出的效果最佳参数取值,与本文提出的算法进行对比。

4.3 实验结果
对于W2(根据句子位置设置的权重)计算的参数e调参结果如图3、图4与图5。

对于ROUGE-1与ROUGE-2,e取0.6和0.9时表现近似,但e取0.9时较e取0.6时在ROUGE-4指标上有显著提升,故e取0.9时有最佳效果。

这也说明了句子所处位置对于专利技术功效特征抽取的重要性,在权利要求书和说明书发明内容部分出现的靠前的句子重要性高,验证了权重W2设置的合理性。

图3 ROUGE-1 图4 ROUGE-2 图5 GOUGE-4
e取值0.9,分别计算了不考虑某项权重时技术功效特征抽取结果的ROUGE值。

由表1可知,设置W1(根据在权利要求书与说明书发明内容部分出现形式的相似度设置的权重)、W3(据句子与标题相似度设置的权重)为ROUGE-2、ROUGE-4值带来明显增长,尤其是根据句子在权利要求书与说明书出现形式的相似度设置的权重,对整体效果提升起到了很大的作用。

总的来说,三个权重合并考虑时技术功效特征抽取表现最优,验证了权重设计的合理性。


1 权重设计合理性验证
将使用textrank4zh、PatentRank算法与本文提出的算法得到的句子集ROUGE值进行对比,结果如表2所示。

在ROUGE值的表现上,通过本文模型抽取的技术功效特征明显优于上述二者的结果。


2 同类方法效果对比
本文通过研究发现,具体定位与情感分析结合能较准确地把握专利功效特征,通过限定位置范围也能优化专利技术特征句定位;对于专利的技术特征句重要度评价,除了已有研究中的句子位置指标,和其与标题的语义相似度指标,句子在权利要求书与专利说明书出现形式的相似度也是非常重要的指标。

An Improved Technology-Function Features Extraction Method of
Patents—An Case Study of 6G Domain
XIANG Shuxuan1, LI Rui 2
(1.School of Public Administration, Sichuan University, Chengdu 610064;
2.Institute of Disaster Management and Reconstruction, Sichuan University, Chengdu 610207)
Abstract:[Purpose/significance] On the basis of automatic summarization technology, combined with patent characteristics, an automatic extraction method of patent's technology-funtion features is provided. [Method/process] The extraction includes two parts: core technology content and function utility description; the extraction method is designed according to the text structure characteristics of the patent; the evaluation of importance of the extracted technology content sentences are carried out, as well as the emotion analysis of the extracted function utility sentences, and the patent's technical-funtion features are obtained after refining and screening. [Result/conclusion] This method shows significant improvement in the ROUGE value compared with other similar methods, which means technical-funtion features can be spotted by applying this method.
Key words: technology-function features of patent; text mining; feature extraction。

相关文档
最新文档