我国专利挖掘研究现状分析

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

我国专利挖掘研究现状分析

李梦瑶刘彤蒋贵凰

（北方工业大学经济管理学院，北京100144）

1概述

随着经济的发展和社会的进步，专利是技术信息的一种有效载体，它能够切实反映技术的发展前景，进一步为国家科技和经济的发展做出贡献。相比较一般的信息，从专利中提取而来的信息更加。所谓专利挖掘，其实就是指在产品技术研发中，对所取得的技术成果从技术和法律层面进行剖析、整理、拆分和筛选，从而进一步确定申请专利的技术创新点和技术方案。专利挖掘的目的可分为成果保护型和包围拦截型。成果保护型是指将技术创新成果申请专利以进行法律化、权力化，有效保护企业的技术研发成果不被他人抄袭复制；包围拦截型是指针对竞争对手的技术或产品路线进行研究，进而制定相应的专利挖掘规划和技术研发策略，提前设置外围专利，干扰和遏制竞争对手的专利策略。

专利挖掘作为一种对专利进行保护和深度研究的技术手段，在当今这个科技和经济高速发展的时代具有其存在的重要意义和价值。通过专利挖掘，可以更加准确地了解企业技术创新成果的主要发明点，对专利申请文件设计，提升了专利申请的综合质量；可以对技术创新成果进行全面、充分、有效的保护，梳理并掌握可能具有专利申请价值的各主要技术点，避免出现专利保护的漏洞；通过专利挖掘，可以培育巩固企业自身的核心竞争力，也可以与竞争对手形成有效对抗甚至在相关技术要点上构成反制；能够尽早发现竞争对手有威胁的重要专利，便于企业进行规避设计以规避专利风险。简言之，对于企业而言，做好专利挖掘，有利于实现法律权利和商业收益最大化、专利侵权风险最小化的目标。文章将从专利挖掘的途径、技术方法和现有软件三方面分析我国专利挖掘的研究现状，指出专利挖掘技术突破的难点，并预测专利挖掘未来的发展趋势。

2专利挖掘方法途径

从一般角度来说，专利挖掘主要可分为两种：从项目任务出发和从某一创新点出发。

专利挖掘的重要研究途径便是从项目任务出发，该途径从项目的任务出发，按找出完成任务的组成、分析各组成的技术要素、找出各技术要素的创新点、根据创新点总结技术方案的次序进行。

第二种途径则是从某一创新点出发的方法来进行专利挖掘。与第一种方式不同，该途径是从项目的某创新点出发，按找出该创新点的关联因素、找出各关联因素其他创新点、根据其他创新点总结技术方案的次序进行。

若按照以上两种途径完成挖掘，则会形成若干个大相径庭的技术方案，在这些技术方案中，专利授权要求是最基本的特征，由此便能够产生大量的专利申请素材，企业的专利部门可以依照以上两种方法的钻研所得出的结论并在此基础上分析筛选，从而确定专利申请的主题。从整体上讲，两个挖掘途径的出发点不同，因此使用者可以根据不同的出发点选择使用。两者可以单独使用，也可以有取舍地联合使用。

3专利挖掘技术方法

专利挖掘主要包括以下两种技术：一种是分类技术；另一种是信息检索技术。前者基于自然语言处理技术，而后者通常根据分类技术在专利挖掘中应用的频率高及其重要性，这里主要介绍文本分类技术以及相关研究。

3.1文本分类

文本分类就是将未标注类别的文档分到已定义好的类别中去的一种方法。文本分类系统从某种意义上讲也是一种分类器--目的是实现对文档标注类别信息，而文本分类系统通常也都是采用指导学习的方法进行构造。主要操作步骤是：（1）准备一部分标注了类别信息的训练样文章档集合；（2）在若干训练样本的基础中上，结合某种学习算法训练分类模型的参数，即可得到文本分类系统；（3）用这个分类系统对新的文档进行分类，从而进一步实现自动对未知样本进行分类。[1]

文本分类的方法的发展历程分为两个阶段：基于规则的文本分类、基于统计机器学习模型的文本分类[2]。而基于统计机器学习模型的文本分类方法克服了基于规则系统的不足，不需人工操作，可以很快地适应各种应用，同时在分类效率和准确率上均有很大提高。

3.2特征选取方法

文本的特征选取的方法有很多例如文档频度DF（DocumentFre-queney）、类别频度CF（ClassFrequeney）、信息增益（informationGain）

等。[3]

文档频度的目的是根据某一个特征在语料中出现的频数按照文本频度的大小排序，根据某一个特定值，去掉频率最低的词，选取前N个特征词。但是文档频度的假设前提是低频词没有信息量。这种方法的优点有很多，例如：算法简单、计算量小、易于实现以及减少了很多不必要的特征空间维数；而缺点也恰恰是也存在于这些被去掉的维数中可能存在一些低频词可能含有大量的信息，去掉会影响分类效果。

类别频度的目的是根据某一个特征在语料中出现的频度大小排序，从而设定文档频度的特定值，去掉频率两极端的特征词。类别频度的假设前提是大多数类别中都出现或只在个别类别中出现的词含有的信息量很小。

信息增益是指计算特征含有的信息量和对预测样本类别所能提供的信息量。它考虑了一个词出现或不出现对类别提供的信息量差别，这种方法在分类任务中效果不错，但计算量很大。

3.3特征权重的计算方法

特征权重计算是为文本特征词赋予一定的权重，得到文本特征向量。常见的几种特征选取的方法有：布尔权重、词频权重、tf×idf-权重、tfc-权重等。

3.4分类器

分类器有很多种，常用的有KNN分类器、最大嫡、支持向量机、贝叶斯等，他们的存在可以应用于大量文本分类问题，有助于提高工作效率。

4专利挖掘软件

目前的我国专利挖掘软件仍停留在统计分析和引用分析层面，国外部分软件提供了少量的文本挖掘功能。深度专利挖掘仍需要借助文本挖掘软件或利用Java语言自行编写程序。这里对国内外现有的专利分析软件进行对比分析，了解专利挖掘软件现状。专利分析软件大都是集成系统，其功能涵盖了专利检索、专利下载、专利分析、专利管理以及软件系统管理等。

目前，在中国也有很多专利分析软件。主要有：PIAS专利信息分析系统、东方灵盾中外专利检索及战略分析平台、大为PatentEX 专利信息创新平台、恒和顿HIT-恒库等等。在这其中PIAS专利信息分析系统是由国家知识产权局开发的，情报和信息相对比较可信和直观；东方灵盾公司的分析软件相比国内其它软件，具有更加强大而个性化的检索和分析功能；大为PatentEX和恒和顿系统都较为稳定。在统计分析和引用分析方面，国内软件均较为成熟，专利地图也制作的直观且清晰，但深入挖掘功能不足。

国外的专利分析软件起步较早，目前主要有：Derwent Analyt-ics、TDA、Aureka、VantagePoint、Patentlab-Ⅱ、BizInt Smart Charts、STN AnaVist、Focust、Invention Machine。国外的软件多是细节性地

摘要：文章从专利挖掘的途径、技术方法和现有软件三个方面分析了我国专利挖掘研究现状，指出专利挖掘技术突破的难点，并预测专利挖掘未来的发展趋势。

关键词：专利挖掘；方法技术；研究现状

*文章受2015年北京市大学生科学研究与创业行动计划项目资助遥

281--