在线专利检索分析系统的设计与实现
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
在线专利检索分析系统的设计与实现
作者:温家凯农强
来源:《企业科技与发展》2016年第06期
(广西达译商务服务有限责任公司,广西南宁 530007)
【摘要】文章介绍了一个在线专利检索分析系统,阐述了系统的体系结构、各模块的功能、关键技术。该系统在分布式大数据采集、基于Lucene与Mysql数据库结合的全文索引、基于Mina框架的分布式在线分析架构等基础上实现的专利信息检索和统计分析,在大规模数据方面体现出较好的效率,并提供检索结果自动翻译、检索词智能扩展和产业分类导航等特色功能,可以帮助普通用户更便捷地利用专利信息。
【关键词】专利检索自动翻译;检索扩展;专利分析;分布式;全文检索Lucene Mina
【中图分类号】TP311 【文献标识码】A 【文章编号】1674-0688(2016)06-0034-05
0 引言
随着知识经济的深入发展,专利已成为企业市场竞争力的核心要素和最重要的资产构成。进入新世纪以来,许多企业特别是西方跨国公司通过“专利圈地”,垄断高端技术领域,排挤竞争对手,攫取了巨大的市场利益。可以说,对于后发展欠发达地区的企业而言,加强技术创新并及时将创新成果申请专利保护,既是保护自身利益的迫切需要,也是跻身市场竞争制高点的必然选择,更是其发展和壮大的必由之路。本文开发了一个在线专利数据检索分析系统PatentOnline,为广西重点产业提供以产业细分为基础的专利检索及分析服务,帮助企业了解竞争对手的技术水平和跟踪最新技术发展动向,提高研发起点、加快产品升级和防范知识产权风险。
1 总体设计
系统采用MVC 3层结构:展示层、逻辑层和数据服务层(如图1所示)。展示层负责基于Web界面的用户交互与展示;逻辑层负责对数据进行处理,并与数据服务层进行交互;数据服务层负责采集与专利相关的数据,进行数据清洗、数据抽取转换等操作,并为上层提供数据访问的接口。
1.1 在线专利检索子系统
1.1.1 快捷检索模块
快捷检索模块提供类似搜索引擎的简洁界面(仅一个检索框)给用户进行检索。快捷检索功能提供2种检索行为。
(1)专利号检索。用户输入申请号或公开公告号进行检索。
(2)关键词检索。用户输入关键词,系统对发明名称、摘要、发明人进行全文检索查询,返回查询结果。可以输入多个关键词,用空格隔开,默认是“逻辑与”的关系。
1.1.2 表格检索模块
表格检索模块提供给用户同时对多个检索字段进行检索的功能,检索字段包括申请号、发明名称、公开(公告)号、公开(公告)日、IPC分类号、申请人、申请日、发明人、主题词、摘要、主权利要求、优先权项、国别省市代码、代理机构代码、申请人地址。字段内支持检索词使用“and”和“or”运算。
1.1.3 自定义表达式检索模块
用户可根据自己定义的表达式来进行检索。支持“and”“or”“not”“xor”等多条件查询。单击“》”显示更多的逻辑关系。鼠标移至“?”显示帮助说明文档。对每个查询条件的字段名称有相应的字母对应,点击“字段名称”可查看。单击某个字段名称,自动在自定义表达式输入框中填充,用户输入自己想要查询的表达式,点击“检索”按钮,就会检索到相应的数据。单击“检索
历史”,显示之前检索的历史记录。在检索历史记录中点击某条检索表达式,会自动填充在自定义表达式的输入框中,方便操作。
1.1.4 主题检索模块
主题检索模块是根据中国分类主题词表实现的关联性搜索功能。用户可以通过“主题检索”-“查看主题内容”来查看所输入检索词的主题词信息。信息包括主要类目相关内容和次要类目相关内容。通过点击“主题检索”—“生成主题表达式”来生成专利检索表达式。主题检索模块提供了3种专利检索方式:{1}根据检索词的正式和非正式主题词来进行专利搜索的“精准检索”。{2}根据检索词的正式主题词、非正式主题词、下位词来进行专利搜索的“模糊检索”。{3}将检索词的正式主题词、非正式主题词翻译成英文的“英文检索”。
1.1.5 同义词检索模块
同义检索模块是根据同义词词库来实现的相关搜索功能。用户可以通过“同义检索”—“查
看同义词内容”来查看所输入检索词的同义词信息。通过点击“同义检索”—“生成同义词表达式”来生成专利检索表达式。同义检索模块提供了3种专利检索方式:{1}根据检索词的同义词
进行专利搜索的“同义检索”。{2}根据同义词的相关主题词进行专利检索的“同义扩展检索”。{3}将检索词的同义词翻译成英文的“英文检索”。
1.1.6 自动翻译模块
该模块提供对检索结果的自动翻译。系统调用外部专利机器翻译系统接口,将英文检索结果中的专利信息(标题和摘要)自动翻译成中文,以帮助用户快速地了解检索结果信息。
1.1.7 IPC分类导航模块
IPC分类导航显示各IPC分析的信息,可点击展开节点来查看各分类节点的子项信息,包含有中国专利和外国专利的选择,点击某项可进行查看信息。用户可以选择对指定分类的专利集合进行检索(有数量限制)。
1.1.8 行业分类导航模块
行业分类导航功能和IPC分类导航功能相同,只是分类不同。可点击展开节点来查看各分类节点的子项信息,包含有中国专利和外国专利的选择,点击某项可进行查看信息。对选择的某个分类专利集合进行检索。
1.1.9 专利管理模块
该模块由“表达式”“标引”“专题库”和“模板”4个部分组成。该模块可帮助用户在日常使用中积累自己的专利检索表达式,对感兴趣的专利进行标引,建立自己的专利专题库。
1.1.10 用户管理模块
用户分为普通用户和高级用户。系统对不同用户赋予不同的使用和管理权限。例如,高级用户可放宽进行专利分析的数量限制。
1.2 在线专利分析子系统
对专利数据进行多元统计和指标分析是指对专利文献的有关特征进行统计或按照指标算法进行分析。该子系统能够实时对用户选择的专利集合(专利检索结果集或是专利专题库)进行各种专利分析操作,并显示分析结果。
1.2.1 总体趋势分析
总体趋势分析按专利申请日期或专利公开日期统计专利数量。