DI专利大数据平台能做什么

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

DI专利大数据平台能做什么

黄迎燕

初次接触知识产权大数据与智慧服务系统(简称:DI INSPIRO 系统),心里好像有种期待。这么多年来使用过的专利数据库不下十余种,有开发国家队的,有民间开发的,有外资开发的,它们各有千秋,也都有不尽如人意的地方。因此期待DI能与用过的专利数据库有较大的不同,要是有飞跃就更好了。从DI的介绍看,看起来它与传统的专利数据库有一些区别,它不仅收录了国内外专利,还包括与之关联的商标、科技期刊、标准和法律文书等方面的数据资源。这点我喜欢,专利与其他资源整合在一起是好事。著名的《大数据时代》中提出了大数据“不是随机样本,而是全体数据;不是精确性,而是混杂性;不是因果关系,而是相关关系”的观点。理解专利技术仅凭专利信息是不够的,专利信息很碎片化,单看一篇文献会产生“盲人摸象”的感觉。DI中有其他科技资源,可以补充这块短板,让人快速掌握专利技术的要领。

DI提供的功能不仅可以检索、统计分析,还可以自动提取关键词、专利比对、项目管理、专利预警等。其实对于我这样的老手,各数据库的检索功能都做得比较成熟,有质的飞跃是很难的。在大数据时代,专利信息的属性很明显是多样性、复杂性,那么从信息或数据中要挖出好东西,肯定不是“一铲子”——检索所能解决的问题。因此,检索功能做得再好也不能解决使用专利信息的所有问题。专利既然是资源,它不会躺在大街上,让人随手可得,像捡钱一样。

要挖掘出专利的价值,不仅要有检索功能,数据的统计分析功能是不可或缺的。对于数据分析,特别是专利技术内容的分析,传统的做法倾向于“先建模再分析”的模式,需要人为的数据处理,预先建模,分类等,将数据针对技术主题建模,然后再分析和展现,而没有模型的时候就无法探索新的关系。因此,传统的数据分析无法真正实现大数据的核心——“全量”,“混杂”,“相关关系”的需求,也就是通过全量数据寻找相关关系。而且传统的数据分析面临了巨大的人才压力,因为数据的建模和分类需要对技术、业务有很深了解的专家才可以胜任,这大大增加了数据分析的难度。

如果有个IT工具协助对数据进行整体分析,也许能发现许多之前凭借经验无法发现的相关关系。我想,通过DI专利大数据平台的探索,或许可以在全局角度下,发现数据间的关系,或是对一个分析对象构建完整的画像。DI的项目管理功能也许是一个可以探索的途径。从表面看,DI的项目管理功能让用户自行进行专题数据库的建立,这好像与传统专利数据库没什么区别,但是它设计的若干功能与其他平台不一样,例如:设置项目的树形结构(见下图)、拆分项目(按照申请人、IPC、发明人、年代等)、可选择性添加或删除文件、移出项目(整体删除)等,可以部分满足进行“数据整理、筛选”的使用功能;自动抽取关键词并统计、批量标引、IPC/申请人(专利权人)/发明人等内容的自动统计,可以部分满足进行“标引”的使用功能,见下表。

使用功能设计功能

数据整理设置项目的树形结构

拆分项目(按照申请人、IPC、发明

人、年代等)

可选择性添加或删除文件

移出项目(整体删除)

标引自动抽取关键词并统计

批量标引

IPC、申请人(专利权人)、发明人

自动统计

项目的内容设计

项目导出

拆分项目

未来的展望

目前平台上提供的可视化功能是个很好的尝试,不过暂时觉得花哨了一个,还没有真正摸清其点睛之处。与之相关联的显示界面上的检索,可以多种类型组合,例如:关键词与分类,与申请人,或与发明人等,好像没有理清头绪,不知如何协助使用者获取更好的信息。

不知道DI是否有学习能力?要是有的话,自动抽取关键词的功能可以不断优化,抽取出的关键词会越来越可心、准确;大数据平台也能通过数据分析建模和机器学习等方式获得更多数据之间的联系。

IT开发人员的思路与专利使用者的思路,绝对是不一样的,IT 人员开发出的功能在使用者看来也许有些云山雾罩,但是仔细品一品,有些可能得出不一样的效果。DI还将可以支持各种高级统计分析和数据挖掘功能,包括聚类、数据关联、语义挖掘、智能分类、机器翻译、跨语言检索等。这些功能现在看起来比较高端大气上档次,不过我还在还不熟悉,等摸熟了就知道如何为我所用了。

相关文档
最新文档