incoPat专利DNA图谱技术白皮书
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
聪以知远明以察微AI检索·专利DNA图谱技术白皮书
北京合享智慧科技有限公司
2019年5月9日
前言
中国有8100万科技工作者,2018年,有100万发明人申请了专利,研发经费总投入达到2万亿元,居全球第二。人类累计创造了数以亿计的发明,大部分已经被计算机存储下来,现在,我们似乎可以触及全部的发明内容,但大部分发明人创新时却不知道自己的创新是否是全新的,应该从哪里获得启示。据世界知识产权组织统计,因为缺乏对已公开专利的调研,重复研发浪费了60%的研发时间和40%的研发费用。由于专利信息晦涩难懂,对发明人检索匹配、阅读理解、技术分析造成了障碍,严重影响专利情报的价值释放。
随着人工智能和生命科学的技术革新,人类对世界的认知能力不断加强。谷歌相册可以帮助用户识别照片中的人物;Siri可以解析对话的内容,处理生活琐事;1869年DNA被首次发现,2000年人类基因组草图绘制工作完成,至今基因检测已经成熟应用于身份鉴定领域,并成为癌症筛查的有效手段。
为了使专利检索体验有革命性的提升,我们不能满足于将搜索引擎、语义检索等技术简单嫁接,而是要抓住发明的本质,在发明问题的定义、核心算法的构建层面探索全新的方法。
incoPat团队利用人工智能、自然语言处理、知识图谱等技术,借鉴了DNA 识别的理念和算法,深度挖掘专利内核,自主研发了专利DNA图谱技术,构建起全球专利基因图谱,完成发明创新由黑盒到白盒的转变,让人与机器的智慧充分融合,实现新一代“发明创新解决理论”的落地,助力用户提高创新效率、提升知识产权竞争力、锁定新兴市场商业机会。
1.incoPat简介
incoPat全面整理并汉化120个国家、组织和地区自1782年以来的1.3亿项专利技术,并以每24小时添加1.4万项最新技术的速度不断增长。incoPat深度加工法律状态、诉讼信息、企业工商信息、运营信息、海关备案、通信标准、国防解密专利等增值数据。incoPat将人工智能与知识产权应用深度结合,实现专利数据的智能检索、全景分析、热点预测等功能。
incoPat用户遍布全球,包括华为、格力、三星、西门子等科技企业;北京大学、上海交通大学、中国科学院、德国伍珀塔尔大学等研究机构;中国及新加坡国家知识产权局、中国多省市知识产权局、中国国际贸易促进委员会等政府机构。
incoPat团队中有3位全国专利信息领军人才,6位全国专利信息师资人才。incoPat凭借优异的产品品质及卓越的服务能力引领知识产权信息行业发展:——在国家知识产权局举办的首届知识产权工具比赛中,incoPat获得总冠军;
——荣获工信部颁发的中国智能终端行业“墨提斯”奖;
——荣获知识产权SaaS服务领域领军企业奖;
——被授予“中关村创新教育实践基地”等多项荣誉。
2.incoPat大事记
2013年,incoPat上线运营。
2014年,incoPat率先实现全球专利标题摘要翻译为中文,支持中文检索。
2015年,incoPat语义检索、自动聚类上线。
2016年,incoPat用户量增长70%,华为、格力等代表性企业开始使用incoPat。
2017年,incoPat字段突破200个,同年公司获得A轮融资。
2018年,incoPat在奥地利专利局语义检索评比中获得全球第二名,亚洲地区第一名。
2019年,incoPat推出专利DNA图谱技术,开启专利智能检索革命性变革。
3.现有专利检索技术的局限性
3.1 布尔检索
布尔检索是指对专利的标题、摘要、申请人、分类号、日期等信息的文本进行检索,并支持检索要素与(and)、或(or)、非(not)等算符的运算。布尔检索的过程可见,可以通过持续优化检索策略提升检索效果。在专业用户中受到欢迎。布尔检索的局限性体现在:
1.为了完成一次严谨的检索,往往需要全面调研同义词、上下位概念词、相关
IPC、CPC等分类号等,如果在其中任何一个环节出现疏漏,都可能造成漏检。
2.对检索人员的检索技巧、行业技术的理解方面要求很高,未经过较系统的专
业培训和实践的人员,很难获得较全面和准确的检索效果。
3.由于检索策略需要反复调整,检索过程往往耗时较长,人力成本高,较难在
短时间内形成可靠的结论。
3.2 语义检索
语义检索的原理是将专利文献的文本作为一个整体转化成多维空间的向量,通过计算向量之间的夹角余弦值,测算专利文献之间的相似性,得到语义相关的专利。相对于布尔检索,语义检索降低了检索的时间成本,一定程度上可以规避关键词、IPC使用不当造成的漏检,但同时存在以下局限:
1.由于语义检索将文档作为一个整体进行相似性评价,更倾向于找出语言风格
相似度较高的文献,但新颖性判断、侵权判断中要求必要技术特征全面覆盖,两者原则不同,使得语义检索的效果存在瓶颈。
2.语义检索的过程不可见,人的参与对效果提升有限。语义检索中会将专利文
献转化为多维空间的向量进行匹配,由于语义匹配过程完全是计算机处理,向量本身的含义不能被人理解和调整,无法有效利用人的经验。
3.语义检索的结论比较单一,无法进一步应用。语义检索的结论是把两个向量
的夹角余弦值当做两个文献的相似度,但是不能得出检索目标与对比文献的差异之处,无法进一步应用在新颖性评价、侵权判定中。
4.专利DNA图谱技术原理
4.1研究基础
数据基础:
1985年至2019年2月公开的中国发明专利公开、发明专利授权和实用新型专利。
行业划分:
为了有针对性地对DNA图谱技术进行优化,划分为机械领域、光电通信领域、化学领域分别构建模型。
保护类型:
不同的保护类型,专利的表述方式和结构有一定差异,我们将保护类型划分为非方法类专利和方法类专利分别构建模型。
4.2专利DNA图谱识别
利用知识图谱及人工智能(AI)技术识别专利文献中发明核心结构,专利DNA 图谱的基本要素:
本体:
文本中的技术特征,在如专利、论文等技术文献中,本体包括组件、属性名、属性值、上位概念、组件关系等。
组件:
表示文本中的组成部件,比如充电设备,存储器。
属性: