大数据挖掘与分析专利战略研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据挖掘与分析专利战略研究
通过信息情报调研,分析国内和国际的大数据挖掘与分析产业的发展环境及发展情况,从全球、中国和贵州省三个维度,对大数据专利技术发展趋势、专利区域分布、专利主要申请人和专利技术主体分布等进行研究。
文章分析了主要专利技术主题的专利申请分布以及随时间变化的情况,掌握大数据挖掘与分析技术的研究保护热点以及发展方向,对未来技术发展规划提供指导。
标签:大数据;挖掘与分析;专利战略;Hadoop
目前我们生活的方方面面都存在数据传输——无论是智能手机、电子产品和城市基础设施,毋庸置疑,一场数据革命就在眼前。
据易观国际统计,2015年我国大数据市场规模达102亿元,2017年有望达到170亿元,这看似百亿级别的市场,背后却能撬动数万亿元的相关市场规模。
近年来,阿里巴巴投资优酷和新浪微博,腾讯集团入股京东和大众点评等,背后都有大数据整合的影子。
这些掌握着流量的大数据平台,已经成为互联网资源的聚集地。
在如今的大数据时代,数据信息在带给人们生产生活极大便利的同时,还会被诸多社会数据信息所困扰。
为了使广大人民群众的日常生活更加便捷,需要其客观、正确地使用、处理数据信息,完善和健全数据分析技术和数据挖掘手段,通过各种切实可行的数据分析方法科学合理地分析大数据时代下的数据,做好数据挖掘技术工作。
因此,我们有必要对国内和国际的大数据挖掘与分析产业相关专利深入分析,掌握关键技术和核心算法等研究热点及发展方向,为未来技术发展规划提供指导与建议。
1 大数据挖掘与分析技术
大数据是指无法在一定时间内用传统数据库软件工具对其内容进行抓取、管理和处理的数据集合。
大数据应用流程与传统数据处理流程一致,都包括数据产生、聚集数据、分析数据和利用数据4个阶段,只是这一业务流程是在大数据平台和系统上执行的。
目前,大数据平台的主流技术是Hadoop+MapReduce,其中Hadoop的分布式文件处理系统(HDFS)作为大数据存储的框架,分布式计算框架MapReduce作为大数据挖掘、分析处理的框架。
1.1 基本概念
数据挖掘是将隐含的、尚不为人知的同时又是潜在有用的信息从数据中提取出来。
机器学习为数据挖掘提供了技术基础,可用其将信息从数据库的原始数据中提取出来,以可以理解的形式表达,并可用作多种用途。
数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。
在大数据处理的过程中,数据分析是核心,因为大数据的价值全部在数据分析过程中产生。
大数据
产业中赚钱的重点在于如何提高数据的分析能力,通过分析发现数据的更多潜在的价值。
在大数据时代,数据分析是数据价值发现的最重要环节,也是决策的决定性元素[1]。
1.2 关键技术与核心算法
通过对科技文献及各方面资料的调研,在结合中国大数据产业自身情况的技术特点的基础上,分别针对大数据挖掘与分析算法和大数据挖掘与分析应用领域进行技术分解,得到表1。
2 专利申请保护态势分析
2.1 专利来源与检索策略
本分析报告涉及的专利信息检索工作全部在INCOPAT合享新创专利信息服务平台上完成,检索截止日期为:2016年12月20日。
該平台收录了全球102个国家、地区和组织的超过1亿条专利信息,支持中英文混和检索。
本报告检索专利数据范围包括国内主要专利数据。
通过对大数据挖掘与分析相关专利技术的调研,结合重点关注的技术内容,从检索要素中的关键词和IPC的两个维度作出表2,然后依据检索要素表中的相应信息通过检索系统进行检索、分析。
2.2 专利类型及法律状态分析
截止到检索日期,共检索到大数据挖掘专利与分析算法领域有569件,其中发明563件,实用新型6件,发明占了总量的98%以上。
对大数据挖掘专利与分析应用领域专利法律状态进行统计,其中有效专利指授权并且正常维持的专利;审查中专利指已公开但尚未授权的专利申请;失效专利指因专利保护期届满、未缴费、专利无效等原因失去专利权、不再收专利法律保护的专利。
发明专利中有效专利115件(20.21%),审中专利346件(60.81%),失效专利102件(17.93%),审中专利数量明显多于其他。
实用新型专利中有效专利3件(0.53%),失效专利3件(0.53%)。
综合而言,大数据挖掘专利与分析应用中有效专利118件,审查中专利346件,失效专利105件。
该领域的有效专利量占专利申请总量的20.74%,专利有效率较低;审中专利占申请总量的比例为60.81%,表明当前本领域的发明创造活跃度较高;失效专利占申请总量的比例为17.93%,失效率较低。
实用新型专利数量几乎可忽略不计,说明在该技术领域的发明创造中单纯的产品类创造专利数量较少。
2.3 专利趋势分析
在1993年知识产权局受理了第一件相关专利,但在2005年之前相关专利申请基本只维持一个“有”的状态,其中1994年、1995年、1996年、1997年、2001年都未有专利申请,在2005年之后相关专利申请开始出现增长,且增长数据增速明显这件,到2015年达到了专利申请数量最高点,126件,并且该年申请的专利还有部分未公开的。
从总体看,大数据挖掘专利与分析算法领域目前专利申请依旧处于快速增长态势,并且未受经济发展趋势(经济增速明显放缓)的影响,因此预计未来几年也将保持该快速增长的趋势。
2.4 技术主题分析
通过对相关领域专利的国际分类号(IPC)进行统计分析,了解大数据挖掘专利与分析算法领域主要涉及的技术领域及相关专利申请分布情况。
从涉及最多的专利IPC大组前三最多占专利总量的38.49%可以看出,在大数据挖掘专利与分析算法领域直接涉及算法的专利数量不占绝对多数,说明在算法技术领域核心技术较少,较多的是现有核心技术与具体运用技术的结合。
2.5 区域申请情况分析
通过对各省份相关专利申请情况的研究,可以有效的了解各省份的在该技术领域的技术实力,为可能的技术引进与技术合作提供合作省份方向指导。
图3为大数据挖掘专利与分析算法领域专利申请省市地图,可以看出,申请相关专利最多的是北京,有133件专利,其后拥有40件以上专利的省市有江苏(92件)、上海(49件)、浙江(47件),内陆地区只有四川拥有的专利数量较多,而目前贵州没有相关专利的申请,在技术上不具有明显优势。
从整体区域上来看,在大數据挖掘专利与分析应用领域最多的算法技术主要集中在长江流域省份、珠三角及北京地区,同时内蒙古、山西、贵州、青海、新疆、西藏未有相关专利的申请。
2.6 主要申请人分析
将申请人分为大专院校、科研单位、企业、个人、机关团体、其此他6大领域进行统计。
专利申请人中大部分专利都是大专院校申请(340件,56.29%),达到了总申请量的55%以上,排在之后的企业申请量也达到186件(30.79%),科研单位拥有39件,占总量的6.46%,个人、机关团体和其他各申请了23件(3.81%)、15件(2.48%)和1件(0.17%)专利。
可以发现大专院校和科研单位是该技术领域技术进步的主导力量,企业也是技术进步的较重要因素。
整体上可以看出,在大数据挖掘专利与分析算法领域相关技术主要集中在大专院校和科研单位,除了国家电网公司以外,企业在该技术领域有一定的技术投入,但投入相对小于大专院校和科研单位。
3 结束语
目前大数据作为新兴技术,各地对发展大数据产业都处于探索阶段,大数据产业的核心是数据挖掘和应用,结合中国自身的产业及知识产权情况,提出如下建议:
一是制定更加有利于大数据产业发展政策。
结合国内大数据产业实际发展情况,在经过全面、深入、彻底的知识产权及技术评估后,针对性的对中国大数据挖掘及分析产业提出指导性、纲领性的文件,并配套相应的扶持政策。
二是积极契合国家及省内的大数据相关扶持政策。
积极引导企业在保证市场前景和技术开发难度的情况下,尽可能的使开发或引进技术及产业符合政策扶持要求,通过政策扶持的手段最大程度上减少企业的产业发展成本及技术研发成本。
三是加强技术攻关、抢占技术前沿。
拟在科技计划中设立大数据科技专项,围绕海量数据挖掘、海量数据分析、数据信息应用等重点方向,以企业为主体加强关键技术攻关并推动成果产业化,同时在此基础上进行全面的、细致的专利布局,对自身的发明创造实现全方位的保护。
四是加强知识产权宣传力度。
大力宣传知识产权对企业的价值,促使企业提高对知识产权方面的重视程度,特别是对知识产权运用的重视程度,让企业在规避知识产权方面风险的同时实现自身知识产权价值的最大化。
参考文献
[1]陈良臣.大数据挖掘与分析的关键技术研究[J].数字技术与应用,2016(2).
[2]单海波.浅谈大数据时代的数据分析[J].科技创新与应用,2016(24).。