基于专利共类和语义分析的技术融合分析方法及其应用

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2.中国科学院大学经济与管理学院图书情报与档案管理系,北京100190)
摘 要:技术融合分析方法研究对于有效揭示技术发展格局、展现技术融合现状具有重要意义。

本文应用专利共类分析、语义分析和聚类分析等方法提出了一套测度技术融合态势的研究方法,该方法通过定义并应用语义距离、融合强度和融合广度等指标,经过规则过滤、语义过滤、聚类可视化等步骤,能够更为有效地识别典型融合关系,进而完成技术融合网络的构建和技术融合程度的测度。

基于该方法,本文利用全球2014-2018年申请的四方专利家族数据中记载的专利MC共类信息,对全球该时间段内的技术融合态势进行了分析,最终聚类得到172项融合技术,研究发现生物产业和新一代信息技术产业的融合技术的融合强度更强,新材料产业的融合广度更广。

关键词:技术融合语义分析共类分析专利情报融合测度指标
中图分类号:G306 文献标识码:A
1引言
技术融合对于引导技术创新、洞察技术机会和新产品开发具有非常重要的推动作用[1]。

随着社会经济和技术问题的日趋多样化和复杂化,汇聚多学科知识、融合多种类技术来解决这些问题也愈发常态化和泛在化。

技术融合的概念提出已有较早历史,一般认为是由Rosenberg在1963年首先提出,他在对美国机械设备行业变革的研究中提出了一种“Technological Convergence”的社会现象[2]。

在经过多年的发展之后,已经逐渐演变出了一系列新概念,如“技术会聚”“技术交叉”“技术集成”等[3-6]。

但是学术界在实际开展研究时,并未严格区分这些概念,因此在本文中将其共同视为“技术融合”。

在当前全球科技发展呈现多点突破、交叉汇聚的态势的背景下[7],揭示全球技术交叉格局、展现技术融合现状对于洞悉技术发展特征、引导技术创新具有重要的决策指导意义。

当前,技术融合的研究思路包括基于论文数据[8]、基于专利数据、基于标准数据[9]、基于Wikipedia百科数据[10]。

从研究成果数量来看,当前基于专利数据开展技术融合是当前的主流研究方向;同时,在这些数据资源中,专利文献数据是公认的技术情报载体,记载着人类技术研发和设计成果的进展和动向,具有标题、摘要、分类号、权利要求等蕴藏着技术交叉融合的“信号”或者“迹象”的元数据和描述数据,还具有更新及时、结构化程度高、信息完备等数据优势。

基金项目:本文系中国科学院战略研究专项“支撑我国重点产业发展的基础研究布局与关键技术储备研究”(项目编号:GHJ-ZLZX-2020-31-5)研究成果之一。

作者简介:吕璐成(1989—),男,山东烟台人,博士研究生,助理研究员,研究方向:专利情报研究;赵亚娟(1975—),女,陕西扶风人,博士,研究员,研究方向:知识产权情报研究;王学昭(1978—),女,福建厦门人,博士,研究员,研究方向:知识产权情报研究;韩涛(1980—),男,湖北武汉人,博士,研究员,研究方向:智能情报方法与技术;赵萍(1986—),女,河南渑池人,硕士,副研究员,研究方向:知识产权情报研究;张迪(1986—),女,河南南阳人,博士,副研究员,研究方向:知识产权情报研究,研究前沿探索与追踪。

• 03 •

04

以下对于国内外基于该思路开展技术融合的学术研究进行文献综述。

通过阅读归纳,将相关研究分为特定l 领域融合研究、多领域融合研究和全领域研究三类进行综述。

特定领域融合研究方面,刘鑫[11]基于专利IPC 分类与ISI 分类体系,采用共类分析方法分析3D 打印产业的技术融合趋势。

苏华[12]采用共类分析和社会网络分析的方法分析了核科学与技术多元化应用的技术领域、区域分布、技术关联等。

苗红[13-14]针对老年可穿戴技术分别从技术整体发展趋势和技术内部变化两方面展示各阶段的融合动态特征,还利用Louvain 算法对技术融合网络中的关键技术节点和社区进行了探测。

李树刚[15]利用ISI 分类共现关系针对感知人工智能技术融合趋势分析。

Choi J [16]基于ISI-SPRU–OST 映射表为汽车产业的专利划分技术领域并分析技术融合趋势。

多领域融合研究方面,Geum [17]采用引文分析和共类分析证明了信息技术和生物技术的融合,并研究了融合广度和强度指标。

梁伟军[18]运用赫芬达尔指数法对我国农业与生物产业的技术融合进行研究发现,两产业处于低度融合阶段。

栾春娟
[19]
运用专利计量与
可视化手段对纳米和生物领域的技术融合进行测度与可视化分析。

黄鲁成
[20]
采用关联规则挖掘的方法从信
息与生物技术融合共类网络中抽取融合技术对。

吕一博[21]针对物联网与人工智能领域的融合专利申请量、技术距离和技术融合度来判断技术融合的情况。

冯科
[22]
针对电子信息、汽车、装备制造产业采用技术领域融合力分析指数和社群聚类分析方法进行技术融合动态演化路径的对比分析。

全领域研究方面,Jeong [23]基于韩国知识产权局1996年至2010年受理的专利数据对于技术融合阶段
合研究以特定领域融合或者多领域融合研究为主,全领域研究方面虽然也有一定的研究成果,但是并未提出系统的全球技术融合分析方法论,同时,从研究成果的人为主观判断结果看,存在技术融合特点不显著(即难以直观辨识哪些技术发生了融合)的问题。

对此,本文应用专利计量和数据挖掘的方法,提出一套融合专利共类和语义分析的技术融合态势分析方法,并开展应用研究。

3 研究方法及其应用3.1 数据
本文基于专利共类分析的基本思想提出研究方法并进行方法创新,开展研究采用的数据来源于科睿唯安DI (Derwent Innovation )专利数据库和Patentics 专利数据库,其中从DI 数据库获取专利分类信息,用于进行共类分析,专利的题录数据中包括IPC (国际专利分类)、USPC (美国专利分类)、MC (德温特手工代码)等多种分类信息,对此本文参考文献[26],采用层级清晰、可读性较高的MC 分类表示技术,图 1展示了MC 分类体系的基本结构,共分为化学、工程和电气和电子三大领域类,在此基础上被细分为A-M 、P-Q 和S-X 共21个部类,在部类的基础上再细分为大类(通常是3位类号表示),然后再逐层细分[27];从Patentics 专利数据库获取专利关键词信息,用于进行
语义分析。

图1 MC
分类体系基本结构
图2方法框架
3.2.1技术融合网络构建
基于特定关系构建技术融合网络是识别融合技术的基础。

本文选择专利分类号作为技术表征对象,结合已有的研究成果发现[28],直接利用专利数据中分类
图3弱融合关系过滤流程
3.2.1.1规则过滤
针对MC共类对中的弱关系,通过人工解读提炼规则的方式进行识别过滤。

具体地,本文对于非跨MC部类的MC共现对、MC共现对中的倒数两级类名相同的共现对和共现频次较低的MC共现对进行了过滤,如图 3蓝色框部分。

非跨MC部类的MC共现对具体是指MC类别部类相同的MC共现对,例如T01-M06S(Computing And Control -> Digital computers -> Computer/processing architecture -> Characterised by type -> Servers) | T01-N01B1(Computing And Control -> Digital computers
1 跨MC部类专利是指专利的MC分类号涉及2个或2个以上的MC部类分类号。

• 05 •
其中:
C st表示共现频次归一化结果;• 06 •

07

SemDis ij =1-similarity (MC i ,MC j )
(公式2)由于MC 分类号对应专利文本相似度越高,其语义距离越近,数值越小,体现的技术融合性越弱,因此本研究对于语义距离较小的MC 共现对进行过滤。

图 4展示了规则过滤之后的MC 共现对之间的语义距离。

为了更显著地揭示技术融合格局,基于帕累托法则(二八定律),结合情报分析人员对典型MC 对3的判读,设定相似度过滤阈值为0.8,即过滤语义距离小于0.8的MC 共现对,剩余MC 共现对10307个,涉及MC 数量为7004个。

基于这10307个MC 共现对的连接关系,本研究进行了技术融合网络的构建。

图 4 MC 共现对的语义距离分布
3.2.2 聚类方法
基于构建的技术融合网络,本文采用聚类分析的方法识别典型融合技术,形成融合技术类簇清单。

本研究基于单链接层次聚类的思想,利用PYTHON 语言
图 5 聚类思路
具体地,本研究中,第一次聚类后共获得354个类簇,对一次聚类的超大簇进行剥离并二次聚类,得到1051个类簇。

考虑到结果类簇数量过多,为了识别显著的融合技术。

本文对于结果类簇进行了进一步地遴选,以类簇内MC 间最高共现频次5作为遴选依据,根据帕累托法则选择最大共现频次前20%的215个类簇(保留结尾并列)作为候选类簇,再以类簇内语义距离6作为遴选依据,根据帕累托法则选择语义距离较大的80%的172个类簇作为判读类簇。

最后,172个类簇中涉及MC 为865个,这865个MC 之间存在的共现关系对有5801组。

3.2.3 融合技术图谱绘制及测度
基于172项融合技术,本研究邀请领域专家对这些技术进行定性解读和产业划分,并利用网络可视化软件Gephi 对融合技术进行可视化展示,并利用技术融合测度指标进行测度。

2 本文采用TFIDF+余弦相似度方法进行分类号涉及文本相似度的计算。

3 如T01-S03 (Computing And Control -> Digital computers -> Software content -> Claimed software products)与P31-A05(General -> Health)类簇存在典型的融合特点,语义距离为0.8。

4 剥离过程会产生一些孤立点,由于本文的研究目标是揭示全球宏观技术融合格局,因此对这些孤立点进行了剔除。

5 类簇内MC 间最高共现频次:是指类簇内包含的MC 之间的最高共现频次,指标越多,融合越显著。

6 类簇内语义距离:取类簇内包含MC 之间语义距离的平均值,公式:
指标越大,融合越
显著。


08

3.2.3.1 融合技术图谱
图 6展示了绘制的融合技术图谱结果。

其中节点的大小表示融合技术涉及的专利数量,节点的颜色表示融合技术的所属产业,左下角的图例展示了各种颜色对应的产业名称。

节点之间的连线表示节点代表的
技术涉及相同的MC 大类。

可以发现,节点大小最大的三项技术分别是“生
命体征检测设备、系统与方法”“内窥镜系统及图像处理技术”“新型显像材料与设备”,这在一定程度上证
明了当前生物医学技术与新一代信息技术的融合较为明显。

3.2.3.2 融合测度指标
技术融合广度和融合强度是测度技术融合程度的经典指标,已经在诸多研究中广泛应用[17, 30]。

本文基于这两个指标对于172项技术的技术融合广度和强度
进行进一步测算。

具体地,某项技术i 的技术融合广度采用其所涉
及的分类号数量表示,计算公式为:ConvergenceWidth i =Count (MC MC ∈i ) (公式3)某项技术i 的技术融合强度采用其所涉及的专利
数量与分类号数量的比例表示,计算公式为:ConvergenceStrength i =Count (patent patent ∈i )/Count (MC MC ∈i ) (公式4)7 由于172项融合技术的名称在一张图中展示会导致堆叠严重无法有效查看,因此,此图只展示了涉及专利数量排名前
50的技术的名称。

.2.3.2融合测度指标
技术融合广度和融合强度是测度技术融合程度的经典指标,已经在诸多研究中广泛应用[17, 30]。

本文基于这两个指标对于172项技术的技术融合广度和强度进行进一步测算。

具体地,某项技术i 的技术融合广度采用其所涉及的分类号数量表示,计算
公式为:
ConvergenceWidth �=CCCCCCCCCC(MMCC ��∈�) (公式3) 某项技术i 的技术融合强度采用其所涉及的专利数量与分类号数量的比例表
示,计算公式为:
ConvergenceStrength �=CCCCCCCCCC(ppppCCppCCCC ������∈�)/CCCCCCCCCC(MMCC ��∈�) (公式4)
表 3和表
4分别展示了融合强度和融合广度排名前10位的融合技术信息。

7
由于172项融合技术的名称在一张图中展示会导致堆叠严重无法有效查看,因此此图只展示了涉及专利
数量排名前50的技术的名称。

图 6 基于2014-2018年四方专利的融合技术图谱7
表 4 融合广度TOP10融合技术清单
• 09 •

10 •
4 总结与展望
在当前全球科技创新不断加速、技术融合愈发广泛的背景下,及时有效地识别技术融合态势对于了解全球技术动态、揭示技术发展格局具有重要的参考意义。

本文应用专利共类分析、语义分析和聚类分析等方法提出了一套测度技术融合态势的研究方法,该方法通过定义并应用语义距离、融合强度和融合广度等指标,经过规则过滤、语义过滤、聚类可视化等步骤,能够更为有效地识别典型或突出的技术融合关系,进而完成技术融合网络的构建和技术融合程度的测度,实现技术融合态势的揭示。

基于该方法,本文利用全球2014-2018年申请的四方专利家族数据中记载的专利MC 共类信息,对全球该时间段内的技术融合态势进行了分析,通过层层过滤得到10307个典型MC 共现对,最终聚类得到172项融合技术,并计算了这些融合技术的融合广度和融合强度,绘制了该时间段的全球融合技术图谱,研究发现生物产业和新一代信息技术产业的融合技术的融合强度更强,新材料产业的融合广度更广。

但是,本文提出的方法仍旧有待进一步研究和优化。

本文目前采取的规则过滤和语义过滤过程的阈值选择大多依靠经验值,且缺乏参照对比依据,在接下来的研究中,将进行效果对比从而验证本研究提出方法的有效性;技术融合强度和广度的测度指标并未考虑语义因素,在接下来的研究中可以对其进行进一步参考文献:
[1] 王媛,曾德明,陈静,等.技术融合、技术动荡性与新
产品开发绩效研究[J].科学学研究,2020,38(03):488-495.
[2] Rosenberg, N. (1963). Technological Change in the
Machine Tool Industry, 1840–1910. The Journal of Economic History, 23(4), 414–443.
[3] Curran, C.-S., Bröring, S., & Leker, J. (2010).
Anticipating converging industries using publicly available data. Technological Forecasting and Social Change, 77(3), 385–395.
[4] Curran, C.-S. and J. Leker, "Patent indicators for
monitoring convergence - Examples from NFF and ICT," Technological Forecasting and Social Change, vol. 78, pp. 256-273, 2011.
[5] 李姝影,方曙.测度技术融合与趋势的数据分析方
法研究进展[J].数据分析与知识发现,2017,1(07):2-12.
[6] 陈亮,张志强,尚玮姣.技术融合研究进展分析[J].
情报杂志,2013,32(10):99-105.
[7] 白春礼.全球科技呈多点突破、交叉汇聚态势[J].
科技导报,2013,31(03):11.
[8] Kose, T. and I. Sakata, Identifying technology
convergence in the field of robotics research. Technological Forecasting and Social Change, 2019. 146: p. 751-766.
[9] 刘康,刘西怀.基于学科视角的技术融合度研
• 11 •
2021年第2期吕璐成,等:基于专利共类和语义分析的技术融合分析方法及其应用Technology Convergence Analysis Method and Application Based on Patent Co-Classification and Semantic Analysis LYU Lucheng1,2, ZHAO Yajuan1,2, WANG Xuezhao1,2, HAN Tao1,2, ZHAO Ping1, ZHANG Di1
(1.National Science Library, Chinese Academy of Sciences, Beijing 100190; 2.Department of Library, Information and
Archives Management, School of Economics and Management, University of Chinese Academy of Sciences, Beijing
100190)
Abstract: The research of technology convergence analysis method is of great significance for effectively revealing the development pattern of technology and showing the current situation of technology convergence. This paper proposes a method to measure the technology convergence situation by using the methods of patent co-classification analysis, semantic analysis and cluster analysis. By defining and applying the indicators of semantic distance, convergence width and convergence strength, through the steps of rule filtering, semantic filtering, clustering and visualization, this method can identify typical convergence relationships more effectively, and then complete the construction of technology convergence network and the measurement of technology convergence. This paper uses the patent co-MC (Derwent Manual Classification) relationship recorded in the global patent family data from 2014 to 2018 to analyze the global technology convergence situation in this period, and finally obtain 172 convergence technologies. The research finds that the convergence technology of the biological industry and the new generation information technology industry has stronger convergence strength, and the new material industry has a wider integration width.
Key words: technology convergence; semantic analysis; co-classification analysis; patent information; convergence measurement indicator
公 示
根据国家新闻出版署《关于开展2020年度新闻记者证核验工作的通知》要求,本刊对通过年度核验的人员名单进行公示。

国家新闻出版署举报电话:010—83138953。

姓 名 记者证编号
彭耀林 K11512466000001
马忠荣 K11512466000002
中国发明与专利杂志社
2021年2月
• 12 •。

相关文档
最新文档