国际_专利信息_研究热点_基于知识图谱的词频分析_高劲松
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
频次 6615次, 约占所 有关键词 总频次 的 17. 6% , 说明
该领域关键词相对比 较分散, 尚未形 成占 绝对优 势的
高频关键词群, 集中与分散趋势尚不明显, 这也证明了
该领域研究确实 处于上 升期而 不是 成熟期。 前 30 名
关键词名称及出现频次见表 1。
表 1 排名前 30名的高频关键词及其分类
第 29卷 第 8期 2010年 8月
情报杂志
JOURNA L O F INTELLIG EN CE
V o.l 29 N o. 8 Aug. 2010
国际 /专利信息 0研究热点
) ) ) 基于知识图谱的词频分析
V is ion A nalysis of International P aten t In form ation Based on M app ing Know ledge D omain s
35) 、( 3, 3, 35) , 主题词来源选 择标题、摘要和 关键词, 选择 pathf inder算法, 运行 该软件, 得出 高频 关键 词共
# 38#
情报杂志
第 29卷
现网络图, 如图 3所示。 图 3可以看出, 这些关键词可以分为两个群落, 群
内相关度较高而群 间差 异较大。 其中, 群 落 1中 标志 性的关键词 有: p aten t( 专 利 ) 、innovation (创 新 )、in form at ion ( 信 息 )、in tellectu al property ( 知 识 产 权 )、techno logy(技术 ) 、scien ce( 科学 ) 、know ledge( 知识 ) 、R&D (研究 与发展 ) 、competition ( 竞争 ) 、p aten t C itat ion ( 专 利引文 )、indu stry (产 业 ) 和 techno logy- transfer( 技术 转让 ); 群 落 2 中 标 志 性 的关 键 词 有: stroke ( 中 风 )、 closu re( 闭合 ) 、d iagnos is( 诊断 ) 、cryp togen ic stroke( 病 因不明的 中 风 )、prematu re- in fan ts ( 早产 儿 ) 、th erapy (疗法 )和 carcinom a( 癌 ) 。
分类 属性
关键词
pa tent foram en ova le( 卵圆孔未闭 ) P atent urachus(开放性脐尿管 )
pa tent ductus a rterio sus( 动脉导管未闭 ) C ong en ital(先天性病 )
疾病 与手
术相 关
E cho ca rdiography( 心脏超声 ) P aradox ica l embo lism (反常栓塞 ) Throm bus(血栓 ) Ao rtic aneurysm (主动脉瘤 ) Ao rtic insuffic iency( 主动脉瓣关闭不全 ) Em bry ology (胚胎学 )
2. 3 国际专利信息研究 热点分析 将检 中的 1072 篇文献的题录数 据输入 C iteSpace中, 这 些题录数据主
要包括标题、关键词、摘要和参考文献等。再设定好选
项, 不断调节阈值, 选择 网络 节点为 关键词, 最终 时间
分段为每 2年一个分区, 阈值设置 为 ( 2, 2, 35 ) 、( 4, 3,
部门审查水平和ቤተ መጻሕፍቲ ባይዱ专利保护水平, 完善我国专利保障机制。
关键词 专利文 献信息 词频分析 知识图谱 信息可视化
中图分类号 G 358
文献标识码 A
文章编号 1002- 1965( 2010) 08- 0036- 04
专利文献是专 利制度的 产物, 它是在 专利制 度形 成后随之派生出来 的, 专利文 献占 全世界 每年各 种图 书期刊总出 版量 的 1 / 4。 广义 来说, 一切 与专 利 制度 有关的专利文件统称为专利文献, 包括发明说明书、专 利说明书、专利局公报、专利 文摘、专利分 类与检 索工 具书、专利申请时提 交的各种 文件 (如 请求书、权利要 求书、有关证书等 )、与 专利有 关的法律 文件和 诉讼资 料等。专利文献数量巨大、内容广博, 技术内容新颖可 靠、时效性强, 格 式统一、形式 规范 [1] 。通 过阅读 专利 说明书, 可以了解具体技术细节; 通过专利文献中固定 条目的统计分析, 能够反映出一定的有关技术、市场及 其它类型资料的信息 [ 2]。专利文献信息对社会各领域 都有着重要的作用, 如 何有效 发挥 权利保 护和信 息披 露的功能以及由载 体所产生 的功 能延伸, 如何利 用定 量的方法将专利文 献的信息 指标 化、可视 化以作 为企 业和国家战略决策 的手段, 成 为极 具实践 意义的 研究 课题, 本文采用较先进的知识计量学工具, 通过对国际 专利信息的研究热点进行分析, 以此为基础, 提出我国 专利信息建设的一 些建议, 以 期对 我国专 利信息 体系 的完善提供参考。
段相 Know ledge m ap/ netw o rk( 知识地图 )
17 6
关 pa tent inform a tion(专利信息 )
15 7
Know ledge flow (知识流 )
14 0
Innovation capability( 创新能力 )
14 0
图 1 专利信息文献逐年变化趋势
1 数据来源与研究方法
本文所采用的数据, 全部来 源于 5科学引文 索引 6 ( S cien ce Citation Index, SC I)中, SCI是由美国科学信 息研究所 ( Institu te for Sc ien tif ic In form ation, IS I) 于 20
世纪 60 年代创建, 经过近 40年的发展完善, 已 成为拥 有印刷版、磁带版、光盘版和网络版等多种先进的检索
手段、强大的 检 索功 能的 大型 多 学科、综合 性 检索 系 统, 它是目前国际上唯 一的最 具学术 权威 性的引 文信 息源。本次数据检索策略是 / TS (主题 ) = paten t doc-
umen tation or patent literature or paten t in formation or p aten t in telligen ce or p aten t arch ives or paten t gazette AND 语言 = ( Eng lish ) AND 文献 类型 = ( A rticle) 数 据库 = SCI- EXPANDED, SSCI, CPC I- S, CPCI- SSH 入库时间 = 1999 - 20090, 检中结 果为 1072 条文 献记 录, 数据下载日期 为 2009年 11 月 2 日 ( SCI数据 库已 更新至 2009年 10月 31 日 )。
药物 Ibupro fen(布洛芬 )
28 8
相关 Indom ethac in(消炎痛 )
23 6
从表 1 可以看出, 分类 1为疾病与手术 相关类, 包
括某类疾病与治疗手术等, 属于应用领域研究, 主要是
针对医疗领域; 分类 2为知识管理与信息手段类, 包括 知识产权、专利创新、知 识地 图、知识 流等 知识管 理范
图 2 专利信息文献地区分布
2. 2 高频关 键词 分析 本 文利 用 B ib excel软 件进 行 关键 词统 计分 析。 1072 篇 文献 共出 现 444 个 词频 大于 2的关键词, 累计频次为 37595次, 选取 频次排名 前 30位关 键词作 为高频词, 这 30 位高 频词累 计出现
畴的研究, 以及信息和交流技术、文本挖掘等专利信息
技术和手段研究; 分类 3为地区或产业相关类, 主要研 究如何通过专利转让或代理、加强质量管理与保证、具
体的研究与发 展等来 促进 某地 区 ( 如台 湾地 区 ) 的产 业发展 (如 TET - LCD ); 分类 4 为医疗药物 相关类, 研
究某些热门专利药品信息。
Quadricuspid aortic va lve( 四叶主动脉瓣 ) L ig ation(结扎法 )
词频
26 6 21 8 21 1 16 2 13 9 13 9 13 9 13 8 13 8 13 8 13 8 13 7
P atent(专利 )
92 4
Innovation( 创新 )
46 5
pa tent agent/ assignee
17 7
地区 R & D
17 6
或产 quality assurance / m anagem en t( 质量保证或管理 )
17 2
业相 关
T aiw an( 台湾地区 )
14 0
TFT- LCD industry ( TFT - LCD 产业 )
14 0
2 结果与分析
2. 1 文献数量与分布区域分析 对检出 的 1072篇 文献的 外 部 特 征 分 析 可 知, 1999 年 的 12 篇 文 献 到 2009年的 126篇文 献, 专利信息 文献发文总 量虽然不 大, 但总体呈缓慢增长趋势, 如图 1所示。图中的空心 点是 每年 文献实 际数值, 黑色 实线条 是用 SPSS 软件 进行的 Logistic曲线拟合而成, 通过学科 文献增 长 / S0 型规律来看, 专利信息研究还处于不断发展趋势中, 且 增长速度在不断变大, 尚未观测到成熟前的拐点, 说明 专利信 息 研 究 还 未 达 到 成 熟 阶 段。 需 要 说 明 的 是 2008年到 2009年出现 下降, 是因为 2009 年的数 据只 是截止到 2009 年 10月。图 2 所示为文献的 国际区域 分布, 主要分布在美欧国家, 这与美欧发达的市场经济 对专利信息的关注 密切相关, 而亚 洲只有 印度和 台湾 地区进入。
作者简介: 高劲松 ( 1966- ) , 女, 教授, 研究方向为信息可视化; 刘延芳 ( 1985- ) , 女, 硕士研究生, 研究方向为知识图谱应用。
第 8期
高劲 松, 等: 国 际 / 专利信息 0研究热点
# 37#
行计量的研究方法, 国 内外一 些研 究者已 经开始 尝试 通过分析关键词和主题词词频来描述某些学科领域的 研究状况 [ 8, 9] 。
T ex t- m in ing( 文本挖掘 )
43 0
知识 Know ledge m anagem ent(知识管理 )
25 8
管理 pa tent ana lys is(专利分析 )
23 9
或信 in te llectua l property (知识产权 )
21 1
息手 in form a tion and comm un icat ions techno logy( 信息和交流技术 ) 183
在具体研究方法上, 本文 借助陈 超美 博士开 发的 信息可视化软件 C iteSpace, 形象地展 示出 国际专 利信 息的研究热点与 前沿 [ 3] 。通 过绘制 科学知 识图 谱, 可 以将知识和信息中引人注目的最前沿领域或学科制高 点, 以可视化的图像直 观地 展现出 来, 帮 助人们 挖掘、 分析和显示科学知识 以及它 们之间 相互 关系, 并 能够 较为直 观地 识 别 学科 前 沿 的 历史 演 进 路径 [ 4- 6] 。另 外, 结合 B ib excel和 SPSS12. 0 软 件, 本文 还运 用了 关 键词词频分析技术。关键词是表达文献主题概念的自
然语言词汇, 能够反映文献的核心内容, 因此一个学术 领域在某一时期内大 量学术 论文的 关键 词的集 合, 可 以揭示该领域学术研究的发展脉络与发展方向 [ 7] 。词
频分析法, 是对文献中 的关键 词或主 题词 出现频 次进
收稿日期: 2009 - 12- 28
修回日期: 2010- 07- 15
高劲松 刘延芳
(华中师范大学信 息管理系 武汉 430079)
摘 要 专利信 息包含着技术、经济、法律等众多领域的大量有价值信息。运用词频分析法, 结合信息 可视化技 术,
对国际专利信息 领域的历史文献进行文献计量学分析, 挖掘专利信息 的研究热点, 得出国际专利信 息的研究 热点为
医药类专利的本地化, 并进行深入讨论: 构建畅通的专利转化渠道, 将专利信息上升到国 家战略情报高 度, 提 升专利