文献信息分析与利用
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
利用文献信息分析技术,从大量的文献信息 中获取自己所需要的那部分信息,日益成为 生物医学专业人员需要掌握的重要技能之一。
2.文献信息分析的功能:
整理功能
反馈功能
文献信
息分析 的功能
评价功能
预测功能
二、文献信息分析的步骤
1.获取样本
2.抽取字段
3.频次统计
6.聚类分析
5.共现分析
4.排序结果 分析
1.基于文献的知识发现的定义 通过已发表的文献来发现新的知识的过程。这
是一个将表面上没有任何联系的文献中的具有 隐含逻辑关系的知识片段组织起来的信息处理 过程。
2.基于文献的知识发现产生的背景
科学研究的深入 科学技术越来越专业化
3.基于文献的知识发现的原理
(1)闭合式知识发现的模式 从A和C出发,寻找共同的中间词B
Citation Analysis - Baselines - Research Fronts
(1)引文排位模块
1.按照领域查询作者、机构、国家和期刊在 一定时间段内的发文数、被引次数和排位
2.检索具体的作者、机构、国家和期刊在各 领域的排位情况
(2)高被引论文模块
1.高被引论文: 在最近10年内的被引频次前1%范围内的
学抽象为主要特征的信息深加工活动。
在此过程中,要对文献信息的价值进行评估, 然后选取可靠的、先进的、实用的文献信息进 行整序、统计分析,提取其中隐含的知识,从 而获得增值的文献信息知识。
原始文 献信息
评估 选取
可靠的、先进 的、实用的文 献信息
整序
统计 分析
隐含的 知识
(二)文献信息分析的意义和功能
(2)开放式知识发现的模式
对某个初始研究主题A,在MEDLINE的标题 字段检索其相关文献,寻找与A在标题中共同 出现的中间词B,通过筛选得到有一定意义的 B,重复上述过程,得到目标词C。
4.基于文献的知识发现的工具
(1)Arrowsmith ➢ 采用闭合式知识发现的模式 ➢ 可以将A和C两个主题的文献集合中共有的标
模块
功能
Citation Rankings - Scientists - Institutions - Countries/Territories - Journals
Most Cited Papers - Highly Cited Papers (last 10 years) - Hot Papers (last 2 years)
f(x)
C xn
f(x):写x篇论文的作者占作者总数的百分比 x:论文篇数 C:某主题领域的特征常数,n≈2 洛特卡定律对我们了解感兴趣的领域内科学研究 活动的规模和核心作者十分重要。
3.齐夫定律
统计一定长度的文章中每一个词出现的频次, 将这些词按照其出现频次从高到低排序,就可 以得到词的序号,词的频次和序号数量关系特 征呈双曲线分布。
发表时间先后顺序自动生成引文时序网络图
“以问题为基础的学习(PBL)”研究的引文 时序列网络
(2)Bibexcel
➢ 文献计量分析工具包 ➢ 主要功能:从下载的文件中抽取用户指定字
段,并统计其出现的频次,以及进行共现统 计,最后生成共现矩阵。其结果可以输入到 与其他软件做进一步分析。
Bibexcel的输入界面
即:
fr r C
r:单词的等级序号 fr为r所对应的频次 C:常数
卢恩(Luhn)的频率自动索引方法就是统计词 频之后,去掉高 频词,去掉后缀,找出相应的 词干最后确定表现论文内容的区分力 (resolving power)最高的关键词
4.普赖斯指数
度 量
文献老化(Literature Obsolescence): 科学文献随其“年龄”的增长,其内容日益变
(3)GenClip
➢ 原理:根据文献轮廓分析基因功能的方法 ➢ 集成了文献检索、自动抽取关键词、聚类分析、
随机模拟、构建基因关系网络图及可视化功能, 帮助用户直观、实时地发掘、理解大量基因数 据背后的知识
GenCLip聚类分析结果
布拉德福统计的两个学科的文献数据
分区 期刊载文 应用地球物理学
数量
期刊量
论文量
1
>4
9
429Байду номын сангаас
2
1~4
59
499
3
1
258
404
润滑 期刊量
8 29 127
论文量 110 130 152
布氏定律可以帮助我们确定自己感兴趣的研 究领域的核心期刊,寻找到重要的信息源
2.洛特卡定律
将作者名字按照发表论文数目的多寡由高到低 排列,并分别赋予等级排列的序号。经过直线 拟合等方法,最后得出如下数学公式。
(3)CiteSpace
➢ 文献引文网络分析的可视化软件 ➢ 利用三个网络(“研究前沿术语的共现”,
“知识基础文章的同被引”和“研究前沿术语 引用知识基础文章”)在随着时间演变的情况 来寻找研究热点及趋势,并以可视化的方式展 示出来。
CiteSpace II禽流感研究前沿术语的共现网 络图
(三)基于文献的知识发现
半衰期: 某学科或专业现时尚在利用的全部文献中较
新的一半是在多长时间内发表的。 普赖斯指数可以度量文献的老化速度和程度。
(二)引文分析法
1.引文分析的定义: 利用各种数学及统计学的方法进行比较、归纳、
抽象、概括等的逻辑方法,对科学期刊、论文、 著者等分析对象的引用和被引用现象进行分析, 以揭示其数量特征和内在规律的一种信息计量 研究方法。
6.聚类分析:使用工具SPSS
胃癌治疗高频主题词聚类分析结果(部分)
7.内容分析
文献计量学方法
1.书目计量法 2.引文分析法
文本挖掘、基于文献的知识发现
(一)书目计量法
书目计量法分析的指标主要是文献的书目信息, 如文献量(各种出版物,尤以期刊论文和引文 居多)、作者数 (个人、集体或团体)、词汇 数(各种文献标识,如主题词、关键词和分类号 等)。
1.文献分析的意义: 1)从人才培养的宏观角度看: 文献信息分析能力是大学生整体素质重要组
成部分之一。
2)从个人专业发展的微观角度看:
对于从事医学科学研究和医疗实践的医学生 而言,要有效地进行学习和科研,掌握文献 信息分析技能是其未来生存和发展的基础。
3)从生存发展环境的客观角度看:
出现 频次 1440 1324 651
366
百分比 % 9.7813 8.9933 4.4220
2.4861
累计百分 比% 9.7813 18.7746 23.1966
25.6827
序号 关键字段
出现
频次
5 Stomach Neoplasms / 354
Pathology
6 Stomach Neoplasms / 328
Therapy
7 Adenocarcinoma / Drug 321
Therapy
8 Adenocarcinoma /
289
Surgery
9 Gastrectomy
214
百分比 累计百分比
%
%
2.4046 28.0872
2.2280 30.3152
2.1804 32.4956
1.9630 34.4586
医学文献信息检索
第十一章 文献信息分析与
利用(2)
第二节 文献信息分析
学习要点
一、文献信息分析概述 (一)文献信息分析的定义 (二)文献信息分析的意义和功能
二、文献信息分析的步骤
三、文献信息分析的方法 (一)书目计量法 (二)引文分析法 (三)基于文献的知识发现
一、文献信息分析概述
(一)文献信息分析的定义 以对大量已知文献信息的内容进行整理和科
ESI被引频次的百分点表
1999年发表的农业论文只有被引用 了494次才能进入前0.01%
若已知某一篇论文的被引次数,通过该表,即可得 知该论文在本领域所有论文被引次数排序中的位次
3.引文分析的工具
(1)HistCit: ➢ 引文分析可视化系统 ➢ 主要功能:可以将某个领域的高被引论文按照
1.4536 35.9122
4.排序结果分析 5.共现分析:
主题词1出 现的频次
主题词共现矩阵(局部)
主题词1和6共 同出现的频次
1 23456789
1 1440 60 38 351 178 6 13 289 150 2 60 1324 616 13 141 0 320 12 53 3 38 616 651 10 89 27 193 11 42 4 351 13 10 366 29 4 3 64 0 5 178 141 89 29 354 31 13 38 26 6 6 0 27 4 31 328 0 2 12 7 13 320 193 3 13 0 321 12 20 8 289 12 11 64 38 2 12 289 38 9 150 53 42 0 26 12 20 38 214
论文 2.热点论文: 与相同领域和相同出版年的其他论文相
比,出版后很快就有高被引频次的论文
(3)引文分析模块
1.研究基准 ➢ 平均被引频次 ➢ 百分点 2.研究前沿
ESI中的平均被引频次表(局部)
2000年发表的临床医学论文到目 前为止平均被引了20.30次
可以作为科学家、机构、国家以及期刊排位表给出 的单篇被引值的基线
7.内容分析
例:如果想要了解“当前胃癌治疗的研究热 点是什么”,具体步骤如下:
1.获取样本: 从PubMed数据库中检索到所有有关胃癌治
疗的相关文献记录
2.抽取字段:
抽取每篇论文的主题词
3.频次统计:
胃癌/治疗高频主题词列表(部分)
序号 1 2 3
4
关键字段
Stomach Neoplasms / Surgery Stomach Neoplasms / Drug Therapy Antineoplastic Combined Chemotherapy Protocols / Therapeutic Use Gastrectomy / Methods
得陈旧过时,作为情报源的价值不断减小,甚 至完全失去利用价值的现象。
被引用 的文献
经典文献: 年龄超过5年仍被引用的文献
过渡文献: 年龄不大于5年的被引文献
某一知识领域内,把对年限不超过5年的文献 引文数量与引文总数之比。
普赖斯指数愈大,半衰期则愈短,文献老化 的速度则愈快。
补充概念:
2.引文分析的指标
美国费城科学情报所(Institute for Scientific Information,ISI) 根据引文分析的原理,推 出一种定量地评估科学研究水平的重要研究工 具:基本科学指标(Essential Science Indicators,ESI)。
ESI的3个主要模块及其功能
统计这些特征出现的规律,就可以显示出该领 域或者主题的研究活动的特点。对于这些指标 的分析研究形成了文献计量学的重要定律,这 些定律构成了文献计量学的主要内容,对这些 定律应用也是文献信息分析的主要手段。
1.布拉德福定律
如果将科学期刊按其刊载某个学科领域的论文 数量以递减顺序排列起来,就可以在所有这些 期刊中区分出载文量最多的‘核心’区和包含 着与核心区同等数量论文的随后几个区,这时 核心区和后继各区中所含的期刊数成 1:a:a2 …… 的关系( a>1 )
题词列举出来,由此来反映两个表面上无联 系的事件或者联系微弱的事件之间的潜在的 联系。
Arrowsmith交互界面
(2)BITOLA
➢ 采用了闭合式和开放式两种发现模式 ➢ 基于文献的交互式生物医学发现支持系统,
主要用于帮助生物医学研究人员发现生物医 学概念之间的潜在联系。
BITOLA挖掘结果界面
2.文献信息分析的功能:
整理功能
反馈功能
文献信
息分析 的功能
评价功能
预测功能
二、文献信息分析的步骤
1.获取样本
2.抽取字段
3.频次统计
6.聚类分析
5.共现分析
4.排序结果 分析
1.基于文献的知识发现的定义 通过已发表的文献来发现新的知识的过程。这
是一个将表面上没有任何联系的文献中的具有 隐含逻辑关系的知识片段组织起来的信息处理 过程。
2.基于文献的知识发现产生的背景
科学研究的深入 科学技术越来越专业化
3.基于文献的知识发现的原理
(1)闭合式知识发现的模式 从A和C出发,寻找共同的中间词B
Citation Analysis - Baselines - Research Fronts
(1)引文排位模块
1.按照领域查询作者、机构、国家和期刊在 一定时间段内的发文数、被引次数和排位
2.检索具体的作者、机构、国家和期刊在各 领域的排位情况
(2)高被引论文模块
1.高被引论文: 在最近10年内的被引频次前1%范围内的
学抽象为主要特征的信息深加工活动。
在此过程中,要对文献信息的价值进行评估, 然后选取可靠的、先进的、实用的文献信息进 行整序、统计分析,提取其中隐含的知识,从 而获得增值的文献信息知识。
原始文 献信息
评估 选取
可靠的、先进 的、实用的文 献信息
整序
统计 分析
隐含的 知识
(二)文献信息分析的意义和功能
(2)开放式知识发现的模式
对某个初始研究主题A,在MEDLINE的标题 字段检索其相关文献,寻找与A在标题中共同 出现的中间词B,通过筛选得到有一定意义的 B,重复上述过程,得到目标词C。
4.基于文献的知识发现的工具
(1)Arrowsmith ➢ 采用闭合式知识发现的模式 ➢ 可以将A和C两个主题的文献集合中共有的标
模块
功能
Citation Rankings - Scientists - Institutions - Countries/Territories - Journals
Most Cited Papers - Highly Cited Papers (last 10 years) - Hot Papers (last 2 years)
f(x)
C xn
f(x):写x篇论文的作者占作者总数的百分比 x:论文篇数 C:某主题领域的特征常数,n≈2 洛特卡定律对我们了解感兴趣的领域内科学研究 活动的规模和核心作者十分重要。
3.齐夫定律
统计一定长度的文章中每一个词出现的频次, 将这些词按照其出现频次从高到低排序,就可 以得到词的序号,词的频次和序号数量关系特 征呈双曲线分布。
发表时间先后顺序自动生成引文时序网络图
“以问题为基础的学习(PBL)”研究的引文 时序列网络
(2)Bibexcel
➢ 文献计量分析工具包 ➢ 主要功能:从下载的文件中抽取用户指定字
段,并统计其出现的频次,以及进行共现统 计,最后生成共现矩阵。其结果可以输入到 与其他软件做进一步分析。
Bibexcel的输入界面
即:
fr r C
r:单词的等级序号 fr为r所对应的频次 C:常数
卢恩(Luhn)的频率自动索引方法就是统计词 频之后,去掉高 频词,去掉后缀,找出相应的 词干最后确定表现论文内容的区分力 (resolving power)最高的关键词
4.普赖斯指数
度 量
文献老化(Literature Obsolescence): 科学文献随其“年龄”的增长,其内容日益变
(3)GenClip
➢ 原理:根据文献轮廓分析基因功能的方法 ➢ 集成了文献检索、自动抽取关键词、聚类分析、
随机模拟、构建基因关系网络图及可视化功能, 帮助用户直观、实时地发掘、理解大量基因数 据背后的知识
GenCLip聚类分析结果
布拉德福统计的两个学科的文献数据
分区 期刊载文 应用地球物理学
数量
期刊量
论文量
1
>4
9
429Байду номын сангаас
2
1~4
59
499
3
1
258
404
润滑 期刊量
8 29 127
论文量 110 130 152
布氏定律可以帮助我们确定自己感兴趣的研 究领域的核心期刊,寻找到重要的信息源
2.洛特卡定律
将作者名字按照发表论文数目的多寡由高到低 排列,并分别赋予等级排列的序号。经过直线 拟合等方法,最后得出如下数学公式。
(3)CiteSpace
➢ 文献引文网络分析的可视化软件 ➢ 利用三个网络(“研究前沿术语的共现”,
“知识基础文章的同被引”和“研究前沿术语 引用知识基础文章”)在随着时间演变的情况 来寻找研究热点及趋势,并以可视化的方式展 示出来。
CiteSpace II禽流感研究前沿术语的共现网 络图
(三)基于文献的知识发现
半衰期: 某学科或专业现时尚在利用的全部文献中较
新的一半是在多长时间内发表的。 普赖斯指数可以度量文献的老化速度和程度。
(二)引文分析法
1.引文分析的定义: 利用各种数学及统计学的方法进行比较、归纳、
抽象、概括等的逻辑方法,对科学期刊、论文、 著者等分析对象的引用和被引用现象进行分析, 以揭示其数量特征和内在规律的一种信息计量 研究方法。
6.聚类分析:使用工具SPSS
胃癌治疗高频主题词聚类分析结果(部分)
7.内容分析
文献计量学方法
1.书目计量法 2.引文分析法
文本挖掘、基于文献的知识发现
(一)书目计量法
书目计量法分析的指标主要是文献的书目信息, 如文献量(各种出版物,尤以期刊论文和引文 居多)、作者数 (个人、集体或团体)、词汇 数(各种文献标识,如主题词、关键词和分类号 等)。
1.文献分析的意义: 1)从人才培养的宏观角度看: 文献信息分析能力是大学生整体素质重要组
成部分之一。
2)从个人专业发展的微观角度看:
对于从事医学科学研究和医疗实践的医学生 而言,要有效地进行学习和科研,掌握文献 信息分析技能是其未来生存和发展的基础。
3)从生存发展环境的客观角度看:
出现 频次 1440 1324 651
366
百分比 % 9.7813 8.9933 4.4220
2.4861
累计百分 比% 9.7813 18.7746 23.1966
25.6827
序号 关键字段
出现
频次
5 Stomach Neoplasms / 354
Pathology
6 Stomach Neoplasms / 328
Therapy
7 Adenocarcinoma / Drug 321
Therapy
8 Adenocarcinoma /
289
Surgery
9 Gastrectomy
214
百分比 累计百分比
%
%
2.4046 28.0872
2.2280 30.3152
2.1804 32.4956
1.9630 34.4586
医学文献信息检索
第十一章 文献信息分析与
利用(2)
第二节 文献信息分析
学习要点
一、文献信息分析概述 (一)文献信息分析的定义 (二)文献信息分析的意义和功能
二、文献信息分析的步骤
三、文献信息分析的方法 (一)书目计量法 (二)引文分析法 (三)基于文献的知识发现
一、文献信息分析概述
(一)文献信息分析的定义 以对大量已知文献信息的内容进行整理和科
ESI被引频次的百分点表
1999年发表的农业论文只有被引用 了494次才能进入前0.01%
若已知某一篇论文的被引次数,通过该表,即可得 知该论文在本领域所有论文被引次数排序中的位次
3.引文分析的工具
(1)HistCit: ➢ 引文分析可视化系统 ➢ 主要功能:可以将某个领域的高被引论文按照
1.4536 35.9122
4.排序结果分析 5.共现分析:
主题词1出 现的频次
主题词共现矩阵(局部)
主题词1和6共 同出现的频次
1 23456789
1 1440 60 38 351 178 6 13 289 150 2 60 1324 616 13 141 0 320 12 53 3 38 616 651 10 89 27 193 11 42 4 351 13 10 366 29 4 3 64 0 5 178 141 89 29 354 31 13 38 26 6 6 0 27 4 31 328 0 2 12 7 13 320 193 3 13 0 321 12 20 8 289 12 11 64 38 2 12 289 38 9 150 53 42 0 26 12 20 38 214
论文 2.热点论文: 与相同领域和相同出版年的其他论文相
比,出版后很快就有高被引频次的论文
(3)引文分析模块
1.研究基准 ➢ 平均被引频次 ➢ 百分点 2.研究前沿
ESI中的平均被引频次表(局部)
2000年发表的临床医学论文到目 前为止平均被引了20.30次
可以作为科学家、机构、国家以及期刊排位表给出 的单篇被引值的基线
7.内容分析
例:如果想要了解“当前胃癌治疗的研究热 点是什么”,具体步骤如下:
1.获取样本: 从PubMed数据库中检索到所有有关胃癌治
疗的相关文献记录
2.抽取字段:
抽取每篇论文的主题词
3.频次统计:
胃癌/治疗高频主题词列表(部分)
序号 1 2 3
4
关键字段
Stomach Neoplasms / Surgery Stomach Neoplasms / Drug Therapy Antineoplastic Combined Chemotherapy Protocols / Therapeutic Use Gastrectomy / Methods
得陈旧过时,作为情报源的价值不断减小,甚 至完全失去利用价值的现象。
被引用 的文献
经典文献: 年龄超过5年仍被引用的文献
过渡文献: 年龄不大于5年的被引文献
某一知识领域内,把对年限不超过5年的文献 引文数量与引文总数之比。
普赖斯指数愈大,半衰期则愈短,文献老化 的速度则愈快。
补充概念:
2.引文分析的指标
美国费城科学情报所(Institute for Scientific Information,ISI) 根据引文分析的原理,推 出一种定量地评估科学研究水平的重要研究工 具:基本科学指标(Essential Science Indicators,ESI)。
ESI的3个主要模块及其功能
统计这些特征出现的规律,就可以显示出该领 域或者主题的研究活动的特点。对于这些指标 的分析研究形成了文献计量学的重要定律,这 些定律构成了文献计量学的主要内容,对这些 定律应用也是文献信息分析的主要手段。
1.布拉德福定律
如果将科学期刊按其刊载某个学科领域的论文 数量以递减顺序排列起来,就可以在所有这些 期刊中区分出载文量最多的‘核心’区和包含 着与核心区同等数量论文的随后几个区,这时 核心区和后继各区中所含的期刊数成 1:a:a2 …… 的关系( a>1 )
题词列举出来,由此来反映两个表面上无联 系的事件或者联系微弱的事件之间的潜在的 联系。
Arrowsmith交互界面
(2)BITOLA
➢ 采用了闭合式和开放式两种发现模式 ➢ 基于文献的交互式生物医学发现支持系统,
主要用于帮助生物医学研究人员发现生物医 学概念之间的潜在联系。
BITOLA挖掘结果界面