文献信息分析与利用

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
利用文献信息分析技术,从大量的文献信息 中获取自己所需要的那部分信息,日益成为 生物医学专业人员需要掌握的重要技能之一。
2.文献信息分析的功能:
整理功能
反馈功能
文献信
息分析 的功能
评价功能
预测功能
二、文献信息分析的步骤
1.获取样本
2.抽取字段
3.频次统计
6.聚类分析
5.共现分析
4.排序结果 分析
1.基于文献的知识发现的定义 通过已发表的文献来发现新的知识的过程。这
是一个将表面上没有任何联系的文献中的具有 隐含逻辑关系的知识片段组织起来的信息处理 过程。
2.基于文献的知识发现产生的背景
科学研究的深入 科学技术越来越专业化
3.基于文献的知识发现的原理
(1)闭合式知识发现的模式 从A和C出发,寻找共同的中间词B
Citation Analysis - Baselines - Research Fronts
(1)引文排位模块
1.按照领域查询作者、机构、国家和期刊在 一定时间段内的发文数、被引次数和排位
2.检索具体的作者、机构、国家和期刊在各 领域的排位情况
(2)高被引论文模块
1.高被引论文: 在最近10年内的被引频次前1%范围内的
学抽象为主要特征的信息深加工活动。
在此过程中,要对文献信息的价值进行评估, 然后选取可靠的、先进的、实用的文献信息进 行整序、统计分析,提取其中隐含的知识,从 而获得增值的文献信息知识。
原始文 献信息
评估 选取
可靠的、先进 的、实用的文 献信息
整序
统计 分析
隐含的 知识
(二)文献信息分析的意义和功能
(2)开放式知识发现的模式
对某个初始研究主题A,在MEDLINE的标题 字段检索其相关文献,寻找与A在标题中共同 出现的中间词B,通过筛选得到有一定意义的 B,重复上述过程,得到目标词C。
4.基于文献的知识发现的工具
(1)Arrowsmith ➢ 采用闭合式知识发现的模式 ➢ 可以将A和C两个主题的文献集合中共有的标
模块
功能
Citation Rankings - Scientists - Institutions - Countries/Territories - Journals
Most Cited Papers - Highly Cited Papers (last 10 years) - Hot Papers (last 2 years)
f(x)
C xn
f(x):写x篇论文的作者占作者总数的百分比 x:论文篇数 C:某主题领域的特征常数,n≈2 洛特卡定律对我们了解感兴趣的领域内科学研究 活动的规模和核心作者十分重要。
3.齐夫定律
统计一定长度的文章中每一个词出现的频次, 将这些词按照其出现频次从高到低排序,就可 以得到词的序号,词的频次和序号数量关系特 征呈双曲线分布。
发表时间先后顺序自动生成引文时序网络图
“以问题为基础的学习(PBL)”研究的引文 时序列网络
(2)Bibexcel
➢ 文献计量分析工具包 ➢ 主要功能:从下载的文件中抽取用户指定字
段,并统计其出现的频次,以及进行共现统 计,最后生成共现矩阵。其结果可以输入到 与其他软件做进一步分析。
Bibexcel的输入界面
即:
fr r C
r:单词的等级序号 fr为r所对应的频次 C:常数
卢恩(Luhn)的频率自动索引方法就是统计词 频之后,去掉高 频词,去掉后缀,找出相应的 词干最后确定表现论文内容的区分力 (resolving power)最高的关键词
4.普赖斯指数
度 量
文献老化(Literature Obsolescence): 科学文献随其“年龄”的增长,其内容日益变
(3)GenClip
➢ 原理:根据文献轮廓分析基因功能的方法 ➢ 集成了文献检索、自动抽取关键词、聚类分析、
随机模拟、构建基因关系网络图及可视化功能, 帮助用户直观、实时地发掘、理解大量基因数 据背后的知识
GenCLip聚类分析结果
布拉德福统计的两个学科的文献数据
分区 期刊载文 应用地球物理学
数量
期刊量
论文量
1
>4
9
429Байду номын сангаас
2
1~4
59
499
3
1
258
404
润滑 期刊量
8 29 127
论文量 110 130 152
布氏定律可以帮助我们确定自己感兴趣的研 究领域的核心期刊,寻找到重要的信息源
2.洛特卡定律
将作者名字按照发表论文数目的多寡由高到低 排列,并分别赋予等级排列的序号。经过直线 拟合等方法,最后得出如下数学公式。
(3)CiteSpace
➢ 文献引文网络分析的可视化软件 ➢ 利用三个网络(“研究前沿术语的共现”,
“知识基础文章的同被引”和“研究前沿术语 引用知识基础文章”)在随着时间演变的情况 来寻找研究热点及趋势,并以可视化的方式展 示出来。
CiteSpace II禽流感研究前沿术语的共现网 络图
(三)基于文献的知识发现
半衰期: 某学科或专业现时尚在利用的全部文献中较
新的一半是在多长时间内发表的。 普赖斯指数可以度量文献的老化速度和程度。
(二)引文分析法
1.引文分析的定义: 利用各种数学及统计学的方法进行比较、归纳、
抽象、概括等的逻辑方法,对科学期刊、论文、 著者等分析对象的引用和被引用现象进行分析, 以揭示其数量特征和内在规律的一种信息计量 研究方法。
6.聚类分析:使用工具SPSS
胃癌治疗高频主题词聚类分析结果(部分)
7.内容分析
文献计量学方法
1.书目计量法 2.引文分析法
文本挖掘、基于文献的知识发现
(一)书目计量法
书目计量法分析的指标主要是文献的书目信息, 如文献量(各种出版物,尤以期刊论文和引文 居多)、作者数 (个人、集体或团体)、词汇 数(各种文献标识,如主题词、关键词和分类号 等)。
1.文献分析的意义: 1)从人才培养的宏观角度看: 文献信息分析能力是大学生整体素质重要组
成部分之一。
2)从个人专业发展的微观角度看:
对于从事医学科学研究和医疗实践的医学生 而言,要有效地进行学习和科研,掌握文献 信息分析技能是其未来生存和发展的基础。
3)从生存发展环境的客观角度看:
出现 频次 1440 1324 651
366
百分比 % 9.7813 8.9933 4.4220
2.4861
累计百分 比% 9.7813 18.7746 23.1966
25.6827
序号 关键字段
出现
频次
5 Stomach Neoplasms / 354
Pathology
6 Stomach Neoplasms / 328
Therapy
7 Adenocarcinoma / Drug 321
Therapy
8 Adenocarcinoma /
289
Surgery
9 Gastrectomy
214
百分比 累计百分比


2.4046 28.0872
2.2280 30.3152
2.1804 32.4956
1.9630 34.4586
医学文献信息检索
第十一章 文献信息分析与
利用(2)
第二节 文献信息分析
学习要点
一、文献信息分析概述 (一)文献信息分析的定义 (二)文献信息分析的意义和功能
二、文献信息分析的步骤
三、文献信息分析的方法 (一)书目计量法 (二)引文分析法 (三)基于文献的知识发现
一、文献信息分析概述
(一)文献信息分析的定义 以对大量已知文献信息的内容进行整理和科
ESI被引频次的百分点表
1999年发表的农业论文只有被引用 了494次才能进入前0.01%
若已知某一篇论文的被引次数,通过该表,即可得 知该论文在本领域所有论文被引次数排序中的位次
3.引文分析的工具
(1)HistCit: ➢ 引文分析可视化系统 ➢ 主要功能:可以将某个领域的高被引论文按照
1.4536 35.9122
4.排序结果分析 5.共现分析:
主题词1出 现的频次
主题词共现矩阵(局部)
主题词1和6共 同出现的频次
1 23456789
1 1440 60 38 351 178 6 13 289 150 2 60 1324 616 13 141 0 320 12 53 3 38 616 651 10 89 27 193 11 42 4 351 13 10 366 29 4 3 64 0 5 178 141 89 29 354 31 13 38 26 6 6 0 27 4 31 328 0 2 12 7 13 320 193 3 13 0 321 12 20 8 289 12 11 64 38 2 12 289 38 9 150 53 42 0 26 12 20 38 214
论文 2.热点论文: 与相同领域和相同出版年的其他论文相
比,出版后很快就有高被引频次的论文
(3)引文分析模块
1.研究基准 ➢ 平均被引频次 ➢ 百分点 2.研究前沿
ESI中的平均被引频次表(局部)
2000年发表的临床医学论文到目 前为止平均被引了20.30次
可以作为科学家、机构、国家以及期刊排位表给出 的单篇被引值的基线
7.内容分析
例:如果想要了解“当前胃癌治疗的研究热 点是什么”,具体步骤如下:
1.获取样本: 从PubMed数据库中检索到所有有关胃癌治
疗的相关文献记录
2.抽取字段:
抽取每篇论文的主题词
3.频次统计:
胃癌/治疗高频主题词列表(部分)
序号 1 2 3
4
关键字段
Stomach Neoplasms / Surgery Stomach Neoplasms / Drug Therapy Antineoplastic Combined Chemotherapy Protocols / Therapeutic Use Gastrectomy / Methods
得陈旧过时,作为情报源的价值不断减小,甚 至完全失去利用价值的现象。
被引用 的文献
经典文献: 年龄超过5年仍被引用的文献
过渡文献: 年龄不大于5年的被引文献
某一知识领域内,把对年限不超过5年的文献 引文数量与引文总数之比。
普赖斯指数愈大,半衰期则愈短,文献老化 的速度则愈快。
补充概念:
2.引文分析的指标
美国费城科学情报所(Institute for Scientific Information,ISI) 根据引文分析的原理,推 出一种定量地评估科学研究水平的重要研究工 具:基本科学指标(Essential Science Indicators,ESI)。
ESI的3个主要模块及其功能
统计这些特征出现的规律,就可以显示出该领 域或者主题的研究活动的特点。对于这些指标 的分析研究形成了文献计量学的重要定律,这 些定律构成了文献计量学的主要内容,对这些 定律应用也是文献信息分析的主要手段。
1.布拉德福定律
如果将科学期刊按其刊载某个学科领域的论文 数量以递减顺序排列起来,就可以在所有这些 期刊中区分出载文量最多的‘核心’区和包含 着与核心区同等数量论文的随后几个区,这时 核心区和后继各区中所含的期刊数成 1:a:a2 …… 的关系( a>1 )
题词列举出来,由此来反映两个表面上无联 系的事件或者联系微弱的事件之间的潜在的 联系。
Arrowsmith交互界面
(2)BITOLA
➢ 采用了闭合式和开放式两种发现模式 ➢ 基于文献的交互式生物医学发现支持系统,
主要用于帮助生物医学研究人员发现生物医 学概念之间的潜在联系。
BITOLA挖掘结果界面
相关文档
最新文档