第十章信息分析与信息利用
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
包含着与核心区同等数量论文的随后几个区,这时核心区和后继 各区中所含的期刊数成 1:a:a 2 …… 的关系( a>1 )。
– 核心期刊的含义
二、文献信息分析的指标及其含义
• 论文的作者与核心作者
– 洛特卡的平方反比定律 » 检验发现,生产2篇文章的作者大约是生产一篇文章作者数的 1/4,生产3篇文章的作者数是生产1篇文章作者数的1/9……, 写1篇文章的作者数是全体作者的60%左右。 – 核心作者
主要步骤
特点
其结果可以输入到其他软件(如Pajek,Excel,SPSS等)做进一步分析 用户还可以自定义输入记录的字段标识和分隔符,具有更大的灵活性。
4.1 Bibexcel
Bibexcel用户界面
4.2 Arrowsmith
由D. Swanson等开发的可以在网上免费运行的软件, 网址为 kiwi.Uchicago.edu。 主要功能
影响因子(Impact Factor,IF) 即时指标(Immediacy Index,II)
二、文献信息分析的指标及其含义
• 分类号、主题词和关键词与研究热点 • 分类号、主题词和关键词的概念 • 主题词和关键词的统计分析可以直接反 映出研究的结构和趋势
频次排序方法的使用
胃癌/治疗高频主题词列表
第一节目录
一、文献信息分析的目的和意义 二、文献信息分析的指标及其含义
1. 2. 3. 4. 1. 2. 3. 4. 1. 2. 发表论文的期刊与核心期刊 论文的作者与核心作者 引文分析指标与科学评价 文献内容指标与热点分析 频次排序 共现分析 聚类分析 基于文献的知识发现 展现研究领域的结构 发现潜在的联系
出 现 百 分 比 累计百 频次 % 分比%
1440 1324 651 366 9.7813 8.9933 4.4220 2.4861 9.7813 18.7746 23.1966 25.6827
5
6 7 8 9
Stomach Neoplasms / pathology
Stomach Neoplasms / therapy Adenocarcinoma / drug therapy Adenocarcinoma / surgery Gastrectomy
第十章 信息分析与信息利用
1
学习本章的意义
如何分析和管理文献信息? 如何按照你自己的兴趣对大量文献信息做进一 步的分类和统计? 如何在短时间内抽取出大量文章的主要内容并 加以分析? 如何用计算机软件管理你检索到的论文?
本
章
目
录
第一节 医学文献信息分析 文献信息分析的相关概念、理论和技术 第二节 文献信息管理 重要的文献管理软件 第三节 项目申报与科技查新 申请科技查新的基本要求
中国知网中的学术趋势搜索
二、文献信息分析的指标及其含义
• 文献的特征 外部特征: 题目、作者、作者工作单位、出版者、出版地、 版次、期刊名称、引文,专利和科技报告还有专 利号或报告号等。 内容特征: 在文献数据库中,每一条文献记录中一般有分类 号和主题词、关键词的字段,用以表示文献的内 容。
三、文献信息分析的专门方法
1. 2. 3. 4. 频次排序 共现分析 聚类分析 基于文献的知识发现
3.2 共现分析
共现分析的含义 共现分析的作用 主题词共现分析的例子
主题词共现矩阵
1 1 2
1440 60 38 351 178 6 13 289 150
2
60 1324 616 13 141 0 320 12 53
一、文献信息的目的和意义
2. 文献信息分析的意义
① 信息快速增长的现状要求 ② 生物医学专业人员的整体素质要求 信息素质的提出
二、文献信息分析的指标及其含义
文献的特征 外表特征 内容特征 两种特征可以用于文献信息分析的对象 书目数据库中提供文献信息分析的功能
• CNKI • Web of Science
3
38 616 651 10 89 27 193பைடு நூலகம்11 42
4
351 13 10 366 29 4 3 64 0
5
178 141 89 29 354 31 13 38 26
6
6 0 27 4 31 328 0 2 12
7
13 320 193 3 13 0 321 12 20
8
289 12 11 64 38 2 12 289 38
使用步骤:
从Web of Science中检索并以固定格式下载某一主题的文献记录,包括作者、题 目、摘要和文献的引文。 将检索到的记录输入系统,系统会生成对文章标题、文摘、表述词汇的频率统计, 根据这些词汇频率的增长率确定研究前沿的热点词汇。 设置总时间段范围以及每一个时间片段,获得该研究领域研究前沿的术语和知识 基础的文章的对应的网络。
反映两个表面上无联系的事件或者联系微弱的事件之间的潜在的联系。 分别用A和C两个词进行MEDLINE的标题词检索,将检索到的文献标题分别存储 到ARROWSMITH的网页,将得到的两个文件上传 系统会产生一个列表(B—LIST),表中列出了这两个文件所存储的标题中同时出现的重 要单词或者词组。用户根据自己的经验把一些没有意义的、含糊的单词去掉 点击B—LIST中任何一个单词x都会显示出相应的同时包含A和x的标题,下面一行会显 示出同时含有x和c的标题。从这些标题中,用户结合自己的专业知识就可以从中发现主 题之间的潜在的联系。
三、文献信息分析的专门方法
四、基于文献的知识发现工具
一、文献信息的目的和意义
1. 文献信息分析的概念
• • 文献信息分析主要是指以对大量已知文献信息的内容 进行整理和科学抽象为主要特征的信息深加工活动。 在此过程中,要对文献信息的价值进行评估,然后选 取可靠的、先进的、实用的信息进行信息的整序甚至 统计,提取信息中隐含的知识,从而获得增值的信息 产品。
四、基于文献的知识发现工具
1.展现研究领域的结构的工具
• • • • • • • CiteSpace HistCite Bibexcel Arrowsmith BITOLA MedlineR GenClip
2.发现潜在的联系的工具
4.1 Citespace
研究领域
研究前沿:Research Fronts,某个研究课题及其基础研究问题的概念组 合 知识基础:Intellective Base,研究前沿的概念和问题在科学文献中的引 文及其同被引的轨迹。一组被研究前沿所引用的科学出版物的演进网络。
二、文献信息分析的指标及其含义
• 引文及引文分析指标与科研评价
引文的定义和作用 基本科学指标(Essential Science Indicators,ESI)
ESI的主要模块
引文排位(Citation Rankings) 高被引论文(Most Cited Paper) 引文分析(Citation Analysis)
序 号
1 2 3 4
关键字段
Stomach Neoplasms / surgery Stomach Neoplasms / drug therapy Antineoplastic Combined Chemotherapy Protocols / therapeutic use Gastrectomy / methods
帮助生物医学研究人员发现生物医学概念之间的潜在联系。
特点
采用MeSH表中的主题词来表达概念,同时还包括了来自人类基因组组织(Human Genome Organisation,HUGO)的人类基因名称 采用闭合式和开放式两种发现模式。
4.2 BITOLA
BITOLA挖掘结果界面
4.2 MedlineR
354
328 321 289 214
2.4046
2.2280 2.1804 1.9630 1.4536
28.0872
30.3152 32.4956 34.4586 35.9122
三、文献信息分析的专门方法
基于共现的文献信息分析的基本步骤: 1. 获取数据 确定研究主题的范围,检索相关文献的记录,下载相 关文献记录。 2. 抽取字段 抽取相关指标(如期刊、作者、引文等)进行频次统 计。 3. 统计条目 将统计指标按照出现频次由高到低排列,截取其中高 于某个阈值的部分,如高频主题词、高频期刊、高产作者等等, 作为进一步分析的样本。 4. 共现分析 统计这些高频指标在同一个文献记录中共同出现的频 次,形成共现矩阵。 5. 聚类分析 利用统计分析软件,根据共现矩阵,采用聚类分析、 社会网络分析等方法对相关指标进行分类。 6. 结果判读 对形成的类别进行内容分析,以此说明该领域的科学 研究活动的基本状况,如研究热点、核心期刊等等。
主要步骤
意义
4.1 HistCite
PBL的引文时序列网络
4.1 Bibexcel
由瑞典的于默奥大学(UmeåUniversity)社会学系的Olle Persson开 发,可以在www.umu.se/inforsk网站上免费下载。 主要功能
抽取文件中的字段,统计其出现的频次并生成共现矩阵。 从Web of Science等书目数据库中下载记录 从下载的文件中抽取用户指定字段,如标题中的词、作者、期刊、引文、被引作者、被 引期刊等等 统计其出现的频次,进行共现统计,最后生成共现矩阵。
• 研究前沿术语的共现 • 知识基础文章的同被引 • 研究前沿术语引用知识基础文章
4.1 Citespace
禽流感研究前沿术语的共现网络图
4.1 HistCite
引文分析可视化系统,尤金· 加菲尔德(E. Garfield)于2001年推出。网 址为www.histcite.com,可下载30天免费试用版。 主要功能
主要步骤
意义
帮助生物医学者发现新的、有用的联系,可以把它当作一种扩展MEDLINE搜索能力的 软件,但不能替代传统的文献检索,因为它还必须在传统的文献检索的基础上开展工作。
4.2 Arrowsmith
Arrowsmith交互界面
4.2 BITOLA
由斯洛文尼亚的生物统计与医学信息研究所的Dimitar Hristovski与 Borut Peterlin研制开发。网址为www.mf.uni-lj.si/bitola。 主要功能
将某个领域的高被引论文按照发表时间先后顺序自动生成引文时序网络图。 从ISI Web of Science(WOS)上检索并下载的某一专题方面的文献记录(包括其引文信 息) 将高于一定阈值的引文列出,按照被引论文发表年份顺序,绘制出网络图。 引文时序网络图展示某个研究主题的论文源流、最初著者以及该研究主题发展的来龙去 脉,迅速对某一专题研究历史进行回顾,指导自己的研究工作。 此外,该软件可以把检索到的来源文献按照期刊名称、著者、年份分别进行排序。对于 被引文献,还按照被引频次的高低进行排序,同时,点击引文时序网络图中的结点,可 以看到引用该文献的所有文献以及被该文献引用的所有文献。 加菲尔德等人应用这一软件已经先后对有关数字图书馆、情报科学、信息计量学、共焦 显微镜、实验胚胎学、基因组测序等专题研究以及某一段时期有关某一专题研究的杂志 的发文情况进行了引文时序分析,分别生成了引文编年图。
二、文献信息分析的指标及其含义
文献特征的分析及其意义
• • • • 发表论文的期刊与核心期刊 论文的作者与核心作者 引文及引文分析指标与科研评价 分类号、主题词和关键词与研究热点
二、文献信息分析的指标及其含义
• 发表论文的期刊与核心期刊 • 布拉德福定律
– 如果将科学期刊按其刊载某个学科领域的论文数量以递减顺序排 列起来,就可以在所有这些期刊中区分出载文量最多的‘核心’区和
9
150 53 42 0 26 12 20 38 214
3
4 5 6 7 8 9
3.3 聚类分析
聚类分析的含义 SPSS中聚类分析的操作 SPSS中聚类分析结果的解释
聚类分析结果的解释
3.4 基于文献的知识发现
基于文献发现的含义 基于文献发现出现的原因 Swanson知识发现的过程 开放式与闭合式的发现