信息计量学实验报告

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

黑龙江大学
实验报告
黑龙江大学教务处
一、实验目的
以“版本”为关键词选取CSSCI数据库中2000年-2013年及CNKI数据库中2014、2015年的所有论文,通过实验了解并掌握信息计量学中的六个重要的定律,文献增长定律,文献老化定律,洛特卡定律,齐普夫定律,引文分析规律,布拉德福定律。

二、实验设备、材料
计算机、优盘、原始分析数据、Excel表、Citespace软件、Ucinet6.0软件等
三、实验内容与实验步骤
1.实验准备
从CSSCI数据库中下载2000年-2013年及从CNKI数据库中下载2014、2015年的论文
2文献增长规律
2.1含义
文献增长是指随着人类文化、教育、科学技术的发展,记载其内容的文献数量随之增加的宏观社会现象。

2.2步骤
2.2.1以“版本学”为关键词选取CSSCI数据库中2000年-2013年及CNKI数据库中2014、2015年的所有论文,共找出550篇文献。

如图2.2.1:
图2.2.1
2.2.2对所有文献按升序顺序排列处理并提取出含有文献出版年份的数据,如图所示:
图2.2.2
2.2.3对所得文献出版年份进行分类汇总如图所示:
图2.2.3
2.2.4统计出不同出版年的年发表论文量,并通过Excel表格的计算公式C3=C2+B3,生成发表论文的累积量。

如图所示:
图2.2.4
2.2.5以文献出版年份为自变量,发表论文累积量为因变量绘制XY散点图。

在Excel选择插入图表,选择XY散点图,点击下一步,下一步,添加标题文献增长规律,去除网格线(可选),在Excel中生成效果图。

右击图中曲线上任一点生成趋势线并添加公式和R^2值
图2.2.5
2.3文献增长规律有三种不同的解释,社会学观点认为是社会情报交流的影响与推动导致所在领域的文献呈指数增长;文献学观点认为科学文献的增长将经历两次大的转变:一次是由指数式增长向逻辑式增长的转变,另一次是由逻辑式向直线式增长转变;而科学学观点则认为文献增长是由科学发展的客观过程决定的。

3.文献老化规律
3.1含义
科技文献随着其"年龄"的增长,其内容日益变得陈旧过时,失去了作为科学情报源的价值,以及因此越来越少被科学工作者和专家们利用的过程。

科学文献老化既是一种客观的社会现象,又是一个复杂的动态过程。

3.2步骤
3.2.1以“版本学”为关键词选取CSSCI数据库中2000年-2013年及CNKI数据库中2014、2015年的所有论文,共找出550篇文献。

如图3.2.1:
图3.2.1
3.2.2对所有文献按升序顺序排列处理并提取出含有参考文献的数据,如图所示:
图3.2.2
3.2.3将提取出来的排序后的参考文献做分列处理得到如图所示的效果:
图3.2.3
3.2.4分别将每一列所涉及的年份提取出来并粘贴在另一表单中,按升序排列:
图3.2.4
3.2.5对排序后的参考文献年份进行计数统计:
图3.2.5
3.2.6将计数后的参考文献重新粘贴在另一表单中,并通过Excel表格的计算公式D3=D2+C3,生成发表论文的累积量。

如图所示:
图3.2.6
3.2.7根据出版年龄和文献数量以及出版年龄和参考文献累积量做散点图,添加趋势
线,并显示公式和R^2值。

如图所示:
3.3查看数据表很容易知道:参考文献共有1414篇,其中较新的一半是近14年之内发表的,所以半衰期是14
3.4普赖斯指数是五年之内发表的文献量/总文献量=324/1414=0.229137199
4.布拉德福定律
4.1含义
布拉德福定律的文字表述为:如果将科技期刊按其刊载某学科专业论文的数量多少,以递减顺序排列,那么可以把期刊分为专门面对这个学科的核心区、相关区和非相关区。

各个区的文章数量相等,此时核心区、相关区,非相关区期刊数量成的关系。

4.2步骤
4.2.1以“版本学”为关键词选取CSSCI数据库中2000年-2013年及CNKI数据库中2014、2015年的所有论文,共找出550篇文献。

如图4.2.1
图4.2.1
4.2.2对所有文献按升序顺序排列处理并提取出含有期刊的数据,如图所示:
图4.2.2
4.2.3将排序后的期刊进行分类汇总统计,得到每本期刊所含有的论文数。

如图:
图4.2.4 4.2.5将分类数据进行合并并计数,如图:
图4.2.5
4.2.6对期刊按升序标记序号得出期刊累积量和每本期刊对应的论文数量,分别按照C2=LOG(B2)和D3=A3+D2计算期刊累积量的对数和论文累积量。

如图所示:
图4.2.6
4.2.7选择期刊累积量的对数X、论文累积量Y数据项做散点图。

分别选取整体数据、数据前1/3部分,数据后2/3部分作图,并添加趋势线,显示公式和R^2值。

如下所示:
图4.2.7
图4.2.8
图4.2.9
4.3布拉德福定律应用意义:为文献情报用户选择情报源,合理使用资金提供定量依据,以利于作出科学决策。

通过对核心期刊的划分,指导读者对其的利用以及图书馆和文献参考部门的订购和动态馆藏的维护。

5.洛特卡定律
5.1含义
洛特卡定律是由美国的统计学家、情报学家洛特卡研究出来的,描述科学论文作者动态
的最早的量化规律。

提出了定量描述科学生产率的平方反比分布规律,又被称为“倒平
方定律”。

5.2步骤
5.2.1以“版本学”为关键词选取CSSCI数据库中2000年-2013年及CNKI数据库中2014、2015年的所有论文,共找出550篇文献。

如图5.2.1:
图5.2.1
5.2.2从数据中找出第一作者项,粘贴在另一表单中,并进行升序排列。

如图所示:
图5.2.2 5.3.3将升序后的数据进行计数统计。

如图:
图3.2.3
3.2.4对作者计数后按照降序顺序输出数据并粘贴在另一表单中、如图:
图5.2.4
5.2.5复制全部内容粘贴在下一表单中,根据列A进行降序排列,将作者数量和论文数量分别列出来,统计出写不同篇数文章的作者人数。

如图所示:
图5.2.5
5.2.6选取图中A列和B列的数据,做出散点图,添加趋势线,并显示公式和R^2值,效果图如图所示:
图5.2.6
5.3应用
洛特卡定律的应用主要有三点:其一是可以反映科技劳动成果状况;第二是可以科学地估计劳动规模;第三是掌握科学论文的作者队伍,合理组织。

6齐普夫定律
6.1含义
齐普夫定律:是由美国语言学家齐普夫于1935年研究发现的关于文献中的词频分布规
律。

是指在自然语言的语料库里,一个单词出现的频率与它在频率表里的排名成反比。

6.2步骤
6.2.1以“版本学”为关键词选取CSSCI数据库中2000年-2013年及CNKI数据库中2014、2015年的所有论文,共找出550篇文献。

如图5.2.1:
图6.2.1
6.2.2从数据中抽出关键词并分列处理。

如图:
图6.2.2
6.2.3将所有关键词粘贴在下一表单的同一列里并进行升序处理。

如图:
图6.2.3
6.2.4将排序后的关键词进行分类汇总计数统计。

如图:
图6.2.4
6.2.5计算出不同关键字在所选文献中出现的次数,制作出如下图所示的数据表:
图6.2.5
6.2.6选取编号和关键字词频进行散点图绘制,并添加趋势线,显示公式和R^2值。

本次实现做了两个,分别取全部数据和除去关键词出现十次以上的数据,效果如图所示:
图6.2.6
图6.2.7
6.3齐普夫定律的应用最主要的是在文献标引和词表编制中的应用,依据齐普夫定律,可以使词表的编制有规律可循并建立在科学方法的基础之上,把词汇控制在一个恰当的范围,从而提高词表的质量。

另外一个就是在情报检索中的应用,即依据齐普夫定律,可以估算文献数据库所需的存储量,使得“倒排档”的建立有规律可循,从而更合理地组织情报检索文档。

7引文分析
7.1含义:利用各种数学及统计学的方法和比较、归纳、抽象、概括等逻辑方法,对科学期刊、论文、专著、著者等各种分析对象的引证与被引证现象进行分析,以便揭示其数量特征和内在规律的一种文献计量分析方法。

7.2步骤
7.2.1新建四个文件夹,分别命名为input、output、project和data,并将在cssci 数据库下载的文档导入input文件夹,给每一个文件以download_xxx.txt格式命名。

7.2.2打开citespace软件,进入如下页面
图7.2.1
7.2.3点击Data,将input文件夹中的文档导入output文件夹中,选择cssci方式,如下图所示,分别将文件导入,点击下方的format Conversion,看到finished就完成了文档的导入。

图7.2.2
图7.2.3
7.2.4返回主页面,点击new新建按钮,根据弹窗填写标题和文件夹如下所示
图7.2.4
7.2.5对文献分析过程中参数进行设置
(1)时间设置为2000-2013,时间间隔设置为1年
(2)其他如关键词来源、关键词类型等都维持默认状态
(3)pruning.上述选项选择完毕之后可以尝试进行一次分析,点击界面左侧的go,即可得到citespace的输出图
7.2.6完成上述步骤后点击绿色按钮GO!即可
图7.2.6
7.2.7图中最上边的部分称为引文年轮,它代表这篇文章的引文历史。

引文年轮最中心
部分的颜色代表这篇文献的发表年份(参考图中最上部分不同年份对应着不用颜色)。

引文年轮每一个环的颜色代表相应的引文时间。

一个环的厚度与某个时间分区内引文数
量成比例。

节点中心旁的数字代表整个时间跨度内的被引次数。

四、实验总结
经过几个周的艰难困苦和磨砺,终于在这学期快要结束的时候完成了实验报告,虽然还是有许多不尽如人意的地方。

在这里非常感谢赵丽梅老师的悉心指导,有许多的问题都给了很好的建议,哪怕是非常小的问题也不辞辛苦,多谢老师的包涵和指正。

信息计量学作为大学最后的一门课程,能够再一次遇见老师,也是我莫大的荣幸。

祝愿老师工作顺利,身体健康,幸福如意。

信息计量学做为图书馆学重要的支柱和最活跃领域,本身就具有较强的实践性。

通过对不同的定律加以实验,可以加深我们的理解与掌握。

学习了这些定律与公式,对以后的工作有一定的指导意义。

实验报告若有不足之处,请老师点评。

相关文档
最新文档