引文分析法共词分析法浅析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

选择对象 搜索数据 构建矩阵 聚类分析/多维尺度分析/计算战略坐标 分析结果
几乎国内外所有学者都是按照统一的方法模式
来进行共被引分析,即第一步构造共被引矩阵;第 二步将该矩阵转化为相似系数矩阵,方法大多为皮 尔逊相关系数法(Pearson’S Correlation Coeficient); 第三步是进行聚类(Cluster)和多维尺度分析(MDS)。 这基本是大家默认的方法,在我国许多相关教材和 相关论文中也多是采用这样的方法。
在引文网络中存在大量的同引和耦合。同
引(或称同被引)是指两篇或两篇以上文献共同 被之后的一篇或多篇文献引用,如图中5和6同 时被之后的8和8′引用;引用它们的论文的多少, 即同被引程度,称为同被引强度。耦合则是指 两篇文献共同引用了一篇或多篇文献,如图中2 和4共同引用了1;耦合的文献之间总存在着这 样或那样的联系,其联系的程度称为耦合强度 。
系的临近矩阵,只不过研究的目标选定了有特殊意
义的作者、论文、期刊、学科等而已。从这点出发
,我们自然而然的认为自己和自己的关系最亲近,
所以应该是该作者与其他作者共被引频次中最高的
。表达方式可以是最大值。但我们认为为了突出自 己与自己的亲密关系,可以用最大值+l来凸显。所 以我们大体倾向于White的提法,但可做适当的调整 。
引文网络
在引文分析中, 引文网络得到了学者们
的高重视。国外方面,将引文看作代表信赖 的原型。他们认为在虚拟环境中,引文实际 上代表了一种信赖。当A 引用B 的文章时,A 认为B 的观点是支持性的,而B 引用的内容是 被协商许可了的, 引用内容的同时也就影响 了B 的思维。因此,引文网络系统可以被看成 是信赖系统,引文索引则可以被看成是一个 推荐系统———推荐被引次数多的文章。
从2003年开始,在科学计量学学者之间又引发 了关于共被引分析方法的讨论。焦点主要集中在对 皮尔逊相关系数是否适合应用到共被引分析这一问 题,及共被引矩阵对角线如何取值这一问题的讨论 。
McCain将其定为:默认值,这也是影响最广泛 的一种对角线确定方法;Ahlgren等认为应该使用自 己与自己实际共被引次数;White则建议使用最大值 来确定对角线的值。邱均平等认为根据共被引原理 来看,从临近矩阵的定义来看,Wh ite的建议则更 正确。共被引矩阵本来就是考察各对象之间亲疏关
共引的来自百度文库义
自1973 年被提出以来,共引分析已成为 引文分析里面一种潜在多产的分析方法, 它 不仅可以用来揭示科学结构的发展现状乃至 变化情况, 还可以用来进行前沿分析、领域 分析、科研评价等,进而为宏观科技决策提 供先行支持, 为科技规划与评估提供基础 。
共引分析的一般过程
共引分析方法的一般过程可以概括为分 析领域的确定分析对象的选择及共引矩阵的 形成共引数据的处理聚类分析和多维标度结 果分析和解释。方法的演进过程以分析过程 中分析对象的选择和聚类方法中的参数修正 为主。
科学研究前沿代表了科学发展的难点、 热点以及发展趋势,从浩瀚的科技信息中探测 研究前沿是科技创新的关键任务之一。因此, 如何能够科学、准确地把握研究前沿已经成 为科学研究人员及其管理者关注的焦点。
科学家提出各种方法与技术用于探测研 究前沿,其中以利用引文分析和共词分析的研 究最为常见。
引文分析
引文分析是利用各种数学、统计学以及逻 辑方法,对科技期刊、论文、著作等各种分析 对象的引用或被引用现象进行分析研究, 以便 揭示其数量特征和内在规律, 达到评价、预测 科学发展趋势的目的。近几年主要的关注研究 对象或热点集中在“引文网络”、“自引与自 引率”、“共引分析”、“影响因子”以及 “引文分析和统计中的误差”等方面。
共引(co-citation)
就是两篇文献同时被其他文献引用。一 般认为同被引用的文献在主题上具有或多或 少的相似性, 因此同被引次数即共引强度可以 测度文献在内容方面的相关度。由此, 通过一 组文献之间的共引关系可以形成共引网络, 该 网络内节点之间的远近便可以反映它们主题 内容的亲疏关系。
共引分析方法始于small于1973年提出的 以文献为单位的共引分析, 但共引概念可以推 广到与文献相关的各种特征对象上, 形成各种 类型的共引概念,如词的共引、文献共引、著 者共引、期刊共引、主题共引和类的共引等。
常见的引文网络测度指标可以分为四类: ①引文数量特征测度指标:引文数; ②引文分布 特征测度指标:平均引用数、自引数与自引率 、被引次数与引用数的比值; ③期刊(论文)影 响力测度指标:被引用数、同引和耦合、期刊 影响因子即年指标; ④文献老化规律测度指标: 衰减系数等
自引自引率
关于自引和自引率的研究是引文分析的内 容之一。目前在国外研究最多的是关于期刊 的自引和自引率。一般认为, 期刊高自引有 助于提升其影响因子; 也有研究人员研究去 除期刊自引数对影响因子的影响,认为未去 除影响因子的数据可以采用;还有研究显示 期刊自引与自引率与影响因子的负相关性。
Pearson’s只是一种测度变量相似性的方法,是为了更 好地发现变量之间的关系,而许多方法都可以取代它。我们 认为Squared Euclidean distance是代替它的最好方法。理由如 下:
引文网络的结构特点有: ①引文网络是静态的,不 可以在任何已有节点上增加新的代表引用的单向箭 头,也不可以随意删除已有的代表引用的单向箭头,因 为文献一经出版之后,它的参考文献就一成不变了; ②引文网络中的引用是单向的,即只能是后期的文献 引用前期的文献,而前期的文献不能反过来引用后期 的文献; ③引文网络中的引文不可以自引,引文不能 自己引用自己,在引文分析中,自引主体只能是作者、 期刊、学科、机构等; ④引文网络中的引用是有固定 时间的,即文献A引用文献B是有固定时间的,这个固定 时间正好是文献A 的发表时间,且文献A的发表时间 必然在文献B之后,如图3中8和8′同时发表,故不存在8 引用8′或8′引用8; ⑤引文网络中引文间的引用呈现出 主题集中,因为引文间引用的正式性和文献出版的质 量控制,引文基本来自同一科学领域或关系紧密的领 域。
相关文档
最新文档