期刊共被引相似性测度问题的实证研究

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

<<档案

期刊编辑

>>

第54卷第18期 2010年9月

期刊共被引相似性测度问题的实证研究

杨利军1 张良友

2

1

中山大学资讯管理系 广州510006 2

中山大学附属第六医院 广州510655

摘要!在共被引分析中,还有诸多问题未解决,如原始数据是否需要标准化,选择何种相似性测度方式更为准确可靠。从理论分析和实证研究两个方面探讨期刊共被引相似性测度问题,得出期刊共被引分析是否需要将数据进行标准化处理的结论及切比雪夫距离是期刊共被引分析中相似性测度的理想选择。 关键词!期刊共被引 标准化 相似性测度 聚类分析 分类号!G350

An Em piricalR esearch of the Si m ilarityM easures for Journal Co c itation Analysis Y ang L ijun 1 Zhang L iangyou

2

1School o f In f o r m ati on M anag e m ent ,Sun Y a t sen U n i versity ,G uangzhou 5100062

T he S i x t h A ffili ated H osp ital o f Sun Y at sen U niversity ,G uang zhou 510655

Abstract !Shou l d the orig i nal co c itati on da ta be nor m a lized ?W hich si m ilarity m easure i s a m ore appropr i ate one ?These are some unsolved issues o f co c itati on ana l ys i s .F ro m t heoretica l ana lysis and emp irical study ,the paper conc l udes about whether the or i g i na l data should be nor m a li zed or no t ,and suppo rts t hat the Chebychev d i stance is a better si m ilarity m easure f o r jou rnal co c itati on . K ey word s !journa l co c itati on nor m a liza ti on

si m ilarity m easures

cl uster ana l y si s

收稿日期:2010-04-26 修回日期:2010-06-13 本文起止页码:139-144 本文责任编辑:王善军

1 前 言

学术期刊的共被引强度反映了期刊的亲疏关系,可以用来挖掘学术期刊之间的关系,并且通过聚类分析对期刊进行分类,能进一步考查学科的内部结构和联系情况。

自1991年M c Ca i n 将共被引分析方法运用于期刊研究以来

[1]

,国内外学者进行了深入研究,拓宽了其应

用领域。学术界对期刊共被引方法的关注,体现了期刊共被引分析的内在发展张力;此外,现代检索技术的发展、科学知识图谱的兴起、可视化技术的发展以及社会网络分析技术的成熟,形成了期刊共被引方法的外在推动力,使期刊共被引发展为一种较为成熟可靠的计量分析方法。

但是,期刊共被引分析方法同样存在几个有待商榷的问题,如:在完成数据收集作进一步分析前,原始的共被引矩阵是否需要进行数据标准化处理?作为分析对象,期刊有着与文献、作者、专利不同的特点,在相似性测度问题上,是否应该考虑期刊的独特性?相似性(关联性)的测度方法众多,哪种方法更为准确?这

些都是当前学术界讨论的热点问题。

2 标准化的问题

2.1 前人的研究成果

在共被引分析方法提出之初,学术界普遍认为原始共被引矩阵需要标准化,才能用于进一步的聚类分析、多维尺度分析等。当时的观点认为共被引分析关注的重点不是共被引次数的高低,而是共被引所形成的相似性,故统计分析的第一步需要将原始矩阵标准化,转换为相关矩阵。

2006年,Leydesdorff 等撰文指出原始共被引矩阵不应该进行转化;同时,应该考虑不同类别的矩阵的性质

[2]

。他们通过讨论对称的共被引矩阵与非对称的引

用矩阵的区别,认为将原始矩阵转化(标准化)为相似矩阵的措施(如Pearson 相关系数或余弦值等)不应该用于对称共被引矩阵,但可以应用到由不对称引用矩阵推导出的临近矩阵。这篇文章引起了学术界对共被引分析的更大范围的讨论。W alt m a n 和van Eck 对此提出了反驳意见,认为共被引矩阵同样需要标准化,并且需要进一步研究采用何种相似性测度方法(Pearson

139

<<档案 期刊编辑

L I BRARY AND I NFOR M AT I ON SERV I CE

相关系数、余弦值等)

[3]

。Leydesdorff 随后回应,他在文章中对比分析对称的共被引矩阵和非对称的引文矩阵,并比较了这两种矩阵分别采用各种相似性测度的结果

[4-5]

。2008年,我国学者邱均平等在∀关于共被引

分析方法的再认识和再思考#一文中,重申共被引矩阵标准化的重要性

[6]

,并认为由于共被引强度受学科、专

业甚至研究方向的影响很严重,所以组成的矩阵数据差别大;比如,科学计量学者之间共被引强度高而与信息检索学者共被引强度低,这样相当于变量单位不同而造成数据相差悬殊的现象;标准化可以缩减这样的差距,减少突出数据的影响,在随后的矩阵运算中能更好地表现出变量间的关系。

2.2 期刊共被引原始矩阵数据是否需要标准化?

共被引分析的方法与步骤,是学术界以作者共被引为研究对象进行总结的。当前的一些做法是直接将前人对作者共被引分析的结论运用于期刊分析中,专门针对期刊这一独特的分析对象探讨是否要进行数据标准化的文献还不多见。

由于作者共被引和期刊共被引有着本质不同,因此将作者共被引分析的思路及方法全部照搬到期刊共被引上来,存在不合理的地方:∃期刊有相对稳定的发文量,并且发行周期相对固定,这与科研人员发表论著有明显的不同。%尽管每个刊物的影响力各不相同,但在同一学科下,多数刊物在本学科重要的研究方向上都有栏目,因此,刊物间都会存在共引、互引的情况;特别是将研究范围限定到某一学科的&核心∋期刊时,期刊间都存在完全的共被引;也就是说,Ahlgren 等人

[7]

提到的&零模块问题∋在期刊共被引分析中(((

特别是限定到同一学科下的期刊共被引研究(((是不存在的。而作者由于个人兴趣及精力所限,研究范围不可能像期刊刊载论文那样面面俱到,从而作者间没有互引、共被引也是正常现象。)对称的期刊共被引矩阵本身已是一种相似性的矩阵,可以直接用于多元分析;将原始的共被引矩阵数据进行标准化,会破坏数据隐含的完整信息,丢失部分重要的信息。

对于是否需要对原始的期刊共被引矩阵进行标准化的问题,笔者认为应该结合分析对象及分析周期具体考虑,可分为如下几种情况:∃对跨学科的期刊进行共被引分析时,期刊群必定包括两个及以上学科的核心期刊和学科交叉的期刊,由于学科的差异,这些期刊之间的共被引次数差别将会比较大,此时,有必要进行标准化,消除总被引次数带来的影响。%若分析对象为某一学科内的期刊,在没有出现&零模块∋的条件下,将数据进行标准化处理会造成期刊共被引数据隐含完整信息的破坏,丢失一些重要相似性信息。此时,不应该对原始数据进行标准化。)当共被引分析的对象是某一学科的核心期刊群时,这些核心期刊的共被引次数必然在该学科全部期刊平均共被引次数之上,不需要再对共被引原始数据进行标准化处理。

3 相似性测度方式的选择问题

3.1 相似性的直接测度方法:Pearson 相关系数和Sa lton 余弦函数

Pearson 相关系数即为统计学上的&相关系数∋,本

质上是测度两个变量之间的线性相关性,揭示变量间关系密切的程度,取值在[-1,1]之间。

Pearson 相关系数是共被引分析中应用最广泛的测度方式。国外学者中,W hite 和G riffith [8]

于1981年提出用Pearson 相关系数分析共被引关系。1990年M c Cai n 将作者共被引技术总结为如下步骤:选择作者、检索共被引频次、生成共被引矩阵、转化为Pearson 相关系数矩阵、多元分析和解释结果

[9]

。M c Cai n 总结

的这个经典模式,将原始矩阵转化P earson 相关系数矩阵,成为学术界的普遍做法。尽管学术界对此仍有较多争议,但仍有许多学者坚持P earson 相关系数作为共被引相似性测度的合理性,如W hite

[10]

和Bens m an

[11]

在回应A hlgren 、Rousseau 等提出不应用Pearson 相关系数进行相似测度的观点时,支持运用Pearson 相关系数测度方法,并就采用P earson 相关系数的渊源做出解释。W hite 通过对Pearson 相关系数等测度方式的实证比较研究,认为Pearson 相关系数测度方法更为合理。国内的研究对共被引分析中相似性测度问题的关注比较少,更多的文献是运用某种方式进行相似性测度的实证研究,其中最普遍的是运用P earson 相关系数。 Salton 余弦函数是将向量映射到第一象限下来考虑其夹角的大小,余弦值表征的是两个向量的夹角,取值范围在[0,1]之间。若余弦值等于1,则表明两个向量的夹角为0,即它们重合,完全相似;若余弦值为0,则表示两个向量夹角为90度,即完全不重合不相似。 Salton 余弦函数测度较常运用于非对称引文矩阵的分析。A hl gren 、Ja m ev i ng 和R ousseau 在他们共同发表的论文

[7]

提出共被引相似性测度的两个必要条件,

进而提出对P earson 相关系数的质疑,建议可用Salton 余弦函数代替。

3.2 相似性的间接测度方法:距离测度方式

140

相关文档
最新文档