图灵奖得主识别与预测研究--基于多文献计量指标和支持向量机

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

图灵奖得主识别与预测研究--基于多文献计量指标和支持向量

唐川;唐卷;房俊民;刘春江
【摘要】国内外学者开展了若干借助文献计量指标来识别和预测重要科技奖项得主的研究与实践,但已有研究大多局限于对少数几项文献计量指标进行简单的计量统计,对问题的揭示不够全面和深入。

利用支持向量机对图灵奖得主和非图灵奖得主的多项文献计量指标进行了分析,在两种不同情境下借助支持向量机对样本数据进行分类学习并进行识别与预测,发现利用文献计量指标建立的支持向量机模型对图灵奖得主具有很好的识别能力,但预测能力一般。

%Researchers have explored the use of bibliometric indicators to identify and predict the winners of some prominent science a-wards. Previous work mainly employed some preliminary bibliometrics and statistics, lacking coverage of bibliometric indicators and depth of analysis. In order to investigate the identifiability and predictability of Turing Award winners, 20 bibliometric indicators about 33 Turing Award winners and 300 non-Turing Award winners were analyzed. A classification and prediction analysis was conducted with the biblio-metric indicators and data by support vector machine( SVM) in two different scenarios. The result indicated that a classification model could be developed based on bibilometric indicators to identify the Turing Award winners with a high precision. However, the prediction precision appeared medium.
【期刊名称】《情报杂志》
【年(卷),期】2015(000)002
【总页数】5页(P69-72,78)
【关键词】图灵奖;文献计量指标;支持向量机
【作者】唐川;唐卷;房俊民;刘春江
【作者单位】中国科学院成都文献情报中心成都 610041;中国科学院成都计算机应用研究所成都 610041;中国科学院成都文献情报中心成都 610041;中国科学院成都文献情报中心成都 610041
【正文语种】中文
【中图分类】G350
1 研究背景
在文献计量学中,人们经常利用统计学方法分析相关文献的某些计量指标来描述或解释与文献相关的特征和规律,例如利用论文数量、引文以及基于两者所构建的指标来判断科学家的贡献和学术影响力[1],包括对重要科技奖项的得主进行识别和预测。

汤森路透公司的引文桂冠奖通过分析科研论文的引文数据来识别最具影响力的科学家,并以此对每年的诺贝尔奖得主进行预测[2]。

Garfield E 等人[3-4]比较了诺贝尔奖得主与非诺贝尔奖得主的文献计量指标,发现诺贝尔奖得主(或与诺贝尔奖得主同等级别的作者)的发文量约为其所在领域平均发文量的5倍,被引频次是平均水平的30-50倍,诺贝尔奖得主的H指数大多也较高,并据此认为可以通过被引频次等指标来区分诺贝尔奖得主与非诺贝尔奖得主。

与此相对的,Liu S V[5]针对“重要的科研文献应当具有很高的被引频次”的看
法进行了分析,指出包括诺贝尔奖在内的许多重要突破性工作在被引频次方面表现一般或较差。

而Gingras Y与 Wallace M L[6]对1901年至2007年间获得诺
贝尔化学奖和物理奖的科学家进行了文献计量分析,发现由于科学研究一直处于动态变化过程中、且规模在迅速扩大,使得只通过文献计量工具来从大量科学家中筛选出三位诺贝尔奖得主的做法变得几乎不可行。

在国内的相关研究中,刘永涛[7]通过对67位诺贝尔经济学奖获得者的发文和引文指标进行研究,认为发文量、被引频次及H指数不能全面表征诺贝尔经济学奖获得者的学术价值。

还有些研究分
析了利用文献计量指标开展科研评价的可行性[8-9],发现科研评价结果与某
些文献计量指标之间存在正相关性。

以上研究中可以发现两类不同见解与主张。

以汤森路透“引文桂冠奖”为代表的研究认为可以通过文献计量来实现对诺贝尔奖或重要科研工作的预测或评价。

而相对见解认为文献计量学方法很难实现对诺贝尔奖或其他重要科研工作的识别或预测,以及不能用单一指标对学者进行学术评价。

此外,已有的相关研究大多只分析了作者发文量、被引频次、H指数等少数几项文献计量指标,且主要采用数值对比、
相关性分析、频度分布等简单的计量和统计方法,对文献计量指标的考虑不够全面,对相关数据规律的揭示也不够深入。

针对以上问题,本文利用支持向量机(Support Vector Machine,SVM)对图灵奖得主和未获得图灵奖的普通学者的文献计量指标进行了分析,对是否能够基于文献计量指标来识别和预测图灵奖得主进行了探索。

2 对象与数据
本文选取了在1900-2013年间获得图灵奖的33位科学家作为A组对象,另外
在ACM Digital Library中随机选择了300位科学家作为B组对象,在ACM Digital Library中采集这些科学家的文献数据(包括总发文量,每篇文章的发表时间、作者数、被引频次等,保存为HTML文件)。

利用Pearl语言编程,按照文
献检索与计量工具Publish or Perish[10]要求的格式从保存的HTML文件中提取出每一位科学家的相关文献数据到csv文件中,包括Cites、Authors、Year等数据。

最后将得到的csv文件分别导入Publish or Perish,即可计算出每一位科
学家的20种文献计量指标的得分。

最终的分析数据中包含A组对象的2906篇论文和B组对象的19243篇论文。

因此,本文要分析的数据对象是包括A组对象(标签A代表图灵奖得主)和B组对象(标签B代表非图灵奖得主)在内的文献计量数据,特征维度为要考察的文
献计量指标的数量n=20,样本数据量为l=(l1,l2)=(33,300)。

3 基于SVM的图灵奖得主识别和预测分析
SVM是Cortes和Vapnik[11]于1995年提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。

SVM通常将样本数据分为训练样本集(带标签)和测试样本集(不带
标签),并通过带标签的训练样本集生成一个分类器模型,然后用这个模型来预测测试样本集的标签。

在线性不可分的情况下,SVM通过某种事先选择的非线性映
射(核函数)将输入变量映射到一个高维特征空间,并得到一个分类函数。

这里的关键在于核函数,在SVM理论中,采用不同的核函数将导致不同的SVM算法,
而目前大部分研究都根据经验来选择核函数[12]。

根据样本数据的特点,本文
决定采用线性核[13]和高斯核[14]分别对SVM进行训练,并在R语言平台
上实现SVM方法。

此外,在使用核函数时需要对相关参数进行优化选择,对于线性核需要选择其惩罚因子C,对于高斯核需要选择其惩罚因子C与核参数γ。

常用的选择方法有实验法、网格法、梯度下降法、智能优化算法等,但是目前还没有很好的理论指导参数的优化选择[15]。

根据线性核、高斯核与样本数据的特点,本文决定采用实验法来
确定相关参数,即用不同参数进行试验,通过比较实验结果选取最好的参数。

针对研究目标,本文分别从两种情景考察了SVM对图灵奖得主的识别能力和预测能力。

3.1 识别情景:训练样本和测试样本相同考虑训练样本和测试样本同为整个样本(A组对象和B组对象的集合)的情景,分别用线性核与高斯核对SVM进行分类训练,再利用SVM对测试样本进行识别。

在这里,某个对象属于A组还是属于B 组在训练样本中是已知的,在测试样本中是未知的。

即首先“告诉”SVM在333个对象中,哪些属于A组、哪些属于B组,再训练SVM学习A组对象和B组对象各自具有哪些文献计量学特征,并建立起分类函数,然后不“告诉”SVM这相同的333个对象的分组情况,利用建立的分类函数对这些对象进行A组、B组分类预测,从而验证其识别的准确性。

a.基于线性核的识别。

通过变动惩罚因子C来衡量误差项和离差项,实验结果如图1所示:
图1 线性核参数调节(识别情景)
变化如图2所示:
图2 SVM性能变化(识别情景)
选择适中的惩罚因子C=4,并训练SVM来拟合所有样本,结果如表1所示:
表1 线性核拟合结果(识别情景)y Predict A B A 25(True) 2(False)B 8(False) 298(True)
从拟合结果可以看出,对于A组测试对象,线性核的识别准确度为25/
33≈0.758,对于B组测试对象,线性核的识别准确度为298/300≈0.993。

b.基于高斯核的识别。

通过C和变动惩罚因子γ来衡量误差项和离差项,实验结果如图3所示:
图3 高斯核参数调用(识别情景)
选择适中的惩罚因子γ=2和C=6,并训练SVM来拟合所有样本,实验结果如表
2所示:
表2 高斯核拟合结果(识别情景)y Predict A B A 33(True) 0(False)B 0(False) 300(True)
从拟合结果可以看出,对于A组对象和B组对象,高斯核的识别准确度都为1(100%准确)。

可见,在训练样本和测试样本实质上是同一组对象的情景下,线性核与高斯核对A 组对象和B组对象的识别准确度都较高,其中高斯核的识别准确度高达100%。

这说明SVM能够很好地识别图灵奖得主和非图灵奖得主。

3.2 预测情景:训练样本和测试样本不同考虑训练样本和测试样本不为同一组对象的情景。

随机从A组中选择17个对象、从B组中选择150个对象作为训练样
本Trainl=(17,150),A组和B组中其余对象为测试样本Testl=(16,150)。

分别用线性核与高斯核对SVM进行分类训练,然后对测试样本进行预测。

即首先“告诉”SVM在训练样本中的167个对象中,哪些属于A组、哪些属于B 组,再训练SVM学习这些A组对象和B组对象各自具有哪些文献计量学特征,
并建立起分类函数,然后从没有学习过的、分组情况不明的166个对象中预测图
灵奖得主,从而以验证其预测的准确性。

a.基于线性核的预测。

通过变动惩罚因子C,来衡量误差项和离差项,实验结果
如图4所示:
图4 SVM性能变化(预测情景)
选择适中的惩罚因子C=1.25,训练SVM并对训练样本进行拟合,结果如表3:表3 线性核对训练样本的拟合结果(预测情景)y Predict A B A 14(True) 2(False)B 3(False) 148(True)
对A组训练样本的预测准确度为14/17≈0.826,对B组训练样本的预测准确
度为148/150≈0.987。

再对测试样本进行预测,结果如表4所示:
表4 线性核对测试样本的拟合结果(预测情景)y Predict A B A 9(True) 5(False)B 7(False) 145(True)
对A组测试样本的预测准确度为9/16≈0.563,对B组测试样本的预测准确度为145/150≈0.967。

b.基于高斯核的预测
通过γ和变动惩罚因子C,来衡量误差项和离差项,实验结果如图5所示:
图5 高斯核参数调节(预测情景)
选择适中的惩罚因子γ=1.5和C=4,并训练SVM来拟合训练样本,结果如表5所示:
表5 高斯核对训练样本的拟合结果(预测情景)y Predict A B A 17(True) 0(False)B 0(False) 150(True)
对A组训练样本和B组训练样本的预测准确度都为1。

再对测试样本进行预测,结果如表6所示:
表6 高斯核对测试样本的拟合结果(预测情景)y Predict A B A 0(True) 0(False)B 16(False) 150(True)
对A组测试样本的预测准确度为0/16=0,对B组测试样本的预测准确度为150/150=1。

可见,在训练样本和测试样本是不同对象的情景下,线性核能够较好地预测图灵奖得主(预测准确度为0.563),而高斯核则无法对图灵奖得主进行预测。

4 结论与讨论
本文以33位图灵奖得主和300位非图灵奖得主为对象,以20项文献计量指标为特征,借助支持向量机在两种不同情景下对样本进行识别和预测。

结果显示:a.基于线性核的SVM的识别准确度为0.993,基于高斯核的识别准确度为1;
b.基于线性核的SVM的预测度确率为0.563,基于高斯核的预测准确度为0。

分析结果表明,基于文献计量指标和SVM的方法对图灵奖得主具有很好的识别能力,但其预测能力一般,有待提高。

由于SVM的预测准确度受特征维度、样本数量等因素的影响,而本文为了考察更加全面的文献计量指标,考虑的特征维度(20)较高,一定程度上影响了预测准确度,未来可考虑通过降低特征维度、增
加样本数量,以及结合其他分析方法来提高预测准确度。

参考文献
【相关文献】
[1]王雪梅,唐裕华,张志强,等.基于文献计量学的优秀华人科学家国际影响力分析[J].情报杂志,2010,29(12):5-9.
[2]David P.The Art &Science of Identifying Future Nobel Laureates.[2009].http://ip-science.thomsonreuters.com/m/pdfs/Identifying_Nobel_Laureates.pdf.[3]Garfield E,Welljams-Dorof A.of Nobel Class:A Citation Perspective on High Impact Research Authors[J].Theoretical Medicine,1992,13(2):117-135.
[4]Garfield E,Chairman E.Identifying Nobel Class Scientists and The Uncertainties Thereof.[2006].http://www.garfield.library.upenn.edu/papers/
lund2006.pdf.
[5]Liu S V.Nobel Prize-Winning Original Publications'Under Performance In Making Citation Glory[J].Logical Biology,2005,5(4):297-305.
[6]Gingras Y,Wallace M L.Why It Has Become More Difficult to Predict Nobel Prize Winners:A Bibliometric Analysis of Nominees and Winners of The Chemistry and Physics Prizes(1901-2007)[J].Scientometrics,2010,82(2):401-412.
[7]刘永涛.诺贝尔经济学奖获得者文献计量特征研究[D].杭州:浙江大学,2011.
[8]Kozak M,Bornmann L.A New Family of Cumulative Indexes for Measuring Scientific Performance[J].Plos One,2012,7(10):E47679.
[9]吴国政.文献计量指标在国家杰出青年科学基金评审中的应用研究[J].电子科技大学学报:社会科学版,2009,11(6):99-104.
[10]Harzing A W.The Publish or Perish Book:A Guide to The Software[M].Tarma Software Research,2011.
[11]Cortes C,Vapnik V.Support-Vector Networks[J].Machine Learning,1995,20(3):273-297.
[12]冯新刚.支持向量机核函数选择方法探讨[D].赣州:江西理工大学,2012.
[13]郭建林,戴国强.表情识别中支持向量机核函数选取研究[J].电脑知识与技术,2009,5(20):5495-5497.
[14]郑小霞,钱锋.高斯核支持向量机分类和模型参数选择研究[J].计算机工程与应用,2006,42(1):77-79.
[15]宋永东.支持向量机参数选择的研究[D].武汉:华中师范大学,2013.。

相关文档
最新文档