关于引文检索策略的若干意见
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
关于引文检索策略的若干意见1
康延兴
西安电子科技大学图书馆(710071)
yxkang@
摘要引文检索是一种比较复杂的信息检索,在具体的引文检索中,如何制定优良的检索策略将是一个关系到能否获得满意检索结果的核心问题。
本文就引文检索的实际工作中所触及到的一些常见的典型问题提出了若干探讨性的意见。
参考文献9。
关键词引文检索;检索策略;引文数据库;信息检索
1. 引言
引文检索的独特功能和重要的学术价值如今已得到学术界和社会的广泛认同。
在进行具体的引文检索中,如何制定优良的检索策略将是一个关系到能否获得满意检索结果的核心问题。
本文试就有关引文检索策略的一些重要问题提出若干探讨性的意见。
2. 明确引文检索的要求和目的
充分分析和明确实施引文检索的要求和目的,是制定一个优良的引文检索策略的前提和基础。
一般来说,在进行引文检索之前,至少需要了解和明确以下信息:(1)待检课题内容的详细信息。
如待检课题内容所属的学科范围、主题领域、语种,以及待检引文的著者、题名、出处和发表时间等信息。
(2)检索的目的。
引文检索的目的主要有两种,一是为了查询具有引文关系的文献信息线索,二是为了进行论文评价和学术评价。
目前我国有关人员进行引文检索多数出于评价的目的。
(3)检索的范围要求和其它要求。
如检索的时间范围、地域范围(国际和国内)、查全、查准和查新要求、权威性要求和检索结果的输出格式等。
3. 选择引文数据库
3.1 常用的引文数据库
目前,我国用户经常使用到的专业引文数据库主要有以下几种:
(1)美国ISI(Institute for Scientific Information)的3种引文数据库。
这3种数据库分别是SCI(Science Citation Index)、SSCI(Social Sciences Citation Index)
1 本文最初于2003年7月份起草,在2004年8月23日-30日重新整理并最后定稿。
- 1 -
和A&HCI(Arts & Humanities Citation Index),它们的网络版集成检索系统称为Web of Science(简称WOS)。
WOS目前共收录了约8700种来源期刊,所有这些期刊都是世界上最有声望和最有影响的研究性期刊。
WOS中3种数据库的数据累积年限分别始于:SCI 至1945年,SSCI至1956年, A&HCI至1975年[1]。
(2)《中国科学引文数据库》(Chinese Science Citation Database,简称CSCD)。
由中国科学院文献情报中心研制,目前共收录我国科技工程领域的中英文核心期刊和优秀期刊1048种,数据累积年限始于1989年[2]。
(3)《中国人文社会科学引文数据库》(Chinese Humanities and Social Science Citation Database,简称CHSSCD)。
由中国社会科学院文献信息中心研制,目前收录我国人文社会科学领域的重要学术期刊860种,数据累积年限始于1999年[3]。
(4)《中国科技论文与引文数据库》(CSTPCD)。
由中国科技信息研究所研制,截至2002年收录国内科技类核心期刊1534种,数据累积年限始于1988年[4]。
(5)《中文社会科学引文索引》(Chinese Social Science Citation Index,简称CSSCI)。
由南京大学中国社会科学研究评价中心研制,目前收录我国人文社会科学领域核心期刊约400余种,数据累积年限始于1998年[5]。
(6)《中文科技期刊数据库(引文版)》(简称维普引文库)。
由重庆维普资讯有限公司研制,收录1990年以来我国公开出版的科技类期刊5000余种,其中包括《中文核心期刊要目总览》①中的核心期刊1500余种[6]。
3.2 引文数据库选择的基本原则
对上述多种引文数据库,在检索之初,就应根据具体情况作出适当的选择。
通常,可以依据以下原则进行选择:
(1)如果需要在国际范围内进行引文检索,则ISI的3个引文数据库是不可替代的唯一选择。
但是,由于ISI引文数据库收录中国期刊寥寥,经常并不能比较全面地反映中文论文的引文情况,不能满足对大量中文著作的引文检索需要,也不能满足全面分析评价中国内部学术研究活动的需要。
因此,如果需要检索中文论著之间的互相引用情况,则选择合适的中文引文数据库,就经常是非常必要的。
(2)应主要依据待检课题内容的学科范围和主题领域来选择相应的引文数据库。
如果待检课题内容属于科技工程领域的,则应优先选择SCI、CSCD、CSTPCD和维普引文库等;如果待检课题内容属于人文社会科学领域的,则应优先选择SSCI、A&HCI、CHSSCD和CSSCI等。
不过,引文检索的一个很重要的优势就在于揭示学科之间的交叉和关联,况且目前许多数据库系统已经实现了多库多学科联检,所以,只要多选的引文数据库不会带来太多额外的工作量和费用负担时,则也可考虑跨学科跨领域选择引文数据库。
(3)对检索结果的权威性要求也是选择引文数据库的重要考虑因素。
ISI的3个引文数
①《中文核心期刊要目总览》是由北京大学图书馆和北京高校图书馆期刊工作研究会共同主持研制、由北
京大学出版社出版的参考工具书,迄今为止,已先后于1992年、1996年、2000年和2004年出版过4版。
这里指的应是第3版的数据。
- 2 -
据库的权威性是国际公认的,因此不必多说。
而在国内诸引文数据库中,如CSCD被列为推选中科院院士、申请国家自然科学基金项目资助及其后期绩效评估等工作的指定查询库[2],CSSCI被教育部有关文件明确列为高校哲学社会科学评价的指定查询库[7][8],都在各自的学科领域中具有首屈一指的权威性,因此,在追求检索的权威性和核心性时,特别是用于论文评价和学术评价时,二者应是优先考虑选择的查询库。
(4)有的引文数据库提供一些特殊的功能,可以根据特殊的检索目的予以选择。
如CSCD 提供“被引实验室”字段项目,可以检索CSCD收录的某一国家重点实验室或开放实验室的文章被CSCD收录的其它文章引用的情况。
再如CSTPCD长于统计分析,可以通过被引作者、被引刊名、被引作者单位、被引学科分类、被引机构类型、被引作者地区、被引基金类型、被引年份等检索入口及其组配,进行各种引文分析研究。
此外,检索的时间范围、检索课题对查全、查准和查新的指标要求、用户负担检索费用的能力、以及引文数据库的数据结构、数据加工的规范程度、数据累积年限、数据完整性、检索性能、检索结果的输出格式等也是影响引文数据库选择的重要因素。
在实际检索工作中,检索者应根据多种具体情况来综合确定选用何种引文数据库。
3.3 检索手段和检索系统的选择
许多数据库往往通过多种检索手段(联机检索、光盘检索和网络检索)和检索系统提供服务。
上述多种引文数据库中,ISI的3种引文数据库、CSCD、CSTPCD和CSSCI目前都可以通过光盘检索和网络检索的手段提供服务,而ISI的3种引文数据库还通过联机检索的手段提供服务,并且可以通过DIALOG、DIMDI、STN或DataStar等多种联机检索系统提供服务。
因此,严格说来,检索者应在选定引文数据库的同时,确定选择何种检索手段和何种检索系统,但在实际工作中,这些都是由检索者根据自己的资源配置情况和检索的实际需要来具体确定的。
4. 确定检索途径和检索词
4.1 确定检索途径
检索途径应依据各引文数据库提供的检索字段和检索的实际需要来综合确定。
通常,在确定检索途径时应主要注意以下诸事项:
(1)被引著者途径。
被引著者是引文检索中最重要的检索入口,有相当多的人希望了解自己或其它特定著者的论著被引用情况,这就需要通过被引著者途径来检索。
对于被引著者途径的使用来说,最需要注意的是,被引第一著者在诸引文数据库中均是可检的,但是对被引文献的非第一著者,诸引文数据库的可检性却不尽相同,例如,在ISI引文数据库和CSCD中,被引文献的非第一著者原则上都是不可检的②。
因此,在使用被引著者途径
②在ISI引文数据库中,当被引文献同时属于数据库的来源文献时,则第二著者和其它著者也是可检的;
另据实际测试,在CSCD的网络版(可以通过中国科学院国家科学数字图书馆的中国科学文献数据库服务系统ScienceChina来访问)中,仅在极少数情况下,被引文献的非第一著者是可检的。
- 3 -
检索时,为确保检索的全面性和准确性,检索者务必要用被引第一著者来实施检索。
(2)被引题名(刊名、篇名)途径。
在ISI引文数据库、CSCD和CHSSCD中,为此项检索仅设置了一个Cited Work(被引著作)或被引书(期)刊字段,在该字段下可以检索刊名或书名,但不能检索期刊论文的题名。
然而在CSTPCD、CSSCI和维普引文库中,却同时设置了被引题名(篇名)和被引书刊(期刊)两个字段,这对于期刊论文来说当然不存在问题,但是对于图书等独立性被引文献来说,其书名项究竟应置于被引题名(篇名)字段下还是被引书刊(期刊)字段下?从实际测试结果来看是相当不规范的,两种情况均有,因此,检索时应对这种情况保持足够的关注。
(3)被引机构(被引实验室、被引作者单位)途径。
国内有些引文数据库设置了颇具本土化色彩的“被引机构”或者类似字段,如CSCD设有“被引机构”和“被引实验室”,CHSSCD设置有“被引机构”字段,CSTPCD设有“被引作者单位”字段,其作用是检索某一机构(实验室)发表著作的被引用情况,它既可以单独使用,也可以和其它字段组配检索,起到限制作用。
对“被引机构”字段的使用,一定要注意到:被引机构的检索是基于引文数据库来源文献的被引用实现的,即被引机构检索的结果仅仅是检索库中收录某一机构的论文被同一库中收录的其它论文引用的情况,更明确地说,使用被引机构检索到的被引文献同时也是检索库的来源文献,而使用被引著者的检索结果则并不限于此,所检索到的被引文献可以不是检索库的来源期刊。
因此,对于某一被引著者,用被引机构作限制后的检索结果通常要少于不作限制的检索结果。
(4)被引年份途径。
被引年份指的是被引文献的出版年份,在有的引文数据库中可以提供此种检索途径,例如ISI引文数据库设有“CITED YEAR”字段,CSTPCD中设有“被引年份”字段,CSSCI中设有“被引文献年代”字段,而CSCD中“条件限定”功能可以限定参考文献的发表年代。
“被引年份”字段通常主要用于对其它检索字段的限制,例如,在ISI 引文数据库中,有许多事实上并非是同一著者,但其姓名缩写形式却完全相同,因此仅用被引著者途径检索出的引文条数可能会特别多;此时,即可通过被引年份来限制检索,减少每次检索的输出量,以便于对被引文献进行快速准确地核对。
此外,有的引文数据库还设有一些特色化的字段,提供特色化的检索功能和途径,专业检索人员应对其进行深入的了解和反复的测试,从而为制定优良的检索策略积累丰富的经验和必要的基本知识。
4.2 确定检索词
如果检索词属于主题性的概念时,仅需按照常规检索的选词原则(如全面性、专指性和一致性等)即可,此处不予多论。
这里需要特别强调的一点是,检索词的选定务必要符合待检数据库的检索用词规则。
例如,应注意了解ISI引文数据库中被引著者和被引刊名的缩写规则,特别是要注意中国著者姓名如果是两个字(两个音节)时,其标引方法不仅有顺序形式(姓前名后),有时也会有逆序(名前姓后)形式。
另外,在国内诸引文数据库中,有的被引文献属于中国著者发表的英文著作,因而其相应的被引著者姓名的标引方法可能会有全写和缩写、顺序和逆序等多种形式。
对此类问题,检索者一方面应注意了解和熟悉数据库的检索用词规则,同时在必要时还可以查看数据库的内置索引或词表,以确保
- 4 -
检索词输入的正确与规范。
5. 制定检索提问式并执行检索
在包括引文检索在内的各类信息检索中,检索提问式的制定与输入都是整个检索策略中最关键和最核心的环节,在很大程度上决定着整个检索策略的优劣和检索结果的成败,因此在实际的检索工作中一定要引起检索者的高度重视。
不过,在引文检索中检索提问式的制定与输入的基本原则和常规的信息检索大体一致,即主要应注意深入了解并严格遵守检索数据库或检索系统的各种检索运算规则,因此本文中对此不再作过多说明。
这里主要强调指出,本文中所提到的各种引文数据库均不同程度地支持布尔逻辑组配检索、截词检索(模糊检索)和字段检索(限制检索)等检索功能,但是在具体表示方法和表示形式上有所不同,有的甚至差异很大,因此,在不同的引文数据库中输入检索提问式时务必要区别对待。
在将制定好的检索提问式按照一定的规则输入到引文数据库的检索输入区后,下一步的工作就是执行检索。
在引文检索的执行过程中,有一个非常关键的事项与常规的信息检索截然不同,必须引起检索者的特别关注,这就是在多数的专业引文数据库中,例如在ISI 引文数据库和CSCD等数据库中,检索结果是分两步给出的,第一步是提供一个引文列表(List of Cited References),在这个引文列表中通常至少提供被引文献的著者、所在出版物的名称、卷号、起始页和出版年份等信息,供检索者核对和选择;在此基础上进行第二步检索,方才给出最终的检索结果。
然而,由于被引文献在被他人引用时,可能会出现各种标引上的错误,因此,检索者应在第一步检索所提供的引文列表(List of Cited References)中将全部符合检索条件的正确标引和错误标引一一找出并选中,如此方可确保检索结果的完整性。
6. 检索结果的分析与处理
对引文数据库给出的检索结果,通常还需要进行必要的分析与处理。
在做这项工作时,主要应注意以下几个方面:
(1)检索结果输出格式的选择与编辑。
一般来说,不同引文数据库检索结果的输出格式并不相同,且同一引文数据库的检索结果也通常可以提供多种不同的输出格式,这些不同的输出格式有的比较规范清楚、数据充分,有的则不能令人满意。
因此,检索者应该根据不同的情况选择需要的输出格式,必要时还需要对检索结果作适当的编辑。
基本上,检索结果输出格式的选择与编辑可以遵循以下原则:
——在形式上,应尽量选择字段标引格式,达到数据准确规范;
——提交给用户的最终检索结果务必要兼有被引文献条目和来源文献条目,被引文献条目一般只要包含题录信息即可,而来源文献条目则最好选择全记录格式,以保证数据的完整性和准确性;
——如果所选的原始输出结果本身已经具有被引文献条目和来源文献条目,则一般无须对其格式进行编辑,以保持其原始输出的风格和形式;
- 5 -
——在可能时,并在不影响输出记录的原始性和真实性的前提下,提交给用户的最终检索结果应尽量首先按被引文献条目分列,然后将每条被引文献所对应的来源文献记录集中列于其下,如此则便于分析每篇被引文献的被引用情况,此时可以对来源文献记录之间的排列次序进行适当调整,但对每条记录本身则不应作编辑。
——为醒目计,可以对来源文献记录中参考文献(被引文献)字段下的被查引文条目作某种标记,如加上阴影、加粗、变为斜体等。
(2)对被引文献标引错误的处理。
在引文数据库中,往往有多种原因可能会导致个别被引文献信息的标引错误,但是,为了保持数据库输出结果的原始性和真实性,一般对此不予修改或者编辑,但在确有依据并确有必要的情况下,可以加上旁注或说明。
(3)对自引和他引的区分。
自引和他引属于两种不同的引用方式,它们具有显然不同的作用、价值和意义,因此,在许多情况下检索者被要求对引文检索的结果作自引和他引的区分。
自引通常指著者引用自己先前发表的著作或与他人合著的著作[9](P159)。
反过来说,只要一部著作被其著者或合著者之一的其它著作引用,或者更明确地说,只要被引文献与引证文献的著者中有任何一位是相同的,就是引证者引用自己的著作,就均属于自引。
除自引以外的引用则属于他引。
因此,在判定自引与他引时,必须将被引文献与来源文献的全部著者一一核对,才能作出区分,但是在有的引文数据库(如ISI引文数据库和CSTPCD)中,输出结果中被引文献仅显示第一著者,而不显示其它合著者,因此,仅仅依据引文数据库输出的检索结果将无法判定是否属于自引,而必须依据被引文献完整的著者信息才能判定。
7. 结束语
总的说来,引文检索要比常规的信息检索复杂许多,这种复杂性不仅来源于引文关系本身的复杂性,不仅来源于用户对引文检索的要求的复杂性,而且也来源于引用者、期刊编辑者和引文数据库制作者等方面在对被引文献数据信息进行编辑和处理时所采用的方式、规范以及可能出现的差错的复杂性。
这种复杂性使得引文检索需要花费检索者大量的和精细的分析、筹划、测试、核对、判断、选择、整理和编辑工作,在其中渗透着检索者的知识、智慧和经验。
本文仅就引文检索的实际工作中所触及到的一些常见的典型问题提出来,以供有关人员商榷和研究。
参考文献
[1] Web of Science. /products/citation/wos/ (访问时间:2004-8-27)
[2] 中国科学引文数据库介绍./cscd.jsp (访问时间:2004-8-27)
[3] 产品介绍:中国人文社会科学引文数据库(CHSSCD2002版)已出CD版. http://211.151.91.91/oldcnki/wx
pj/index5.php?id=13 (访问时间:2004-8-27)
[4] 2002年度中国科技论文统计结果.http://168.160.12.22/j2ee/htdocs/hutry/project/download_file/news.pdf
(访问时间:2004-8-27)
[5](中文社会科学引文索引)收录期刊./cssci_qk.htm (访问时间:2004-8-27)
- 6 -
[6] 中文科技期刊数据库(引文版). /productor/yinwen.asp (访问时间:2004-8-27)
[7] 教育部.教育部关于进一步发展繁荣高校哲学社会科学的若干意见: 教社政[2003]1号, 2003-02-10
[8] 教育部.教育部高校哲学社会科学名刊工程实施方案: 教社政[2003]12号, 2003-11-6
[9] 严怡民.情报学概论.武汉:武汉大学出版社,1983
Certain Suggestions Concerning Citation Retrieval Strategy
Kang Yanxing
Xidian University Library (710071)
ABSTRACT Citation retrieval is a type of more complicated information retrieval. In a given citation retrieval, how to make a good retrieval strategy is a core issue resulting whether the satisfying retrieval consequence can be accessed. Based on the reason, certain suggestions are presented and discussed concerning some common and typical problems existing in actual citation retrievals. 9 Refs. KEYWORDS citation retrieval; retrieval strategy; citation database; information retrieval
作者简介:康延兴,男,1970年出生,发表论文20余篇。
主要关注领域有图书馆学情报学基本理论、信息检索与信息服务、数字图书馆等,偶尔也涉及哲社文史领域的一些问题。
- 7 -。