常用中文文献数据库收录资源对比分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

常用中文文献数据库收录资源对比分析

对常用中文数据库中国知网(CNKI)、维普资讯(VIP)和万方数据知识服务平台数据库(WANGFANGDATA)和国家科技图书文献中心(NSTL)的收录资源进行比较。方法分别从上述数据库的官方网站获取其收录期刊目录,并与统计源期刊(2010版)、核心期刊(2008版)和高被引期刊(2010版)收录资源做对比分析。结果CNKI、VIP、W ANFANG 和NSTL收录中文期刊分别为8 058、15 030、6 537、9 226种。统计源期刊(2010版)、核心期刊(2008版)和高被引期刊(2010版)所涵盖期刊分别为1 723种、1 983种和5 212种,常用数据库对重要核心期刊的收录超过80%。结论数据库十分重视对重要核心期刊的收录,收录资源既有重复,也存有差异,各有特色。

目前,常用中文文献资源最具代表性和受欢迎的有中国知网(CNKI)、维普资讯(VIP)、万方数据知识服务平台(WANGFANG)和国家科技图书文献中心(国家科技数字图书馆,NSTL)等几大数据库。由于每个数据库厂商都在都在一味地追求大而全,过分强调收录文献的数量,导致中国的数字出版面临着一个严重的问题就是收录的期刊重复率较高,即同一篇文章,同一种期刊,可以在中国知网、重庆维普和万方数据同时被找到[1]。同时又由于各数据库所采用的分类体系不同,存在将同一种期刊放入不同学科的情况,造成数据库资源标准不一和重复浪费。

虽然中文数据库收录资源重复化的弊端已在文章[2]中详细分析过,但是他们仍然拥有极高的市场占有率[1]。尽管已有文章[1~3]对常用中文数据库做了对比分析研究,但是分析还仅限于在收录范围、文献抽样比较、检索功能与界面、用户服务、更新延迟等方面。现从量化的视角,清晰刻画各数据的收录特征,对提高信息检索质量,以及选择购买和使用都有直接的借鉴和现实的指导意义。

1 材料与方法

从各数据库官方网站收集整理收录的期刊目录资源(数据采集时间为2010-09),整理统计源期刊(2010版)、核心期刊(2008版)和高被引期刊(2010版)所涵盖期刊目录。首先做数据预处理,清理不规则数据并统一格式规范,然后将规范的数据导入到SQL SERVER的自建数据库中,利用数据库SQL(Structured Query Language)结构化查询语言,对各数据库的收录期刊和统计源期刊(2010版)、核心期刊(2008版)和高被引期刊(2010版)收录资源两两比较,做统计分析,描绘出数据库的收录特征并得出结论。

2 结果

2.1中文数据库收录类别对比中文数据库的收录资源范围和类别不同,决定了各数据库收录内容差异,见表1。

各数据库收录中文期刊、统计源、核心、高被引期刊数量汇总对比情况见(表6)。CNKI 数据库收录统计源和高被引期刊数量超过统计源和高被引期刊目录自身实际收录数量的原因主要是同一期刊被CNKI数据库不同专辑收录情况存在,即存在交差学科期刊被分为两个乃至多个专辑中。

3 讨论

如表1所述,各数据库都收录了全文期刊和外文期刊,可见它们对于搜集国内外科技文献的重视。在收录类别中,VIP的收录类别相对较少,但其收录的期刊数量却最多(表6)。其余几个库的收录类别相差无几,除中外文期刊外,还涵盖了学位论文、会议论文、标准法规、专利文献、方志年鉴等与科技文献紧密相关的内容。

统计源期刊(2010版)、核心期刊(2008版)和高被引期刊(2010版)所涵盖期刊分别为1 723种、1 983种和5 212种。由表2至表6信息分析可以得出,CNKI、VIP、W ANGFANGDATA和

NSTL数据库虽然对收录期刊专辑划分标准不同,收录期刊数量也相差许多,但基本覆盖了科学技术和社会科学的各个领域。各数据库的同一学科专辑所收录的统计源期刊与核心期刊数量几乎相当。总体来看,都对社会科学、经济管理、哲学政法类核心期刊普遍收录较少,而对医药卫生、工业技术和基础研究方面的期刊收录相对丰富。

VIP数据库的收录量占有绝对优势,达15 030种期刊,收录了大量内部发行期刊,几乎覆盖了现出版的所有中文期刊,收录的自然科学和工程技术方面的期刊量比CNKI多出近50%,收录期刊总数比CNKI或WANGFANGDATA多出一倍多。因此,VIP适合用户进行科技文献的回溯性检索。而W ANGFANGDATA的收录期刊数量为3者中最少,但核心期刊比率很高[4]。CNKI则重点收录了国内公开出版的核心期刊与具有专业特色的中西文期刊,收录统计源、核心和高被引期刊达到98%以上,收录高质量期刊方面做得最好,质量最高。之所以CNKI收录的统计源和高被引期刊数量之和超过统计源和高被引期刊自身的收录数量,主要原因是存在同一期刊被多个专辑重复收录情况。

NSTL是我国工程技术领域科技文献信息资源收藏、开发和服务的核心机构,系统收藏工程技术、高技术各个学科领域的科技文献,覆盖国内出版的所有科技期刊和覆盖所有国外工程技术类核心期刊。NSTL累计收藏各类科技文献500余万册,是国内会议论文、学位论文、科技报告收集规模最大、最完整的机构;是收藏美国政府科技报告年代最早的机构;收藏两院院士学术专著特色文献资源3 300余部。同时NSTL以国家授权方式购买的国外网络版电子期刊(包括现刊和回溯期刊)、综合文献和事实型数据库等采取IP地址认证方式为我国大陆有需求的学术型、非商业机构用户提供免费在线使用。

尽管各数据库努力宣传自身优势,但是通过所收录期刊目录的详细比对,很容易得出这样的结论:①各数据库对高质量的核心期刊的收录几乎相当,没有显著差异,他们对统计源、核心和高被引期刊目录所收录的期刊均作了较全面的收录。②CNKI收录的高被引期刊最多,其次是W ANFANGDATA,这也说明了CNKI和WANFANG十分注重所收录期刊的质量,而VIP的收录覆盖范围广。③因为统计源与核心期刊对选刊标准不同,显示数据库的同一专辑中,统计源与核心期刊的收录数量相差悬殊,而对高被引期刊的专辑收录数量和总量都几乎相当。譬如,在医药卫生专辑的收录中,CNKI、VIP和W ANFANGDATA收录的高被引期刊数量分别为888、850和865种。所以用高被引指数期刊[5]这一指标来比较各数据库的收录质量更趋合理和客观。综合表6数据来看,CNKI做的较好。④对于从事工程技术领域的广大科技工作者和创新主体而言,要充分利用NSTL的文献信息资源。

根据上述分析,对于科技创新主体、终端用户和科研工作者而言。科技查新活动担负着科技管理工作的支撑引领作用,对于数据库的选择和查全、查准率对于科技查新、查引都有着决定性的影响,对用户合理选择上述数据库有重要参考价值。

各数据库要走特色创新之路,办出各自产品的鲜明特色。要注重收录期刊的数量和质量。剔除非法期刊,做到回溯期刊收录文献的全覆盖。注意查缺补漏补齐收录文献。开发独具特色的信息处理方案和信息增值产品,大规模集成整合知识信息资源,为用户提供从数据、信息到知识的全面解决方案。在数据更新上做文章,保证信息的及时更新,确保数据的权威和有效。

对于目前而言,跨库检索检索平台的建立非常必要。文献库并不能仅是单纯的数字化复制活动,更重要的是要以全新的方式向用户提供信息资源,是极具创造性的再生产过程。各文献库主办单位应更注重提供知识的深层次挖掘,避免是大而全的一个复制品。

该文虽没有涉及到具体被收录的某一种期刊,毋庸置疑,各数据库存在对同一期刊收录文献年限和数量的差异,并且网络出版文献量会小于等于原纸质出版期刊文献载文量,出现未收录刊期情况也非常普遍,原因主要有:①作者未授权/保密。②获得的网络出版授权问题。

③时间久远,找不到原刊。这些都需要用户在选择、购买或使用数据库时注意比较。综上所

相关文档
最新文档