国内重要的全文检索系统功能比较
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
国内重要的全文检索系统功能比较摘要:随着信息技术的快速发展,尤其是近年来internet的日益普及和网上信息的激增,大大扩展了人们可利用的信息空间。
与此同时,信息检索系统无论从技术上还是服务方式上也都向网络化、可视化、便捷化等方向发展,信息检索的功能也更加丰富。
中国知识基础设施工程(cnki)和万方数据资源系统是目前国内主要的两大全文检索系统,通过深入的分析和比较这两大信息检索系统,对于研究全文检索系统的应用和发展具有一定的参考。
关键词:全文检索系统;功能比较
中图分类号:g633 文献标识码:a 文章编号:1003-2851(2012)-12-0189-01
一、cnki数据资源系统的概述
cnki是中国知识基础设施(china national knowledge infrastructure)工程,由清华大学中国学术期刊(光盘版)电子杂志社,光盘国家工程研究中心和清华同方光盘股份有限公司联合建立,从1999年3月正式开始实施。
该系统为国内的各级政府职能部门、高等院校、科研院所、学术机构等出版的重要会议论文集,内容覆盖理工、农业、医药卫生、文史哲、经济政治法律、教育与社会科学综合等各方面。
ki全文数据库的种类
目前,中国的网络版数据库每日更新。
其主要的数据库包括以下几种:
(1)中国期刊全文数据库。
(2)中国优秀博硕士论文全文数据库。
(3)中国重要报纸全文数据库。
(4)中国重要会议论文全文数据库。
(5)中国科学文献计量评价数据库。
ki全文检索系统的收录状况
cnki数字图书馆具有翔实的文献资源基础。
它囊括的资源总量达到全国同类资源总量的80%以上。
在此基础上,cnki组织各学科专家对文献中的知识进行提炼,并通过知识元链接、引文链接等技术,将文献间的知识关联起来,使收录的知识资源形成了具有内在联系的知识网络整体。
ki全文检索系统的范围
经过多年的努力,cnki数字图书馆已经建成了世界上全文传息量规模最大的“cnki数字图书馆”,内容涵盖我国自然科学、工程技术、人文与社会科学期刊、博硕士论文报纸、图书、会议论文等公共知识信息资源,用户遍及全国和世界多个国家和地区,基本实现了中国知识信息资源在互联网条件下的社会人共享与国际化传播。
ki全文检索系统的功能
cnki数据库还具有引文链接功能,利用该功能进入中国期刊全文数据库网的用户可构建相关的知识网络,还可用来进行个人机构、期刊、论文等方面的计量分析与评价。
5.全文检索系统的特点
全文检索系统的特点有以下几点:
(1)cnki全文检索系统将中文自然语言处理技术应用在检索技术中,采用多种信息检索模型,能够有效地提高检索的准确率。
(2)cnki全文检索系统以词为索引基础,而不是单个汉字。
(3)cnki全文检索系统支持大数据量的网页、文本索引。
二、万方数据资源系统的概述
万方数据资源系统(china info)是北京万方数据有限公司在中国科技信息研究所数十年积累的全部信息资源的基础上建立起
来的,形成以科技信息为主,集经济、金融、社会、人文信息为一体,实现网络化服务的信息资源系统。
1.万方数据库的收录情况
万方数据自有版权以及与合作伙伴共同开发的数据库总计110
多个,内容涉及自然和社会科学各个专业领域,收录范围包括期刊、会议文献、科技报告标准、专利、连续出版物和工具书等,用户既可单库、跨库检索,也可以所有数据库中检索,同时还可以按行业需求进行检索。
2.检索系统的功能特点
这几年万方数据库在不断的改进,其功能也有了很大的变化。
它的各功能特点如下:
(1)强大的信息采集能力。
(2)分秒级的实时检索。
(3)快速的检索响应。
(4)全面的检索功能。
(5)精确的检索结果。
(6)丰富的检索结果展示。
三、cnki与万方的功能比较
cnki与万方的功能相比较,万方数据资源网络数据库具有全面的信息服务平台,可为用户提供准确、全面、详实、快捷的检索服务,为用户提供一般的检索和专业检索功能。
一般检索可以采用字段检索、全文检索以及高级检索(逻辑检索),专业检索支持布尔检索、相邻检索、截词检索、同字段检索、同句检索和位置检索等全文检索技术,具有较高的查全率和查准率。
数字化期刊检索系统提供分类检索、高级检索和期刊引文检索三种方法。
而cnki文献资源数据库则涉及理工、农业、医药卫生、文史哲、经济政治、法律、教育以及社会科学等各个方面,其综合能力较强,具有便捷多样的检索方式,准确的结果定位,如:全文检索就可以让用户凭借对所查找文献的模糊记忆,输入多个关键字,即可快速检索定位到该文献资料。
同时还具有丰富的信息利用功能,表现的显著特点是帮助用户便捷有效地对信息资料进行管理,同时辅以多种信息利用功能。
而且还具有系统伸缩性强布置方式灵活等特点。
系统采用“部分集中”的分布式数据库处理方式,适用中小学多媒体数字图书馆、中国医院知识仓库、中国企业知识仓库、中国城市规划知识仓库以及政府职能部门等用户部署的需求,既提高了共度数据的访问效
率,又有效解决了数据冗余问题,大大降低了硬件设备的建设成本。
1.两大系统检索效果的比较。
对于两大数据库,在设定相同检索条件的情况下(检索入口和检索限定一致),分别选择”题名”、“关键词”、“著者”和“分类”等四个检索入口进行检索。
然后通过检索返回数量统计表中的数据分析,可以得出这两种数据库的自身特点、收录的范围和学科类别的情况。
2.全文浏览的比较。
两个数据库中的文献都可以浏览原版的图像全文,也可以用文献浏览器上提供的ocr识别系统进行文字识别处理文献。
其中“万方”使用acrobat reader浏览器打开单。
从数字化水平来说,万方的数字化技术在二者中是最好的,它所用的是全球通用的pdf格式全文,方便交流,从打开的页面上看,制作得也比较精细。
cnki所用是自己公司生产的浏览器,文献页面存在一定的缺陷。
当然数据库数字化的水平也在不断进步中。
不过未来的趋势就是各个全文数据库都会提供通用的pdf格式的全文,并最终过渡到统一的格式。
3.显示、排序与去重功能比较。
“cnki”的检索结果是按照主题的相关度和文献的日期排序输出,可以设定每页显示文献的数量。
“万方”在初次检索时不能设定检索结果显示的顺序,但在二次检索中可以设定是通过“升序”或“降序”排列。
4.文摘结果显示比较。
通过文献的文摘就可以了解一篇文章的基本情况,而不用浏览全文,这样科研人员就可以通过浏览文摘了解是不是自己找的文章,可以节约大量的时间。
两个数据库中文摘
做得最好的是cnki,不仅可以从中获得文献的基本情况,而且能通过超级链接的方式,找到更多与查找主题相关的内容。
总之,国内的这两大全文检索系统已经成功的在各类信息机构、高等院校、公共图书馆、网站、政府部门等企事业单位进行各种应用。
到目前为止,这两大检索系统已经承受了千万级单容量的商业应用,并表现出了卓越性能,为用户提供了便捷、高效的在线检索功能。
参考文献
[1]祁延莉,赵丹群.信息检索概论[m].北京大学出版社,2006.
[2]王付军,童静原.中文全文检索系统在服务行业中的应用,2006.
[3]袁志平,海量信息全文检索系统的实现.2005.。