专业搜索引擎GoogleScholar与Scirus的对比研究

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第8期
收稿日期:2010-02-26
作者简介:杨小琼(1976-),助理馆员,长期从事图书期刊信息管理研究,已在国际会议发表论文2篇。

目前,搜索引擎的种类繁多,性能各异,其中以综合性的搜索引擎居多。

对于综合性搜索引擎来说,优点较明显:它所搜索的数据量大,理论上可覆盖全部或者大部分网站;查询结果较快;具有较为友好的用户界面;采用了较高的技术来满足用户对各类信息资源搜索的要求。

但是,随着网络信息资源的迅速增加,综合性的搜索引擎在满足用户的专业搜索提问时却显得力不从心。

由于综合性搜索引擎没有对专业信息进行优化处理,检索出的查询信息数量极大,而且重复过多,相关性差,利用率低,不适合专业化的信息检索。

随着专业数据库的费用逐年上涨以及网络搜索技术的发展,用户越来越依赖于专业搜索引擎来查询学术文献。

专业搜索引擎Google Scholar 与Scirus 具有重复率低、相关性好、准确率高的优点[1-3],成为目前使用率最高的两种专业搜索引擎。

为更好地帮助科研人员利用这两种搜索引擎查询专业文献,本文对两者在检索方面的综合性能作了对比分析。

1搜索引擎简介
1.1Google Scholar 简介
2004年11月18日,Google 公司宣布针对科学家和研究人员推出新的搜索服务Google Scholar 。

这是Google 和众多科学和研究机构合作的结果,比如
ACM 、IEEE 以及在线计算机图书中心等机构。

Google Scholar 的服务对象主要是科学家和各类从事
学术研究的人士,其搜索的范围涵盖几乎所有知识领域的高质量学术研究资料,包括论文、专业书籍以及技术报告等。

一方面它过滤了普通网络搜索引擎中大量对学术人士无用的信息,另一方面Google 与众多学术文献出版商等合作,加入了许多普通搜索引擎无法搜索到的加密内容,并要求合作者至少免费提供文献的文摘。

1.2Scirus 简介
Scirus 科学搜索引擎由爱思唯尔科学公司(Elsevi-er Science)于2001年4月1日推出。

Scirus 是专为搜
索高度相关的科学信息而设计的搜索引擎。

在起始阶段,Scirus 涵盖了Elsevier 公司自己的信息数据库如“科学指南”(ScienceDirect),
“生物医疗网络”
专业搜索引擎Google Scholar 与Scirus 的对比研究
杨小琼
(浙江林学院图书馆,浙江临安311300)
摘要:专业搜索引擎Google Scholar 与Scirus 较之综合性搜索引擎,具有重复率低、相关性好、准确率高的优点,
成为目前使用率最高的两种专业搜索引擎。

本文对两种专业搜索引擎作了简要的介绍,并分别从收录范围、检索功能、查询结果、检索结果排序等方面对两者作了对比分析,最后对两者的特点进行点评与展望。

关键词:专业搜索引擎;Google Scholar ;Scirus 中图分类号:G252.7
文献标识码:A
文章编号:1002-1248(2010)08-0091-03
Comparative Study on Professional Search Engine Google Scholar and Sciruls
YANG Xiao-qiong
(Library,Zhejiang Forestry College,Lin ’an 311300,China)
Abstract:For low repetition rate,better correlation and high accuracy Google Scholar and Scirus are two important profes-sional Search Engines with the highest rates.Firstly the two professional Search Engines are introduced,then they are com-pared from Scope included,search function,search result and search result sort.At last the two professional Search Engines are commented Prospected.
Key words:professional Search Engine;Google Scholar;Scirus
农业图书情报学刊
第22卷第08期Vol.22,No.08
Journal of Library and Information Sciences in Agriculture
2010年08月Aug.2010
第22卷
(BioMedNet)和“化学网络”(Chemweb)等,以及网上免费提供的科学信息。

随后,Elsevier公司又与其它提供科学信息的公司进行接触,邀请它们将其所有的数据库纳入Scirus可以搜索到的范围之内,从而使Scirus能够精确地找到普通搜索引擎所找不到的免费或者访问受限的科学信息资源。

2收录范围对比
2.1Google Scholar的收录范围
使用Google Scholar除了可以搜索普通网页中的学术论文以外,还可以搜索同行评议文章、学位论文、图书、预印本、文摘、技术报告等学术文献,文献来源于学术出版物、专业学会、预印本库、大学机构,内容从医学、物理学到经济学、计算机科学等横跨多个学术领域。

Google Scholar可以过滤掉普通搜索结果中的大量垃圾信息,还可以通过引用链接方便地找到与搜索结果关联的其他相关学术资料。

目前,它可检索的网页并没有确切的数量,但是有着Google能够检索80亿个网页的坚强技术后盾,以及与各大数据库厂商、专业学会等的强强联合,收录范围预计能够在众多专业搜索引擎中名列前茅。

2.2Scirus的收录范围
随着Scirus6.5的发布,它使用FAST的搜索平台对用户提供了超过2亿个科技网页的检索,涵盖了1800万篇全文文献及文摘,收录范围广泛,文献种类齐全。

它为用户提供了强大的检索功能,具体表现在:查找网页上最大的科技及医学(STM)数据库,能够发现更多的科技信息。

如Beilstein on ChemWeb、BioMed Central、MEDLINE on BioMed-Net、ScienceDirect、Society for Industrial&App. Mathematics等数据库;发现其他搜索引擎未收录的最新的报告、专利、同行评议文章、作者主页、大学网址和期刊。

Scirus成立4年来,可检索的网页数量逐年递增:2001年4月收录的网页数目为0.6亿,2002年4月增加到1亿,2003年4月增加到1.5亿,2004年4月增加到1.6亿个网页,2005年则超过了2亿个网页。

3检索功能对比
3.1检索技术
Google Scholar将各种分散的数据不分学科都集中到一个资源库,用户进行查询时,缺省是对整个资源库进行查询。

另外,Google Scholar对所标引的资源采用的是机器自动分类的方法,其分类的准确度要比数据库提供商的基于人工分类的方法要差。

Google Scholar所返回的检索结果为已排序的,其相关性排序依据考虑到了文章的全文、文章的作者、刊载文章的出版物的知名度以及该篇文章的被引用次数[5]。

Scirus采用了基于Web的文本信息挖掘技术,即将数据挖掘的思想应用到Web文本信息处理中[4],它涉及到文本分类、索引、聚类、查询匹配等各项技术,在Web个人浏览辅助工具中有着广泛的应用。

由于数据挖掘的引入,大大提高了文本分类的准确度、文本索引对文本描述的全面性以及用户查询匹配的精度。

Scirus挖掘和索引科学网站信息并且给这些网站进行分类,方便检索者在相关主题中查找,使结果更加准确。

Scirus采用人工参与搜索引擎的信息组织。

由于专业搜索引擎的服务内容定位于特殊的或独立的空间领域,这就需要一批具有很高专业水平的专家负责指导收集、整理、评价信息资料以及有效地引导读者提高检索质量和检索效率。

Scirus查询结果输出默认的是根据相关性来排序的,也可选择按照日期排序[4]。

3.2高级检索功能
Google Scholar在高级检索页面也提供了诸多选项,其中包括作者、出版物、日期、学科等。

Scirus 的高级检索界面提供了较多的限制选项,用户可以通过限制日期、文献类型、格式、来源、学科等方面限定检索范围。

同时二者都提供了布尔逻辑检索功能,其中Google Scholar直接给出了检索入口,用户按照相应的选择直接输入检索词,而Scirus则是通过例举布尔逻辑符号来指导用户进行查找。

4查询结果
4.1Google Scholar
Google Scholar使用的搜索技术与普通的Google 搜索技术是一样的,都是利用他们专利网页级别技术PageRank来进行,由于此类技术的分析较多,本文不再赘述。

为了保证查询结果的有效性,Google Scholar通过以下几种方式来显示查询结果[5]:(1)了解某一作者的著述,并提供书目信息(引用时必需的图书出版信息或期刊论文的刊名、刊期信息)。

可通过Web Search直接在网上搜索原文、文摘等;如果是图书,还可通过Library Search(OCLC 的Open WorldCAT)检索附近图书馆的收藏;
(2)了解某文献被引情况。

可直接点击Cited by.
农业图书情报学刊:网络技术92
第8期
..(引用数)搜索引用文献。

检索结果中每条信息按照题目、著者、文章被引用数、摘要、出版物、出版年月和相关网页排列,特别要指出的是,在文章被引用数中除了储存在各种数据库中的引用文献外,还包括在书籍中和各类非联机出版物中的引用文献,这对于从事科学研究的科研人员很有帮助,因而这也是Google Scholar的一个亮点。

(3)如果一种文献被引用,但是这种引用文献没有联机上网,则在显示结果的左侧标注。

(4)如果用户因为未能够看到这篇文献,而又对此类文献有兴趣的话,可以点击题目右侧的Web Search进行检索,这类检索较为广泛,属于扩大检索范围的方法。

4.2Scirus
Scirus为了能够精确地搜集相关的科学信息,它使用了倒置的金字塔技术来描述搜集过程。

在过程中的每一个层次,数据都进行了严格地过滤。

位于倒置的金字塔顶端的是种子列表(Seed List),它是Scirus 进行因特网搜寻信息的基础。

在其中,有多种途径为种子列表加入资源。

Scirus使用一个机器人(原理类似于网络蚂蚁)来读取在种子列表的信息。

不像通用型搜索引擎,Scirus的机器人不会去搜寻资源的链接网页,除非种子列表中包含有其链接的网页。

这种做法主要是仅为科学资源做标引,以确保精确查询。

为保证查询结果的有效性,Scirus通过以下几种方式来显示查询结果:
(1)它合并一个网站下的多个相关的网页。

尽管网页间的内容不一样,但是因为从属于一个网站下,所以很多网页的信息是非常相似的。

用户如果在显示结果后点击“more hits from”,Scirus将会显示在同一网站下的更多的相关匹配结果;
(2)在查询结果中列明出处,以保证用户清楚地知道哪些结果是来自Web网页,哪些结果是来自数据库。

如果检索结果中的文献信息来自BioMed Cen-tral,除了给出文章的主题、作者、摘要等相关信息,还在末尾显示“full text article available from BioMed Central”;
(3)可以将查询结果保存及通过电子邮件邮寄到指定的地址。

5检索结果的排序
Google Scholar的检索结果所返回的信息有其特色,主要按照相关度排序,具体表现在一篇文献被引用的次数排列[6]。

它采取自动分析与抽取引文的方法,首先,按照检索词出现在文献题目中的顺序,未被引用的文献排列在后,其次,是按照检索词出现在文献的其它部分排列。

点击被引用文献数后,可以看到更多的引用文献,包括这些文献被引用和连续被引用的情况。

这也包括一篇论文在书籍中被引用的情况。

通过引文检索功能可查找相关研究各个时期的学术文献,同时获取论文摘要,从而看到所引用参考文献的记录、被引用情况及相关文献的记录。

Scirus的检索结果按照相关性和日期排列两种方式显示。

相关性排列主要基于两种标准:一是检索词:被检索词汇所处的位置和使用频率,这被称为静态排序。

二是链接:被其他网页链接的次数。

一个网页被其他的网页链接的次数越多,那么这个网页的排序就越靠前,被称为动态排序。

这与很多的综合性搜索引擎是相似的。

Scirus的总体排序是基于静态和动态排序的总体评价的基础上进行的。

另外,通过时间排序显示的搜索结果,用户可以了解最新的专业进展,分析不同时期对专业问题的研究层次等。

特别提及的是,Scirus不使用任何META标记作为网页排序的依据,因为许多网页的制作者会简单孤立地在META标记中堆砌大量的关键字,以期待网站在搜索引擎中排名的靠前位置。

不同于像Inktomi对该标记在排名中给予较高权重的搜索引擎,Scirus更看重的是网页内容。

6结语
18世纪的著名作家塞缪尔?约翰逊(Samuel Johnson)曾经说过:知识可以分为两种,一种是人类已知的信息,另外一种就是发现所需信息的方法。

200多年后,人们在信息高速增长的今天对这句话应有更深刻的理解。

网络飞速发展,信息更新迅速,我们不可能掌握本领域的所有信息,当需要查找所需信息的时候,搜索引擎给了我们很大的帮助。

它就像我们发现所需信息的方法一样,给我们的科学研究带来前所未有的帮助。

尽管如此,网络上大量的、丰富的信息对于搜索引擎来说是一个很大的挑战,对于像Google Scholar 及Scirus这样的专业搜索引擎来说更是如此。

由于面对的用户大部分是专业领域内人士,所以用户对于检索结果的要求尤为苛刻。

专业搜索引擎较之综合性搜索引擎来说,它在检索专业文献方面有很大的进步和
(下转第103页)
杨小琼:专业搜索引擎Google Scholar与Scirus的对比研究93
第8期
!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
(上接第93页)
独特的优势。

随着技术的发展,以Google Scholar及Scirus为代表的专业搜索引擎将进一步加大检索范围,减少冗余资源,增加检索效率,成为更高效率的专业搜索引擎。

参考文献:
[1]刘廷蓉.Google Scholar搜索引擎和网络文献检索[J].农业图
书情报学刊,2008,(7):105-107.
[2]岑俏玲.学者专用型搜索引擎—Google Scholar[J].科技情报
开发与经济,2005,(22):56-57.
[3]Flood,Gary.Elsevier adds raft of features for Scirus update[J].
Information world Review,2002Iss.184:4-8.
[4]Peter Jacso.Scirus:Elsevier's science search engine[J].Infor-
mation Today.2001.Vol.18,Iss.6:34-35.
[5]Cheryl LaGuardia.Elsevier's Scirus Science Search Engine
Challenges google[J].Library Journal2004.Vol.129,Iss.17: 21-23.
[6]Greg R,Notes.Scholarly Web Searching:Google Scholar and
Scirus[J].2005.Vol.29:39-41.
!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
(上接第90页)
方面的投资力度不够。

同发达国家相比,特别是同我国几乎同期起步的印度相比,我国没有取得预期的成绩和经济效益,我国软件的实力和研究发展水平与我国的国际地位极不相称,缺乏创新性。

参考文献:
[1]Miller F.Towards a typology for portals.Ariadne,2003,(3):
33-39.
[2]杨锦.探讨高校数字图书馆门户的构建[J].石油教育,2006,(6):
65-67.
[3]罗良道.浅论数字化信息的网上销售[J].图书馆杂志,2000,(5):
24-26.
[4]杨文波.浅析数字图书馆的电子商务服务[J].情报科学,2005,
(11).
[5]M.Litoi D.Krishnamurthy and J.Rolia,Performance stress vec-
tors and capaeity Planning for e-commerce aPPlications,Interna-tional Journal on Digital Libraries,Mar2004,vol.40Issue2,P347, 17p.
[6]曾丹.基于数字图书馆的电子商务模式[J].图书馆学研究,
2003,(7):8-10.
[7]Julie J.S.Parker,Commercial digital image libraries,digital im-
ages and digital discontent,International Journal on Digital Li-braries,Apr2004,Vol.22Issue4,p36,2p.
sion of unique biological activities[J].Phytochemistry66 (2005)2108-2120.
[20]Bernt O.Myrvold,D.Pavlov.Multivariate analysis for charac-
terization of expanders[J].Journal of Power Sources852000
92-101.
[21]Gisela Richardson,Yemin Sun,Maud Langton,etc.Effects of
Ca-and Na-lignosulfonate on starchgelatinization and network formation[J].Carbohydrate Polymers57(2004)369-377.
宋金梅等:近10年我国木质素改性研究文献分析103。

相关文档
最新文档