主要的中文搜索引擎
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
6.5主要的中文搜索引擎
随着Internet在中国的普及和发展,网上中文信息资源和以中文为母语的网上用户也在急剧增加,已有的外文搜索引擎已不能适应我国上网的大部分用户的需求,迫切需要以中文为基础的搜索引擎来满足网上用户查询中文信息资源的要求。
于是许多以中文为母语的国家和地区都相继开发出了各种各样的中文搜索引擎,据统计,目前已有中文搜索引擎200多个。
由于网上的中文信息迅速膨胀,因此,世界级的网站都纷纷涉足中文信息市场。
美国一些著名的搜索引擎公司,如Yahoo!、Altavista、Lycos、Excite等先后推出中文版的搜索引擎,全面进军中国的搜索引擎市场。
下面,介绍几个主要的中文搜索引擎。
6.5.1 中文雅虎(http://gbchinese.yahoo.com)
中文雅虎是美国“Yahoo!”公司于1998年5月推出的中文搜索引擎,提供中文简体与中文繁体两种版本。
中国大陆的站点一般使用简体中文,而香港与台湾地区的站点一般使用繁体中文。
中文雅虎并非英文版的全文翻译,而是收录了数万个中文的Internet 站点,按照英文版的分类方法以14个类目列出,提供Internet 上的中文站点信息检索服务。
中文雅虎主页(见图6-10)提供和英文版相同的检索方法:分类目录检索与关键词检索。
图6-10 中文雅虎主页
1. 分类目录检索
中文雅虎的分类目录位于其主页的中部。
用户可以根据查找的内容所属的类别在分类目录中逐级逐类地选择相应的类目,经过多次选择后,就可以访问到包含所查找内容的站点。
例如,要查找科学领域的内容,首先在主页的分类目录中点击“科学”大类,进入有关科学领域的下级类目页面。
在该页面中,列出有关科学领域的详细分类,如地理学、工程学、能源、生物学、天文学、物理学与图书馆等。
再点击“图书馆”,就会出现有关图书馆方面的站点信息。
2. 关键词检索
如果用户已知要查找内容的主题概念,就可以利用关键词检索方式。
在检索文本框中输入要找的关键词,然后点击“搜索”按钮,中文雅虎就会在数据中查找与关键词匹配的记录,并将符合检索条件的结果显示出来。
使用关键词检索还有简单方法与复杂方法之分。
简单方法就是将关键词直接输入检索文本框中,可以输入一个词也可以输入几个词,并对检索要求不加限制,系统在处理时会按照自身的规则将用户的查询字符串分为几个部分,这样返回的结果可能与用户想要的相差甚远。
复杂方法就是利用字段限定符号和限制选项构建复杂的检索表达式来进行检索,这样会获得比较准确的查询结果。
中文雅虎支持以下几种限定检索操作符:(1)用引号(“”)来查询完全符合关键词字符串的网站。
(2)在关键词前加“t:”,搜索引擎仅限在网站名称中查找。
(3)在关键词前加“u:”,搜索引擎仅限在URL中查找。
(4)在关键词前加“+”,查询结果中一定要出现“+”号后面的字符串。
(5)在关键词前加“-”,查询结果中一定不能出现“-”号后面的字符串。
6.5.2 搜狐(http://)
搜狐是爱特信公司创办的大型中文门户网站,于1998年2月正式推出。
2000年9月14日搜狐收购国内最大的年轻人社区网,成为中国最大的门户网站。
搜狐公司从中国首家大型分类查询搜索引擎,发展成为最受用户喜爱的综合门户网站。
1999年至今,搜狐公司连续推出新闻中心、体育、财经、IT、汽车、生活、教育、求职、搜狐商城等17个内容频道,为广大网民提供网上社交、学习、生活和购物的理想场所,成为中国网络用户进入互联网的最佳渠道。
搜狐比较规范、系统的分类目录与强大的全文检索为广大用户提供一个优秀的中文信息查询工具。
用户可以直接通过搜狐网站首页(见图6-11)上的分类目录和关键词搜索方法查找信息,也可以点击首页中的“搜索引擎”进入“分类搜索”页面进行目录导航检索和关键词检索。
1. 目录导航检索
目录导航检索是按照信息所属的类别层层点击查找信息,所以用目录导航检索时首先要考虑清楚想要查找的信息属于哪个类别。
比如查找“计算机杀毒软件”,首先浏览搜狐的分类目录(见图6-12),看到“计算机与互联网”类目,应当是属于这个类目,点击进入,下面有“软件”,点击“软件”进入,下面有“病毒与安全”,再点击“病毒与安全”进入,下面
有“杀病毒软件”,最后点击进入“杀病毒软件”就会找到许多有关杀病毒软件的的网站。
目前,搜狐“分类目录”共有十八大类,包括:娱乐休闲、工商经济、公司企业、文学、国家与地区、计算机与互联网、教育、艺术、体育与健身、卫生与健康、生活服务、社会与文化、社会科学、新闻与媒体、科学与技术、旅游与交通、政治与法律、个人主页,五万多不同层次的子类目,形成了一个十分庞大的树枝状结构,几乎涉及到所有行业或领域。
用户只要遵循一定的查询规律(与图书馆的图书分类法类似),就能很快找到需要的所有网站信息。
图6-11搜狐首页
图6-12 搜狐分类搜索页面
2. 关键词检索
关键词检索是按照信息的主题内容来查找信息,在搜狐的搜索框内输入想要查找的信息的关键词,然后点击“搜索”按纽,系统就会自动查找与关键词匹配的信息,并且在页面上将这些信息提供给用户。
在搜狐的首页或搜狐网站的分类与搜索主页及其下的任何页面上,都会看见一个长条状的搜索框。
搜狐的“搜索”工具提供网站、类目、网址、网页、新闻、软件等类信息的查找。
用户只要做简单的选择,就能找到相关的信息,选择的方法是通过搜索框后面的下拉式菜单进行选择,或直接在搜索框下进行选择。
当使用搜狐的“搜索”工具进行查找时,其默认选项为“网站”搜索,其搜索结果是搜狐分类目录下网站信息中的内容。
各选项及其查询范围如下:
(1) 搜狐类目:检索结果页列出相关的搜狐检索类目。
(2) 网站搜索:检索结果页列出搜狐分类搜索数据库中,在网站名称、网站简介或网站关键字中含有与键入的关键字相匹配的内容的所有相关网站。
(3) 网页搜索:除了相关检索的一些链接之外,检索结果页列出整个Internet上与键入的关键字相匹配的内容的所有相关网页。
(4) 新闻搜索:检索结果页列出三个月内出现在搜狐新闻库中,包含用户输入的关键字的相关新闻。
(5) 网址搜索:检索结果页列出3721网站的数据库中,在网站名称中含有与用户键入的关键字相匹配的内容的所有相关网站。
3. 高级检索
从分类搜索页面点击“高级检索”进入高级检索页面(见图6-13)。
在高级检索页面提供下列选项:
(1) 搜索包含:可以指定查询结果中包含的关键词,即希望返回的网页包含“所有输入的关键词”或者“至少其中一个关键词”。
(2) 编码选择:可以指定查询结果的编码类型,即希望返回的网页是“简体(国标码)” 、“繁体(大五码)”,还是两者都要(“简体及繁体”,此为默认选择)。
每种编码类型前有一个圆框,用户只需点中其一即可。
(3) 类聚方式:可以指定查询结果的类聚方式,即希望返回的网页是“内容类聚”、“站点类聚”,还是两者都要(“站点类聚及内容类聚”,此为默认选择)。
每种类聚方式前有一个圆框,你只需点中其一即可。
所谓“内容类聚”是指同一个内容的网页只出现一次,而不管整个INTERNET 上有多少个不同的URL指向该网页。
也就是说,“内容类聚”屏蔽掉了同样内容的网页,只提供其中一个URL供用户浏览使用。
而“站点类聚”则只给用户提供相关网站的主页的URL,屏蔽掉了同一个网站中各个不同的页面。
但是, 用户可以通过相关摘要底下的URL访问到该网站所有的页面。
(4) 时限选择:还可以指定查询结果中网页的生成时间,目前有四种选择:“任何时间的网页”(默认选择)、“三个月内的网页”、“六个月内的网页”、“一年内的网页”。
生成时间是一个下拉菜单,用户可以从中选择。
搜狐检索系统目前支持的运算符有:-、&、|、()、空格。
这些运算符既可以是英文,也可以是中文(全角或半角)。
a.使用空格、&,来指定查询串必须出现在结果中。
例如:输入“modem 鼠标”,搜索结果是包含“modem”,并且包含“鼠标”的所有网页。
b.使用 - ,来限定-后的查询串不出现在结果中。
例如:输入“宗教 - 法轮功”,会找到仅包含“宗教”的所有网页,且不包含“法轮功”的网页。
c.使用 | ,来指定|两边的查询串中有一个一定出现在结果中。
例如:输入“计算机 |软件”,搜索结果是含有“计算机”或“软件”的所有网页。
d.使用()或“”,来指定()或“”内的表达式是一个整体单元。
例如:输入“计算机 - (软件硬件)”,会查询到包含“计算机”,且不包含“软件”与“硬件”的所有网页。
图6-13搜狐高级检索页面
4.修改检索
“网页搜索”的结果页面中,还有相关检索的一些链接,最下部是一个搜索框,你可以在其中输入新的字串,按“重新搜索”按钮进行另一次新的搜索;按“在结果中搜索”按钮在结果中搜索,以对用户的搜索进行精确化。
例如,第一次查找“计算机”时返回了太多网页,用户可以在此框中输入“家用电脑”在结果中查询,本引擎会为你查出更为相关的内容。
5. 检索结果的排列
搜狐中文检索系统引擎会根据分类类目及网站信息与关键字串的相关程度来排列出相关的搜狐中文类目和网站。
相关程度越高,排列位置越靠前。
6.5.3 新浪网()
新浪网搜索引擎是面向全球华人的网上资源查询系统。
提供网站、网页、新闻、软件、游戏等查询服务。
网站收录资源丰富,分类目录规范细致,遵循中文用户习惯。
目前共有16大类目录,一万多个细目和二十余万个网站,是互联网上最大规模的中文搜索引擎之一。
新浪网推出新一代综合搜索引擎,这是中国第一家可对多个数据库查询的综合搜索引擎。
在关键词的查询反馈结果中,在同一页面上包含目录、网站、新闻标题、新闻全文、频道内容、网页、商品信息、消费场所、中文网址、沪深行情、软件、游戏等各类信息的综合搜索结果,最大程度地满足用户的检索需要,使用户得到最全面的信息。
除了资源查询外,新浪网搜索引擎推出了更多的内容和服务,包括:新浪酷站、本周新站、引擎世界、少儿搜索、WAP搜索、搜索论坛等。
图6-14 新浪搜索引擎主页
1. 一般搜索功能
新浪搜索引擎提供“分类检索”和“关键词查询”两种查找方法。
(1)分类检索
分类检索是从搜索首页按照树型的主题分类逐层点击来查找所需信息的方法。
如果我们想看看小说,但又不是很明确具体是哪一部小说,就可以采用分类检索,也即目录查询方式。
从新浪网首页点击“新浪搜索”进入搜索引擎主页(见图6-14)。
在搜索引擎主页中的14大类目录中点击“文学艺术”目录,再选择“文学”目录点击进入,这时页面中上部列出的是文学目录的细分目录,下部列出的是属于文学目录的网站。
可以继
续点击文学的子目录“各类文学”中的“小说”目录。
同样,这时页面中上部列出的是小说目录的细分目录,下部列出的是属于小说目录的网站。
这时就可以选择想要看的网站进入浏览了。
(2)关键词查询
关键词查询是用所需信息的主题(关键词)进行查询的方法。
具体做法是:
在检索框内键入关键词(Keyword),并单击旁边的“搜索”按纽,新浪搜索会返回目录、网站、网页、新闻四种检索结果。
可以按照需要点击超链接进入这四种检索结果中的任意一个。
如果没有特别指定,系统默认查询次序依次为:目录搜索,网站搜索,网页搜索。
查询结果先返回目录搜索结果,然后返回网站搜索结果,然后返回网页搜索结果,再返回商品信息、消费场所等搜索结果。
在同一页面上包含网站、网页、新闻、商品等各类信息的综合搜索结果,新浪搜索是国内唯一提供此项服务的搜索引擎。
同时,为了便于查阅,查询字串以醒目的红色显示。
例如,想要查找“红楼梦”的相关信息,我们就在搜索框内键入关键词“红楼梦”,并单击旁边的“搜索”按纽,新浪搜索会先返回目录搜索结果“文学艺术>各类艺术>文学>各类文学>小说>古典小说>四大古典名著>红楼梦”,接下来是关于“红楼梦”的网站的搜索结果;再下来是新浪内容中关于“红楼梦”的搜索结果;以及消费场所中的“红楼梦”搜索结果。
2. 进阶查询
在网站查询结果页面中继续查找信息,有三种选择: 重新查询、在结果中再查、在结果中去除。
这三个选项分别的意思是:
(1) 重新查询:用本次键入的关键词重新进行查询(是默认的选项);
(2) 在结果中再查:在上一次的关键词查询结果中再用本次键入的关键词进行查询,相当于是这两次的关键词是“与”的关系,也就是说这样的查询结果是同时包括这两次的关键词的;
(3) 在结果中去除:在上次的关键词查询结果中去除本次键入的关键词进行查询,相当于是这两次的关键词是“非”的关系,也就是说这样的查询结果是包括上一次的关键词同时一定不包括本次的关键词的。
进入某一分类目录后用关键词查找信息,有两种选项:所有网站、此目录下的网站。
这两个选项分别的意思是:
(1) 所有网站:用关键词在所有网站的范围内进行查询(是默认的选项);
(2) 此目录下的网站:用关键词在本级目录下进行查询,限定搜索范围,可以帮助用户进行更有效的查询。
3.查询时逻辑操作符与字段限定的使用
(1)对网站进行多个关键词查询:
A. 表示“与”的关系(同时匹配多个关键词的内容):使用空格、逗号( ,)、加号(+)和&。
例如,要查找赵薇的照片,则输入:赵薇照片。
B.表示“非”的关系(查询某个关键词的匹配内容,但又不包含其中的一部分):使用减号(-)搜索。
例如,想要查询彩票,但不包含体育彩票,则输入“彩票体育彩票”。
C.表示表达式是一个整体单元:使用字符“()”。
例如,想查找计算机方面的网页或新闻,但不包含“软件”与“硬件”,输入关键词“计算机-(软件硬件)”。
D.网站标题搜索:在关键字前加“t:”;
E.网站网址(URLs)搜索:在关键字前加“u:”。
(2)对新闻全文进行多个关键词查询:
A. 表示“与”的关系(同时匹配多个关键词的内容):把多个关键词用空格隔开。
例如,要查找中国队在世界杯的新闻,可以输入“世界杯中国”查询。
B.表示“非”的关系(查询某个关键词的匹配内容,但又不包含其中的一部分):使用减号“-”搜索。
例如,想查询与“彩票”相关的新闻,但不包含“体育彩票”,可以输入“彩票-体育彩票”查询。
(3)对网页进行多个关键词查询:
A.表示“与”的关系(同时匹配多个关键词的内容):只需在输入的多个关键词中间留空格,就可返回那些符合要求的全部查询条件的网页,如“北京新浪”。
B.表示“或”的关系(任意匹配多个关键词的内容):只需在输入的多个关键词中间加“OR”,就可返回那些符合要求的任一查询条件的网页,如“北京 OR 新浪”。
C.强加忽略词:网页搜索会忽略最常用的词、字符、数字和单字(这些统称为忽略词),如:“http”,“.com”和“的”等,这类字词不仅无助于缩小查询范围,而且会大大降低搜索速度。
使用英文双引号可将这些忽略词强加于搜索项,例如:输入“小城的传说”时,加上英文双引号会使“的”强加于搜索项中。
D.英文短语的查询:查短语用“-”连接或用“" "”括起来,如搜索“two-in-one”或“″two in one″”。
E.不支持词干法或通配符:为提供最准确的资料,不支持“词干法”和“通配符”(*) 搜索。
即,只搜索与输入的关键词完全一样的字词。
如搜索“airline”或“airline*”,不会得到类似“airlines”的结果。
F.限定网址(url)搜索:单个关键词前加“inurl:”,多个关键词前加“allinurl:”,如搜索“inurl:sina”将返回网址里含有“sina”的网页结果,“allinurl:sina search”将返回网址里含有sina和search的网页结果,“北京 inurl:sina”则将返回页面内容里含有北京并且页面网址里含有“sina”的结果。
G.限定标题(title)搜索:单个关键词前加“intitle:”,多个关键词前加“allintitle:”,如搜索“intitle:北京”将返回网页标题里含有北京的结果,“allintitle:北京新浪”将返回网页标题里含有“北京”和“新浪”的结果,“保险 intitle:北京”则返回网页标题里含有“北京”且网页内容里含“保险”的结果。
H.限定网站(site)搜索:关键词前加“site:”,如搜索“教育 site:”返回的域名下含有“教育”的网页结果。
I.限定文件类型(filetype)搜索:关键词前加“filetype:” ;如搜索“论文 filetype:pdf”将返回文件格式为pdf格式的“论文”内容。
J.网站首页信息搜索:网址前加“info:”,如搜索“info:”则返回的首页网页。
4. 高级搜索
从搜索引擎首页点击“高级检索”进入新浪高级检索界面(见图6-15)。
新浪搜索的高级搜索功能较强,可选标题或网址查询,可限时间范围查询,关键词查询支持“与(and)”、“或(or)”等关系。
还可以定义其他的搜索条件。
(1)在新浪网高级搜索页面上的任意一个关键词查询框中输入一个或多个关键词。
使用空格表示“与 (and)”关系。
(2)利用“+”来限定的关键字一定要出现在结果中,“-”来限定的关键字一定不要出现在结果中。
(3)关键词查询框下面的单选按钮,限定了输入关键字之间的逻辑关系,选中“所有关键词(and)”项要求结果中包含所有输入的关键字,即它们之间是“与(and)”的关系;“至少一个关键词(or)”则要求结果中包含至少一个输入的关键字,即它们之间是“或(or)”的关系。
5. 搜索结果的排列顺序
新浪搜索的检索结果是根据与查询要求相匹配的结果的质量来进行排列相关的分类目录和网站。
质量越高,排列位置越靠前。
其中新闻检索的结果是按日期排序,日期越新的新闻排列位置越靠前。
图6-15 新浪高级检索页面
6.5.4 网易 ()
网易公司(NASDAQ: NTES)是中国领先的互联网技术公司,在开发互联网应用、服务及其他技术方面,网易始终保持国内业界的领先地位。
自1997年6月创立以来,在开发互联网应用、服务及其他技术方面,网易始终保持业界的领先地位,并取得了中国互联网业的多项第一:第一家中文全文检索,第一个大容量免费个人主页基地,第一个免费电子贺卡站,第一个网上虚拟社区,第一个网上拍卖平台。
网易新一代开放式目录管理系统(ODP),结合了网易自主开发的搜索引擎的特点,对所有站点信息提供全面快速的检索功能,使得用户能高效便捷的查询出目的站点。
网易主页如图6-16所示。
1. 网易搜索引擎的特点
(1)网易搜索引擎提供多语言检索。
英语,日语,俄语等几十种语言关键词都可以直接输入搜索框检索网页信息。
(2)拥有全国最大的开放式管理目录。
有约5000名各行业目录管理员负责管理网站注册信息。
图6-16 网易主页
(3)网易搜索结果包括相关目录、相关网站、相关网页和相关新闻。
相关网站里汇集了大量精选网站(约25万),相关网页的信息量最大(约16亿1千万网页)。
相关目录:是指用户的查询内容与网易开放式目录中的目录名匹配所返回的结果。
相关网站:是指用户的查询内容与在网易开放式目录数据库中注册的网站信息匹配所返回的结果。
相关网页:是指用户的查询内容与网易的合作伙伴Google的全文数据库中的信息匹
配的结果。
相关新闻:是指在网易所有频道文章中检索用户指定关键字得到的相关信息。
(4)网易搜索引擎是模糊的搜索方式。
对用户输入的关键词,先作语言分析,分解成多个词或词组,再去数据库中匹配结果,因此用户可以输入一整段句子,而可能得到包含了这段话中部分词语的结果,这样得到的结果更丰富;网易搜索引擎按搜索结果和用户输入的搜索词的关联程度排列结果的,用户的关键词出现的越多的结果排得越靠前;在相关度排序的同时,越知名的站点排得越靠前。
2. 分类检索
网易的分类目录(见图6-17)功能比较强,所有目录是专为中国用户设计的,分类比较符合中国人的习惯。
网易将精选的中文站点分为18个大类,包括娱乐休闲、情感绿洲、电脑网络、文学、艺术、医疗健康、教育学习、政法军事、体育经济、经济金融、公司企业、生活资讯、科学技术、少儿乐园、社会文化、旅游自然、新闻出版、综合参考,每个大类下又细分为不同的小类,用户可以通过各级类目找到自己想要访问的站点。
图6-17 网易搜索引擎页面
3. 关键词检索
网易关键词检索比较简单方便,只要在搜索框中输入检索词,然后点击搜索框右边的“搜索”按钮,便可得到相关的信息。
网易关键词检索支持以下操作符及规则:
(1)多个关键词之间只需用空格分开。
例如:想去网易聊天,只需在搜索框中输入“网易聊天”而不必输入“网易 and 聊天”。
输入的关键词越多,查询到的结果越少越准确。
(2)没有空格隔开的关键词相当于“或”。
例如:在搜索框中输入"苹果梨子" 则关于苹果或梨子的内容都可兼得。
(3)在结果中再搜索。
这个功能其实就是利用上面(1)中所说and的关系了。
网易搜索引擎的搜索框可以保留住用户上一次输入的关键词。
例如:我们先输入"网易" ,得到输出结果290条,这时搜索框中已经保留有"网易"两字,看完这次的结果后,再在搜索框中输入 " 聊天",注意"聊天"前面有个空格键,按回车,得到的结果22条,就这样完成了在结果中再次搜索的任务。
(4)英文字母不区分大小写。
网易搜索引擎不区分英文字母大小写,所有的字母均当做小写处理。
例如:输入"netease",或是"NETEASE",再或是"NetEase",结果都是一样的。
(5)网页查询时可以直接用网址进行查询。
例如:输入可以搜索到所有链接到Google主页的网页。
但这种方法不能与关键字查询联合使用。
要说明的是:这时网易搜索引擎忽略“http”和“com”等字符,以及标点符号和单个英文字母,比如输入和输入netease的结果一样。
(6)“-”号可以排除无关信息。
比如输入 A -B(切记要在减号前留一个空格位)可以检索包含A,但不包含B的内容,更有利于缩小查询范围(A和B代表关键词)。
例如:输入 "windows -98" ,表示查看除了windows98以外的windows信息。
(7)引号使搜索结果绝对忠实于检索提问。
比如搜索有时需要精确匹配整句话,包括词的顺序,那么可以把需要精确匹配的部分用" "括起即可。
这一方法在查找名言警句或专有名词时显得格外有用。
(8)在英文关键词搜索中,一些标点符号如“ _ ”、“ \ ”、“ + ”、“ =”、“ , ”、“ ' ”也可作为短语连接符。
例如:尽管没有加引号,mother_in_law仍作为专用语处理。
在中文搜索时,这些标点被忽略。
(9)新增“定制文件类型搜索”,在输入框中输入[你想要的关键词]+[空格]+[filetype:]+[你想要的文件类型],选择“所有网页”搜索模式,回车。
例如:输入:“东北人都是活雷锋 filetype:swf”就得到了所有版本的“东北人都是活雷锋”的flash动画。
常用的文件类型有: doc,pdf,ppt,rtf,swf等,不过搜索时,要注意选择到“所有网页”搜索模式。
6.5.5 天网搜索 ()
天网搜索引擎是由北大计算机系网络与分布式系统研究室研制开发的,它是中国教育和科研计算机网示范工程应用系统课题之一,又是国家“九五”重点科技攻关项目“中文编码和分布式中英文信息发现”的研究成果,并于1997年10月29日正式在CERNET上向广大Internet用户提供Web信息导航服务。
天网搜索引擎提供一种检索Web资源(主要是中国教育和科研计算机网上的Web资源)及FTP的手段。
用户只需输入要检索的一个或多个关键词,系统就会把与这些关键词相匹配的网站或新闻组中的文章查找出来。