第三章 思考与练习参考答案

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
分类:除了专门的分类搜索引擎(如Yahoo等)之外,大量的关键词搜索引擎也采用了以分类目录进行导览的方法。这一现象在中文分类搜索引擎中更为普遍。但是由于文化的差异,中文搜索引擎分类类目具有与国外搜索引擎分类类目不同的特点。
(4)答:除了添加搜索词外,以下一些技巧也有助于缩小搜索范围。
减除无关资料:如果要避免搜索某个词语,可以在这个词前面加上一个减号(“-”,英文字符)。但在减号之前必须留一空格。
建立索引数据库:由分析索引系统程序对收集回来的网页进行分析,提取相关信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词的位置、生成时间、大小、与其它网页链接的关系等),根据一定相关度算法进行大量复杂的计算,得到每一个网页针对页面文字中及超链接中每一个关键词的相关度(或重要性),然后利用这些相关信息建立网页索引数据库。
第三章思考与练习参考答案
1.选择题
(1)A(2)BCD(3)A(4)C(5)AC
2.判断题
(1)(×ቤተ መጻሕፍቲ ባይዱ(2)(√)(3)(×)(4)(√)(5)(×)
3.思考题
(1)答:搜索引擎的工作原理及技术可以简单表示为:从互联网上抓取网页→建立索引数据库→在索引数据库中搜索排序。
在互联网上抓取网页:搜索引擎的数据采集包括人工采集和自动采集两种方式:人工采集是指由专门的信息人员跟踪和选取有用的WWW站点或页面;自动采集是通过自动采集器(如网络机器人Robots、网络蜘蛛Web Spider、爬行者Crawler等)的软件自动跟踪并循环检索网页信息。两种方法各有利弊。
(3)答:由于语言、文化上的差异,中文搜索引擎必然会与国外的搜索引擎有所不同,主要表现在内码、分词以及分类三个方面。
内码:由于历史与政治的原因,即使是中文语言的使用,两岸三地也有较大的差别,体现在计算机处理上也有很大的不同,其中最重要的区别是采用不同的字符集及内码体系。
分词:西文单词的分隔相当清晰,用空格分隔。而中文的字词则不能简单地进行分隔,因此造成传统上就有不同的处理方法。一个是完全单汉字全文检索,即将文章中的每一个汉字都做进索引。二是根据一定的原则和方法来对文章进行自动分词,然后按词建库,对用户的检索结果按词汇匹配来进行查询。
(2)答:一个搜索引擎一般由搜索器、索引器、检索器和用户接口等四个部分组成。搜索器的功能是在互联网中漫游,发现和搜集信息;索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表;检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制;用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。
1.GOOGLE近年来为了保护产权、著作权,搜索文章不带有快照功能,即必须搜索者自己到达目的网站阅读文章,而且图片搜索功能更是把图片与目的网站直接连接起网站中已被删除或找不到的一些文章,可以用快照功能,拍下来,并突出了关键字,非常容易找到需要的内容。图片自然可以直接保存。
3.对于网站搜索的广度,当属GOOGLE,外国包括英美、阿拉伯、OGLE具备了关键词相关文章搜索地图搜索功能,对于出行者是很不错的选择。
在索引数据库中搜索排序:当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合关键词的所有相关网页。因为所有相关网页针对该关键词的相关度在索引数据库中早已算好,所以只需要按照现成的相关度数值排序,相关度越高,排名越靠前。最后,由页面生成系统将结果的链接地址和页面内容摘要等内容组织起来反馈给用户。
短语搜索:可以通过添加英文双引号来搜索短语。
指定网域:要在某个特定的域或站点中进行搜索,可以使用“site:”语句。
按类别搜索:可以根据主题来缩小搜索范围。
高级搜索:很多搜索引擎都有高级搜索功能,可以很轻松地定义搜索范围。
(5)答;上,二者各有自己的特色,图片,新闻,音乐,日常生活,桌面搜索等等都有涉及“知道”等栏目。所以,二者比较而言,Google的整体优势大于,但是的本土优势大于Google。
相关文档
最新文档