搜索引擎技术基础_华中科技大学中国大学mooc课后章节答案期末考试题库2023年
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
搜索引擎技术基础_华中科技大学中国大学mooc课后章节答案期末考试题库2023年
1.搜索引擎的核心价值是
答案:
让人们最便捷地获取信息,找到所求
2.世界上第一个基于互联网的检索服务的搜索引擎是
答案:
Archie
3.全球最大的中文搜索引擎是
答案:
百度
4.Google的创始人是
答案:
拉里·佩奇(Larry Page)和谢盖尔·布林(Segey Brin)5.不属于垂直搜索引擎评价指标的是
答案:
易用性
6.关于垂直搜索,下列说法不正确的有
答案:
垂直搜索可以为搜索引擎提供补充,增加用户粘性7.以下说法正确的是
答案:
反作弊和反恶意点击是BI系统的重要组成部分
8.下面说法错误的是
答案:
现代搜索引擎往往采用静态摘要
9.下面说法错误的是
答案:
每个网页重要信息应该放在网页正中心10.向量空间模型的基本思想不包括
答案:
词频相同的词关键程度都一样
11.关于并行抓取,下面说法错误的是
答案:
并行抓取不需要额外的通信带宽来进行同步
12.关于倒排索引,下面说法错误的是
答案:
以上都不对
13.关于散列式式搜索引擎,下面说法不正确的是
答案:
对于单个索引服务器或者文档服务器的容量等动态调整简单14.关于图像的相似度计算,下面说法错误的是
答案:
根据图像的价值进行特征计算
15.下面说法错误的是
答案:
Google的Adsense广告服务是根据广告投放的时间收费
16.下面说法不正确的是
答案:
垂直搜索引擎不需要进行分词和索引工作
17.基于文本的音频(音乐)搜索不能通过音频的哪个特征进行搜索
答案:
曲调
18.面哪个属于搜索引擎的遍历算法
答案:
深度优先
19.基于内容的视频检索不涉及
答案:
视频分解
20.关于百度社区,下面说法错误的是
答案:
百度社区是一个BBS论坛
21.关于搜索引擎说法正确的是
答案:
根据一定的策略、运用特定的计算机程序搜集互联网上的信息在对信息进行组织和处理后,为用户提供检索服务的系统
它是一种网上信息检索工具,多以Web(万维网)站点形式存在22.于网络爬虫,下面说法不正确的是
答案:
分布式系统的通讯开销是影响性能的关键
由成百上千甚至成千上万台服务器组成的分布式系统
网站之间采用深度优先遍历算法,某一个网站采用广度优先遍历算法23.关于中文分词,下面说法正确的是
答案:
分词是将一句话切分成一个个的词
分词的目的是为了建立有效、准确的关键词倒排索引
正向最大匹配分词有减字匹配法(句尾减)和增字匹配法(句尾增)24.关于向量空间模型的TF-IDF算法,下面说法正确的是
答案:
词出现的文档的个数越少,该词的重要性越高,权值应越大
IDF值表示某词项在集合文档中的重要程度,一个词项出现的文档数越多,说明该词项的区分度越差,其在文档集合中的重要性就越低
F值表示某词项在某一文档中的重要程度,即TF值越大说明该词项越重要25.关于基于统计的分词方法,下面说法正确的是
答案:
对需要分词的材料进行分析,得到相应的单字出现的概率
可以结合上下文识别生词
对常见词的识别精度差,计算量大
相邻的字出现的概率,远远大于单字出现的概率之和,则有可能成为一个词26.关于百度“框计算”,下面说法正确的是
答案:
一种最简单可依赖的互联网需求交互模式
框背后的应用平台是开放的
用户只要在框中输入服务需求,系统就能明确识别这种需求,并将该需求分配给最优的应用或内容资源提供商处理,最终返回给用户相匹配的结果27.关于分布式元搜索,下面说法正确的是
答案:
主节点压力大,无法应对大规模并发、抗压能力差
扩展能力有一定限制,适合小型和中型的搜索引擎
多台服务器同时检索,带来巨大的网络通信流量
28.分布式搜索引擎需要解决的核心问题有
答案:
前端搜索服务的分布
数据处理后的分布式存储和管理
分布的信息获取、计算和数据统一
29.关于基于标签的图像搜索,下面说法正确的是
答案:
搜索时查找与查询词匹配的标签
标签需要大量人力进行标注
标签的主观性很强,容易产生歧义
30.关于聚焦爬虫,下面说法正确的是
答案:
聚焦爬虫为面向主题的用户查询准备数据资源
聚焦爬虫是一个自动下载网页的程序
31.搜索引擎的核心价值是让人们最便捷地获取信息,找到所求。
答案:
正确
32.搜索引擎的广度优先遍历算法先沿一条路径采到叶节点,再从同层其他路径
进行采集。
答案:
错误
33.减字法正向最大匹配速度太慢,无法满足搜索引擎索引的需要。
答案:
正确
34.基于统计的分词方法必须要先准备一个分词词典。
答案:
错误
35.搜索引擎由网页抓取模块、预处理模块、索引模块、检索模块和用户接口组
成。
答案:
正确
36.网页之间是通过内容关联在一起的。
答案:
错误
37.给定用户搜索词,如何从内容相关性的角度对网页进行排序是搜索引擎要解
决的关键问题。
答案:
正确
38.搜索引擎将索引和文档分开存储。
答案:
正确
39.分布式搜索引擎的节点动态调整方案原则是老数据应该少占据节点,新数据
应该多占据节点,优先检索高层的数据,没有找到则进入下一层。
答案:
正确
40.分布式元搜索引擎是按照全局倒排的方式进行分布。
答案:
错误
41.分布式元搜索引擎结构复杂,但有健壮性的优点,不会出现搜不到的情况。
答案:
错误
42.元搜索引擎无法根本解决网络流量巨大的问题,这是由元搜索引擎的本质决
定的。
答案:
正确
43.元搜索引擎的某台索引服务器崩溃,必然会有“一部分词(Term)搜不到了。
答案:
错误
44.利用词典备份可以解决散列式分布式搜索引擎的稳定性问题,但是存在数据
同步的问题。
答案:
正确
45.混合式搜索引擎兼顾了系统的健壮性,又可以使节点的激活率保持在一个较
低的水平。
答案:
正确
46.垂直搜索引擎所使用的爬虫和普通搜索引擎使用的爬虫一样。
答案:
错误
47.基于哼唱的音频(音乐)搜索的基本原理是从音频中提取音频的特征。
答案:
正确
48.基于内容的视频搜索的困难在于人的理解高级特征与机器理解的低级特征之
间存在巨大的语义鸿沟。
答案:
正确
49.百度贴吧是最大中文社区,它是由百度公司创立,为了增加用户粘性,建立
信息平台。
答案:
正确
50.Google的Adsense广告服务对点击率越高的广告,排名越靠前。
答案: 正确。