东北大学软件工程硕士--信息检索复习题及答案
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
信息检索复习要点2010
第一讲网页采集
1.网页采集器的基本原理[简答题]
网页采集器一般称为“网路蜘蛛”,也叫网页机器人。网络蜘蛛把互联网比喻成一个蜘蛛网,那么网络蜘蛛就是在网上爬来爬去的蜘蛛。
网络蜘蛛是通过网页的链接地址来寻找网页,从一个网页开始,读取网页的内容,保存下来,找到在网页中的链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去。
2.网页采集器的设计[综合题]
3.网络运营者对网页采集器的态度是什么?[简答题]
网站数据被网页采集器采集后,进入搜索引擎数据库,可扩大网站访问量、提高网站知名度。因此,网站运营者欢迎网页采集器,并为其提供便利。
网页采集器需要大量抓取网页,不同于一般的访问,如果控制不好,则会引起网站服务器负担过重。因此,网站运营者希望网页采集器不要影响网站的正常运转,并通过各种方法于网页采集器进行交流,规范网页采集器的行为。
第二讲分析处理
4.网页分析处理的必要性[简答题]
答:分析处理帮助得到更加准确的查询结果,重复的利用时间和资源。
5.分词歧义的处理方法[简答题]
目前,对汉语分词方法的研究主要有三个方面:
1)基于规则的分词方法:这种方法又叫做机械分词方法,它是按照一定的策略将待分
析的汉字串与一个“充分大”的机器词典中的词条进行匹配,若在词典中找到某个
字符串,则匹配成功(识别出一个词)。常用的方法:最小匹配算法,正向(逆向)
最大匹配法,逐字匹配算法,神经网络法、联想一回塑法,基于N-最短路径分词算
法,以及可以相互组合。例如,可以将正向最大匹配方法和逆向最大匹配方法结合
起来构成双向匹配法等。目前机械式分词占主流地位的是正向最大匹配法和逆向最
大匹配法。
2)基于统计的分词方法:基于统计的方法是基于(两个或多个)汉字同时出现的概率,
通过对语料库(经过处理的大量领域文本的集合)中的文本进行有监督或无监督的
学习。可以获取该类文本的某些整体特征或规律。如果能够充分地利用这些统计现
象、规律。就可以构造基于语料库的统计学信息抽取算法统计的分析方法多种多样。
近来研究的热点主要集中于由随机过程发展而来的理论和方法,其中最重要的是应
用隐马尔科夫模型(HMM)进行自然语言处理的方法。隐马尔科夫模型在语音识别领域已经取得很好的成效,在信息抽取领域的应用也正在不断的尝试和推广中。3)基于理解的分词方法:又称之为知识分词。知识分词是一种理想的分词方法,但这
类分词方案的算法复杂度高,其有效性与可行性尚需在实际工作中得到进一步的验证。知识分词利用有关词、句子等的句法和语义信息或者从大量语料中找出汉字组词的结合特点来进行评价,以期找到最贴近于原句语义的分词结果。
6.分词软件的设计[综合题]
1)分词是将连续的字序列按照一定的规范重新组合成词序列的过程,中文分词与其他分词不同,比如:英文中单词之间是以空格作为自然分界符;中文只是字、句、段有明显的分界符;词没有一个形式上分界符;从字串到词串,是一个降低不确定性的过程。
2)利用找到歧义字段、建立歧义字段库解决分词歧义问题。
3)利用正向最大匹配法(流程图)、逆向最大匹配法(流程图)及最大概率分词法进行分词。
●正向最大匹配法(流程图见PPT)
●逆向最大匹配法:
1)将文章分成句子(通过标点符号来实现);
2)循环的读入每一个句子S,设句子中的字数为n;
3)设置一个最大词长度,就是我们要截取的词的最大长度max
4)从句子中取n-max 到n 的字符串subword,去字典中查找是否有这个词。如果
有就走(5),没有就走(6);
5)记住subword,从n-max 付值给n,继续执行(4),直到n=0.
6)将max-1,再执行(4)。
●最大概率分词法:列出可能的拆分结果,查表,结果大的,为最终结果。
基本细想:
1)一个待切分的汉字串可能包含多种分词结果
2)将其中概率最大的那个作为该字串的分词结果
分词算法:
1)对一个待分词的字串S,按照从左到右的顺序取出全部候选词w1,
w2 , … ,wi, … , wn ;
2)到词典中查出每个候选词的概率值P(wi) ,并记录每个候选词的全部左邻词;
3)按照公式1计算每个候选词的累计概率,同时比较得到每个候选词的最佳左邻
词;
4)如果当前词wn是字串S的尾词,且累计概率P' (wn)最大,则wn 就是S的终点
词;
5)从wn开始,按照从右到左顺序,依次将每个词的最佳左邻词输出,即为S的分
词结果。
7.计算准确率、召回率和F值[计算题]
答:准确率 P(Precision):结果中的正确样例数与结果中全部样例总数的比值。
召回率 R(Recall):结果中的正确样例数与实际存在的正确样例数的比值。
F 值:准确率和召回率的加权平均,一般用 F1。
(注意:让求的是 F1 还是 F 其它,然后带入相应的值β值。)
举例: 用户利用某信息检索系统在资料库中检索与和服相关的文章。系统返回给用户5篇文章:《日本和服简介》、《和服的穿着方法》、
《在日本试穿和服》、《新款和服特价销售》、《青岛东和服装厂简介》。已知资料库中共有40篇文章,其中有8篇与和服有关的。请计算此次检索的准确率、召回率和F1值。
答:结果中正确的样例数为:4
结果集中的总样例数为:5
P 准确率 = 4/5*100%=80%
实际存在的正确的样例数为 8
R 召回率 = 4/8*100%=50%
F1=(2*80%*50%)/(80%+50%)=(2*4/5*1/2)/(4/5+1/2)=(4/5)/(13/10)=8/13
第三讲 信息检索模型
8. 信息检索系统的基本模式[简答题]
从互联网上进行网页采集,然后将采集上来的网页进行分析处理,建立索引库,用户的查询与索引匹配,返回检索结果给用户。(最好将 PPT 上的图画出来,然后再详细解释)
9. 布尔模型的原理[简答题]
1) 布尔模型信息检索模型是最简单的信息检索模型,是基于集合理论和布尔代数
的一种简单的检索模型。
2) 文献表示为不带权重的标引词的集合。
3) 查询表示为标引词的布尔表达式,用逻辑符“and”、“or”、“not”来组织关键词表
达式。
4) 联系机制为:布尔表达式转换为集合表达式,即布尔算子and 、or 、not 替换为
交、并、补。
5) 在结果集合里的文本是相关的,其他是不相关的。
10. 利用布尔模型(集合论)的搜索引擎的实现[综合题]
布尔模型信息检索模型是最简单的信息检索模型,是基于集合理论和布尔代数的一种简单的检索模型。
文献表示为不带权重的标引词的集合;
查询表示为标引词的布尔表达式,用逻辑符“and”、“or”、“not”来组织关键词表达式。 联系机制为:布尔表达式转换为集合表达式,即布尔算子and 、or 、not 替换为交、并、补。
在结果集合里的文本是相关的,其他是不相关的