互联网数据挖掘期末考试论述题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1、
阐述互联网搜索系统的基本框架,比较当前主流中文互联网搜索系统的优缺点,并讨论如何改善现有中文搜索引擎。
简单地说,搜索引擎由抓取器、索引器、排序器、用户界面组成。抓取器从互联网上抓取网页,将垃圾网页过滤;索引器分析网页的内容,计算网页的重要度,将网页索引;用户界面接受查询语句,分析查询语句的内容;排序器从索引中检索出含有查询词的网页,实行查询语句与网页的匹配,将网页按相关度、重要度等进行排序;用户界面将排序结果展示给用户,同时收集用户搜索行为数据。
百度的优点:
1、对于中国人的阅读和浏览更为熟悉,服务更加本土化
2、提供RSS新闻订阅服务
3、提供历史和各省市新闻查阅
百度的缺点:
1、页面布局不合理页面没有充分利用
2、更新时间迅速的优势没有充分发挥
3、商业味太重,你搜索的关键字的首页基本都价排名出价高的企业占据了,很难找到你需要的真正自然搜索的结果,百度的搜索排名技术不够权威;
4、搜索结果中广告、垃圾网站和死链比较多
Google的优点:
1、容量大和范围广:其数据库如今是最大的,包括了PDF、DOC、PS及其他许多文件类型。
2、易用性较强。
3、根据站点的链接数和权威性进行相关性排序。
4、网页缓存归档,浏览过的网页被编入索引。
Google的缺点:
1、搜索特性有限,没有嵌套搜索,没有截词搜索,不支持全部的布尔逻辑检索。
2、链接搜索必须准确,而且不完整。
3、只能把网页的前101KB和PDF的大约前120KB编入索引。可能会在不告诉你的情况下,检索复数/单数、同义词和语法变体。
4、死链率比较高,中文网站检索的更新频率不够高,不能及时淘汰过时的链接。
雅虎的优点:
1、搜索引擎数据库庞大而且新颖。
2、包括页面的缓存拷贝。
3、也包括指向雅虎目录的链接。
4、支持全部的布尔逻辑检索。
雅虎的缺点:
1、缺少某些高级的搜索特性,譬如截词搜索。
2、只能把网页的前500KB(不过仍超过Google的101KB)编入索引。
3、连接搜索需要加入http://。包括有些付费才能加入的站点。
4、死链率较高而且缺少一些应有的高级搜索功能。
5、搜索结果的描述和在用户搜索过程中的提示说明也不太清晰、明了,搜索的易用性稍差。
1“百度”全球最大的中文搜索引擎,也是人们最常用的搜索引擎之一,常用于搜索网页、图片和mp3。搜索结果中广告、垃圾网站和死链比较多。
2、“Google”是功能强大,易用性最强的搜索网站,搜索速度快而且提供了最丰富的高级搜索功能。死链率比较高是Google最大的问题,中文网站检索的更新频率不够高,不能及时淘汰已经过时的链接。虽然通过“网页快照”功能,可以减少目标页面不存在的现象,但Google的“网页快照”功能在国内经常出现不可访问的问题,令用户无所适从。
3、“ 雅虎”中规中矩,网页搜索表现不错,但死链率较高而且缺少一些应有的高级搜索功能。
3.1.1增加标引的深度
目前的网络信息挖掘是基于形式的,如关键词、标题和URL等,所获得的信息与设定的要求只是简单的匹配,对于中文搜索引擎,要运用网络的数据挖掘和知识发现来分析信息的内容及其关系,增加标引的深度,以提高用户的检准率。3.1.2开发中文元搜索引擎
元搜索引擎由多个独立搜索引擎汇集而成,通常以一个统一的界面向用户开放,用户只需要进行一次提问,元搜索引擎便可将提问转给不同的搜索引擎,甚至可以对结果进一步处理,将重复结果删除后再输出。元搜索引擎的技术重心在于查询前的处理和结果的集成。元搜索引擎可以灵活选择所要采用的独立搜索引擎,一般都是选择那些比较典型的性能优异的独立搜索引擎,这种强强联合的结果保证了搜索结果的权威性和可靠性,它还可以充分发挥各个独立搜索引擎在某个搜索领域的功能,弥补独立搜索引擎信息覆盖面的局限性。
3.1.3改善检索性能
评价检索性能的指标有查全率、查准率、响应时间和检索结果输出格式等,可以从这些方面入手,有针对性地加强各个环节,改善检索性能。首先,要充分考虑各层次用户的水平,网络用户大多未经过网络检索的培训,对搜索引擎设置的各
种检索语法和规则很难理勰,因此要设计一套能充分表达用户要求但又不增加网络负载的检索语言,以提高查全率和查准率。其次,要提供多个检索点,开发概念检索、限定载体类型和文档类型等多种检索方式,以方便用户的使用。
2、
阐述智能问答系统的基本框架,并设计一个能够回答与北京大学相关问题的智能问答系统。
智能问答系统是一种处理自然语言的新型的信息检索系统。自动问答系统能够使用户以自然语言输入问题,而不是关键词的组合。而返回给用户的是简洁、准确的答案,而不是一些相关的网页。
分为问题分析,问题检索,答案抽取模块。
问题分析:抽取关键词,得到问题类型,了解问题意图。(问题分类,关键词提取,关键词扩展,中文要分词)
问题检索:根据关键词,利用搜索引擎得到相关文档或者段落。
答案抽取:根据问题类型,和检索得到的结果,从相关文档中进行答案的抽取。(查找候选答案,根据权重排序,返回最佳答案)
设计:对问题类型进行区分,设计一个常用问题集(?再添加一个曾回答过的问题集?,搜索关键词里添加北京大学?)
3、
微博的快速发展对现有互联网搜索系统带来了怎样的挑战?请设计一个微博搜索系统,描述其与现有互联网搜索系统的不同和特色之处。
一,在新闻和突发事件的时效性方面,微博的效率和传播速度远超传统媒体,比如本拉登的死,由Twitter首曝,并迅速传播到每个人。微博搜索将因此受益。二,在搜索的简便性上,微博有个潜在的优势,那就是用#标记的“话题”,比如#36氪开放日#,用户只要在微博内容中点击这个话题,就会得到搜索结果,非常方便。