网络信息检索第二讲gcy

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

2012-5-8 8
1.搜索器（Spider） 1.搜索器（Spider）搜索器
搜索器的一般策略（两种）： ● 从一个起始url集合开始，顺着这些url中的超链（hyperlink），以宽度优先、深度优先或启发式方式循环地在互联网中发现信息。这些起始url可以是任意的url，但常常是一些非常流行、包含很多链接的站点（如 yahoo！）。 ● 将web空间按照域名、ip地址或国家域名划分，每个搜索器负责一个子空间的穷尽搜索。
2012-5-8
15
1、网络搜索引擎概述、
1.3
1.
搜索引擎的分类
全文搜索引擎（Full Text Search Engine）通过从互联网上提取的各个网站的信息（以网页文字为主）建立的数据库，检索与用户查询条件匹配的相关记录，然后按一定的排列顺序将结果返回给用户。国外具代表性的有Google、Fast/AllTheWeb、AltaVista、 Inktomi、Teoma、WiseNut等，国内著名的有百度、中文搜索、北大天网等。全文搜索引擎的优点：全文搜索、检索功能强、信息更新速度快等。缺点：提供的信息虽然多而全，但可供选择的信息太多反而降低相应的命中率，并且提供的查询结果重复链接较多，层次结构不清晰，给人一种繁多杂乱的感觉。
2012-5-8 7
1.搜索器（Spider） 1.搜索器（Spider）搜索器
搜索器的功能是在互联网中漫游，发现和搜集信息。它常常是一个计算机程序，日夜不停地运行。它要尽可能多、尽可能快地搜集各种类型的新信息，同时因为互联网上的信息更新很快，所以还要定期更新已经搜集过的旧信息，以避免死连接和无效连接。搜索器搜集的信息类型多种多样，包括html、 xml、newsgroup文章、ftp文件、字处理文档、多媒体信息。搜索器的实现常常用分布式、并行计算技术，以提高信息发现和更新的速度。商业搜索引擎的信息发现可以达到每天几百万网页。
2012-5-8 17
2012-5-8
18
2012-5-8
19
1、网络搜索引擎概述、
3. 元搜索引擎（Meta Search Engine）元搜索引擎没有自己的数据，而是将用户的查询请求同时向多个搜索引擎递交，将返回的结果进行重复排除、重新排序等处理后，作为自己的结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、 Vivisimo等，中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索结果排列方面，有的直接按来源引擎排列搜索结果，如Dogpile，有的则按自定的规则将结果重新排列组合，如Vivisimo。
2012-5-8
16
1、网络搜索引擎概述、
2. 目录索引类搜索引擎（Search Index/Directory）目录索引由人工建立，通过“人工方式”将站点进行了分类，形成信息摘要，并将信息置于事先确定的分类框架中。对该网站进行概述性的简要介绍，用户提出搜索要求时，搜索引擎只在网站的简介中搜索。国外有代表性的有Yahoo雅虎、Open Directory Project （DMOZ）、LookSmart、About等。国内有搜狐(Sohu)、中文 Yahoo、新浪(Sina)、网易搜索（NetEase）等。主要优点有：①层次、结构清晰，易于查找；②多级类目，便于查询到具体明确的主题；③内容提要、分类目录下，有简明扼要的内容，可以使用户一目了然。缺点：搜索范围较小；更新速度慢；查询交叉类目时容易遗漏。
2012-5-8 6
1、网wk.baidu.com搜索引擎概述、
Internet网
用户输入
数据库
搜索器
用户接口
Fulltext文件文件
文件
检索器
索引器
Index文件文件
图 1 搜索引擎的一般结构
一个搜索引擎由搜索器、索引器、检索器和用户接口等四个部分组成。一个搜索引擎由搜索器、索引器、检索器和用户接口等四个部分组成。
2012-5-8
9
2.索引器索引器
索引器的功能是理解搜索器所搜索的信息，从中抽取出索引项，用于表示文档以及生成文档库的索引表。索引项有客观索引项和内容索引项两种：客观项与文档的语意内容无关，如作者名、url、更新时间、编码、长度、链接流行度（link popularity）等等；内容索引项是用来反映文档内容的，如关键词及其权重、短语、单字等等。内容索引项可以分为单索引项和多索引项（或称短语索引项）两种。单索引项对于英文来讲是英语单词，比较容易提取，因为单词之间有天然的分隔符（空格）；对于中文等连续书写的语言，必须进行词语的切分。
2012-5-8
10
2.索引器索引器
在搜索引擎中，一般要给单索引项赋与一个权值，以表示该索引项对文档的区分度，同时用来计算查询结果的相关度。使用的方法一般有统计法、信息论法和概率法。短语索引项的提取方法有统计法、概率法和语言学法。索引表一般使用某种形式的倒排表（inversion list），即由索引项查找相应的文档。索引表也可能要记录索引项在文档中出现的位置，以便检索器计算索引项之间的相邻或接近关系（proximity）。索引器可以使用集中式索引算法或分布式索引算法。当数据量很大时，必须实现即时索引（instant indexing），否则不能够跟上信息量急剧增加的速度。索引算法对索引器的性能（如大规模峰值查询时的响应速度）有很大的影响。一个搜索引擎的有效性在很大程度上取决于索引的质量。
2012-5-8 13
4.用户接口用户接口
用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。主要的目的是方便用户使用搜索引擎，高效率、多方式地从搜索引擎中得到有效、及时的信息。用户接口的设计和实现使用人机交互的理论和方法，以充分适应人类的思维习惯。
2012-5-8
14
4.用户接口用户接口
2012-5-8 12
3.检索器检索器
检索器从索引中找出与用户查询请求相关的文档，采用与分析索引文档相识的方法来处理用户查询请求。如在矢量空间索引模型中，用户查询q首先被表示为一个范化矢量V(q)=(t1,w1(q); …; ti,wi(q); …; tn,wn(q))，然后按照某种方法来计算用户查询与索引数据库中每个文档之间的相关度，而相关度可以表示为查询矢量V(q)与文档矢量V(d) 之间的夹角余弦，最后将相关度大于阀值的所有文档按照相关度递减的顺序排列并返还给用户。当然搜索引擎的相关度判断并不一定与用户的需求完全吻合。
重点掌握：（1）搜索引擎的组成结构和工作原理
（2）Google、百度、北大天网的使用方法
2012-5-8
3
1、网络搜索引擎概述、
据发表在《科学》杂志1999年7月的文章《web信息的可访问性》估计，全球目前的网页超过8亿，有效数据超过9t，并且仍以每4个月翻一番的速度增长。 Internet 网上的信息量之大、范围之广、用户之多都比以往任何时候表现的突出，然而如何从如此浩瀚的信息海洋中得到所需要的信息就显得更加重要。网络搜索引擎的出现从某种程度上解决了这个问题，它是目前比较有效的网上信息获取方法。目前网上比较有影响的搜索工具中文的有：Google、北大天网、新浪(Sina)、雅虎(Yahoo)、搜狐(Sohu)、百度(Baidu) 中文搜索、3721网络实名/智能搜索、Lycos搜索引擎、中华网搜索引擎、搜星搜索引擎、北极星搜索引擎等。英文的有： yahoo、AltaVista、Excite、Infoseek、lycos、Aol等。
2012-5-8
11
3.检索器检索器
检索器的功能是根据用户的查询在索引库中快速检出文档，进行文档与查询的相关度评价，对将要输出的结果进行排序，并实现某种用户相关性反馈机制。检索器常用的信息检索模型有集合理论模型、代数模型、概率模型和混合模型四种。可以查询到文本信息中的任意字词，无论出现在标题还是正文中。
1994年初 1994年4月 1994年7月 1995年 1995年12月 1995年9月 1998年 1997年10月
2012-5-8
2000年1月
1、网络搜索引擎概述、
1.2 搜索引擎的基本结构及工作原理
搜索引擎一般的工作过程是: 首先对互联网上的网页进行搜集，然后对搜集来的网页进行预处理，建立网页索引库，实时响应用户的查询请求，并对查找到的结果按某种规则进行排序后返回给用户。搜索引擎的重要功能是能够对互联网上的文本信息提供全文检索。搜索引擎并不真正搜索互联网，它搜索的实际上是预先整理好的网页索引数据库。真正意义上的搜索引擎，通常指的是收集了因特网上几千万到几十亿个网页并对网页中的每一个词（即关键词）进行索引，建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候，所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后，这些结果将按照与搜索关键词的相关度高低，依次排列。
网络信息检索基础
（济南大学通选课）
主讲：主讲：郭春燕管理学院管理科学与工程系 E-mail:sm_gcy@163.com
第2讲网络搜索引擎 Search engine
1、网络搜索引擎概述 2、主要网络搜索引擎介绍主要网络搜索引擎介绍 3、搜索引擎的发展趋势、
自20世纪90年代后期以来，我国互联网发展迅速，尤其是进入21世纪后，网上的中文信息量暴涨，网上用户急剧增加，为了有效地从Internet 网上获得所需信息，人们的注意力逐渐转向了网络搜索引擎。本讲将对几个比较著名的搜索引擎的功能及特点和部分网上免费资源作些介绍。
这类搜索引擎服务方式为面向网页的全文检索。这类搜索引擎的优点是返回结果的信息量更大、更全，缺点是不能够充分使用所使用搜索引擎的功能，用户需要做更多的筛选。
2012-5-8 20
1、网络搜索引擎概述、
除上述三大类引擎外，还有以下几种非主流形式：
（1）集合式搜索引擎。如HotBot在2002年底推出的引擎。该引擎类似META搜索引擎，但区别在于不是同时调用多个引擎进行搜索，而是由用户从提供的4个引擎当中选择，因此叫它“集合式”搜索引擎更确切些。（2）门户搜索引擎。如AOL Search、MSN Search等虽然提供搜索服务，但自身即没有分类目录也没有网页数据库，其搜索结果完全来自其他引擎。（3）免费链接列表（Free For All Links，FFA）。这类网站一般只简单地滚动排列链接条目，少部分有简单的分类目录，不过规模比起Yahoo等目录索引来要小得多。
用户输入接口可以分为简单接口和复杂接口两种。简单接口只提供用户输入查询串的文本框；复杂接口可以让用户对查询进行限制，如逻辑运算（与、或、非；+、-）、相近关系（相邻、 near）、域名范围（如.edu、.com）、出现位置（如标题、内容）、信息时间、长度等等。目前一些公司和机构正在考虑制定查询选项的标准。
2012-5-8 4
1、网络搜索引擎概述、
1990年 1993年 Archie （FTP1） Veronica （Gopher ） Wanderer （Spide ） 1993年10月 1993年底 ALI WEB （HTTP） JumpStation 、WWW Worm 、 RBSE1HTML WebCrawler1全文 Yahoo Lycos1网页自动摘要 Metacrawler1元引擎 AltaVista1自然语言 Hotbot Google 北大天网 Baidu 百度
5
1.1 搜索引擎发展简史
搜索引擎以一定的策略在互联网中搜集、发现信息，对信息进行理解、提取、组织和处理，并为用户提供检索服务，从而起到信息导航的目的。搜索引擎提供的导航服务已经成为互联网上非常重要的网络服务，搜索引擎站点也被美誉为“网络门户”。搜索引擎技术因而成为计算机工业界和学术界争相研究、开发的对象。
2012-5-8
21
2、主要网络搜索引擎介绍、
2.1 Google
Google 是由英文单词“googol”变化而来。“googol”是美国数学家 Edward Kasner 的侄子 Milton Sirotta 创造的一个词，表示 1 后边带有 100 个零的数字。Google 使用这个词代表公司想征服网上无穷无尽资料的雄心。Google通过对 80 多亿网页进行整理， Google 为世界各地用户提供适合各自需要的搜索结果，而且搜索时间通常不到半秒。现在，Google 每天需要提供 2 亿次查询服务，几乎占了全球所有搜索量的1/3。Google是当前世界上最大、最受欢迎的搜索引擎，它提供了最便捷的网上信息查询方法。