网络检索技术
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
的PageRank就是这种思路的成功体现
(3)查询服务
如上述,从一个原始网页集合S开始,预处理过程中得到的是对S的 一个子集的元素的某种内部表示,这种表示构成了查询服务的直接基 础。对每个元素来说,这种表示至少包含如下几个方面:
原始网页文档 URL和标题 编号 所含的重要关键词的集合(已经它们在文档中出现的位置信息) 其他一些指标(如重要程度,分类代码)
不同的。
由于对海量的信息进行高质量的人工分类已经不太现实,Yahoo!这 种靠人工整理网站目录取得较高精度查询结果的优势逐渐退化。
搜索引擎是一种在web上应用的软件系统,它以一定的策略在web上 搜集和发现信息,在对信息进行处理和组织后,为用户提供web信息查 询服务。
独立搜索引擎、元搜索引擎
一些著名的搜索引擎:Google, AllTheWeb, Ask Jeeves, HotBot, Lycos, WiseNut, Vivisimo, 百度,北大天网
查询方式和匹配 查询方式指的是系统允许用户提交查询的形式。用一个词或者短语来直
接表达信息需求,希望网页中含有该词或者该短语中的词,是主流的搜索引 擎查询模式。对查询式进行分词,去停用词后与索引词进行匹配。包含了查 询词的文档被认为是相关的文档。 结果排序 文档摘要
搜索引擎给出的结果是一个有序的条目列表,每个条目有三个基本的元 素:标题,网址和摘要。其中的摘要需要从网页正文中生成。
基于字符串匹配的分词方法
这种方法又称为机械分词方法,它是按照一定的策略将待分析的汉字字 串与一个充分大的词典中的词条进行匹配,若在词典中找到某个字符串, 则匹配成功(识别出一个词)。按照扫描方长度优先匹配的情况,可以分为最 大或最长匹配,和最小或最短匹配;按照是否与词性标注过程相结合,又可 以分为单纯分词方法和分词与标注相结合的一体化方法。
批量搜集:也称“定期搜集”。每过一段时间重新全面搜集网页, 替换掉上次的内容。 优点:实现简单; 缺点:时新性(freshness)差,每次搜集的时间通常会花几周,
开销比较大。 增量搜集:开始时搜集一批网页,往后只是:1)搜集新Baidu Nhomakorabea现的网页;
2)搜集发生了改变的网页;3)删除不存在的网页。 优点:时新性较高,系统开销较小; 缺点:搜集过程的系统实现比较复杂,索引的的建立也比较复杂。
1997年,最早的中文搜索引擎北大天网开始提供服务。 早期搜索引擎主要使用基于文档内容信息的匹配和排序算法,较典型的 包括布尔模型、向量空间模型、概率检索模型、模糊集合模型、扩展布 尔检索模型等。第一代搜索引擎往往以反馈结果的数量来衡量检索结果 的好坏,即“求全”
第二代搜索引擎
1998年推出的Google搜索引擎,因其采用了独特的PageRank技术, 使之很快后来居然成为当前全球最受欢迎的搜索引擎。随着Google的出 现,第二代搜索引擎诞生。
倒排索引 相关排序
搜索引擎的发展趋势
搜索引擎的工作原理
现代大规模高质量的搜索引擎一般采用三段式的工作流程, 即:网页搜集、预处理和查询服务。
(1)网页搜集
面对大量的用户查询,系统不可能每来一个查询就到网上“搜集”一 次。大规模搜索引擎服务的基础应该是一批预先搜集好的网页(直接
的或间接的)。 网页数据库维护的基本策略:
静态方式:即独立于查询,按照某种规则,事先在预处理阶段从网页内容提取出 一些文字,例如截取网页正文的开头512个字节(对应256个汉字),或者将每一个段落 的第一个句子拼起来,等等。这种方式对查询子系统来说是最轻松的,不需要做另外 的处理工作。但这种方式的一个最大的缺点是摘要和查询无关,当用户输入某个查 询,他一般是希望摘要中能够突出显示和查询直接对应的文字,希望摘要中出现和他 关心的文字相关的句子。
与生俱来的数字化和网络化给网页的复制以及转载和修改再发表带来 了便利,这种现象对于广大的网民来说是有正面意义的,因为有了更多的 信息访问机会。但对于搜索引擎来说,则主要是负面的;它不仅在搜集网页 时要消耗机器时间和网络带宽资源,而且如果在查询结果中出现,无意义
地消耗了计算机显示屏资源,也会引来用户的抱怨,“这么多重复的,给 我
技术驱动型对第三代搜索引擎这样描述:第三代搜索,是对整个网页做 一种分析和数据挖掘,不仅要找到更多的结果,而且要更加智能化、人性 化、更加精确,能够理解用户需要什么结果,然后进行聚合和整理。
服务驱动型对第三代搜索引擎的描述是:“第三代全能搜索”概念认为, 随着搜索引擎服务在互联网市场的重要性日益突出,以信息搜索为主体的 服务模式,已经显露出单一化的趋势。搜索引擎技术的发展需要在进一步 优化搜索技术的前提下,寻找更大的服务市场和更大的经济运行空间。
1993年Matthew Gray开发了world wide Web Wanderer,它是世界 上第一个利用HTML网页之间的链接关系来监测认web发展规模的“机器 人”(robot)程序。刚开始它只用来统计互联网上的服务器数量,后来则 发展为能够通过它检索网站域名。
第一代搜索引擎
1994年4月,第一个搜索引擎WebCrawler (http: //www. webcrawler. com)在美国诞生。同年5月, Lycos (http: //www. lycos. com)也在美国出 现。
倒排索引 相关排序
搜索引擎的发展趋势
索引
搜索引擎主要针对全文进行索引以及检索,所谓全文检索, 就是给定一个字符串或字符串逻辑表达式,对文档库进行相 应的检索,查找出与指定表达式相匹配的文档,并将包含这 些文字信息的文档作为检索结果返回给用户。
目前主流的全文索引模型主要有倒排索引 (Inverted index)、 署名文件(Signature Files)、位图(Bitmaps)和 Pat 数组(Pat Arrays)等。倒排索引的目前多数搜索引擎的一种全文索引模 型。
网络搜索技术
提纲
网络搜索概述 搜索引擎的工作原理和体系结构 搜索引擎的关键技术
倒排索引 相关排序
搜索引擎的发展趋势
提纲
网络搜索概述 搜索引擎的工作原理和体系结构 搜索引擎的关键技术
倒排索引 相关排序
搜索引擎的发展趋势
网络搜索概述
(1)网络搜索与传统信息检索的区别
检索对象集的规模和更新速度不同 传统的IR的对象一般是规模相对有限、内容相对稳定的馆藏;而网 络检索面对的是浩如烟海的web网页,而且网页的更新速度相当快, 也存在网页被删除的情况。
检索对象的预处理水平不一样 传统IR的检索对象是经过认真筛选和预处理的(人工选择、标引); 而网页只能通过机器进行粗略的过滤和自动索引,全文索引不能很 好的表达主题概念。
返回结果 传统的IR系统的返回结果一般数量不会太大;而网络检索的返回结 果动则上万。
并发操作 传统IR系统要同时响应的查询数量通常不会太大,但网络检索通常 要处理大量的并发操作
一个就够了”。因此,消除内容重复或主题内容重复的网页是预处理阶段 的
一个重要任务。 链接分析
HTML文档中所含的指向其他文档的链接信息是人们近几年来特别关
网页重要程度计算 为结果排序服务的,但既然是在预处理阶段形成的,就是和用户查
询无关的。“被链次数较多的网站较为重要”。作为Google创立核心技 术
中文分词原理
中文信息和英文信息有一个明显的差别:英语单词之间用 空格分隔;而在中文文本中,词与词之间没有天然的分隔符, 中文词汇大多是由两个或两个以上的汉字组成的,并且语句 是连续书写的。这就要求在对中文文本进行自动分析前,先 将整句切割成小的词汇单元,即中文分词(或中文切词)
自动分词的基本方法有: 基于字符串匹配的分词方法 基于理解的分词方法 基于统计的分词方法
(2)网页预处理
网页预处理是指从网页集合形成倒排文件的过程。主要包括四个方 面:
关键词提取 HTML文档比较随意,格式不规范,为了支持后面的查询服务,需要
从网页源文件中提取出能够代表它的内容的一些特征,即关键词。对于中
文来说,就是要根据一个词典,用一个所谓“切词软件”,从网页文字中 切
出所含的词语来。在那之后,一篇网页主要就由一组词来近似代表了, p={t1,,t2,…,tn}。 重复或转载网页的消除
搜索引擎出现只有十多年的历史,但在web上已经有了确定不移的地 位。据CNNIC统计,2009年搜索引擎服务的使用率排名第三,约为 73%。虽然它的基本工作原理己经相当稳定,但在其质量、性能和服务 方式等方面的提高空间依然很大,研究成果层出不穷,是每年WWW学 术年会的重要论题之一。
提纲
网络搜索概述 搜索引擎的工作原理和体系结构 搜索引擎的关键技术
用户检索知识和技能 网络搜索面对的用户的检索知识和技能参差不齐,而传统信息检索 的用户一般都受过相关的培训和教育。
(2)网络搜索主要有两种类型:搜索引擎、分类 目录式网络搜索
分类目录式门户网络搜索是建立在分类学基础上的,当它遇到一个网 站时,先以人工方式将该网站划分到某个分类下,再记录一些摘要信 息对该网站进行概述性的简要介绍。这样的门户依赖的是人工整理的 网站分类目录。一方面,用户可以直接沿着目录导航,定位到他所关 心的信息;另一方面,用户也可以提交查询词,让系统将他直接引导 至与该查询词最匹配的网站。
具体的搜集过程: “爬取”:将网页集合看做一个有向图,爬取程序从给定的其实 URL集合S开始,沿着网页链接,按照某种策略遍历网页集合。 让网站让网站拥有者主动向搜索引擎提交它们的网址,系统在一定 时间内(2天到数月不等)定向向那些网站派出“蜘蛛”程序,扫描 该网站的所有网页并将有关信息存入数据库中。 在第一次全面网页搜集后,系统维护相应的URL集合S,往后的搜集 直接基于这个集合。每搜到一个网页,如果它发生变化并含有新 的URL,则将它们对应的网页也抓回来,并将这些新URL也放到 集合S中;如果S中某个URL对应的网页不存在了,则将它从S中删 除。
2000年,最大的商业中文搜索引擎百度上线。 第二代搜索引擎依靠机器抓取,建立在超链分析基础之上,提高了查准 率,检索思想、方法和目标有了根本性的改变。
第三代搜索引擎
从2003来开始,致力于解决现有搜索引擎服务的问题。一个是以 Google为主的“技术驱动型”理念,还有雅虎、搜狐等;一个是
Jwmguagua (精武门呱呱)为主的“服务驱动型”理念。
动态方式:即在响应查询的时候,根据查询词在文档中的位置,提取出周围的
文字来,在显示时将查询词标亮。这是目前大多数搜索引擎采用的方式。
WWW
用 户 接 口
检 索 器
索引DB
索 引 器
原始DB
控 制 器
搜 集 器
用户行为 日志DB
日志分析器
SE的体系结构
TES系统结构
提纲
网络搜索概述 搜索引擎的工作原理和体系结构 搜索引擎的关键技术
1994年4月,斯坦福大学的两名博士生,David Filo和Gerry Yang共 同创办的Yahoo!门户网站就是典型的分类目录式网络搜索。Yahoo! 网站成功地使网络信息搜索的概念深入人心。
在很多时候,人们也称这类的网站提供的信息搜索功能为搜索引擎, 但是从技术上讲,这类门户网站提供的搜索服务与后述搜索引擎是很
目前,搜索引擎已经成为了主流的网络搜索方式。本次 报告只涉及搜索引擎中的基本原理和主要技术。
(3)搜索引擎发展历史
搜索引擎发展端倪
1990年加拿大麦吉尔大学 (universityofMcGiu)计算机学院的师生开 发了一个软件Archio,公认为是现代搜索引擎的鼻祖。为了便于人们在 分散的FTP资源中找到所需的东西,它通过定期搜集并分析FTP系统中 存在的文件名信息,提供查找分布在各个FTP主机中文件的服务。
对一个中文搜索引擎,索引创建不仅仅只是一个高效的倒排 算法,它还包含许多重要的方面:索引词的选择,中文分 词,编码识别和转换、网页净化、强健的页面分析等。
创建索引的过程包括分析网页和建立倒排索引文件。二者是 顺序进行,先分析网页,后建立倒排文件,如图所示:
(1)分析网页
分析网页过程包括提取正文信息和把正文信息切分为索引词两个阶段。 形成的结果是文档号到索引词的对应关系表——即正向索引。每条记录中 包括文档编号,索引词编号,索引词在文档中的位置信息,“索引词载体 信息”(索引词的字体和大小写等信息,是SE的服务阶段提供更好的结 果排序所需要的)。
(3)查询服务
如上述,从一个原始网页集合S开始,预处理过程中得到的是对S的 一个子集的元素的某种内部表示,这种表示构成了查询服务的直接基 础。对每个元素来说,这种表示至少包含如下几个方面:
原始网页文档 URL和标题 编号 所含的重要关键词的集合(已经它们在文档中出现的位置信息) 其他一些指标(如重要程度,分类代码)
不同的。
由于对海量的信息进行高质量的人工分类已经不太现实,Yahoo!这 种靠人工整理网站目录取得较高精度查询结果的优势逐渐退化。
搜索引擎是一种在web上应用的软件系统,它以一定的策略在web上 搜集和发现信息,在对信息进行处理和组织后,为用户提供web信息查 询服务。
独立搜索引擎、元搜索引擎
一些著名的搜索引擎:Google, AllTheWeb, Ask Jeeves, HotBot, Lycos, WiseNut, Vivisimo, 百度,北大天网
查询方式和匹配 查询方式指的是系统允许用户提交查询的形式。用一个词或者短语来直
接表达信息需求,希望网页中含有该词或者该短语中的词,是主流的搜索引 擎查询模式。对查询式进行分词,去停用词后与索引词进行匹配。包含了查 询词的文档被认为是相关的文档。 结果排序 文档摘要
搜索引擎给出的结果是一个有序的条目列表,每个条目有三个基本的元 素:标题,网址和摘要。其中的摘要需要从网页正文中生成。
基于字符串匹配的分词方法
这种方法又称为机械分词方法,它是按照一定的策略将待分析的汉字字 串与一个充分大的词典中的词条进行匹配,若在词典中找到某个字符串, 则匹配成功(识别出一个词)。按照扫描方长度优先匹配的情况,可以分为最 大或最长匹配,和最小或最短匹配;按照是否与词性标注过程相结合,又可 以分为单纯分词方法和分词与标注相结合的一体化方法。
批量搜集:也称“定期搜集”。每过一段时间重新全面搜集网页, 替换掉上次的内容。 优点:实现简单; 缺点:时新性(freshness)差,每次搜集的时间通常会花几周,
开销比较大。 增量搜集:开始时搜集一批网页,往后只是:1)搜集新Baidu Nhomakorabea现的网页;
2)搜集发生了改变的网页;3)删除不存在的网页。 优点:时新性较高,系统开销较小; 缺点:搜集过程的系统实现比较复杂,索引的的建立也比较复杂。
1997年,最早的中文搜索引擎北大天网开始提供服务。 早期搜索引擎主要使用基于文档内容信息的匹配和排序算法,较典型的 包括布尔模型、向量空间模型、概率检索模型、模糊集合模型、扩展布 尔检索模型等。第一代搜索引擎往往以反馈结果的数量来衡量检索结果 的好坏,即“求全”
第二代搜索引擎
1998年推出的Google搜索引擎,因其采用了独特的PageRank技术, 使之很快后来居然成为当前全球最受欢迎的搜索引擎。随着Google的出 现,第二代搜索引擎诞生。
倒排索引 相关排序
搜索引擎的发展趋势
搜索引擎的工作原理
现代大规模高质量的搜索引擎一般采用三段式的工作流程, 即:网页搜集、预处理和查询服务。
(1)网页搜集
面对大量的用户查询,系统不可能每来一个查询就到网上“搜集”一 次。大规模搜索引擎服务的基础应该是一批预先搜集好的网页(直接
的或间接的)。 网页数据库维护的基本策略:
静态方式:即独立于查询,按照某种规则,事先在预处理阶段从网页内容提取出 一些文字,例如截取网页正文的开头512个字节(对应256个汉字),或者将每一个段落 的第一个句子拼起来,等等。这种方式对查询子系统来说是最轻松的,不需要做另外 的处理工作。但这种方式的一个最大的缺点是摘要和查询无关,当用户输入某个查 询,他一般是希望摘要中能够突出显示和查询直接对应的文字,希望摘要中出现和他 关心的文字相关的句子。
与生俱来的数字化和网络化给网页的复制以及转载和修改再发表带来 了便利,这种现象对于广大的网民来说是有正面意义的,因为有了更多的 信息访问机会。但对于搜索引擎来说,则主要是负面的;它不仅在搜集网页 时要消耗机器时间和网络带宽资源,而且如果在查询结果中出现,无意义
地消耗了计算机显示屏资源,也会引来用户的抱怨,“这么多重复的,给 我
技术驱动型对第三代搜索引擎这样描述:第三代搜索,是对整个网页做 一种分析和数据挖掘,不仅要找到更多的结果,而且要更加智能化、人性 化、更加精确,能够理解用户需要什么结果,然后进行聚合和整理。
服务驱动型对第三代搜索引擎的描述是:“第三代全能搜索”概念认为, 随着搜索引擎服务在互联网市场的重要性日益突出,以信息搜索为主体的 服务模式,已经显露出单一化的趋势。搜索引擎技术的发展需要在进一步 优化搜索技术的前提下,寻找更大的服务市场和更大的经济运行空间。
1993年Matthew Gray开发了world wide Web Wanderer,它是世界 上第一个利用HTML网页之间的链接关系来监测认web发展规模的“机器 人”(robot)程序。刚开始它只用来统计互联网上的服务器数量,后来则 发展为能够通过它检索网站域名。
第一代搜索引擎
1994年4月,第一个搜索引擎WebCrawler (http: //www. webcrawler. com)在美国诞生。同年5月, Lycos (http: //www. lycos. com)也在美国出 现。
倒排索引 相关排序
搜索引擎的发展趋势
索引
搜索引擎主要针对全文进行索引以及检索,所谓全文检索, 就是给定一个字符串或字符串逻辑表达式,对文档库进行相 应的检索,查找出与指定表达式相匹配的文档,并将包含这 些文字信息的文档作为检索结果返回给用户。
目前主流的全文索引模型主要有倒排索引 (Inverted index)、 署名文件(Signature Files)、位图(Bitmaps)和 Pat 数组(Pat Arrays)等。倒排索引的目前多数搜索引擎的一种全文索引模 型。
网络搜索技术
提纲
网络搜索概述 搜索引擎的工作原理和体系结构 搜索引擎的关键技术
倒排索引 相关排序
搜索引擎的发展趋势
提纲
网络搜索概述 搜索引擎的工作原理和体系结构 搜索引擎的关键技术
倒排索引 相关排序
搜索引擎的发展趋势
网络搜索概述
(1)网络搜索与传统信息检索的区别
检索对象集的规模和更新速度不同 传统的IR的对象一般是规模相对有限、内容相对稳定的馆藏;而网 络检索面对的是浩如烟海的web网页,而且网页的更新速度相当快, 也存在网页被删除的情况。
检索对象的预处理水平不一样 传统IR的检索对象是经过认真筛选和预处理的(人工选择、标引); 而网页只能通过机器进行粗略的过滤和自动索引,全文索引不能很 好的表达主题概念。
返回结果 传统的IR系统的返回结果一般数量不会太大;而网络检索的返回结 果动则上万。
并发操作 传统IR系统要同时响应的查询数量通常不会太大,但网络检索通常 要处理大量的并发操作
一个就够了”。因此,消除内容重复或主题内容重复的网页是预处理阶段 的
一个重要任务。 链接分析
HTML文档中所含的指向其他文档的链接信息是人们近几年来特别关
网页重要程度计算 为结果排序服务的,但既然是在预处理阶段形成的,就是和用户查
询无关的。“被链次数较多的网站较为重要”。作为Google创立核心技 术
中文分词原理
中文信息和英文信息有一个明显的差别:英语单词之间用 空格分隔;而在中文文本中,词与词之间没有天然的分隔符, 中文词汇大多是由两个或两个以上的汉字组成的,并且语句 是连续书写的。这就要求在对中文文本进行自动分析前,先 将整句切割成小的词汇单元,即中文分词(或中文切词)
自动分词的基本方法有: 基于字符串匹配的分词方法 基于理解的分词方法 基于统计的分词方法
(2)网页预处理
网页预处理是指从网页集合形成倒排文件的过程。主要包括四个方 面:
关键词提取 HTML文档比较随意,格式不规范,为了支持后面的查询服务,需要
从网页源文件中提取出能够代表它的内容的一些特征,即关键词。对于中
文来说,就是要根据一个词典,用一个所谓“切词软件”,从网页文字中 切
出所含的词语来。在那之后,一篇网页主要就由一组词来近似代表了, p={t1,,t2,…,tn}。 重复或转载网页的消除
搜索引擎出现只有十多年的历史,但在web上已经有了确定不移的地 位。据CNNIC统计,2009年搜索引擎服务的使用率排名第三,约为 73%。虽然它的基本工作原理己经相当稳定,但在其质量、性能和服务 方式等方面的提高空间依然很大,研究成果层出不穷,是每年WWW学 术年会的重要论题之一。
提纲
网络搜索概述 搜索引擎的工作原理和体系结构 搜索引擎的关键技术
用户检索知识和技能 网络搜索面对的用户的检索知识和技能参差不齐,而传统信息检索 的用户一般都受过相关的培训和教育。
(2)网络搜索主要有两种类型:搜索引擎、分类 目录式网络搜索
分类目录式门户网络搜索是建立在分类学基础上的,当它遇到一个网 站时,先以人工方式将该网站划分到某个分类下,再记录一些摘要信 息对该网站进行概述性的简要介绍。这样的门户依赖的是人工整理的 网站分类目录。一方面,用户可以直接沿着目录导航,定位到他所关 心的信息;另一方面,用户也可以提交查询词,让系统将他直接引导 至与该查询词最匹配的网站。
具体的搜集过程: “爬取”:将网页集合看做一个有向图,爬取程序从给定的其实 URL集合S开始,沿着网页链接,按照某种策略遍历网页集合。 让网站让网站拥有者主动向搜索引擎提交它们的网址,系统在一定 时间内(2天到数月不等)定向向那些网站派出“蜘蛛”程序,扫描 该网站的所有网页并将有关信息存入数据库中。 在第一次全面网页搜集后,系统维护相应的URL集合S,往后的搜集 直接基于这个集合。每搜到一个网页,如果它发生变化并含有新 的URL,则将它们对应的网页也抓回来,并将这些新URL也放到 集合S中;如果S中某个URL对应的网页不存在了,则将它从S中删 除。
2000年,最大的商业中文搜索引擎百度上线。 第二代搜索引擎依靠机器抓取,建立在超链分析基础之上,提高了查准 率,检索思想、方法和目标有了根本性的改变。
第三代搜索引擎
从2003来开始,致力于解决现有搜索引擎服务的问题。一个是以 Google为主的“技术驱动型”理念,还有雅虎、搜狐等;一个是
Jwmguagua (精武门呱呱)为主的“服务驱动型”理念。
动态方式:即在响应查询的时候,根据查询词在文档中的位置,提取出周围的
文字来,在显示时将查询词标亮。这是目前大多数搜索引擎采用的方式。
WWW
用 户 接 口
检 索 器
索引DB
索 引 器
原始DB
控 制 器
搜 集 器
用户行为 日志DB
日志分析器
SE的体系结构
TES系统结构
提纲
网络搜索概述 搜索引擎的工作原理和体系结构 搜索引擎的关键技术
1994年4月,斯坦福大学的两名博士生,David Filo和Gerry Yang共 同创办的Yahoo!门户网站就是典型的分类目录式网络搜索。Yahoo! 网站成功地使网络信息搜索的概念深入人心。
在很多时候,人们也称这类的网站提供的信息搜索功能为搜索引擎, 但是从技术上讲,这类门户网站提供的搜索服务与后述搜索引擎是很
目前,搜索引擎已经成为了主流的网络搜索方式。本次 报告只涉及搜索引擎中的基本原理和主要技术。
(3)搜索引擎发展历史
搜索引擎发展端倪
1990年加拿大麦吉尔大学 (universityofMcGiu)计算机学院的师生开 发了一个软件Archio,公认为是现代搜索引擎的鼻祖。为了便于人们在 分散的FTP资源中找到所需的东西,它通过定期搜集并分析FTP系统中 存在的文件名信息,提供查找分布在各个FTP主机中文件的服务。
对一个中文搜索引擎,索引创建不仅仅只是一个高效的倒排 算法,它还包含许多重要的方面:索引词的选择,中文分 词,编码识别和转换、网页净化、强健的页面分析等。
创建索引的过程包括分析网页和建立倒排索引文件。二者是 顺序进行,先分析网页,后建立倒排文件,如图所示:
(1)分析网页
分析网页过程包括提取正文信息和把正文信息切分为索引词两个阶段。 形成的结果是文档号到索引词的对应关系表——即正向索引。每条记录中 包括文档编号,索引词编号,索引词在文档中的位置信息,“索引词载体 信息”(索引词的字体和大小写等信息,是SE的服务阶段提供更好的结 果排序所需要的)。