索引数据库与搜索引擎分解
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3 搜索引擎的系统结构
• 一个搜索引擎由以下五个部分组成: – 搜索器 – 索引器 – 索引数据库 – 检索器 – 用户接口
robot
索
…
www
文档库
引 器
索 引 库
检 索 器
用 户 接 口
robot
图:搜索引擎的组成和结构
3.1 搜索器
• 搜索器(Spider)俗称蜘蛛、网络机器人、爬虫 ,是一个自动收集网页的系统程序。 • 搜索器的功能是日夜不停地在互联网中漫游,搜 集信息。不光搜集各种类型的新信息,还要定期 更新已经搜集过的旧信息,以避免出现死链
HillTop算法 :
• HillTop也是一项搜索引擎结果排序的专利。 • HillTop算法的指导思想和PageRank的是 一致的,都是通过网页被链接的数量和质 量来确定搜索结果的排序权重。但HillTop 认为只计算 来自具有相同主题的相关文档 链接对于搜索者的价值会更大:即主题相 关网页之间的链接对于权重计算的贡献比 主题不相关的链接价值要更高。
4)并行爬取策略
• 并行爬取策略是针对多个并行搜索器而言 的。搜索引擎要采用一定的策略协调各个 搜索器的行为。 • 搜索器一般将Web空间按照域名、IP地址 或国家域名划分,每个搜索器负责一个子 空间的穷尽搜索。 • 搜索器的实现常用分布式、并行计算技术 ,以提高信息发现和更新的速度。
3.2 索引器
• 高权重优先:是指对搜索到的文档集合进行评级, 利用计算得到的结果从中挑选评级最高的链接作 为下一个搜索的对象。
2)重复爬取策略
• 一致策略:即以一定的频率对所有网页进 行重复爬取,不区分变更频率不同的网页 • 比率策略:即对于更新频率较高的网页, 重复爬取的频率也较高。
3)友好性策略
• 网站管理员可以通过设置网络机器人排除 协议设置网站是否允许蜘蛛爬取、可爬取 的网页范围,进而限制搜索器的爬取行为 (在ROBOT.TXT文件中进行设置,该文件 必须放在网站根目录下)。爬取行为的频 率主要有搜索引擎自身设定。
www.baigoogledu.com 一个有趣的结合,实用强大 免费有趣的搜索引擎。它将两大搜索引擎Google与Baidu 融二为一。在它们之间平均85%链接均不相同。 baigoogledu.com是一个很有创意的网站,把google 和baidu的搜索框结合成了一个可以选择的搜索框。虽然 看着有点头晕,但是让我们省了不少力气.提高了搜索效率。
// version number // URL // original URL // time of harvest // IP address // If included, the data must be compressed // data length // a blank line
XXXXXXXX XXXXXXXX …. XXXXXXXX
2000 年 11 月 11 日: Google 的联合创始人, 时任 CEO 的 拉里· 佩奇 (Larry Page, 左) 和主席谢尔盖· 布林 (Sergey Brin) 在位于山景城的 Google 总部内, 靠着懒人椅 (bean bags )
2006 年 5 月 10 日: 一名 Google 雇员踩着一架脚踏滑板车 (所有员 工均可使用), 穿越位于加州山景城的公司园区.
第八章 索引数据库与搜索引擎
1 索引数据库与索引机制 2 搜索引擎的诞生与发展
3 搜索引擎的体系结构
4 搜索引擎实例
引言
互联网信息的爆炸性增长 表层网络 • 链接相连 • 网站110,460,149
深层网络 • 数据库、动态信息 • 约为表层网络500倍
注:引自NetCraft
搜索引擎成为最重要的Web信息检索工具 全面、准确、快速
3.5 用户接口
• 用户接口的作用是输入用户查询、显示查 询结果、提供用户相关性反馈机制。 • 用户接口的设计和实现使用人机交互的理 论和方法,以充分适应人类的思维习惯。 分为简单接口和复杂接口。 • 当前,这方面研究集中在对用户信息需求 的挖掘与发现、改进用户交互方式(信息 可视化)等方面。
总结:搜索引擎工作流程
③ 相关度及重要性计算:通过关键词频率、 位置、表面特征及超链分析等因素来决定 某一个网页针对某一个关键词的重要性。
单词-文档矩阵
例1
文档集合
简单的倒排索引
带有单词频率的倒排索引
• 倒排表记录索引项在文档中 出现的位置,以便检索器计 算索引项之间的相邻或接近 关系(proximity)
带有单词频率、文档频率和出现位置信息的倒排索引
例2
正向索引
倒 排 索 引
词 位 置 倒 索 引
根据相关度算法, 索引表也可能要记录索引项在 计算出网页与关键 词的相关系数和权 文档中出现的位置,以便检索 重值
器计算索引项之间的相邻或接 近关系。
3.3 索引数据库
• 索引数据库是搜索引擎的核心,既是索引 器提供的产品,又是搜索器进行工作的基 础。 • 索引数据库由一个接口模块和四类文件构 成。四类文件是:主索引(MIF)、倒排索 引(IXF)、倒排地址表(IAL)、纯文本 文件。
4 搜索引擎实例
• 百度
案例:google
• 网址:http://www.google.com
• Google是由美国斯坦福大学的两位博士 生拉里· 佩吉和谢尔盖· 布林于1998年创 建的。 • 目前是全球最大、最专业的搜索引擎
1998 年, 当时在加州门洛帕克 (Menlo Park), 拉里· 佩奇 与 谢 尔盖· 布林 租用了这间房子的车库作为建立 Google 的据点, 每个 月 Google 要交 $1,700 (£961) 租金给房东 Susan Wojcicki.
搜集 索引 检索
• 搜集 – 累计式搜集,增量式搜集; • 索引 – 重复网页消除;关键词提取;链接分析;倒 排索引 • 检索 – 查询匹配;结果排序;文档摘要
• 从具体运行方式上说,系统根据站点/网页的URL 信息和网页之间的链接关系,利用网络蜘蛛在互 联网上收集数据;收集的数据分别通过链接信息 分析器和文本信息分析器处理,保存在链接数据 库和文本索引数据库中,同时,网页质量评估器 依据网页的链接关系和页面结构特征对页面质量 进行评估,并将评估的结果保存在索引数据库中; 查询服务器负责与用户的交互,它根据用户的检 索需求,从索引数据库中读取对应的索引,并综 合考虑查询相关性与页面质量评估结果之间的关 系,给出查询结果列表反馈给用户。
①检索范围
②检索方式
•简单检索 •高级检索
简单检索
• 逻辑“与”:两词间加空格
2 搜索引擎的诞生与发展
• • • • • • • 2.3 搜索引擎的发展趋势 个性化; 智能化; 整合化; 垂直化; 移动化; 开放化
2 搜索引擎的诞生与发展
• • • • • • • 2.3 搜索引擎的发展趋势(补充) 检索结果的后处理; 基于内容的多媒体搜索; 即时搜索,如www.google.com/instant; 与LBS结合, 如http://s.baidu.com/xian ; 基于P2P技术的搜索; 语音搜索。
主索引
词编号 1 2 3 4 词 搜索 核心 组织 信息 记录地址 10032 10089 10065 10106
倒排索引 文件的存 放位置
多级倒排索引文件
词
指向IAL的相对地址指针AP
倒排地址表
3.4 检索器
• 检索器的功能是根据用户的查询在索引库 中快速检出文档,进行文档与查询的相关 度评价,对将要输出的结果进行排序。 • 检索器的工作包括查询匹配、结果排序和 文档摘要三个部分。 • 查询结果的文档摘要主要有两种生成机制: 静态摘要和动态摘要。一般现阶段的搜索 引擎运用动态摘要生成技术。
具体算法:将某个页面的 PageRank 除以这个 页面的正向链接数,由此得到的值分别和正向链 接所指向的页面的 PageRank 相加,即得到了 被链接的页面的 PageRank。
Hits算法
• 算法对返回的匹配页面计算两种值,一种是枢纽值 (Hub Scores),另一种是权威值(Authority Scores)这两个值是相互依存、相互影响的。所 谓枢纽值,指的是页面上所有导出链接指向页面 的权威值之和。权威值指的是所有导入链接所在 的页面的枢纽值之和。
Pagerank算法
① ② ③ PageRank(网页等级):一种能够自动判断 网页重要性的技术。 基本原理: 从许多优质的网页链接过来的网页, 必定还是优质网页 决定因素: 反向链接数(数量) 反向链接源页面的Pagerank值 (质量) 反向链接源页面的链接数 (被选中的几率指标)
• 索引器的功能是理解搜索器所搜索的纯文 本信息,从中抽取出索引项(属性),生 成倒排索引文件,进而建立索引数据库。 • 倒排索引即由索引项查找相应的文档。 • 索引项有客观索引项和内容索引项
倒排索引
具体步骤
具体步骤
① 分析网页:提取正文信息并进行分词;统 计词出现的频率及位置;提取其它相关信 息,如被其他网页链接次数等; ② 建立倒排索引:形成由文档号到索引词的 正向索引;重组正向索引,建立从关键词 到文档号集合的倒排索引;
1 索引数据库与索引机制
• 搜索引擎的核心是索引数据库。索引数据 库的核心是倒排索引文件。倒排索引文件 即“由文档特征值指向文档标识”的文件
2 搜索引擎的诞生与发展
2.1 搜wk.baidu.com引擎的诞生
• 起源:FTP文件搜索(以Archie为代表) • 第一代搜索引擎:分类目录(以雅虎为代表)
• 第二代搜索引擎:关键词搜索引擎(以Google为 代表)
用户行为模式如何影响网站排名?
• 例如:说一个用户直接在Google主页搜索 某一个关键词,用户点击了第一个结果, 然后五秒钟之内点击了浏览器的返回键, 再次来到Google主页,然后又点击了第三 个结果。再过30分钟以后,这个用户才再 次回到Google主页。那么Google就可以得 出结论,第三个网站比第一个网站更能给 用户提供有用的信息。如果这种模式大量 反复,那么Google就有可能把这两个网站 的排名互换。
2 搜索引擎的诞生与发展
2.2 搜索引擎的分类
• 根据检索方式分类: 分类目录、关键词搜索引擎、混合搜索引擎 • 根据信息覆盖范围及适用用户群分类: 综合搜索引擎、专用搜索引擎(垂直搜索引擎) • 根据搜索范围分类: 独立搜索引擎、集成搜索引擎(元搜索引擎)
元搜索引擎
•
又称集合式搜索引擎。即将多个搜索引擎 集成在一起,并提供一个统一的检索界面。
搜索结果排序技术
• (1)影响结果排序的主要因素
• (2)排序算法
(1)影响结果排序的主要因素
• 内容相关度—基于相关度算法(搜索引擎 怎么评价) • 网站或网页权威度—基于链接分析(即其 它网站怎么评价) • 网站或网页的实用度—基于用户访问模式 (即用户怎么评价) ……
(2)排序算法
• 这里我们主要介绍Google的三种链接分析 算法: • PageRank算法 • HillTop算法 • Hits算法
// the followings are data part
// data end // insert a new line
网页存储格式
1)网页选取策略
• 广度优先:是指网络蜘蛛会先抓取起始网页中链 接的所有网页,然后再选择其中的一个链接网页, 继续抓取在此网页中链接的所有网页。
• 深度优先: 是指网络蜘蛛会从起始页开始,一个 链接一个链接跟踪下去,处理完这条线路之后再 转入下一个起始页,继续跟踪链接。
• 搜索器首先将文档格式过滤掉,变成纯文本文件 信息送回,然后将其放到“网页数据库”中。
该库里还记录了这些网页的URL,整个网页的 HTML代码,网页标题等等信息。
version: 1.0 url: http://www.pku.edu.cn/ origin: http://www.somewhere.cn/ date: Tue, 15 Apr 2003 08:13:06 GMT ip: 162.105.129.12 unzip-length: 30233 length: 18133