索引数据库与搜索引擎

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

例2
正向索引
倒排索引
词位置倒索引
根据相关度算法，索引表也可能要记录索引项在计算出网页与关键词的相关系数和权文档中出现的位置，以便检索重值
器计算索引项之间的相邻或接近关系。
3.3 索引数据库
• 索引数据库是搜索引擎的核心，既是索引器提供的产品，又是搜索器进行工作的基础。 • 索引数据库由一个接口模块和四类文件构成。四类文件是：主索引（MIF）、倒排索引（IXF）、倒排地址表（IAL）、纯文本文件。
搜集索引检索
• 搜集 – 累计式搜集，增量式搜集； • 索引 – 重复网页消除；关键词提取；链接分析；倒排索引 • 检索 – 查询匹配；结果排序；文档摘要
• 从具体运行方式上说，系统根据站点/网页的URL 信息和网页之间的链接关系，利用网络蜘蛛在互联网上收集数据；收集的数据分别通过链接信息分析器和文本信息分析器处理，保存在链接数据库和文本索引数据库中，同时，网页质量评估器依据网页的链接关系和页面结构特征对页面质量进行评估，并将评估的结果保存在索引数据库中；查询服务器负责与用户的交互，它根据用户的检索需求，从索引数据库中读取对应的索引，并综合考虑查询相关性与页面质量评估结果之间的关系，给出查询结果列表反馈给用户。
Pagerank算法
① ② ③ PageRank（网页等级）：一种能够自动判断网页重要性的技术。基本原理：从许多优质的网页链接过来的网页，必定还是优质网页决定因素：反向链接数（数量）反向链接源页面的Pagerank值（质量）反向链接源页面的链接数（被选中的几率指标）
具体算法：将某个页面的 PageRank 除以这个页面的正向链接数,由此得到的值分别和正向链接所指向的页面的 PageRank 相加，即得到了被链接的页面的 PageRank。
Hits算法
• 算法对返回的匹配页面计算两种值,一种是枢纽值 (Hub Scores)，另一种是权威值（Authority Scores）这两个值是相互依存、相互影响的。所谓枢纽值，指的是页面上所有导出链接指向页面的权威值之和。权威值指的是所有导入链接所在的页面的枢纽值之和。
// the followings are data part
// data end // insert a new line
网页存储格式
1）网页选取策略
• 广度优先：是指网络蜘蛛会先抓取起始网页中链接的所有网页，然后再选择其中的一个链接网页，继续抓取在此网页中链接的所有网页。
• 深度优先：是指网络蜘蛛会从起始页开始，一个链接一个链接跟踪下去，处理完这条线路之后再转入下一个起始页，继续跟踪链接。
③ 相关度及重要性计算：通过关键词频率、位置、表面特征及超链分析等因素来决定某一个网页针对某一个关键词的重要性。
单词-文档矩阵
例1
文档集合
简单的倒排索引
带有单词频率的倒排索引
• 倒排表记录索引项在文档中出现的位置，以便检索器计算索引项之间的相邻或接近关系（proximity）
带有单词频率、文档频率和出现位置信息的倒排索引
搜索结果排序技术
• （1）影响结果排序的主要因素
• （2）排序算法
（1）影响结果排序的主要因素
• 内容相关度—基于相关度算法（搜索引擎怎么评价） • 网站或网页权威度—基于链接分析（即其它网站怎么评价） • 网站或网页的实用度—基于用户访问模式（即用户怎么评价） ……
（2）排序算法
• 这里我们主要介绍Google的三种链接分析算法： • PageRank算法 • HillTop算法 • Hits算法
• 搜索器首先将文档格式过滤掉，变成纯文本文件信息送回，然后将其放到“网页数据库”中。
该库里还记录了这些网页的URL，整个网页的 HTML代码，网页标题等等信息。
version: 1.0 url: http://www.pku.edu.cn/ origin: http://www.somewhere.cn/ date: Tue, 15 Apr 2003 08:13:06 GMT ip: 162.105.129.12 unzip-length: 30233 length: 18133
// version number // URL // original URL // time of harvest // IP address // If included, the data must be compressed // data length // a blank line
XXXXXXXX XXXXXXXX …. XXXXXXXX
4 搜索引擎实例
• GOOGLE
• 百度
案例：google
• 网址：http://www.google.com
• Google是由美国斯坦福大学的两位博士生拉里· 佩吉和谢尔盖· 布林于1998年创建的。 • 目前是全球最大、最专业的搜索引擎
1998 年, 当时在加州门洛帕克 (Menlo Park), 拉里· 佩奇与谢尔盖· 布林租用了这间房子的车库作为建立 Google 的据点, 每个月 Google 要交 $1,700 (£961) 租金给房东 Susan Wojcicki.
①检索范围
②检索方式
•简单检索 •高级检索
简单检索
• 逻辑“与”：两词间加空格
用户行为模式如何影响网站排名？
• 例如：说一个用户直接在Google主页搜索某一个关键词，用户点击了第一个结果，然后五秒钟之内点击了浏览器的返回键，再次来到Google主页，然后又点击了第三个结果。再过30分钟以后，这个用户才再次回到Google主页。那么Google就可以得出结论，第三个网站比第一个网站更能给用户提供有用的信息。如果这种模式大量反复，那么Google就有可能把这两个网站的排名互换。
2 搜索引擎的诞生与发展
2.2 搜索引擎的分类
• 根据检索方式分类：分类目录、关键词搜索引擎、混合搜索引擎 • 根据信息覆盖范围及适用用户群分类：综合搜索引擎、专用搜索引擎（垂直搜索引擎） • 根据搜索范围分类：独立搜索引擎、集成搜索引擎（元搜索引擎）
元搜索引擎
•
又称集合式搜索引擎。即将多个搜索引擎集成在一起，并提供一个统一的检索界面。
1 索引数据库与索引机制
• 搜索引擎的核心是索引数据库。索引数据库的核心是倒排索引文件。倒排索引文件即“由文档特征值指向文档标识”的文件
2 搜索引擎的诞生与发展
2.1 搜索引擎的诞生
• 起源：FTP文件搜索（以Archie为代表） • 第一代搜索引擎：分类目录（以雅虎为代表）
• 第二代搜索引擎：关键词搜索引擎（以Google为代表）
www.baigoogledu.com 一个有趣的结合，实用强大免费有趣的搜索引擎。它将两大搜索引擎Google与Baidu 融二为一。在它们之间平均85％链接均不相同。 baigoogledu.com是一个很有创意的网站，把google 和baidu的搜索框结合成了一个可以选择的搜索框。虽然看着有点头晕，但是让我们省了不少力气.提高了搜索效率。
3.5 用户接口
• 用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。 • 用户接口的设计和实现使用人机交互的理论和方法，以充分适应人类的思维习惯。分为简单接口和复杂接口。 • 当前，这方面研究集中在对用户信息需求的挖掘与发现、改进用户交互方式（信息可视化）等方面。
总结：搜索引擎工作流程
• 高权重优先：是指对搜索到的文档集合进行评级，利用计算得到的结果从中挑选评级最高的链接作为下一个搜索的对象。
来自百度文库
2）重复爬取策略
• 一致策略：即以一定的频率对所有网页进行重复爬取，不区分变更频率不同的网页 • 比率策略：即对于更新频率较高的网页，重复爬取的频率也较高。
3）友好性策略
• 网站管理员可以通过设置网络机器人排除协议设置网站是否允许蜘蛛爬取、可爬取的网页范围，进而限制搜索器的爬取行为（在ROBOT.TXT文件中进行设置，该文件必须放在网站根目录下）。爬取行为的频率主要有搜索引擎自身设定。
第八章索引数据库与搜索引擎
1 索引数据库与索引机制 2 搜索引擎的诞生与发展
3 搜索引擎的体系结构
4 搜索引擎实例
引言
互联网信息的爆炸性增长表层网络 • 链接相连 • 网站110,460,149
深层网络 • 数据库、动态信息 • 约为表层网络500倍
注:引自NetCraft
搜索引擎成为最重要的Web信息检索工具全面、准确、快速
4）并行爬取策略
• 并行爬取策略是针对多个并行搜索器而言的。搜索引擎要采用一定的策略协调各个搜索器的行为。 • 搜索器一般将Web空间按照域名、IP地址或国家域名划分，每个搜索器负责一个子空间的穷尽搜索。 • 搜索器的实现常用分布式、并行计算技术，以提高信息发现和更新的速度。
3.2 索引器
主索引
词编号 1 2 3 4 词搜索核心组织信息记录地址 10032 10089 10065 10106
倒排索引文件的存放位置
多级倒排索引文件
词
指向IAL的相对地址指针AP
倒排地址表
3.4 检索器
• 检索器的功能是根据用户的查询在索引库中快速检出文档，进行文档与查询的相关度评价，对将要输出的结果进行排序。 • 检索器的工作包括查询匹配、结果排序和文档摘要三个部分。 • 查询结果的文档摘要主要有两种生成机制：静态摘要和动态摘要。一般现阶段的搜索引擎运用动态摘要生成技术。
3 搜索引擎的系统结构
• 一个搜索引擎由以下五个部分组成： – 搜索器 – 索引器 – 索引数据库 – 检索器 – 用户接口
robot
索
…
www
文档库
引器
索引库
检索器
用户接口
robot
图：搜索引擎的组成和结构
3.1 搜索器
• 搜索器（Spider）俗称蜘蛛、网络机器人、爬虫，是一个自动收集网页的系统程序。 • 搜索器的功能是日夜不停地在互联网中漫游，搜集信息。不光搜集各种类型的新信息，还要定期更新已经搜集过的旧信息，以避免出现死链
HillTop算法：
• HillTop也是一项搜索引擎结果排序的专利。 • HillTop算法的指导思想和PageRank的是一致的，都是通过网页被链接的数量和质量来确定搜索结果的排序权重。但HillTop 认为只计算来自具有相同主题的相关文档链接对于搜索者的价值会更大：即主题相关网页之间的链接对于权重计算的贡献比主题不相关的链接价值要更高。
2000 年 11 月 11 日: Google 的联合创始人, 时任 CEO 的拉里· 佩奇 (Larry Page, 左) 和主席谢尔盖· 布林 (Sergey Brin) 在位于山景城的 Google 总部内, 靠着懒人椅 (bean bags )
2006 年 5 月 10 日: 一名 Google 雇员踩着一架脚踏滑板车 (所有员工均可使用), 穿越位于加州山景城的公司园区.
2 搜索引擎的诞生与发展
• • • • • • • 2.3 搜索引擎的发展趋势个性化；智能化；整合化；垂直化；移动化；开放化
2 搜索引擎的诞生与发展
• • • • • • • 2.3 搜索引擎的发展趋势（补充）检索结果的后处理；基于内容的多媒体搜索；即时搜索，如www.google.com/instant；与LBS结合, 如http://s.baidu.com/xian ；基于P2P技术的搜索；语音搜索。
• 索引器的功能是理解搜索器所搜索的纯文本信息，从中抽取出索引项（属性），生成倒排索引文件，进而建立索引数据库。 • 倒排索引即由索引项查找相应的文档。 • 索引项有客观索引项和内容索引项
倒排索引
具体步骤
具体步骤
① 分析网页：提取正文信息并进行分词；统计词出现的频率及位置；提取其它相关信息，如被其他网页链接次数等； ② 建立倒排索引：形成由文档号到索引词的正向索引；重组正向索引，建立从关键词到文档号集合的倒排索引；