搜索技术

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2010-11-12
3
搜索引擎原理和结构
3、网页搜集 两种方式:定期搜集、增量搜集 涉及的问题: a、如何保存搜集来的网页 b、多道搜集程序并行工作
注意对一个站点并发搜集线程的数目
c、避免重复网页的重复搜集
记录未访问、已访问和网页内容摘要(MD5) 域名和IP的复杂关系
2010-11-12 4
搜索引擎原理和结构
2010-11-12 24
高性能检索子系统
扩展词典的生成: 扩展词典的生成: 使用统计方法对索引文档中的未登录词进行识 别,识别出的新词(不被基本词典收录的字串) 。当然统计方法会产生相当的错误率。 检索过程中同样,需要两趟分词,对于被扩展 分词包含的基本词条直接按照扩展分词来查询。
2010-11-12
2010-11-12
30
相关排序与系统质量评估
传统的IR相关性方法中,最经典的是Gerald Salton 提出的向量空间模型。将文档和查询都简化成词汇 的集合。并通过余弦距离来计算两个向量的相近程 度。
2010-11-12
31
相关排序与系统质量评估
1、连接分析 和相关排序 PageRank:“随机冲浪”模型,用户看完一个网页 后会根据连接随机在进行浏览。
3、相邻N项查询词的偏差统计 相邻N 用户的查询不但在短时间内相差不大,具有短期 相关性,而且这个偏差比较稳定。 4、用户点击翻页的统计 被点击的页面很集中,这说明用户点击URL具有 很强的局部性。 即使不考虑查询项的不同时,用户点击URL也有 很强的局部性。
2010-11-12
28
用户行为的特征和缓存的使用
2010-11-12 7
对质量和性能的追求 二、 对质量和性能的追求
1、可扩展搜集子系统 2、网页的净化和去重 3、高性能检索子系统 4、用户行为的特征及缓存的应用 5、相关排序和系统质量评估
2010-11-12
8
可扩展搜集子系统
1、集中式搜集系统结构
2010-11-12
9
可扩展搜集子系统
该系统包括主控模块、搜集器和原始数据库 其中主控模块负责: 与网页抓取和分析进程的交互:发送配置信息, 发送URL,接受分析结果 与原始数据库的数据交互 访问控制:Robots协议,主机访问频度,IP地址 控制等 与外部系统的接口。
4、预处理 先对原始网页建立索引,有了索引就可以为搜 索提供快照功能,接下来对索引网页库进行网页 切分,每篇文档被转换为词的集合,最后将网页 到索引词的映射转化成索引词到网页的映射,形 成倒排文件。 a、关键词提取:去除html标签,并进行切词 b、重复或转载网页的消除: c、链接分析:利用文档之间的连接获得一些信息 d、网页重要程度的计算:PageRank
2010-11-12
34
相关排序与系统质量评估
2、相关排序的一种方案 对一个URL评价分为三个权值部分:
分别问链接权值,重要网站权值,和编码权值。 在整个过程中还需要考虑一些衰退和补偿,以达 到较好的效果。
2010-11-12
35
相关排序与系统质量评估
2、相关排序的一种方案 对一个查询q和网页p的相关性部分:
搜索引擎
——原理、 ——原理、技术与系统 原理
2010-11-12
1
内容提要 一.搜索引擎原理和结构 二. 对质量和性能的追求 三. 面向主题和个性化服务
2010-11-12
2
搜索引擎原理和结构
1、基本要求 可以接受的时间内返回一个和用户查询匹配 可以接受的时间 匹配 的网页信息列表 列表 2、搜索引擎的工作流程 三个步骤: 三个步骤: 网页搜集、预处理、查询服务
2010-11-12 11
可扩展搜集子系统
(2)、分布式Web搜集系统结构 (2)、分布式Web搜集系统结构 Web
2010-11-12
12
可扩展搜集子系统
(3)、协调进程的算法: (3)、协调进程的算法:
2010-11-12
13
可扩展搜集子系统
(4)、 (4)、动态可配置性的设计 三种方案: 三种方案: a. 采用散列函数动态调度URL b. 结合第一种方案,同时每个节点记录着一张 www主机表,这张表在各个节点相同,其中每一 条记录着包含一个www主机及其所对应的节点。 c. 采用逻辑上二级映射的方法。首先用散列函数 映射URL到一张逻辑表上,然后将这张表上的相 应部分映射到各个节点。
2010-11-12
21
高性能检索子系统
(2)、 (2)、索引的创建 分词得到关键词 在网页中可能有多种编码,需进行转换 由于索引比较大,是由较小的临时倒排文件, 进行多路归并产生最终的索引
2010-11-12
22
高性能Байду номын сангаас索子系统
(3)、 (3)、检索过程 用户检索时,www查询服务器多播用户查询串发 给每个索引节点,然后由索引节点独立在本机上 查询,并返回结果中排序靠前的K个给WWW查询 服务器,www服务器负责结果数据的收集、合并 、重新排序,并访问文档服务器提取摘要,输出 格式化的查询结构返回给查询用户。 对于索引提高检索效率的技术: 索引压缩,随机访问的索引组织,重要索引词单 独索引。
2010-11-12
33
相关排序与系统质量评估
2、Web查询模式下的新信息 Web查询模式下的新信息 用户行为: 用户行为: 目前的计算网页重要程度四种方式: 网页本身 信息、超链接关系、人工编辑产生的目录系统、 根据用户行为:查准率和查全率最高了 新词的产生: 新词的产生: 从用户的检索进行一定的分析和筛选处理,并对 通过筛选的词汇进行词频统计。
2010-11-12
17
网页的净化和去重
(3)、 (3)、提取模型要素 该书采用的方法相对简单,主要提取: 正文内容:topic的内容全部被作为内容 正文内容 关键词:绝对数量策略或者相对数量策略 关键词 标题:如title标签,或关键词集合中权值最高 标题 相关超链:基于anchor text 相关超链 基于分类的超链选取策略。一个hub块中 的某个超链指向的网页或本网页正文的类别。
2010-11-12
26
用户行为的特征和缓存的使用
1、用户查询词的分布 通过对选取查询次数最多前K个查询词(K为变量 )得到了80-20的分布原则 2、雷同查询词的衰减 对查询词分组,按时间进行统计,得到一组查询 的部分关键词或多或少会在随后的组中出现
2010-11-12
27
用户行为的特征和缓存的使用
2010-11-12
37
面向主体和个性化Web信息服务 面向主体和个性化Web信息服务 Web
1、中文网页自动分类技术
文档文类算法的三种类型: a、词匹配法 b、基于知识工程的方法 c、统计学习法:独立二元分类法,m元分类系统
2010-11-12
38
面向主体和个性化Web信息服务 面向主体和个性化Web信息服务 Web
分别表示网页中词项的基本权值(由基本权值然 后根据标签来计算的),链接权值以及用户评价 权值
2010-11-12 36
面向主体和个性化Web信息服务 面向主体和个性化Web信息服务 Web
三、面向主体和个性化Web信息服务 面向主体和个性化Web信息服务 Web 1、中文网页自动分类技术 2、搜索引擎个性化查询服务 3、面向主体的信息搜集与应用
2010-11-12
16
网页的净化和去重
(3)、 (3)、网页表示 抽象表示: 抽象表示:采用DOM树形式,注重内容块(规 划布局的标签),内容块按照相应的阈值可分为 topic, hub, pic三种。 量化表示: 量化表示:充分利用HTML网页中的重要信息标 签信息以及HTML网页的布局结构。对重要信息 标签中的内容加权值。如内容分析处理对象是网 页中的内容块,这样可计算内容块的特征项权值 。
2010-11-12 5
搜索引擎原理和结构
中文自动分词 a、基于字符串匹配的分词方法 正向最大匹配:错误率1/169 逆向最大匹配: 错误率1/245 最少切分 b、基于统计的分词方法: 对于识别新词比较有用
2010-11-12
6
搜索引擎原理和结构
5、查询服务 根据用户输入的查询短语,产生结果集合, 是检索倒排索引的过程。然后处理集合运算, 可采用某种排序方法先排序,然后进行集合运 算。 三个要素: 三个要素: a、查询方式和匹配 b、结果排序:相关性排序 c、文档摘要:静态摘要和动态摘要 结果列表中每个条目一般包含:题、URL、摘 要、快照等
2010-11-12
14
网页的净化和去重
(1)、 (1)、网页净化和元数据提取 噪声对于网页分类和网页信息提取,自动识别等 有很大影响 提取:早期采用人工提取模式 后来,基于5条启发式规则发现信息块边界 基于视觉相似性来自动分析网页语义结构的方法。
2010-11-12
15
网页的净化和去重
(2)、DocView模型 (2)、DocView模型 本书提出了DocView模型包括:网页标识,内 容类别,标题,关键词,摘要,正文,相关连接 等。网页被分为三类: 主体网页,Hub网页和图片 网页。
2010-11-12
18
网页的净化和去重
(3)、 (3)、网页消重算法 1998年提出了一个基于全文分段签名的方法。 但是对于大规模的搜索引擎空间和时间代价太大 。本书采用了5种网页消重算法:
2010-11-12
19
网页的净化和去重
2010-11-12
20
高性能检索子系统
(1)、 (1)、系统的结构 系统采用分布式的结构
2010-11-12
10
可扩展搜集子系统
2、利用并行处理技术高效搜集网页 1)、节点间划分URL URL的策略 (1)、节点间划分URL的策略 令URLs={URL1,URL2,…}为所要完成收集的 网页地址集合,这是一个开放和变化的集合。 HOST(URL),一个网页地址的域名部分 URL1和URL2同属于一个块当且仅当 HOST(URL1)=HOST(URL2)。 策略就是建立URLs到各个进程的映射,为了简单 只建立URLs到各抓取节点的映射。一旦映射到某 个主机则由该节点负责HOST(URLs)下的所有 网页的收集。
2、一般过程
训练过程: 训练过程:已知文档类别的情况下,统计不同类别 内的词的分布。即建立类别集合到词项集合的加 权映射关系。 分类过程: 分类过程:已知一篇文档内所包含词项分布的情况 下,和在训练中生成的每个类别的向量表示进行 对比,来确定文档的隶属类别。
2010-11-12
39
面向主体和个性化Web信息服务 面向主体和个性化Web信息服务 Web
5、查询过程的自相似性 自相似性指一组序列在很长的时间范围内表现出 结构上的相似性。可得到用户的查询具有长期的稳 定性。
2010-11-12
29
用户行为的特征和缓存的使用
6、查询缓存的使用 由用户查询的稳定性和局部性可以得到查询缓存 具有可行性。稳定性决定了缓存替换过程不会出现 颠簸现象。 查询的热点击缓存。 缓存替换策略: FIFO、LFU、LRU。 LFU实现相对复杂(需要遍历缓存衰退),LRU 和LFU效果相差小,故选择LRU。
25
用户行为的特征和缓存的使用
一般的搜索引擎会维护两类信息,web页面相关 的信息,和服务过程中收集到用户行为信息,后者 分为用户查询日志和用户点击日日志。可以利用这 些日至来分析用户行为的分布特征,可以启发我们 采用查询缓存和热点击缓存来提高系统性能。 用户的行为特征对于网页的重要程度分析同样很 重要。
3、中文网页的特殊性: 中文网页的特殊性:
a、网页中使用超文本设计,这些HTML标签可提 供一些信息 b、网页包含大量的噪声,需要去除。
2010-11-12 23
高性能检索子系统
(4)、 (4)、混合索引技术 在检索结果考虑查询此之间的短语关系或者位置 邻近关系,采用未登录词自动识别技术混合索引 技术。 思想:在索引的创建过程中,对文档两趟分词: 1、第一趟按照基本词典进行分词 2、第二趟对于基本分词结果使用扩展词典进行 分词,分词过程采用正向最大匹配算法,两次分 词的结果都作为索引词,在倒排文件的创建中都 被放入倒排索引词典。
IBM研究院Clever中的HITS技术:先选出200个搜索 结果然后扩展集合,最后计算权值,xp表权威型权值 ,yp表目录型权值。
2010-11-12
32
相关排序与系统质量评估
Google是在网页搜集告一段落以后离线进行计算, 速度快,但缺乏检索灵活性 HITS技术是即时分析运算,检索速度慢,灵活性高
相关文档
最新文档