去伪存真 去粗取精
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
– 页面分块模型
• 依据语料统计信息计算页面块的信息量(Lin et. al.) • 基于模板频度检测构建站点模板(Yossef et. al. Yi et. al.) • 基于页面块的绝对位置和机器学习方法计算块的重要性 (VIsion Based Page Segmentation, VIPS, MSRA)
– How Much Info 工程 – 由Intel, Microsoft, HP, EMC等公司赞助,UC Berkeley大学完成 – 2002年世界上共产生了5Exabyte的数据,其中 92%的信息存储于电子介质
• 相当于人类历史上所有说过的话语 所包含的信息量的总和
– 大部分存储于Web中,构成了Web 中超过150Billion的网络页面
问题背景:搜索引擎用户的需求
• 当前面临的存储与运算需求
– 每天处理超过2亿用户查询 – 近80亿页面索引
Data by [ Admit Singhal, Google Inc. SIGIR’05 keynote speech ]
问题背景:搜索引擎的索引能力
• 搜索引擎索引规模的竞争
Search Engine Google MSN Yahoo Ask Jeeves All the Web All the Surface Web
(先验概率定义) 先验概率定义)
P( p ∈ Target page | p has feature A) ∝ # ( p has feature A ∩ p ∈ Target page sample set ) # (Target page sample set ) # ( p has feature A) # (CORPUS )
– 从Web中有效的获取知识正在成为人们生活与 工作的必须技能
• 高科技企业员工1/3的时间用于查找资料 • 由于无法找到有效信息而浪费的产值占企业收入1/5
问题背景
• 2005出新版搜索,MSRA建立搜索研究中心 – Yahoo中国重组 – 主要门户网站Sohu, Sina, Netease, 总数(20亿)
问题背景
• 搜索引擎应当处理 (存储、评价、预处理与后处理) 所有的Web页面么?
– 数据数量已然非常庞大 – 网络环境数据质量堪忧:不可靠、Spam、过时,重复
(贝叶斯公式) 贝叶斯公式)
P( p has feature A | p ∈ Target page) P( p has feature A) = # ( p has feature A ∩ p ∈ Target page) # (Target page) # ( p has feature A) # (CORPUS )
高质量页面的查询无关特征分析
• 基于真实网络语料库进行查询目标页面 的查询无关特征分析
– 语料库
• 2005.11月采集的超过3700万中文网页 • 占用空间超过0.5 Terabyte. • 自获得
– 高质量页面采样
• 训练集: 1600页面 • 测试集: 17000页面 • 由Sogou工程师手工标注
– 我们的理解: 对于检索系统而言,页面质量的最根本评价不是由诸如页面在链 接结构图中的重要程度这样的特征来决定的。 能否满足用户获取信息的需要是页面质量评价的根本出发点。
• 研究用户需要什么,而非假设用户需要什么
页面质量评估:我们的做法
• 有可能成为用户检索目标的页面才是高质量的 • 用户需要什么?
From Danny Sullivan, SearchEngineWatch web site
问题背景:搜索引擎的索引能力
• 搜索引擎索引规模竞争的终结?
– 没有任何一个搜索引擎可以覆盖互联网上的所有资源
Google Round 1 Round 2 Round 3 Round 4 Round 5 Average 76.30% 76.09% 76.27% 76.05% 76.11% 76.16% Yahoo! 69.28% 69.29% 69.37% 69.30% 69.26% 69.32% MSN 62.03% 61.90% 61.87% 61.73% 61.96% 61.90% Teoma 57.58% 57.69% 57.70% 57.57% 57.56% 57.62%
去伪存真 去粗取精
——页面质量评估及其在网络信息检索中的应用 ——页面质量评估及其在网络信息检索中的应用
马少平 刘奕群 清华大学计算机科学与技术系 智能技术与系统国家重点实验室 2006年 2006年7月,山东,济南
去伪存真 去粗取精
• 问题背景 • 页面质量评估的相关工作概述 • 高质量页面的查询无关特征分析 • 基于学习的页面质量评估算法 • 应用展望
问题背景
• Web的发展带来了什么?
– 信息数量的急剧膨胀 – 知识的获取空前简单与繁荣
• Information is no longer a scarce resource - attention is.
(注意力,而不是信息,才是这个时代所稀缺的资源 ) (纽约时报,2005年10月16日)
• 在信息化时代,知识实际上已经不是资源,智慧才 是资源。(清华大学经管学院魏杰教授)
去伪存真去伪存真去粗取精页面质量评估及其在网络信息检索中的应用页面质量评估及其在网络信息检索中的应用去粗取精马少平马少平刘奕群清华大学计算机科学与技术系清华大学计算机科学与技术系智能技术与系统国家重点实验室智能技术与系统国家重点实验室20062006年年77月山东济南月山东济南刘奕群去伪存真去伪存真去粗取精去粗取精?问题背景?页面质量评估的相关工作概述?高质量页面的查询无关特征分析基于学?基于学习的页面质量评估算法页质量评估算法?应用展望去伪存真去伪存真去粗取精去粗取精?问题背景?页面质量评估的相关工作概述?高质量页面的查询无关特征分析基于学?基于学习的页面质量评估算法页质量评估算法?应用展望问题背景问题背景?worldwideweb的出现与发展38年13年4年1994年个人浏览器诞生到1998年用户超过5000万人问题背景问题背景?web蕴含着多少信息
• 查询无关特征能够有效地区分目标页面与普通页 面,亦即查询目标页面具有查询无关特征
去伪存真 去粗取精
• 问题背景 • 页面质量评估的相关工作概述 • 高质量页面的查询无关特征分析 • 基于学习的页面质量评估算法 • 应用展望
基于学习的页面质量评估算法
• 根据查询无关特征计算页面成为查询目标页面的 可能性,用这种可能性表示页面质量的高低 • 形式化的表述为: 具有查询无关特征A1, A2, A3, …, An的页面P成 为查询目标页面的可能性
• 入链接文本长度
高质量页面的查询无关特征分析
• 文档长度
高质量页面的查询无关特征分析
• 页面镜像个数
高质量页面的查询无关特征分析
• URL 长度/类型
高质量页面的查询无关特征分析
• 其他部分特征
普通页面 动态页面 编码非GBK 编码非GBK 是否是Hub类型 13.06% 14.04% 3.78% 查询目标页面 1.87% 1.39% 24.77%
高质量页面的查询无关特征分析
• 基于超链接结构分析的特征
– PageRank – 入链接个数 – 入链接文本长度
• 其他特征
– 文档长度/大小 – 完全镜像个数 – URL长度与类型 – 页面编码
高质量页面的查询无关特征分析
• PageRank
高质量页面的查询无关特征分析
• 入链接个数
高质量页面的查询无关特征分析
P( p ∈ Target page | p has feature A1 A2 ,..., An )
基于学习的页面质量评估算法
• 算法描述
[1] 单特征分析
P( p ∈ Target page | p has feature A) = P( p has feature A | p ∈ Target page) × P( p ∈ Target page) P( p has feature A)
问题背景
• 最早的网络搜索引擎索引系统诞生:Stanford大学, 1995 • :google前身 • Google服务器机群:1999 • Google数据中心: 2005
pictures by [ Admit Singhal, Google Inc. SIGIR’05 keynote speech ]
• 不需要,也不可能! • 利用页面质量评估定位高质量页面
• 在用户查询之前进行 • 使用查询无关特征进行 数据预处理阶段
问题背景
页面质量评估的过程应当 是查询无关完成的
去伪存真 去粗取精
• 问题背景 • 页面质量评估的相关工作概述 • 高质量页面的查询无关特征分析 • 基于学习的页面质量评估算法 • 应用展望
索引量
8.1 billion (Dec. 2004) 5.0 billion
19.2 bilion 4.2 billion (Aug. 2005) (estimate)
页面最大大小
101K 150K 500K 101K+ 605K 8K
2002.12
2.5 billion 152 billion 10 billion
– 反映在用户查询的目标页面中 – 高质量页面:可能成为用户检索目标的Web页面 – 矛盾:
• 查询目标页面是与查询相关的 • 页面质量评估是查询无关的过程必须使用查询无关特征
• 宏观上来讲,与查询相关的查询目标页面是否存在与查询 无关的特征呢?
去伪存真 去粗取精
• 问题背景 • 页面质量评估的相关工作概述 • 高质量页面的查询无关特征分析 • 基于学习的页面质量评估算法 • 应用展望
页面质量评估相关工作概述
• 微观粒度的质量评估示例(页面分块)
页面质量评估相关工作概述
• 页面质量评估的研究现状
– 微观粒度
• 具有数据挖掘方面研究的积累(数据预处理、数据清理等) • 相对比较成熟完善
– 宏观粒度
• 搜索引擎竞价排名机制的引入,带来了大量的链接垃圾 • 内容推荐和主题相关假设受到挑战 • 过多关注页面自身的特性,忽略用户的实际需求 • 只重视链接结构特征,忽略页面其他类型的查询无关特征
去伪存真 去粗取精
• 问题背景 • 页面质量评估的相关工作概述 • 高质量页面的查询无关特征分析 • 基于学习的页面质量评估算法 • 应用展望
问题背景
• World Wide Web的出现与发展
38年
13年
4年
1994年个人浏览器诞生,到 1998年用户超过5000万人
问题背景
• Web蕴含着多少信息?
– 2005年9月, Google从首页去除了页面索引数量的信 息,并解释说:“绝对的数量已经不再重要”
问题背景:搜索引擎的索引能力
• 对中文搜索引擎而言
– 搜索引擎里每天有400多万被检索的关键词 – 一般而言不重复的关键词的页面数在2页以内 – 则可以估算如下: • 用户每天使用到的被索引的页面数为2400万个左右
假设1: 假设 :(内容推荐假设)页面P(source)的作者推荐页面 P(destiny)的内容,且利用L的链接文本内容对P(destiny)进行描述。 假设2: 假设 :(主题相关假设)被超链接连接的两个页面P(source)与 P(destiny)比随机抽取的两个页面有更大的概率有内容相关性。
是我们研究的重点
页面质量评估的研究现状
• 页面质量评估应当涉及到链接关系之外的特征信息
PageRank only uses the link structure of the web to estimate page quality. It seems to us that a better estimate of the quality of a page requires additional sources of information. Monika R. Henzinger, Research Director of Google
– PageRank(Google), HITS(Kleinberg.)及众多的 改进算法
页面质量评估相关工作概述
• 微观粒度的页面质量评估
– 目的:找出对用户检索信息有用的页面的某个部分 – 去除特定垃圾信息(利用机器学习方法和一定量的训 练)
• 去除广告条(Davison et. al.) • 去除页面中的无关链接与垃圾链接(Kushmerick et. al.)
页面质量评估相关工作概述
• 按照粒度不同
– 宏观粒度的质量评估
• 去除无用页面 / 定位有用页面 • 清理“全局垃圾”
– 微观粒度的质量评估
• 去除页面中的无用部分 / 找出页面中最有用的部分 • 清理“局部垃圾”
页面质量评估相关工作概述
• 宏观粒度的页面质量评估
– 目的:找出对用户检索信息有用的页面 – 当前的研究重点:Web链接结构分析 – 如果存在超链接L从页面P(source)指向页面P(destiny), 则P(source)与P(destiny)之间满足: