lecture20-crawling 信息检索导论 王斌 PPT 课件 第20章

合集下载

第2章--信息检索PPT课件

第2章--信息检索PPT课件

经济
文化、科学、教育、体育 语言、文字 文学 艺术 历史、地理
S
T U V X Z
农业科学
工业技术 交通运输 航空、航天 环境科学、安全科学 综合性图书
《中国图书馆分类法》
中国图书馆分类法分类表共分22个大类,再分17个 二级目录,医药卫生属于R大类。 《中图法》采用汉语拼音字母和阿拉伯数字组成的 混合制号码作类目标识,用一个字母标记一个基本
的问题;
另一方面是特定原始文献的查找,即在查找特定
的文献线索后,找出原始文献的过程。
第一节 信息检索基础
一、信息检索概念
(二)信息检索的意义和作用 信息检索 有助于知识更新 ,有助于同学们扩大视野 ,了解和把握有关学科中出现的新思想、新观点与 新知识。掌握信息检索技术是快速、准确地获取和 利用最新信息的有效途径。 信息检索有助于科学研究,了解和把握有关学科的 起源和发展过程。 有助于独立自主地解决自己在学习、生活和工作中 所遇到的疑难问题。 是接受终身教育的必要手段。 节省时间,提高效率。
第二节 信息检索语言
二、检索语言的种类
(一)分类检索语言 分类检索语言又称分类法,是用分类号(字母、数 字或它们的组合)来表达各种概念的,并将各种概 念按学科性质进行分类和系统排列的信息检索语言。 它以树状结构的形式,按知识门类的逻辑次序反映事物 的从属、派生关系,构成具有上位类和下位类隶属、同 位类并列的概念等级体系。 能较好体现概念的族性关系,从学科专业的角度检索资 料,比较方便,扩大、缩小检索范围方便。
(一)按信息检索的对象划分
数据信息检索 利用数据库、工具书等以数值或数据为对象的检 索,也称为数值检索。检索包含分子式、分子量 、公式 、图表等特定数据的信息。

信息检索 ppt 第1章 绪论

信息检索 ppt 第1章 绪论

信息需求集合
当人们为完成某一任务时,经常觉得缺少的某些知识,即信 息需求。
匹配与选择
需要一种匹配机制。 匹配机制的主要功能:能够把信息需求集合与信息资源集合 依据某种相似性标准进行比较与判断,选择出符合用户需要 的信息。
第 1章 概
1.1 1.2 1.3 1.4 1.5 1.6
述Hale Waihona Puke 信息、知识、文献 信息的特征及类型 信息检索概念和原理 信息检索类型 信息检索的主要研究问题 信息检索的发展历史
信息检索类型
按检索内容不同
文献检索
以文摘、题录、全文 为检索对象。
数据检索
以数据为检索对象
事实检索
以事实、概念、思想、 知识等非数值信息为 检索对象
文献检索
以文献(包括文摘、题录或全文)为检索对象的 一类信息查询活动。是一种相关性检索,不直接回答 用户所提的问题本身,只是提供有关的文献供参考。 典型的文献检索
二次文献
(书目文献、索引、文摘)
是以一次文献为依据加工整理而形成的信息,是对一次信息的浓缩 或有序化产物。如:目录、文摘、索引等。 特点:为查找一次文献提供线索,具有系统性、工具性特点。
三次文献
对零次文献、一次文献、二次文献进行分析研究,加工提炼和概括 综合而形成的信息。如:综述、述评、进展报告、学科年度总结等。 特点:信息量大、综合性强、系统性好。
查找某出版社2008年出版图书的信息; 查找某公司在全球哪些地区设立了分公司、分公司地址、员工 数、主要负责人等。
数据检索
是指查找用户所需特定数据的检索。可以利用专门的数据 库进行检索。例如: 我国第五次人口普查中全国汉民族的人数。
狭义的信息检索仅指信息的查找,是指从信息集

文献信息检索PPT课件

文献信息检索PPT课件

词干上前缀或后缀就可以派生出许多新的词汇。
❖ 检索词的词干后(前)加一个“?”(有的系统 为加*),表示词干后(前)可以有任意个字符。
如“apple?”可代替(apple + apples + apple-pie +
applesauce);
2021/3/9
21
❖ 由于文字结构方面的原因,中文检索系统极 少使用通配符进行截词。
2021/3/9
19
常见的位置算符如下:
位置算符
with
near
field subfiel
d link
2021/3/9
表示方法 (W)或()
(nW) (N) (nN) (F) (S)
(L)
说明 两个词在命中结果中相邻(可有空格、标点和连字 符),词序不得颠倒。 两个词之间最多可夹入n个词,词序不得颠倒。 两个词在命中结果中相邻,词序可颠倒。 两个词之间最多可夹入n个词,词序可颠倒。 两个词在同一字段出现,位置不固定。
2021/3/9
23
(五)、限制检索(检索途径)
在命令式检索中,通常要用字段代码来 限定检索的字段,不同的数据库使用的字段 代码略有不同。
2021/3/9
24
六 加权检索
❖ 是一种定量检索技术:在每个提问词后面给 定一个数值表示其重要程度,这个数值称为 权,在检索时先查找这些词在记录中是否存 在,然后计算存在的权值总和,权值之和达 到或超过给定阈值,该记录即为命中记录。
其意义为检索记录中必须同时含有检索词A和B 的文献,才算命中文献。

2021/3/9
15
3、逻辑“非”
————————————————
AB

《信息检索导论》PPT课件

《信息检索导论》PPT课件

出正确的决策。
编辑课件ppt
22
1.1 信息素养与信息检索
一、信息、信息社会与信息素养 二、信息检索教学的主要意义 三、信息检索教学的基本内容
编辑课件ppt
23
三、信息检索课程的基本内容
1、信息检索的基本知识:文献、情报、知识、信息的概念;不同文献 类型的特点;专业文献概况及主要收藏单位;情报与 Information Literacy对科学活动及个人知识增殖的作用;文献检索的意义和作用。
⑴ 信息共享实现的条件在于信息对于物质依附性的相对性,即同一信息 可以采用多种相同的或不同的物质载体及其运动形式构成。
⑵ 信息共享的基础在于信息存在的普遍性和信息价值的非对称性。信息 产品的使用价值是一个点集或面,其价值和使用价值具有非对称性; 而物质产品的使用价值在同一时刻仅为一个点,且遵循等值交换原则。
有害信息:指对社会发展和信息用户有消极和阻碍作 用的不真实或庸俗、媚俗的信息,主要有虚假信息和 色情信息等。
编辑课件ppt
21
二、信息检索教学的主要意义
1、一个平台:培养信息意识, 提高自学能力和独立研究能力。
1992年国家教委高教司在《文献检索课教学基本要求》 的通知中指出:“文献检索课是培养学生掌握利用图书 文献/情报检索,不断提高自学能力和科研能力的一门 科学方法课。”
17
1 以认识主体为依据对信息进行的划分
客观信息,是指对事物不加判断的如实 和公正的报道,即关于认识对象的信息。
主观信息,一般是依据事实和分析,阐 明个人对论题的观点和见解,是经过思 维主体加工的信息。
编辑课件ppt
18
2 以信息的生成领域对信息进行的划分
自然信息,非生命物质的自然信息,是无机界事物 属性及事物之间内在联系的表征。自然信息是融合 式的、特殊的、弥漫的。

【精品】信息检索ppt课件ppt课件

【精品】信息检索ppt课件ppt课件

• 一个原则 • 两类搜索引擎 • 三大系列中文网站 • 四次文献: 零次文献
二次文献
• 五大多媒体技术 • 十大文献信息资源
一次文献 三次文献
• 一个原则 • 两类搜索引擎 • 三大系列中文网站 • 四次文献 • 五大多媒体技术:素材下载技术 素材转换技术
多媒体制作技术 素材发布技术 网页制作和网站发布技术 • 十大文献信息资源
图、文、声、像等信息存储到介质上通过计算 机阅读。
(2)、按信息加工级别划分信息源
• 信息出版量的急剧增长,信息类型的多样化和 信息分布的离散状态,获取相关信息犹如大海 捞针。利用信息的可塑性,将信息处理为不同 等级。通常文献学上将其称为“三次文献”:
一次文献 primary document 二次文献 secondary document 三次文献 Tertiary document 零次文献 最原始的资料
5)专利文献(patent)
种 6)学位论文 nment publication)

8)标准文献(standards) 9)产品资料(product literature)
10)科技档案(scientific and technical archives)
• 1)印刷型(Printed form)(书本型)
以纸张为载体 2)缩微型(Microform) 以缩微胶片、平片等感光材料为载体 3) 声像型(Audio-Visual form)(视听材料) 以磁性和感光材料为载体 4) 电子型(Machine Readable form) 以计算机信息存储设备为载体,以数字代码将
Company
LOGO
三、网络检索的 六大方面
• 一个原则:选择合适的关键词,制定正确的检索 策略。

lecture4-indexconstruction 信息检索导论 王斌 PPT 课件 第4章

lecture4-indexconstruction 信息检索导论 王斌 PPT 课件 第4章

19
现代信息检索
Reuters RCV1语料库的统计信息
N L M 文档数目 每篇文档的词条数目 词项数目(= 词类数目) 每个词条的字节数 (含空格和标点) 每个词条的字节数 (不含空格和标点) 每个词项的字节数 无位置信息索引中的倒排记录数目 800,000 200 400,000 6 4.5 7.5 100,000,000
6
现代信息检索
基于B-树的词典查找
7
现代信息检索
基于轮排索引的通配查询处理
查询: 对 X, 查找 X$ 对X*, 查找 X*$ 对*X, 查找 X$* 对*X*, 查找 X* 对 X*Y, 查找 Y$X*
8
现代信息检索
基于k-gram索引的通配查询处理
比轮排索引空间开销要小 枚举一个词项中所有连读的k个字符构成的k-gram 。 2-gram称为二元组(bigram) 例子: from April is the cruelest month we get the bigrams: $a ap pr ri il l$ $i is s$ $t th he e$ $c cr ru ue el le es st t$ $m mo on nt h$ 同前面一样,$ 是一个特殊字符 构建一个倒排索引,此时词典部分是所有的2-gram,倒 排记录表部分是包含某个2-gram的所有词项 相当于对词项再构建一个倒排索引(二级索引)
将输入的文档集分片(split) (对应于BSBI/SPIMI算法中的块) 每个数据片都是一个文档子集
39
现代信息检索
分析器(Parser)

主节点将一个数据片分配给一台空闲的分析器 分析器一次读一篇文档然后输出 (term,docID)-对 分析器将这些对又分成j 个词项分区 每个分区按照词项首字母进行划分

《信息组织检索二》PPT课件

《信息组织检索二》PPT课件
即“在包含search 或 retrieval的文本中,不存在 sequential,但必须有algorithm这一索引项的文本”
精选PPT
33
运用逻辑优先级
❖ NOT 的优先级最高,其次是AND,最后是OR。
❖ 可以用括号改变运算顺序。
not and
精选PPT
or
34
2、截词(truncation)检索
❖ 左截词检索——又称“后方一致检索”,允许词前端有若干变化。如: 检索式“*magnetic”, 可以检索出 electromagnetic、paramagnetic等。
精选PPT
36
中间截词检索
❖ 又称“屏蔽”。允许检索词中间某个字符有变化(英 美单词拼写差异或单复数的不同等)。如:
❖ 检索式“organi?ation”, 可以检索出organization, organisation 等。
精选PPT
21
回溯法——
❖ 又称追溯法、引文法。以文献后面所附的参 考文献为线索,逐一追溯查找相关文献的方 法。该法获得文献的针对性比较强,尤其在 没有检索工具或检索工具不齐备的情况下较 实用。
精选PPT
22
循环检索法——
❖ 又称交替法、综合法。即利用回溯法和常规法交替 检索的方法。先利用检索工具查找,得出一批相关 文献,再利用回溯法按所附参考文献扩大检索线索。
精选PPT
17
❖ 近年来,信息抽取的处理对象已经扩展到图像、视 频、音频等其他媒体类型的数据。
❖ 目前的研究侧重于:利用机器学习技术增强系统的 可移植能力、探索深层理解技术、篇章分析技术、 多语言文本处理技术、Web信息抽取等。
精选PPT
18
❖ 信息抽取技术对搜索引擎、信息安全、企业智能信 息系统等许多应用领域具有相当重要的作用。

《信息检索导论》课件

《信息检索导论》课件

未来发展方向
人工智能技术在信息检索中的应用
自然语言处理、图像识别和深度学习等技术将被应 用于信息检索领域。
信息检索领域的研究热点
如可解释性、个性化推荐和区块链技术等将成为未 来信息检索研究的热点。
总结
信息检索的意义
改善人们获取信息的方式, 为人们提供更快速的信息服 务。
目前的研究状况
信息检索领域的研究涵盖了 多个方向,包括模型、算法 和应用等。
3
用户界面
提供搜索框和界面展示,最直接的与用户交互的方式。
检索性能评价
1 评价指标
如准确率、召回率、F值和MAP等,用于评估 检索系统的效果。
2 评价方法
如离线评估、在线评估和交互式评估,来评 价检索系统的性能。
检索应用
检索引擎• 谷歌搜索 • 搜索 • 必应搜索应用案例
• 企业文献管理系统 • 网络社交媒体搜索 • 学术期刊检索服务
向量空间模型
一种基本的信息检索模型,使用向量表示文档和查 询,适合大规模文本数据。
BM25模型
一种基于统计的信息检索模型,以链接分析算法为 基础,比传统检索模型更有效。
检索系统组成与工作流程
1
检索系统组成
包括爬虫、索引器、查询处理器和用户界面。 → 建立索引 → 处理查询 → 返回结果。
《信息检索导论》课件
本课件将介绍信息检索的基础概念和应用,了解信息检索的意义和未来趋势。
什么是信息检索
定义
信息检索是从大量非结构化和半结构化的数据 中获取相关信息的过程。
应用领域
信息检索被广泛应用于各种领域,如Web搜索、 数字图书馆、数字档案等。
检索模型
传统检索模型
如布尔模型、向量空间模型和概率模型,检索效果 受到诸多限制。

lecture2-dictionary 信息检索导论 王斌 PPT 课件 第2章

lecture2-dictionary 信息检索导论 王斌 PPT 课件 第2章

现代信息检索
词条归一化(Normalization)成词项
将文档和查询中的词归一化成同一形式:
U.S.A. 和 USA
归一化的结果就是词项,而词项就是我们最终要 索引的对象 可以采用隐式规则的方法来表示多个词条可以归 一成同一词项,比如
剔除句点
U.S.A., USA USA
字:李 明 天 天 都 准 时 上 班
索引量太大,查全率百分百,但是查准率低,比如查“明天” 这句话也会出来
词:李明 天天 都 准时 上班
索引量大大降低,查准率较高,查全率不是百分百,而且还会 受分词错误的影响,比如上面可能会切分成:李 明天 天都 准 时 上班,还有: 他和服务人员照相
提纲
❶ ❷ ❸
上一讲回顾 文档 词项


通常做法+非英语处理
英语


跳表指针
短语查询
17
现代信息检索
词条和词项
TOKENS AND TERMS
现代信息检索
词条化(Tokenization)
输入: ―Friends, Romans and Countrymen‖ 输出: 词条(Token)
state-of-the-art: co-education lowercase, lower-case, lower case ?
San Francisco: 到底是一个还是两个词条?
如何判断是一个词条?
现代信息检索
词条化中数字的处理
3/20/91 Mar. 12, 1991 55 B.C. B-52 PGP 密钥:324a3df234cb23e (800) 234-2333

《信息检索导论》课件2

《信息检索导论》课件2

学习网站
信息检索博客、谷歌学术、 ACM Digital Library等。
深入学习建议
参加信息检索领域的相关研 讨会和学术会议,与专家交 流并进行实践项目。
《信息检索导论》PPT课 件
欢迎来到《信息检索导论》PPT课件,本课程将介绍信息检索的基础概念、技 术和实践案例,让你深入了解该领域的关键知识和应用。
课程介绍
课程目标
掌握信息检索的基本理论和 技术,学习如何构建高效的 检索系统。
课程内容
包括信息检索的定义、流程、 模型与评价指标等重要概念。
课程安排
第一部分:信息检索基础 第二部分:信息检索技术 第三部分:实践案例分析 第四部分:进一步学习资源
信息检索基础
1 信息检索定义
信息检索是一种从大规模的信息集合中找到最相关的信息的过程。
2 信息检索流程
包括用户需求分析、查询处理、倒排索引构建和结果展示等步骤。
3 检索模型与评价指标
常用的模型包括布尔模型、向量空间模型和概率检索模型。评价指标有精确率、召回率 和F1值。
信息检索技术
文本预处理
包括分词、去除停用词和词干 提取等技术,以便更好地处理 查询和文档。
倒排索引
一种高效的索引结构,用于快 速定位包含特定词项的文档。
查询处理与展示
针对用户查询进行解析和扩展, 同时通过界面展示与查询相关 的文档。
实践案例分析
检索引擎案例
探索传统搜索引擎如Google和百 度背后的信息检索技术和算法。
社媒体搜索案例
了解如何从社交媒体平台如 Twitter和Facebook中检索有用的 信息。
电子商务搜索案例
研究电商平台如Amazon和淘宝如 何实现快速准确的商品搜索。

信息检索二Crawling

信息检索二Crawling

<href …>
<href …>
<href …>
<href …> <href …> <href …> <href …>
网页为节点 网页中的HyperLink为有向边
历史上的WWW服务器
• 因特网发展发展过中,早期以C/S模式(client-server model)为主,利用TCP/IP的通讯协议,以HTML网页来传送 数据,如下面图例所示:
表单
表单的基本语法(例子:form.html) <form action=“url” method=“post或get”> <input type=* name=**> ... <input type=submit> <input type=reset> </form> action是处理程序的程序名(包括网络路径:网址或相对路径), 如:<form action="http://XXX/counter.cgi">,当用户提 交表单时,服务器将执行网址 *=GET, POST 表单中提供给用户的输入形式 <input type=* name=**> *=text, password, checkbox, radio, image, hidden, submit, reset **=Symbolic Name for CGI script
HTTP协议
HTTP请求消息格式
请求行 方法 空格 请求头 … URL 空格 版本 回车换行符 内容 回车换行符
请求头1: 空格
请求头n: 空格 实体
内容
空行

信息检索绪论PPT资料84页

信息检索绪论PPT资料84页

期刊的特点
A、期刊以品种为单位形成知识流; B、出版周期短,内容新颖、及时、广泛,专深; C、内容不全面系统,不成熟,论题窄; D、文献中数量最多,使用量最大。
核心期刊
* 少数刊载某一学科大量高质量专业论文的期刊。 * 特点 (1)刊载专业文献密度高,信息含量高;
(2)水平较高,代表本学科的最新发展水平; (3)出版相对稳定,所载文献寿命较长; (4)利用率和被引率较高。 目前,许多单位核心期刊的判定是以 《中文核心期刊要目总览》为标准
机读型文献(电子文献)
载体:磁性材料、光盘 实例:磁盘、光盘、磁带 记录手段:磁记录、编码技术 特点:存储密度高、速度快;便 于远距离传输;易复制;成本高; 不能直接阅读。
三、按出版形式划分(十大信息源)
图 书*
按 出 版
连续出版物
期刊* 报纸*


科技报告*
的 不 同
特种文献
会议文献* 专利文献* 技术标准* 学位论文*
专利文献
专利文献主要由专利说明书构成。 所谓专利说明书是指专利申请人 向专利局递交的有关发明目的、 构成和效果的技术文件。
专利的特点
1、包括发明专利、实用新型专利和外观设计专利三种。 2、内容比较具体,有的还有附图,通过它可以了解该项
专利的主要技术内容。 3、新颖性、创造性和实用性 ,有重大参考价值。 4、经审核可向全世界发行,获取容易。
科 技 报告
科技报告的特点
科技报告是单位和
个人向上级或委托单位 撰写的关于某个课题研 究成果的正式报告。
(1)内容新颖,选题尖端实用; (2)不公开发行或少量发行; (3)质量参差不齐; (4)保密性强; (5)每份报告独立成册,有连续编号。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Introduction to Information Retrieval 中科院研究生院2011年秋季课程《现代信息检索》
更新时间: 2011/12/01
现代信息检索 Modern Information Retrieval
第20讲 信息采集 Crawling
授课人:王斌
/~wangbin
29
现代信息检索
Mercator 中的待采集URL缓冲池
30
现代信息检索
Mercator 中的待采集URL缓冲池
URL从上部流入缓冲池
31
现代信息检索
Mercator 中的待采集URL缓冲池
URL从上部流入缓冲池 前端队列(Front queue)管 理优先级
32
现代信息检索
Mercator 中的待采集URL缓冲池
但是对于Web IR系统来说,获得文档内容需要更长的时 间... . . . 这是因为存在延迟 但是这真的是系统设计中的一个难点吗?
11
现代信息检索
基本的采集过程
初始化采集URL种子队列; 重复如下过程:
从队列中取出URL 下载并分析网页 从网页中抽取更多的URL 将这些URL放到队列中
21
现代信息检索
待采集URL池
待采集URL池是一个数据结构,它存放并管理那些已经 看到但是还没有采集的URL集合 可能包含来自同一主机的不同页面 必要要避免在同一时间采集这些来自同一主机的页面 必须要保证采集线程任务饱和
22
现代信息检索
基本的采集架构
23
现代信息检索
URL 规范化(normalization)
由于Web的规模巨大,我们只能对一个小的网页子集频繁 重采
同样,这也存在一个选择或者优先级问题
14
现代信息检索
采集规模的数量级
如果要在一个月内采集20,000,000,000个页面. . . . . . 那么必须要在一秒内大概采集 8000个网页!
由于我们采集的网页可能重复、不可下载或者是作弊网页, 实际上可能需要更快的采集速度才能达到上述指标
Hale Waihona Puke 15现代信息检索采集器必须做到
礼貌性
不要高频率采集某个网站 仅仅采集robots.txt所规定的可以采集的网页
鲁棒性 能够处理采集器陷阱、重复页面、超大页面、超大网站、 动态页面等问题
16
现代信息检索
Robots.txt文件
1994年起使用的采集器协议(即规定了采集器对网站的访问 限制) 例子:
对每个抓取的页面,判断它是否已在索引当中 可以采用文档指纹或者shingle的方法判别 忽略那些已经在索引中的重复页面
25
现代信息检索
分布式采集
运行多个采集线程,这些线程可以分布在不同节点上
这些节点往往在地理上分散在不同位置
将采集的主机分配到不同节点上
26
现代信息检索
Google 数据中心(wazfaring. com)
27
现代信息检索
分布式采集器
28
现代信息检索
待采集URL池: 主要考虑两点
礼貌性: 不要非常频繁第访问某个Web服务器
比如,可以在两次服务器访问之间设置一个时间间隔
新鲜度: 对某些网站的采集频率(如新闻网站)要高于其他 网站 要实现上述功能并不容易,一个简单的优先级队列难以 成功
*改编自”An introduction to Information retrieval”网上公开的课件,地址 /IR-book/ 1
提纲

❷ ❸
上一讲回顾
一个简单的采集器 一个真实的采集器
2
提纲

❷ ❸
上一讲回顾
一个简单的采集器 一个真实的采集器
38
现代信息检索
Mercator 中的待采集URL缓冲池 : 前端队列(Front queue)
从前端队列中进行选择 由后端队列发起 选择一个前端队列来选 择下一个URL:轮询法 (Round robin)、随机法 或者更复杂的方法 但是上述选择过程倾向 于高优先级的前端队列
39
现代信息检索
User-agent: PicoSearch/1.0 Disallow: /news/information/knight/ Disallow: /nidcd/ ... Disallow: /news/research_matters/secure/ Disallow: /od/ocpl/wag/ User-agent: * Disallow: /news/information/knight/ Disallow: /nidcd/ ... Disallow: /news/research_matters/secure/ Disallow: /od/ocpl/wag/ Disallow: /ddir/ Disallow: /sdminutes/
这里有个“Web的连通性很好”的基本假设
12
现代信息检索
课堂思考题: 下列爬虫有什么问题?
urlqueue := (some carefully selected set of seed urls) while urlqueue is not empty: myurl := urlqueue.getlastanddelete() mypage := myurl.fetch() fetchedurls.add(myurl) newurls := mypage.extracturls() for myurl in newurls: if myurl not in fetchedurls and not in urlqueue: urlqueue.add(myurl) addtoinvertedindex(mypage)
5
现代信息检索
Google次高竞标价格拍卖机制
次高竞标价格拍卖: 广告商支付其维持在拍卖中排名所必须 的价钱(加上一分钱) (用它的下一名计算其支付价格) price1 × CTR1 = bid2 × CTR2 (使得排名rank1=rank2) price1 = bid2 × CTR2 / CTR1 p1 = bid2 × CTR2/CTR1 = 3.00 × 0.03/0.06 = 1.50 p2 = bid3 × CTR3/CTR2 = 1.00 × 0.08/0.03 = 2.67 p3 = bid4 × CTR4/CTR3 = 4.00 × 0.01/0.08 = 0.50
18
现代信息检索
任意一个采集器应该做到
能够进行分布式处理 支持规模的扩展:能够通过增加机器支持更高的采集速 度 优先采集高质量网页 能够持续运行:对已采集网页进行更新
19
提纲

❷ ❸
上一讲回顾
一个简单的采集器 一个真实的采集器
20
现代信息检索
待采集URL池(URL frontier)
现代信息检索
Mercator 中的待采集URL缓冲池 : 后端队列(Back queue)
抓取器与后端队列交互 方法: 重复下列操作: (i) 抽 取堆中的当前根节点 q (q 是一个后端队列) 并且 (ii) 抓取q中的头 部URL u . . . . . .直至 q 为空… (也就是说一直抓到 u为 q中最后一个URL为止)
从网页中抽取的URL有些是相对地址 比如,在网站下,我们会采集页面 aboutsite.html
该页面的绝对地址为: /aboutsite.html
在网页分析过程中,必须要将相对URL地址规范化
24
现代信息检索
内容重复判别(Content seen)
6
现代信息检索
置换和最小值:例子
文档 1: {sk} 文档2: {sk}
使用mins∈d1 π(s) = mins∈d2 π(s) 作为文档 d1 和 d2是否近似重 复的测试条件? 该例子中置换π表明: d1 ≈ d2
7
现代信息检索
例子
h(x) = x mod 5 g(x) = (2x + 1) mod 5
Mercator 中的待采集URL缓冲池 : 后端队列(Back queue)
40
现代信息检索
Mercator 中的待采集URL缓冲池 : 后端队列(Back queue)
恒定情形1: 当采集器 在运行时,每个后端队 列不为空 恒定情形2: 每个后端 队列中仅存放来自同一 主机的URL
维护一张主机到后端队 列的表
13
现代信息检索
上述简单采集器的问题
规模问题: 必须要分布式处理 我们不可能索引所有网页,必须要从中选择部分网页, 如何选择? 重复网页:必须要集成重复检测功能 作弊网页和采集器陷阱:必须要集成作弊网页检测功能 礼貌性问题: 对同一网站的访问按遵照协议规定,并 且访问的间隔必须要足够 新鲜度(freshness)问题:必须要定期更新或者重采
User-agent: * Disallow: /yoursite/temp/ User-agent: searchengine Disallow: /
采集时,要将每个站点的 robots.txt放到高速缓存中,这一点 相当重要
17
现代信息检索
Example of a robots.txt ()
43
现代信息检索
Mercator 中的待采集URL缓冲池 : 后端队列(Back queue)
一旦后端队列 q为空: 重复下列操作 (i) 从前 端队列中将一系列URL u推入并且 (ii) 将 u 加 到相应的后端队列中. . . . . . 直到得到一个u,u 的主机没有对应的后端 队列为止 然后将 u 放入 q 并为它 建立一个堆
相关文档
最新文档