lecture19-websearch 信息检索导论王斌 PPT 课件第19章

合集下载

第2章--信息检索PPT课件

经济
文化、科学、教育、体育语言、文字文学艺术历史、地理
S
T U V X Z
农业科学
工业技术交通运输航空、航天环境科学、安全科学综合性图书
《中国图书馆分类法》
中国图书馆分类法分类表共分22个大类，再分17个二级目录，医药卫生属于R大类。《中图法》采用汉语拼音字母和阿拉伯数字组成的混合制号码作类目标识，用一个字母标记一个基本
的问题；
另一方面是特定原始文献的查找，即在查找特定
的文献线索后，找出原始文献的过程。
第一节信息检索基础
一、信息检索概念
（二）信息检索的意义和作用信息检索有助于知识更新，有助于同学们扩大视野，了解和把握有关学科中出现的新思想、新观点与新知识。掌握信息检索技术是快速、准确地获取和利用最新信息的有效途径。信息检索有助于科学研究，了解和把握有关学科的起源和发展过程。有助于独立自主地解决自己在学习、生活和工作中所遇到的疑难问题。是接受终身教育的必要手段。节省时间，提高效率。
第二节信息检索语言
二、检索语言的种类
（一）分类检索语言分类检索语言又称分类法，是用分类号（字母、数字或它们的组合）来表达各种概念的，并将各种概念按学科性质进行分类和系统排列的信息检索语言。它以树状结构的形式，按知识门类的逻辑次序反映事物的从属、派生关系，构成具有上位类和下位类隶属、同位类并列的概念等级体系。能较好体现概念的族性关系，从学科专业的角度检索资料，比较方便，扩大、缩小检索范围方便。
（一）按信息检索的对象划分
数据信息检索利用数据库、工具书等以数值或数据为对象的检索，也称为数值检索。检索包含分子式、分子量、公式、图表等特定数据的信息。

信息检索通用教程教学课件ppt

1-3 基本方法
信息检索原理图
1-3 基本方法
2. 常用技术布尔逻辑检索（Boolean Search）截词检索（Truncation Search）限制检索（Limitation Search）位置检索（Position Search）加权检索（Weight Search）
1-3 基本方法
原理原理信息存储与检索信息存储与检索信息检索信息检索信息的存储与检索之间的相符性信息的存储与检索之间的相符性113基本方法基本方法信息检索原理图信息检索原理图113基本方法基本方法常用技术常用技术布尔逻辑检索布尔逻辑检索booleansearchbooleansearch截词检索截词检索truncationsearchtruncationsearch限制检索限制检索limitationsearchlimitationsearch位置检索位置检索positionsearchpositionsearch加权检索加权检索weightsearchweightsearch基本方法基本方法常用技术常用技术布尔逻辑检索布尔逻辑检索booleansearchbooleansearch布尔逻辑算符图示布尔逻辑算符图示逻辑与逻辑非逻辑或逻辑异检索工具方法与步骤检索工具方法与步骤选择检索工具方法与途径实施检索过程评价检索结果修正调整检索策略分析检索问题13基本方法113基本方法基本方法检索工具方法与步骤检索工具方法与步骤11分析检索课题分析检索课题22选择检索工具方法与途径选择检索工具方法与途径33实施检索过程实施检索过程44修正或调整检索策略修正或调整检索策略bb11分析检索课题分析检索课题要查找的是什么类型的问题
书目、索引、文摘等
各类字典、词典、百科全书等类书、政书、年鉴、手册、名录、表谱、图录等丛书、总集、资料汇编、综述、方志等

信息检索技术讲授版(PPT共 78张)

a、分析课题，确定检索词及词间关系 b、选择适当的检索工具达） d、根据快捷显示，选出有用信息并下载。 e、原文的索取
c、选择词汇检索途径，在对话框内输入检索词（注
其他检索途径
1、题名检索
包括书名、刊名、篇名和其他信息的标题等
2、作者 3、机构 4、号码
分类号、报告号、登记号、专利号、ISBN、ISSN 记录
引文法又可分为两种，一种是由远及近地搜寻，即价值的论文后进一步查找该论文被哪些其它文献引用解后人对该论文的评论、是否有人对此作过进一步研果如何、最新的进展怎样等等。由远及近地追寻，越研究也就越深入，但这种查法主要依靠专门的引文索学引文索引》、《社会科学引文索引》。
另一种较为普遍的查法是由近及远地追溯，这样由十变百地获取更多相关文献，直到满足要求为止。合于历史研究或对背景资料的查询，其缺点是越查材溯得到的文献与现在的研究专题越来越疏远。因此，综述、评论和质量较高的专著作为起点，它们所附的选严格，有时还附有评论。
图书馆图书标识：索书号
图书馆同一分类号的文献数量很多，为了区别相同类号的分类号的基础上，又给了一个区分符号，这个符号称之为书次次号与分类号一起共同构成索书号。浙江传媒学院图书馆的文按照索书号的顺序排架管理的，书次号使用的是著者号，同样数字标明。。中文书索书号如：
G254.97/Q097=2
有的中文数据库用“*”来代替AND,就象下面的这个例子。当
如：学生 * 互联网
（2)逻辑“或”：用“OR”或“+”表示
在检索中，你也可以用逻辑“或”（OR）连接关键词索式（A OR B ）可以检索到包含A或者B或者A和B同现的文献。OR最好用于针对一个概念的同义词检索。然，使用OR可以扩大检索范围。

2019信息检索课件第6章

? </~scholzcr/eval.html>
? University of California, Los Angeles, College Library, Thinking Critically about World Wide Web Resources
? </libraries/college/instruct/web/critical.htm>
? 信息数量庞杂而无序
导致网络信息分布范围广、网络信息的类型多样、信息污染严重
? 信息的不稳定性强
网络的动态性、内容可靠性降低
? 网络安全存在隐患
计算机病毒的破坏
2020/3/26
4
据第25次中国互联网络发展状况统计报告（2019.1 ）显示，绝大多数网络信息来自商业网站，来自教育、科研、政府机构的网络信息仅占总量的1.9%
2020/3/26
5
网络炒作增加网络信息的不真实性
2020/3/26
6
6.2 网络信息选择与评价的客体
? 对网站的选择与评价（IT）
? Website
? 定量为主
? 存在作弊行为
? 对网络信息内容的评价 (LIS)
? Information on the web ? 定性为主，辅之以定量 ? 不易操作
2020/3/26
LOGO
图书馆参考咨询部 2019.7
第六章网络信息的选择与评价
2020/3/26
22
目录
6.1网络信息选择与评价的必要性 6.2网络信息选择与评价的客体 6.3网络信息选择与评价的主体 6.4网络信息选择与评价的标准 6.5各类型网络信息的评价
2020/3/26
3

《信息检索导论》PPT课件

出正确的决策。
编辑课件ppt
22
1.1 信息素养与信息检索
一、信息、信息社会与信息素养二、信息检索教学的主要意义三、信息检索教学的基本内容
编辑课件ppt
23
三、信息检索课程的基本内容
1、信息检索的基本知识：文献、情报、知识、信息的概念；不同文献类型的特点；专业文献概况及主要收藏单位；情报与 Information Literacy对科学活动及个人知识增殖的作用；文献检索的意义和作用。
⑴ 信息共享实现的条件在于信息对于物质依附性的相对性，即同一信息可以采用多种相同的或不同的物质载体及其运动形式构成。
⑵ 信息共享的基础在于信息存在的普遍性和信息价值的非对称性。信息产品的使用价值是一个点集或面，其价值和使用价值具有非对称性；而物质产品的使用价值在同一时刻仅为一个点，且遵循等值交换原则。
有害信息：指对社会发展和信息用户有消极和阻碍作用的不真实或庸俗、媚俗的信息，主要有虚假信息和色情信息等。
编辑课件ppt
21
二、信息检索教学的主要意义
1、一个平台：培养信息意识，提高自学能力和独立研究能力。
1992年国家教委高教司在《文献检索课教学基本要求》的通知中指出：“文献检索课是培养学生掌握利用图书文献/情报检索，不断提高自学能力和科研能力的一门科学方法课。”
17
1 以认识主体为依据对信息进行的划分
客观信息，是指对事物不加判断的如实和公正的报道，即关于认识对象的信息。
主观信息，一般是依据事实和分析，阐明个人对论题的观点和见解，是经过思维主体加工的信息。
编辑课件ppt
18
2 以信息的生成领域对信息进行的划分
自然信息，非生命物质的自然信息，是无机界事物属性及事物之间内在联系的表征。自然信息是融合式的、特殊的、弥漫的。

信息检索课件第4章

3 词干处理
将单词转化为其词干形式，以匹配更多的相关文档。
常见的信息检索算法
1
TF-IDF
基于词频和文档频率计算匹配的相关程度。
2
PageRank
评估网页的重要性，通过链接分析产生排名。
3
BM25
改进的TF-IDF，解决了词频过度调整的问题。
布尔检索模型及其优缺点
优点
• 简单 • 可靠 • 易于理解
PageRank
通过网页之间的链接关系来确定网页的重要性和排名。
HITS
通过分析网页的链接和内容，确定网页和链接的权重和重要性。
BM25F
结合文档的内容和链接关系，综合计算关键词匹配的重要性和文档的相关性。
搜索引擎的优化技巧
1 关键词研究
2 网页结构优化
3 用户体验优化
依据用户需求和搜索习惯，调整关键词的数量和选择，提高匹配准确性和页面排名。
信息检索系统的组成
服务器端
负责索引存储的数据和响应用户请求。
客户端
提供用户接口，用于输入查询、展现搜索结果和相应操作。
数据存储
存储检索所需的数据，包括文本、图像和视频等。
信息检索中的数据预处理
1 分词
将文档和查询分成单独的词或短语，提高匹配的召回率。
2 去除停用词
去除出现频率高但信息含量低的词，例如“a”和“the”等。
调整页面结构和元素标记，提高网页质量和展现效果，提高页面自然排名。
提高页面响应速度，提供简洁明了的内容和导航，提高用户留存率和转化率。
信息检索中的未来发展趋势与关键技术
未来发展趋势
人工智能和自然语言处理将推动信息检索领域的快速发展。

《信息检索导论》课件2

学习网站
信息检索博客、谷歌学术、 ACM Digital Library等。
深入学习建议
参加信息检索领域的相关研讨会和学术会议，与专家交流并进行实践项目。
《信息检索导论》PPT课件
欢迎来到《信息检索导论》PPT课件，本课程将介绍信息检索的基础概念、技术和实践案例，让你深入了解该领域的关键知识和应用。
课程介绍
课程目标
掌握信息检索的基本理论和技术，学习如何构建高效的检索系统。
课程内容
包括信息检索的定义、流程、模型与评价指标等重要概念。
课程安排
第一部分：信息检索基础第二部分：信息检索技术第三部分：实践案例分析第四部分：进一步学习资源
信息检索基础
1 信息检索定义
信息检索是一种从大规模的信息集合中找到最相关的信息的过程。
2 信息检索流程
包括用户需求分析、查询处理、倒排索引构建和结果展示等步骤。
3 检索模型与评价指标
常用的模型包括布尔模型、向量空间模型和概率检索模型。评价指标有精确率、召回率和F1值。
信息检索技术
文本预处理
包括分词、去除停用词和词干提取等技术，以便更好地处理查询和文档。
倒排索引
一种高效的索引结构，用于快速定位包含特定词项的文档。
查询处理与展示
针对用户查询进行解析和扩展，同时通过界面展示与查询相关的文档。
实践案例分析
检索引擎案例
探索传统搜索引擎如Google和百度背后的信息检索技术和算法。
社媒体搜索案例
了解如何从社交媒体平台如 Twitter和Facebook中检索有用的信息。
电子商务搜索案例
研究电商平台如Amazon和淘宝如何实现快速准确的商品搜索。

《网络信息检索》课件

常见的网络信息检索工具和平台
搜索引擎著名的搜索引擎包括、谷歌、必应，它们提供全面的互联网信息检索服务。
学术搜索引擎学术搜索引擎如Google学术、学术专注于学术文献和科研成果的检索。
社交媒体搜索
社交媒体搜索工具如Twitter搜索和微博热搜，用于搜索和分析社交媒体上的内容。
专业数据库
专业数据库如PubMed和IEEE Xplore，提供特定领域的学术文献和专业信息。
在线搜索引擎的基本原理和功能
在线搜索引擎通过抓取和索引互联网上的网页，提供用户快速、准确的检索功能。
如何使用在线搜索引擎进行检索
使用关键词、引号、加号、减号等搜索运算符，可以帮助用户更精确地进行在线搜索。
1
起源
网络信息检索起源于20世纪60年代的计算机科学研究，随着互联网的发展逐渐成为重要的领域。
2
现状
今天，网络信息检索已经成为人们获取知识、解决问题、进行研究的重要途径，搜索引擎已经成为人们生活中不可或缺的工具之一。
3
未来
随着技术的不断进步，网络信息检索将继续发展，面临着更多的挑战和机遇。
网络信息检索的应用场景
2 索引构建和优化
信息检索模型用于表示和处理文本数据，包括向量空间模型和概率模型等。
索引是快速检索信息的关键组件，优化索引结构和存储方式可以提高检索效率。
Байду номын сангаас
3 查询扩展和推荐
4 语义分析和自然语言处理
通过查询扩展和推荐算法，提供更准确、丰富的搜索结果，帮助用户满足信息需求。
利用语义分析和自然语言处理技术，提高搜索结果的准确性，理解用户的查询意图。
搜索引擎的高级查询技巧
高级查询技巧如限定范围、排除结果、使用通配符和搜索语法等，可以提高搜索效果和准确性。

信息检索绪论PPT资料84页

期刊的特点
A、期刊以品种为单位形成知识流； B、出版周期短，内容新颖、及时、广泛，专深； C、内容不全面系统，不成熟，论题窄； D、文献中数量最多，使用量最大。
核心期刊
* 少数刊载某一学科大量高质量专业论文的期刊。 * 特点（1）刊载专业文献密度高，信息含量高；
（2）水平较高，代表本学科的最新发展水平；（3）出版相对稳定，所载文献寿命较长；（4）利用率和被引率较高。目前，许多单位核心期刊的判定是以《中文核心期刊要目总览》为标准
机读型文献（电子文献）
载体：磁性材料、光盘实例：磁盘、光盘、磁带记录手段：磁记录、编码技术特点：存储密度高、速度快;便于远距离传输；易复制;成本高；不能直接阅读。
三、按出版形式划分(十大信息源)
图书*
按出版
连续出版物
期刊* 报纸*
形
式
科技报告*
的不同
特种文献
会议文献* 专利文献* 技术标准* 学位论文*
专利文献
专利文献主要由专利说明书构成。所谓专利说明书是指专利申请人向专利局递交的有关发明目的、构成和效果的技术文件。
专利的特点
1、包括发明专利、实用新型专利和外观设计专利三种。 2、内容比较具体，有的还有附图，通过它可以了解该项
专利的主要技术内容。 3、新颖性、创造性和实用性，有重大参考价值。 4、经审核可向全世界发行，获取容易。
科技报告
科技报告的特点
科技报告是单位和
个人向上级或委托单位撰写的关于某个课题研究成果的正式报告。
（1）内容新颖，选题尖端实用；（2）不公开发行或少量发行；（3）质量参差不齐；（4）保密性强；（5）每份报告独立成册，有连续编号。

文献信息检索ppt讲课文档

AB
用符号“or”或“+”表示，其逻辑表达式为： A or B 或 A+B
其意义为检索记录中凡含有检索词A或检索词B，或同时含有检索词A和B的，均为命中文献。
例：
第十五页，共47页。
2、逻辑“与”
————————————————
AB
用符号“and”或“*”表示，其逻辑表达式为： A * B 或 A and B
第十三页，共47页。
第三节计算机信息检索技术
（一）逻辑运算符 ❖ 逻辑运算符又称布尔算符，是用来表达各检
索词之间的逻辑关系的符号。 ❖ 逻辑运算符有“与”、“或”、“非”三种
，分别用“and” 、“or”、 “not”来表示，也可以用 “*” “+” “-”来表示。
第十四页，共47页。
1、逻辑“或”——————— ——————————
文献信息检索ppt
第一页，共47页。
ห้องสมุดไป่ตู้
第一节文献信息检索技术
（一）检索方式
1、命令式检索：用逻辑运算符、位置算符及其他检索符号，把不同的检
索词连接起来进行检索的一个种方式，如数据库中的专业检索。适用于专业人员。
2、菜单式检索：一种通过窗口菜单进行检索的简单、易操作的检索方
式。现各数据库的高级检索、初级检索都属于菜单式检索，是最常用的检索方式，适用于一般读者检索。 3、导航检索：点击检索界面上的超链接进行检索，也叫超链接检索。
两个词在同一子字段出现，位置不固定。
两个词在同一规范词单元内出现，位置不固定。
第二十一页，共47页。
（三）、通配符（截词检索）
截词检索，就是将截词符如“*”、“？” 等等，放在检索词中检索者认为合适的地方截断，用截断的词的一个局部进行检索，并认为凡满足这个词局部中的所有字符(串)的文献，都为命中文献。多用于外文

《信息检索导论》课件

未来发展方向
人工智能技术在信息检索中的应用
自然语言处理、图像识别和深度学习等技术将被应用于信息检索领域。
信息检索领域的研究热点
如可解释性、个性化推荐和区块链技术等将成为未来信息检索研究的热点。
总结
信息检索的意义
改善人们获取信息的方式，为人们提供更快速的信息服务。
目前的研究状况
信息检索领域的研究涵盖了多个方向，包括模型、算法和应用等。
3
用户界面
提供搜索框和界面展示，最直接的与用户交互的方式。
检索性能评价
1 评价指标
如准确率、召回率、F值和MAP等，用于评估检索系统的效果。
2 评价方法
如离线评估、在线评估和交互式评估，来评价检索系统的性能。
检索应用
检索引擎• 谷歌搜索 • 搜索 • 必应搜索应用案例
• 企业文献管理系统 • 网络社交媒体搜索 • 学术期刊检索服务
向量空间模型
一种基本的信息检索模型，使用向量表示文档和查询，适合大规模文本数据。
BM25模型
一种基于统计的信息检索模型，以链接分析算法为基础，比传统检索模型更有效。
检索系统组成与工作流程
1
检索系统组成
包括爬虫、索引器、查询处理器和用户界面。 → 建立索引 → 处理查询 → 返回结果。
《信息检索导论》课件
本课件将介绍信息检索的基础概念和应用，了解信息检索的意义和未来趋势。
什么是信息检索
定义
信息检索是从大量非结构化和半结构化的数据中获取相关信息的过程。
应用领域
信息检索被广泛应用于各种领域，如Web搜索、数字图书馆、数字档案等。
检索模型
传统检索模型
如布尔模型、向量空间模型和概率模型，检索效果受到诸多限制。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

18
现代信息检索
广告是否会影响编辑的内容？
在报纸、电视上存在类似问题
报纸一般不会刊登针对其主要广告商的严厉指责性质的文章在报纸和TV上，广告和编辑内容之间的界限往往变得很模糊现在还不清楚搜索引擎广告是否和上面一样
19
现代信息检索
广告在右部如何排序？
20
现代信息检索
如何对广告排序？
如果没人看为什么要发布内容？如果没有任何回报为什么要发布内容？
Web上必须要有人买单
服务器、Web基础设施、内容创建过程等需要费用支持这些费用的大部分都是通过搜索广告支付
可以说，搜索为Web买单
11
现代信息检索
兴趣聚合(Interest aggregation)
Web的特点：具有相同兴趣的人，即使所处地理位置分散，也可以通过Web找到对方
25
现代信息检索
具有高投标价格的关键词
参考/highest-paying-search-terms/
$69.1 $65.9 $62.6 $61.4 $59.4 $59.4 $46.4 $40.1 $39.8 $39.2 $38.7 $38.0 $37.0 $35.9 mesothelioma treatment options personal injury lawyer michigan student loans consolidation car accident attorney los angeles online car insurance quotes arizona dui lawyer asbestos cancer home equity line of credit life insurance quotes refinancing equity line of credit lasik eye surgery new york city 2nd mortgage free car insurance quote
28
现代信息检索
并非三赢: 关键词套现(Keyword arbitrage)
比如从Google买一个关键词然后将流量导向一个第三方页面，该页面对应机构付的钱将比你付给Google的多得多
比如，重定向到一个满是广告的页面
该页面对于搜索用户来说基本没意义广告作弊者一直在钻营想招搜索引擎必须要要花时间对付他们
6
现代信息检索
本讲内容
互联网发展趋势分析互联网广告
重复检测
7
提纲
❶ ❷ ❸
上一讲回顾互联网发展趋势互联网广告
❹
重复检测
8
现代信息检索
Web搜索系统组成
9
现代信息检索
搜索是Web上使用最多的应用之一
10
现代信息检索
没有搜索引擎，Web甚至无法运转
没有搜索，很难找到所需的内容 → 没有搜索，在Web上创建内容也就缺了动机
患有血友病的小学生们将R5R5语言翻译成可便携C语言的人们 (开源项目和社区 )
搜索引擎是实现兴趣聚合的关键事物
12
现代信息检索
Web IR vs. 一般的IR
在Web上，搜索不仅仅是一个好的特点
搜索是Web的关键事物: . . .
. . . 筹资、内容创建、兴趣聚合等等
❹
重复检测
3
现代信息检索
SVD分解的例子C = UΣVT : 所有的四个矩阵
4
现代信息检索
将空间维度降为 2
实际上，我们只需将矩阵Σ中相应的维度置为0 即可。此时，相当于矩阵U 和V T 的相应维度被忽略，然后计算 C2 = UΣ2V T .
5
现代信息检索
为什么新的低维空间更好？
在原始空间中， d2 和d3的相似度为0；但是在新空间下， d2 和 d3的相似度为： 0.52 * 0.28 + 0.36 * 0.16 + 0.72 * 0.36 + 0.12 * 0.20 + - 0.39 * 0.08 ≈ 0.52
一个常用的计算两个集合重合度的方法令 A 和 B 分别表示两个集合 Jaccard距离:
现代信息检索
Google AdsWords 的例子
23
现代信息检索
Google次高竞标价格拍卖机制
bid: 每个广告商为每次点击给出的最大投标价格 CTR: 点击率，即一旦被显示后被点击的比率。CTR是一种相关性度量指标。 ad rank: bid × CTR: 这种做法可以在 (i) 广告商愿意支付的价钱 (ii) 广告的相关度高低之间进行平衡。 rank: 拍卖中的排名 paid: 广告商的次高竞标价格
15
现代信息检索
第一代搜索广告: Goto (1996)
Buddy Blake 为此搜索投出最高价 ($0.38) 只要某个人点击了该链接，Buddy Blake就要付$0.38的费用给 Goto 公司搜索结果按照投标价格的顺序排序 – Goto可以获得最大的收益不区分广告还是文档，仅仅是一个结果列表！广告预售，坦诚公开，没有相关度排序 . . . 但是Goto并不假装存在相关度 16
对每条广告压榨出一分钱也就意味着为搜索引擎公司带来上亿的额外收益
21
现代信息检索
如何对广告排序？
简单的方法: 按照类似Goto的方式，即按照投标价格排序不好的方法: 可能会被滥用例如： query [does my husband cheat?] → 有关离婚律师的广告我们并不像得到相关性上无关的广告替代方法：按照投标价格和相关性排序相关度度量的关键指标：点击率(clickthrough rate) clickthrough rate = CTR = clicks per impressions 结果：无关的广告将得到很低的排名即使在短期时间内降低了搜索引擎的收益希望：如果用户能通过系统获得有价值的信息，那么系统的总体接受程度和整体收益将最大化其他排序因子：位置、一天内的时间、着陆页(landing page) 的质量和装载速度 22 最主要的排序因子：查询
30
提纲
❶ ❷ ❸
上一讲回顾互联网发展趋势互联网广告
❹
重复检测
31
现代信息检索
重复检测
Web上充斥重复内容相对其它文档集合，Web上的重复内容更多完全重复(Exact duplicate)
易剔除，比如采用哈希/指纹的方法
近似重复(Near-duplicate)
Web上存在大量近似重复很难剔除
26
现代信息检索
搜索广告: 三赢？
每次用户点击广告，搜索引擎公司将会获得收益用户只会点击其感兴趣的广告
搜索引擎会对误导性和不相关的广告进行惩罚于是，用户在点击广告后往往会感到满意
广告商通过广告能够在物有所值的情况下找到新的客户
27
现代信息检索
课堂练习
为什么和TV、报纸和电台相比，Web搜索对广告商更有吸引力？广告商会为所有一切买单，那么它们会受到欺骗吗？这对用户来说究竟是好消息还是坏消息？当然，不论如何做，这都会危害搜索引擎
我们可以通过指纹(fingerprinting)算法将shingle映射到 1..2m (例如 m = 64)之间接下来我们用sk 来代表某个shingle映射到1..2m之间的一个数两个文档的相似度定义为它们的shingle集合的Jaccard距离
36
现代信息检索
Jaccard距离计算回顾
Introduction to Information Retrieval 中科院研究生院2011年秋季课程《现代信息检索》
更新时间： 2011/12/01
现代信息检索 Modern Information Retrieval
第19讲 Web搜索 Web Search
授课人：王斌
/~wangbin
对用户而言，如果搜索结果中存在不少几乎相同的页面，那么体验非常不好边缘相关度(Marginal relevance)为0：如果一篇高度相关的文档出现在另一篇高度近似的文档之后，那么该文档变得不相关(冗余) 必须要去除这些近似重复
32
现代信息检索
近似重复的例子
33
现代信息检索
课堂思考题
如何去掉Web上的近似重复页面呢？
34
现代信息检索
近似重复的检测
采用编辑距离指标计算页面之间的相似度需要说明的是，我们希望检测那些“语法”(syntactic) 上而不是“语义”(semantic)上相似的页面
页面的语义相似度(即内容语义之间的相似度)非常难以计算
也就是说，我们并不考虑那些内容意义上相似但是表达方式不同的近似重复引入一个相似度阈值θ 来判定“两个页面之间是否近似重复” 比如，如果两篇文档的相似度 > 阈值θ = 80%，那么认为两篇文档近似重复
→ 参考搜索广告 Web是一个充满噪声数据且组织失调的集合体 → 大量的重复需要检测用户可以无控制和无限制地发布内容→ 大量作弊内容需要检测 Web规模非常大 → 需要知道Web的规模大小
13
提纲
❶ ❷ ❸
上一讲回顾互联网发展趋势互联网广告
❹
重复检测
14
现代信息检索
第一代搜索广告: Goto (1996) 竞价排名
29
现代信息检索
并非三赢: 商标侵权
例子: geico (美国政府雇员保险公司，是美国第四大私人客户汽车保险公司) 2005年的部分时间内: 搜索词项 “geico” 在Google上可以买到 Geico 在美国控告Google侵权 Louis Vuitton(LV) 在欧洲控告Google侵权参考 /tm complaint.html 如果采用商标做关键词，那么用户可能被误导到一个页面，该页面实际和用户期望购买的品牌产品无关