多媒体搜索引擎DriveHQ课件

合集下载

《认识搜索引擎》课件

《认识搜索引擎》课件

语义搜索
语义搜索是指搜索引擎能够理解自然语言,对用户输入的语义进行深入分析和理 解,从而提供更加准确和相关的搜索结果。例如,当用户输入一个较为复杂的查 询语句时,语义搜索能够理解用户的意图,并返回与该意图相关的搜索结果。
语义搜索的发展将进一步推动搜索引擎的自然语言处理技术,使用户能够更加自 然地表达自己的需求,提高搜索结果的准确性和相关性。
多模态搜索
多模态搜索是指搜索引擎能够接受多种媒体数据(如文本、图像、音频、视频等)作为输入,并返回与该输入相关的多种媒 体数据作为结果。例如,用户可以上传一张图片或一段视频进行搜索,搜索引擎将返回与该图片或视频相关的文本、图片、 视频等结果。
多模态搜索的发展将进一步拓宽搜索引擎的应用场景,使用户能够更加方便地获取多种媒体数据的信息,提高信息获取的多 样性和丰富性。
结果筛选
查看搜索结果的相关性
01
根据搜索结果与查询主题的相关程度,筛选出最符合需求的网
页或信息。
查看搜索结果的权威性
02
选择来自权威网站或知名媒体的结果,以获取更可靠的信息。
使用搜索结果的高级筛选功能
03
利用搜索引擎提供的高级筛选功能,如过滤不相关的结果、按
时间排序等,提高筛选效率。
04
搜索引擎的未来展望
反垃圾信息法
垃圾信息泛滥
搜索引擎作为信息传播的重要平 台,容易受到垃圾信息的侵扰, 影响用户体验和搜索引擎的正常
运营。
反垃圾信息法规
各国政府纷纷出台反垃圾信息法 规,要求搜索引擎采取有效措施
防止垃圾信息的传播。
反垃圾技术发展
随着技术的发展,搜索引擎应不 断加强反垃圾技术的研究和应用 ,提高垃圾信息的识别和过滤能 力,为用户提供更加纯净的搜索

第7章搜索引擎使用技巧精品PPT课件

第7章搜索引擎使用技巧精品PPT课件
27
BUA Librar
具体内容请实际体体验。
为方便学习与使用课件内容, 课件可以在下载后自由调整
Learning Is To Achieve A Certain Goal And Work Hard, Is A Process To Overcome Various Difficultie引擎,每天 响应来自138个果。“一下”已经成 为人们进行搜索的新名词。
地图搜索技巧• 地图• 搜狗地图• 谷歌地 • 图片搜索
BUA Library
计算机网络如互联网上的信息的软 件程序。用户 输入搜索项目,通常是通过录入一个关键词或短 语,搜索引擎通过扫描被搜索的计算机和计算机 网络,或者分解(分析)它们数据的索引,返回 万维网 站点、个人电脑文件或文档的列表。搜索 引擎完成搜索任务大致经历以下三个环节: 1.抓取; 2.索引; 3.排序。
7.1.2 搜索引擎分类 按照搜索引擎工作原理的不同,可以把它 们分为三个基本类别:全文搜索引、目录 索引和元搜索引擎。 1.全文索引; 2.目录索引; 3.元搜索引擎; 4.其他非主流搜索引擎形式:
第7章 搜索引擎使用技巧
搜索引擎是指以人工或网络机器人软件 的方法采集、标引Web资源和其他类型的 网络资源,并将索引信息内容存储于大型 数据库中,以Web网站的方式提供给其他 网络用户查询的信息服务系统,是目前人 们利用网络信息最有效的工具。
7.1 搜索引擎简介
7.1.1 搜索引擎工作原理 搜索引擎是帮助用户查找存储在个人电脑、

搜索引擎 上课 ppt课件

搜索引擎 上课 ppt课件
2020/12/2
认识搜索引擎 搜索引擎的历史 搜索引擎基本工作方式 关键词的选择 搜索常用技巧
1.搜索引擎
网页搜索服务工具
搜索引擎(search engine)是指根 据一定的策略、运用特定的计算机 程序从互联网上搜集信息,在对信 息进行组织和处理后,为用户提供 检索服务,将用户检索相关的信息 展示给用户的系统。
如:
2020/12/2
2.搜索引擎的发展史
现代意义上的搜索引擎的祖先,是1990年由蒙特利尔大学学生Alan Emtage发明的Archie。Alan Emtage想到了开发一个可以以文件名查 找文件的系统,于是便有了Archie。
最早现代意义上的搜索引擎出现于1994年7月。当时Michael Mauldin将John Leavitt的蜘蛛程序接入到其索引程序中,创建了大 家现在熟知的Lycos。
同年4月,斯坦福(Stanford)大学的两名博士生,David Filo和美籍华 人杨致远(Gerry Yang)共同创办了超级目录索引Yahoo,并成功地使 搜索引擎的概念深入人心。
2020/12/2
从此搜索引擎进入了高速发展时期。
3.搜索引擎基本工作方式
目录索 引类搜
索引擎
目录检索服务适用于按指定主题查找信息。它将各种各 样的信息按主题分成一些大类,再按其细目一级级分成 小类,直到相关信息所在的网址。类似于在图书馆按分 类目录查找所需要的书目一样。只是按目录分类的网站文搜索操作步骤
或搜索工具软件
1.进入搜索引擎站点的主页
4.在搜索结果的页面中 查找需要的信息或网站
2.输入搜索信息的关键字或词
2020/12/2
3.单击搜索
全文搜索工作方式
购物

搜索引擎利用PPT课件

搜索引擎利用PPT课件

2、基本检索
在浏览器地址栏输入, 点击回车键进入Google英文的主页界面。
主页上方提供了一个检索框。 Google Search和I’m feeling lucky
(手气不错)两个检索按钮。 网页、图片、视频、地图、新闻、博客等
数据库可选择使用。
(1) Web(网页)检索
实例一
欲在国内购买酶联免疫试剂,查询试剂的类型、价格和 商家
检索提示
本例涉及通用信息的查找,宜选择Google。 核心概念是酶联免疫,修饰概念是试剂、价格等,
要考虑到各种概念的各种表达方式。 可以使用的检索词
o 酶联免疫、酶免、ELISA ; o 产品、试剂、试剂盒; o 公司、价格、单价、专卖。
Hon主页提供了3个搜索引擎:HONCode、 MedHunt和Honselect。
还提供Hon媒体、Hon报告、会议与事件、 网络医学发展趋势、每日新闻、Hon计划与 项目、MEDLINE/PubMed等栏目。
会议与事件栏目可浏览2007年3月-2009 年主办的国际会议与CME项目。
预报的最新会议已到2009年9月。可全 文检索会议信息。
点击I’m feeling lucky按钮。
直接进入Google推荐的网站: .za/,无须再查 看其它检索结果,省时方便。
(2)Images(图像)检索
现今最好用的图像搜索工具,收录有 超过 20亿张图像。
工作原理是通过分析页面上图像附近的 文字、图像标题及许多其他元素来确定图 像的内容。还使用复杂的算法来剔除重复 内容,确保在搜索结果中首先显示质量最 好的图像。
德、西、法、意、葡、日、韩、中与英语 互译;德语与法语互译。
(4)preferences(检索定制)

多媒体搜索引擎-DriveHQ

多媒体搜索引擎-DriveHQ

高斯贝叶斯分类器
j
E X arg max PX | E c j PE c j
X ~ N , PX | E c j 1 e
1 X j 2

T j X j
2 n / 2 j
1 2
2019年1月5日
Machine Learning
13
概率分类器

贝叶斯定理在分类问题中的应用

Naï ve Bayes问题

高斯贝叶斯分类器


参数多:协方差矩阵参数个数是维数的平方 可采用naï ve假设 分布不一定是高斯的 /tutorials/dtree.html

后验概率:果因


贝叶斯定理通过可观察量求解不可观察量
P X i | E PE P E | X i P X i
2019年1月5日
Machine Learning
6
概率分类器

P X i | E PE P E | X i P X i
贝叶斯定理在分类问题中的应用
机器学习与数据挖掘
数学方法与理论(2)
分类算法

不可分问题(2)
解决方法2:概率分类器
2019年1月5日
Machine Learning
2
分类算法

概率分类器
P(c1|X)
P(c2|X)
(P(c1|Xk)>P(c2|Xk))? c1| c2
如何获得?
2019年1月5日 Machine Learning 3
j
2019年1月5日 Machine Learning 7

最大后验概率准则

使用搜索引擎查找信息ppt课件

使用搜索引擎查找信息ppt课件

9
最新版整理ppt
• 雅虎
最新版整理ppt
8
怎样使用搜索引擎
• 要想利用搜索引擎准确地查找到所需信 息,就必须准确地“告诉”搜索引擎我们 想要查找的是什么信息。具体做法是:在 搜索框内输入想要查找的信息的“关键 字”,然后点击“搜索”按钮,系统就会 自动查找与“关键字”相匹配的信息,并 且在页面上将这些信息提供给用户。
最新版整理ppt
最新版整理ppt
4
全文搜索的特点
• 全文搜索引擎的数据库是依靠一个叫“网 络机器人”或叫“网络蜘蛛”的软件,通 过网络上的各种链接自动获取大量网页信 息内容,并按以定的规则分析整理形成的。 Google、都是比较典型的全文搜索引 擎系统。
最新版整理ppt
5
目录搜索的特点
• 目录搜索则是将收取到的各个网站的信息 按照目录分类,建军立索引数据库供人们 分类查找,所以这种搜索方式也被称作分 类搜索。比如雅虎中国以及国内的搜狐、 、网易分类目录。第二章第一节
使用搜索引擎查找信息
最新版整理ppt
1
பைடு நூலகம்
什么是搜索引擎?
• “搜索引擎”是一类特殊的网站,它会自动 地从因特网中搜集各类信息,并且加以分 类整理,供用户查询和使用。
最新版整理ppt
2
最新版整理ppt
3
搜索引擎的类型
• 主要分为四类: • 一、全文搜索 • 二、目录搜索 • 三、元搜索 • 四、集成搜索
最新版整理ppt
11• 操作二:利用谷歌网站搜索关于初一数学 歌曲格式为MP3。
最新版整理ppt
12
最新版整理ppt
13
最新版整理ppt
6
最新版整理ppt

多媒体搜索引擎-DriveHQ

多媒体搜索引擎-DriveHQ


半监督学习(Semi-supervised learning)

部分训练样本有人工标注

利用廉价的未标注样本提高学习性能 特殊的半监督学习:待分类样本可批处理,则把待分类样 本作为未标注样本加入学习过程
Machine Learning 4

传导学习(Transduction)

2019年1月6日
特征矢量
分类模型 如何获得W?
2019年1月6日 Machine Learning
W
13
分类算法

线性分类器

获得权矢量W的方法

先验知识


例:苹果圆度接近1,香蕉圆度接近0 用T=0.7可作为合适的分类权重
如何改进? 通过事先标注好的样本计算优化的W

难以普遍采用


训练的方法

2019年1月6日
Machine Learning 3

回归


聚类

2019年1月6日
机器学习的数学方法与理论

机器学习方法的主要类型

有监督学习(Supervised learning)

所有训练样本都有人工标注 所有训练样本没有标注(大多数聚类算法)

无监督学习(Unsupervised learning)
Machine Learning
14
分类算法

分类算法的训练

几何方法

利用样本的分布求分类(超)平面

方程组求解法

/data/upfile/2006126104839216.PPT

神经网络(感知器算法) /tutorials/neural.html SVM /tutorials/svm.html

多媒体技术介绍课件ppt课件ppt

多媒体技术介绍课件ppt课件ppt

感谢观看
THANKS
多媒体技术介绍
• 多媒体技术概述 • 多媒体技术基础 • 多媒体制作工具 • 多媒体技术前沿 • 多媒体技术面临的挑战与未来发

目录
01
多媒体技术概述
定义与特点
定义
多媒体技术是指通过计算机技术将多种媒体信息(如文本、图形、图像、音频 和视频等)进行数字化采集、处理、存储、传输和呈现,实现信息交互的一种 技术。
20世纪90年代,随着数字技术的兴起 ,多媒体技术逐渐成熟,广泛应用于 教育、娱乐、广告等领域。
多媒体技术的应用领域
教育领域
娱乐领域
多媒体技术广泛应用于在线教育、电子课 件、数字图书馆等领域,提高了教育教学 的效果和质量。
多媒体技术为影视制作、游戏开发、虚拟 现实等娱乐产业提供了强大的技术支持, 丰富了人们的文化生活。
图像识别
利用计算机技术自动识别 图像中的物体、文字等信 息。
视频处理技术
视频编码与解码
将视频信号转换为数字信号,便 于存储和传输。常见的视频编码
格式包括MP4、AVI、FLV等。
视频特效处理
对视频进行剪辑、添加字幕、转场 效果等,以提高视频观赏性。
视频压缩与传输
通过压缩技术减小视频文件大小, 提高传输效率,如H.264编码技术 。
版权保护
随着多媒体内容的传播和分享, 版权保护成为一大挑战。需要采 取有效的技术手段和法律法规来 保护创作者的权益。
信息安全
多媒体数据在传输和存储过程中 ,容易受到黑客攻击和恶意篡改 ,需要加强信息加密和安全防护 措施。
技术标准与互操作性
技术标准
制定统一的技术标准是实现多媒体数 据互操作的关键,需要各相关行业共 同参与制定和推广。

常用搜索引擎使用技巧PPT课件

常用搜索引擎使用技巧PPT课件
网络资源搜索工具,一切都会迎刃而 解,万事大吉 !
网络资源查询
原来,小李自以为很简单,他在 Google搜索引擎中使用“海口” 提问关键词进行了检索,结果怎 样呢?返回的结果约有1450000
条,上百万呢!
小李简直不敢相信自己的眼睛。 他想,再试试“Yahoo”吧。他 仍然利用“海口”这一提问关键 词在Yahoo!中进行搜索,结果会 使他满意吗
• 它们都是通过从互联网上提取的各个网站的
信息,以网页文字为主,搜索出与用户查询条件
相匹配的记录,然后按一定的排列顺序将结果 返回给用户,因此他们是真正的搜索引擎。
推开信息之门3
元搜索引擎
•万纬搜索引擎是最有名的中文元搜索引擎。万纬 中文集成搜索引擎包括了5个英文搜索引擎Argos、 Google、hotbot、northernLight、Yahoo和7个中文 搜索引擎如网典、新浪、雅虎(中文)、搜狐、天 网、悠游搜索。用户可根据需要自由选择其中最多 6个引擎进行同步搜索,搜索结果可按相关度、时 间、域名和引擎分类。

当社会处于初级阶段,,人们靠口传身授、背诵记
忆,尚能从容地进行知识的传授、吸收和应用。这种学
习方式造就了很多“才高八斗,学富五车”的大才子。 但是,随着社会的发展和进步,现在的世界早就不是 “四书五经”的年代了,仅靠“皓首穷经,博闻强记” 一类的古老的方式已无法有效地吸收所需要的知识信息 了。
• 人们确实非常需要一种在较短的时间内获得较多、较全、 较新的知识或信息的工具。
果不尽相同。
推开信息之门3
学会利用搜索引擎
• 老鸟和菜鸟的区别,往往只是在于会不会
利用资源,搜索引擎是很重要的手段。别看很 多老鸟好像从来不提问题,而且还能回答新人 的问题,好像他们什么都懂似的,其实他们并 没那么厉害,只不过完全可以通过自己的搜索 找到答案,所以不需要提问……有搜索高手说, 所谓搜索,就是“在正确的地方使用正确的工 具和正确的方法寻找正确的内容”。

《搜索引擎技术基础》课件

《搜索引擎技术基础》课件

前端技术
1 HTML、CSS、
JavaScript基础
2 AJAX技术
AJAX技术通过异步通
前端技术是实现搜索
信,实现网页内容的
引擎用户界面的基础,
动态更新和无刷新加
包括HTML标记语言、
载。
CSS样式表和JavaScript
脚本语言。
3 RSS技术
RSS技术允许用户订阅 网站内容,并在其更 新时进行通知。
后据库设计与管理,为搜 索过程提供数据支持。
数据挖掘与分析
数据挖掘与分析技术用于探 索和发现隐藏在海量数据中 的有用信息。
NLP技术
自然语言处理技术使得搜索 引擎能够理解人类语言并进 行相关检索。
搜索引擎优化
1
SEO技巧与策略
2
通过优化网页内容和结构,提升
网站在搜索引擎中的可见性和排
名。
3
搜索引擎排名算法
搜索引擎排名算法决定了网页在 搜索结果中的排序,关键影响网 站的流量。
搜索引擎营销
搜索引擎营销是通过投放广告等 方式提升网站在搜索引擎中的曝 光度。
实例分析
Google搜索引擎技术分析
谷歌搜索引擎的全球市场 占有率一直居高不下,一 举成为最受欢迎的搜索引 擎之一。
搜索引擎的工作原理
1
爬虫工作原理
2
爬虫通过遍历互联网网页并抓取内
容,构建搜索引擎的索引数据库。
3
检索工作原理
4
检索通过用户的搜索关键词,从索 引数据库中匹配相关网页并进行排
序。
搜索引擎的架构
搜索引擎由前端和后端技术组成, 包括用户界面、爬虫、索引和检索 等部分。
索引工作原理
索引将大量网页内容组织起来,为 用户提供快速准确的搜索结果。

第七章-搜索引擎PPT课件

第七章-搜索引擎PPT课件

.
28
分 类:
垂直主题搜索引擎(专业搜索引擎) 以其高度的目标化和专业化在各类搜索引擎中占据了
一系席之地。比如象股票、天气、新闻等类的搜索引擎, 具有很高的针对性,用户对查询结果的满意度较高。服务 垂直(专业)化是互联网发展的大势所趋,区别于大而全 的水平网站,垂直网站更注重在单一领域提供更专业、更 精深的服务 。比如IT罗盘就是以精选式IT讯息垂直搜索 为特征的搜索引擎。图形天下Go2map就是专门提供地图搜 索服务的地图搜索引擎。
AltaVista是第一个支持自然语言搜索的搜索引擎,第一 个实现高级搜索语法的搜索引擎(如AND, OR, NOT等)。
.
13
发 展:
1998年10月之前,Google只是斯坦福大学的一个小项目。95年博士生 Larry Page开始学习搜索引擎设计,于1997年9月15日注册了 的域名,1999年2月,Google完成了从Alpha版到Beta版的 蜕变。Google公司则把1998年9月27日认作自己的生日。 Google在Pagerank、动态摘要、网页快照、DailyRefresh、多文 档格式支持、地图股票词典寻人等集成搜索、多语言支持、用户界面 等功能上的革新,象Altavista一样,再一次永远改变了搜索引擎的定 义。在2000年中以前,Google虽然以搜索准确性备受赞誉,但因为数 据库不如其它搜索引擎大,缺乏高级搜索语法,所以使用价值不是很 高,推广并不快。直到2000年中数据库升级后,又借被Yahoo选作搜索 引擎的东风,才一飞冲天。
.
22
原 理:
搜索引擎的Spider一般要定期重新访问所有网页(各搜索 引擎的周期不同,可能是几天、几周或几月,也可能对不 同重要性的网页有不同的更新频率),更新网页索引数据 库,以反映出网页内容的更新情况,增加新的网页信息, 去除死链接,并根据网页内容和链接关系的变化重新排序。 这样,网页的具体内容和变化情况就会反映到用户查询的 结果中。

多媒体搜索引擎DriveHQ课件

多媒体搜索引擎DriveHQ课件

Multimedia Search Engine
31
特征降维
多模特征的降维
同质特征可以方便地使用PCA
同质特征内部是已经归一化的 例:直方图,像素值,等等

异质特征不能简单地进行PCA
不同的归一化导致不同的主分量 异质特征之间没有归一化


例:颜色直方图和“粗糙度”如何归一化?
2018年11月17日 Multimedia Search Engine 22
特征提取
形状特征
轮廓的高维特征
把轮廓坐标转换成一维复数序列一维复函数 可以进行傅立叶变换,提取频率特征 傅立叶描述子

2018年11月17日
Multimedia Search Engine
23
特征提取
T z k ak H
27
特征降维
主分量分析
var z1 z z1
2 1 i, j 2
ai1a j1 H i H j ai1a j1 H i H j ai1a j1 H i H j H i H j
i, j

i, j

ai1a j1Sij
i, j T a1 Sa1
2018年11月17日
Multimedia Search Engine
30
特征降维
主分量分析
如果H是线性相关的:S是降秩的

特征矢量个数小于维数降维

无信息损失
如果H各维相关性大,但没有达到完全相关
有很小的特征值对应的特征矢量可以去除 降维,有信息损失

2018年11月17日
Sa1 a1 0
S I a1 0

多媒体搜索引擎-DriveHQ

多媒体搜索引擎-DriveHQ
机器学习与数据挖掘
复习
机器学习基本过程

机器学习是一个复杂的过程

离线过程(训练过程) 在线过程(应用过程)
数学方法
原始数据
人工分析
训练样本
机器学习
模型 离线过程 在线过程
决定性步骤 尚无有效的理论指导
2019年4月6日 Machine Learning
新数据 结果
2
样本准备

对象分割

2019年4月6日
Machine Learning
10
试题形式

题量

三道大题 不要长篇大论,切中要害即可 不需数学公式,论述物理含义

回答技巧

2019年4月6日
Machine Learning
11
样本准备

特征选择

降维的目的与意义 特征选择指数 特征选择算法

增量法、减量法、模拟退火/遗传算法

主分量分析
2019年4月6日
Machine Learning
5
样本准备

样本选择

训练样本失衡问题 失衡训练样本上的机器学习

Cost-sensitive learning 样本采样 规则过滤
2019年4月6日
Machine Learning
6
分类

线性分类器 分类器训练的几何方法

方程组求解 SVM
贝叶斯分类器 GMM-EM
Machine Learning 7

概率分类器

2019年4月6日
回归


回归问题 参数式方法 非参数式方法
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

17
查询结果处理
• 结果排序
• 用户评价
• 根据用户在查询结果中的点击来度量网站与关键字的相关 性
• 需要巨量的用户记录 • 跟踪较困难
• 同行评议
• 根据同行对文档质量的评价来度量网站与关键字的相关性
• 谁是同行? • Internet
2020/11/13
多媒体搜索引擎DriveHQ
18
查询结果处理
多媒体搜索引擎
查询结果处理
多媒体搜索引擎DriveHQ
查询结果处理
• 查询的特征
•短
• 英语:平均2.5词,80% < 3词
• 不精确
• “华师大” 你想要什么?
• 只使用简单语法
• 有几个用户懂布尔代数?
• 大多数查询将返回大量的结果
• “华师大”:174万
2020/11/13
多媒体搜索引擎DriveHQ
在1%文档中出现的词:D/Dt = 100 idft = log(100) > 0
2020/11/13
多媒体搜索引擎DriveHQ
9
查询结果处理
• 结果排序
• 2.tf-idf
• 用idf为权重的加权词频和
sq,d tft,didtf tq
文档中一个词的重要性
tt 1 fit 1 d ,tt 2 fi ft 2 d ,. tt n f . fi.t n d , f文档矢量
2020/11/13
多媒体搜索引擎DriveHQ
16
查询结果处理
• 结果排序
• 2.tf-idf
• “王婆卖瓜自卖自夸”
• 文档的优劣程度不可能通过文档本身来评价 • 通过文档本身的内容对文档排序的方法不可靠 • 谁可以评价文档的优劣?
• 用户评价 • 同行评议
2020/11/13
多媒体搜索引擎DriveHQ
2
查询结果处理
• 查询的特征
• 缺乏耐心
• 85%的用户只看第一页结果 • 78%的查询不会被用户改进
• 要把用户需要的结果放在第一页
• 结果排序
2020/11/13
多媒体搜索引擎DriveHQ
3
查询结果处理
• 结果排序
• 理想情况:把结果按与用户的需求相关的程度排序
• 用户需要什么?
• 把结果按与查询相关的程度排序
• 结果排序
• 1.按词频
• 非线性词频
• 布尔词频
• 对数平均词频
1 bft,d 0
tft,d 0 tft,d 0
Lft,d
1logtft,d 1logatvd gtft,d
2020/11/13
多媒体搜索引擎DriveHQ
7
查询结果处理
• 结果排序
• 1.按词频
• 每个词重要性一样?
• “北朝鲜的核试验” • 北朝鲜 / 的 / 核试验
• 结果排序
• 同行评议
• 网页有很多链接
Page A Anchor
hyperlink
Page B
<a href="http:///">Journal of the ACM.</a>
2020/11/13
多媒体搜索引擎DriveHQ
19
查询结果处理
• 结果排序
• 3. 用链接文字索引网页
Armonk, NY-based computer giant IBM announced today
• 如何度量文档和查询的相关度?
“华师大”
2020/11/13
多媒体搜索引擎DriveHQ
4
查询结果处理
• 结果排序
• 1.按词频
• 查询关键字在文档中出现的次数越多则越相关
• 查询关键字有多个? • 相应词频相加
sq,d tft,d tq
tf: term frequency (词频)
重要性与词频一定是线性关系?
doc X 3
doc X 2 doc
sim q,d Vq•Vd
Vq Vd
coqs,d
归一化因子
多媒体搜索引擎DriveHQ
12
查询结果处理
• 结果排序
• 2.tf-idf
• 长文档的问题:如果把文档切割成几部分
• 单一主题 • 词频比例相对固定 • 词条相对固定
• 多主题 • 词频比例变化较大 • 词条变化大
• 出现在搜索引擎上对网站的访问量影响巨大 • 希望自己的网站总是出现在搜索结果的最前面
• SEO: Search Engine Optimization • 根据索引算法优化页面设计
2020/11/13
tf-idf相关性计算准则下如何优化?
华师大 华师大 华师大 华师大 华师大 华师大 华师大 华师大 华师大 华师大 华师大 华师大
689万网页 ? 125万网页 词的重要性是不同的!
2020/11/13
多媒体搜索引擎DriveHQ
8
查询结果处理
• 结果排序
• 2.tf-idf
• idf: inverse document frequency
• 逆文档频率?
idft
log
D Dt
词的权重
总文档数 包含词t的文档数
所有文档都出现的词(如“的”):D=Dt idft = log(1) = 0
这个页面没人看?
多媒体搜索引擎DriveHQ
15
查询结果处理
• 结果排序
• 2.tf-idf
• SEO SPAM
• 隐藏文字 • Meta Tag:<meta content=…> • Image Tag: <img alt=…> • HTML注释 • 超长标题 • 同色文字:文字与背景色相同
• 自动跳转页 • 包含大量关键字的页面自动跳转到真实页面
2020/11/13
多媒体搜索引擎DriveHQ
5
查询结果处理
• 结果排序
• 1.按词频
• 非线性词频
• 对数词频
• 归一化词频
wt,fd 1lo0tgft,d
tft,d 0 tft,d 0
ntt,fd
1 tft,d
maxtft,d
td
2020/11/13
多媒体搜索引擎DriveHQ
6
查询结果处理
2020/11/13
多媒体搜索引擎DriveHQ
13
查询结果处理
• 结果排序
• 2.tf-idf
• 长文档的问题
d1
d1+d2
文档集与集中单个文档 的相似度如何衡量?
FAQ文档及其查询
d2
2020/11/Байду номын сангаас3
多媒体搜索引擎DriveHQ
14
查询结果处理
• 结果排序
• 2.tf-idf
• SEO SPAM (Search Engine Optimization SPAM)
2020/11/13
多媒体搜索引擎DriveHQ
10
查询结果处理
• 结果排序
• 2.tf-idf
? 查询
2020/11/13
矢量空间模型(vector space model)
多媒体搜索引擎DriveHQ
11
查询结果处理
• 结果排序
• 2.tf-idf
• 文档矢量不一定是归一化的
2020/11/13
相关文档
最新文档