多媒体搜索引擎DriveHQPPT课件

合集下载

使用搜索引擎课件.ppt

使用搜索引擎课件.ppt
▪例如:雅虎,国内的搜狐、新浪、网易等。
用英文双引号(“”)或书名号《》将关键词括起来 技巧4:不要拘限于同一个搜索引擎 每一个搜索引擎都有自己的特长 技巧5:细化搜索条件 搜索条件越具体,返回的结果就越精确
目录索引类搜索引擎
目录索 引类搜
索引擎
目录检索服务适用于按指定主题查找信息。它将各种各 样的信息按主题分成一些大类,再按其细目一级级分成 小类,直到相关信息所在的网址。类似于在图书馆按分 类目录查找所需要的书目一样。只是按目录分类的网站 链接列
❖不用口语作为关键词 ❖使用两个或两个以上的关键词
例如:多少级以上的地震会造 成破坏? a)4.5级 b)5级 c)6级
❖注意关键词表述的准确性
关键词:震级 造成破坏
全文搜索引擎使用技巧
技巧1:提炼关键词 提炼具有代表性和指示性的词作为搜索关键词 技巧2:用好逻辑符号 用“and”、“or”、“not”等逻辑符号提高搜索效率 技巧3:索工具软件
1.进入搜索引擎站点的主页
2.在搜索结果的页面中 查找需要的信息或网站
3.单击搜索
关键词的使用
我们在搜索栏内输入的名字,在搜索引擎中称为关键词
关键词是获取良好搜索结果的前提,正确使用关键词, 可以缩小我们的搜索范围。
关键字越少,搜索出的结果越多,因此可以使用多个关 键字来缩小查询范围小。多个关键字之间可以用空格分 隔。
导入:
现在有两位校外来访者甲和乙要找我们学 校的学生A和B,其中甲只知道学生A的姓 名;而乙知道学生B在一号楼第二层第三间 教室里的第四排最左边的座位上。
问题:假如让同学们去找这两 位同学,你能不能找的到,怎 样找到?
找A可利用学校的校园广播帮助找到;
找B可直接到一号楼第二层第三间教室 的第四排最左边的那个位子找到。

多媒体搜索引擎DriveHQ课件

多媒体搜索引擎DriveHQ课件

17
查询结果处理
• 结果排序
• 用户评价
• 根据用户在查询结果中的点击来度量网站与关键字的相关 性
• 需要巨量的用户记录 • 跟踪较困难
• 同行评议
• 根据同行对文档质量的评价来度量网站与关键字的相关性
• 谁是同行? • Internet
2020/11/13
多媒体搜索引擎DriveHQ
18
查询结果处理
多媒体搜索引擎
查询结果处理
多媒体搜索引擎DriveHQ
查询结果处理
• 查询的特征
•短
• 英语:平均2.5词,80% < 3词
• 不精确
• “华师大” 你想要什么?
• 只使用简单语法
• 有几个用户懂布尔代数?
• 大多数查询将返回大量的结果
• “华师大”:174万
2020/11/13
多媒体搜索引擎DriveHQ
在1%文档中出现的词:D/Dt = 100 idft = log(100) > 0
2020/11/13
多媒体搜索引擎DriveHQ
9
查询结果处理
• 结果排序
• 2.tf-idf
• 用idf为权重的加权词频和
sq,d tft,didtf tq
文档中一个词的重要性
tt 1 fit 1 d ,tt 2 fi ft 2 d ,. tt n f . fi.t n d , f文档矢量
2020/11/13
多媒体搜索引擎DriveHQ
16
查询结果处理
• 结果排序
• 2.tf-idf
• “王婆卖瓜自卖自夸”
• 文档的优劣程度不可能通过文档本身来评价 • 通过文档本身的内容对文档排序的方法不可靠 • 谁可以评价文档的优劣?

多媒体搜索引擎-DriveHQ

多媒体搜索引擎-DriveHQ

2019年4月7日
Multimedia Search Engine
14
搜索引擎技术
索引
找到与某个语义相关的文档

倒排文件 B树,Hash表
快速找到

更快

并行查找,限时合并
2019年4月7日
Multimedia Search Engine
15
搜索引擎技术
输入
获取用户的需求
关键字检索 分类浏览

显示
组织相关信息输出给用户

相关项列表

重要性排序:PageRank 摘要
2019年4月7日
Multimedia Search Engine
16
搜索引擎技术
尚存在的问题
输入:关键字检索并不方便

假设1:用户很清楚自己需要什么

可能例外:新闻检索,多媒体检索

Yahoo: Wal-mart
新浪:$2.35B 联想:$6.11B

来源:,
2019年4月7日 Multimedia Search Engine
2008.2.21
8
为什么关注搜索引擎
搜索引擎现状
尚存在的问题
理解:计算机并不真正理解文档的内容

多媒体文档

只能理解很小一部分语义
去除垃圾内容(广告、目录等) 提取结构化信息 信息之间的关联

文本文档

2019年4月7日
Multimedia Search Engine
18
搜索引擎技术
尚存在的问题
显示
综合信息提取与表示 海量信息表示 直观方便浏览

第7章搜索引擎使用技巧精品PPT课件

第7章搜索引擎使用技巧精品PPT课件
27
BUA Librar
具体内容请实际体体验。
为方便学习与使用课件内容, 课件可以在下载后自由调整
Learning Is To Achieve A Certain Goal And Work Hard, Is A Process To Overcome Various Difficultie引擎,每天 响应来自138个果。“一下”已经成 为人们进行搜索的新名词。
地图搜索技巧• 地图• 搜狗地图• 谷歌地 • 图片搜索
BUA Library
计算机网络如互联网上的信息的软 件程序。用户 输入搜索项目,通常是通过录入一个关键词或短 语,搜索引擎通过扫描被搜索的计算机和计算机 网络,或者分解(分析)它们数据的索引,返回 万维网 站点、个人电脑文件或文档的列表。搜索 引擎完成搜索任务大致经历以下三个环节: 1.抓取; 2.索引; 3.排序。
7.1.2 搜索引擎分类 按照搜索引擎工作原理的不同,可以把它 们分为三个基本类别:全文搜索引、目录 索引和元搜索引擎。 1.全文索引; 2.目录索引; 3.元搜索引擎; 4.其他非主流搜索引擎形式:
第7章 搜索引擎使用技巧
搜索引擎是指以人工或网络机器人软件 的方法采集、标引Web资源和其他类型的 网络资源,并将索引信息内容存储于大型 数据库中,以Web网站的方式提供给其他 网络用户查询的信息服务系统,是目前人 们利用网络信息最有效的工具。
7.1 搜索引擎简介
7.1.1 搜索引擎工作原理 搜索引擎是帮助用户查找存储在个人电脑、

多媒体搜索引擎-DriveHQ

多媒体搜索引擎-DriveHQ

高斯贝叶斯分类器
j
E X arg max PX | E c j PE c j
X ~ N , PX | E c j 1 e
1 X j 2

T j X j
2 n / 2 j
1 2
2019年1月5日
Machine Learning
13
概率分类器

贝叶斯定理在分类问题中的应用

Naï ve Bayes问题

高斯贝叶斯分类器


参数多:协方差矩阵参数个数是维数的平方 可采用naï ve假设 分布不一定是高斯的 /tutorials/dtree.html

后验概率:果因


贝叶斯定理通过可观察量求解不可观察量
P X i | E PE P E | X i P X i
2019年1月5日
Machine Learning
6
概率分类器

P X i | E PE P E | X i P X i
贝叶斯定理在分类问题中的应用
机器学习与数据挖掘
数学方法与理论(2)
分类算法

不可分问题(2)
解决方法2:概率分类器
2019年1月5日
Machine Learning
2
分类算法

概率分类器
P(c1|X)
P(c2|X)
(P(c1|Xk)>P(c2|Xk))? c1| c2
如何获得?
2019年1月5日 Machine Learning 3
j
2019年1月5日 Machine Learning 7

最大后验概率准则

多媒体搜索引擎DriveHQ课件

多媒体搜索引擎DriveHQ课件

Multimedia Search Engine
31
特征降维
多模特征的降维
同质特征可以方便地使用PCA
同质特征内部是已经归一化的 例:直方图,像素值,等等

异质特征不能简单地进行PCA
不同的归一化导致不同的主分量 异质特征之间没有归一化


例:颜色直方图和“粗糙度”如何归一化?
2018年11月17日 Multimedia Search Engine 22
特征提取
形状特征
轮廓的高维特征
把轮廓坐标转换成一维复数序列一维复函数 可以进行傅立叶变换,提取频率特征 傅立叶描述子

2018年11月17日
Multimedia Search Engine
23
特征提取
T z k ak H
27
特征降维
主分量分析
var z1 z z1
2 1 i, j 2
ai1a j1 H i H j ai1a j1 H i H j ai1a j1 H i H j H i H j
i, j

i, j

ai1a j1Sij
i, j T a1 Sa1
2018年11月17日
Multimedia Search Engine
30
特征降维
主分量分析
如果H是线性相关的:S是降秩的

特征矢量个数小于维数降维

无信息损失
如果H各维相关性大,但没有达到完全相关
有很小的特征值对应的特征矢量可以去除 降维,有信息损失

2018年11月17日
Sa1 a1 0
S I a1 0

多媒体搜索引擎-DriveHQ

多媒体搜索引擎-DriveHQ
机器学习与数据挖掘
复习
机器学习基本过程

机器学习是一个复杂的过程

离线过程(训练过程) 在线过程(应用过程)
数学方法
原始数据
人工分析
训练样本
机器学习
模型 离线过程 在线过程
决定性步骤 尚无有效的理论指导
2019年4月6日 Machine Learning
新数据 结果
2
样本准备

对象分割

2019年4月6日
Machine Learning
10
试题形式

题量

三道大题 不要长篇大论,切中要害即可 不需数学公式,论述物理含义

回答技巧

2019年4月6日
Machine Learning
11
样本准备

特征选择

降维的目的与意义 特征选择指数 特征选择算法

增量法、减量法、模拟退火/遗传算法

主分量分析
2019年4月6日
Machine Learning
5
样本准备

样本选择

训练样本失衡问题 失衡训练样本上的机器学习

Cost-sensitive learning 样本采样 规则过滤
2019年4月6日
Machine Learning
6
分类

线性分类器 分类器训练的几何方法

方程组求解 SVM
贝叶斯分类器 GMM-EM
Machine Learning 7

概率分类器

2019年4月6日
回归


回归问题 参数式方法 非参数式方法

多媒体搜索引擎-DriveHQ

多媒体搜索引擎-DriveHQ


半监督学习(Semi-supervised learning)

部分训练样本有人工标注

利用廉价的未标注样本提高学习性能 特殊的半监督学习:待分类样本可批处理,则把待分类样 本作为未标注样本加入学习过程
Machine Learning 4

传导学习(Transduction)

2019年1月6日
特征矢量
分类模型 如何获得W?
2019年1月6日 Machine Learning
W
13
分类算法

线性分类器

获得权矢量W的方法

先验知识


例:苹果圆度接近1,香蕉圆度接近0 用T=0.7可作为合适的分类权重
如何改进? 通过事先标注好的样本计算优化的W

难以普遍采用


训练的方法

2019年1月6日
Machine Learning 3

回归


聚类

2019年1月6日
机器学习的数学方法与理论

机器学习方法的主要类型

有监督学习(Supervised learning)

所有训练样本都有人工标注 所有训练样本没有标注(大多数聚类算法)

无监督学习(Unsupervised learning)
Machine Learning
14
分类算法

分类算法的训练

几何方法

利用样本的分布求分类(超)平面

方程组求解法

/data/upfile/2006126104839216.PPT

神经网络(感知器算法) /tutorials/neural.html SVM /tutorials/svm.html

多媒体搜索引擎-DriveHQ

多媒体搜索引擎-DriveHQ


一个西欧语言的分词可能需要数十条正则式

2019年4月9日
Multimedia Search Engine
8
分词
问题
Francisco 1个词?2个? San Francisco-Las Vegas 德语复合名词不加空格
San

Lebensversicherungsgesellschaftsangestellter

手工或半手工构造 一般使用查询扩展实现
2019年4月9日
Multimedia Search Engine
30
语言问题
拼写矫正(spell
object

correction)
pbject/ibject
OCR: Dbject
方法1:编辑距离(edit

distance)
把一个词通过基本编辑操作转变成另一个词需要 的操作个数
Multimedia Search Engine 3
如何把文字分解成词?

什么样的词应该放到词典中?

2019年4月9日
词典
待索引文件
Friends, Romans, countrymen.
分词(Tokenizer)
Token(词?)
Friends Romans
Countrymen
语言模型(Linguistic modules)

‘life insurance company employee’ “华东师范大学软件学院”
中文和日文没有空格

分词是一个大问题!
2019年4月9日 Multimedia Search Engine 9

第七章-搜索引擎PPT课件

第七章-搜索引擎PPT课件

.
28
分 类:
垂直主题搜索引擎(专业搜索引擎) 以其高度的目标化和专业化在各类搜索引擎中占据了
一系席之地。比如象股票、天气、新闻等类的搜索引擎, 具有很高的针对性,用户对查询结果的满意度较高。服务 垂直(专业)化是互联网发展的大势所趋,区别于大而全 的水平网站,垂直网站更注重在单一领域提供更专业、更 精深的服务 。比如IT罗盘就是以精选式IT讯息垂直搜索 为特征的搜索引擎。图形天下Go2map就是专门提供地图搜 索服务的地图搜索引擎。
AltaVista是第一个支持自然语言搜索的搜索引擎,第一 个实现高级搜索语法的搜索引擎(如AND, OR, NOT等)。
.
13
发 展:
1998年10月之前,Google只是斯坦福大学的一个小项目。95年博士生 Larry Page开始学习搜索引擎设计,于1997年9月15日注册了 的域名,1999年2月,Google完成了从Alpha版到Beta版的 蜕变。Google公司则把1998年9月27日认作自己的生日。 Google在Pagerank、动态摘要、网页快照、DailyRefresh、多文 档格式支持、地图股票词典寻人等集成搜索、多语言支持、用户界面 等功能上的革新,象Altavista一样,再一次永远改变了搜索引擎的定 义。在2000年中以前,Google虽然以搜索准确性备受赞誉,但因为数 据库不如其它搜索引擎大,缺乏高级搜索语法,所以使用价值不是很 高,推广并不快。直到2000年中数据库升级后,又借被Yahoo选作搜索 引擎的东风,才一飞冲天。
.
22
原 理:
搜索引擎的Spider一般要定期重新访问所有网页(各搜索 引擎的周期不同,可能是几天、几周或几月,也可能对不 同重要性的网页有不同的更新频率),更新网页索引数据 库,以反映出网页内容的更新情况,增加新的网页信息, 去除死链接,并根据网页内容和链接关系的变化重新排序。 这样,网页的具体内容和变化情况就会反映到用户查询的 结果中。

多媒体搜索引擎(5).ppt

多媒体搜索引擎(5).ppt
以实现多媒体搜索引擎
不是介绍如何使用(多媒体)搜索引擎
会使用也是必须的 “使用”也可以是很高级的
例:Google Hacking
2020年8月24日

Multimedia Search Engine
7
课程项目开发工具
文档撰写工具
第一推荐:lyx
也可以用其它工具,但建议使用lyx
多媒体搜索引擎
课程信息
课程信息
任课老师
罗迒哉 hzluo@ 62235089
答疑(Office Hour)
每周三9:00-11:00, 周五17:00-18:00 数学馆东110
2020年8月24日
Multimedia Search Engine
2
课程信息
2020年8月24日
Multimedia Search Engine
3
课程信息
课堂
有问题随时提问
鼓励提问
少记笔记,多思考 两节连上
中途如须去卫生间可自己去
2020年8月24日
Multimedia Search Engine
4
课程信息
课程项目
检索、搜索引擎、多媒体语义理解等 独立完成
项目申请书 演示程序 项目总结报告
2020年8月24日
Multimedia Search Engine
5
课程信息
考试
期中:无(暂定) 期末:按学院安排
成绩评定
项目 40%,考试 60%
2020年8月24日
Multimedia Search Engine
6
课程信息
课程主要内容
实现搜索引擎所需要的技术 多媒体文档内容理解和索引技术

多媒体搜索引擎.ppt

多媒体搜索引擎.ppt

Z2格 Multimedia Search Engine
A2格
16
多媒体文档索引
相似性索引
多维范围查询
空间分割
格索引 Hash: 查询时需要把邻接格全部查一遍,无论该 格是否有数据 邻接格数量越少效率越高
维数
12 3 4 5 6 7 8 9
致密格
Z1 A2 A3 D4 D5 E6 E7 E8 9
20
多媒体文档索引
相似性索引
最近邻查询
先用范围查询获得候选数据,然后线性扫描候选 数据
利用范围查询的索引结构,配以优先级队列
计算节点和查询矢量的最小和最大距离,据此对节点 进行排序处理
线性扫描
2021年1月18日
Multimedia Search Engine
18
多媒体文档索引
相似性索引
多维范围查询
数据分割
可构造平衡数,层数浅,自适应数据分布 插入顺序影响性能,修改操作会显著降低性能
维数越高影响越大
空间分割
结构仅与所索引的数据有关 维数无关
不平衡,层数可能较大,量化步长难把握
只保留有数据的格子 高维空间:稀疏
用简单索引结构索引格子
2021年1月18日
Multimedia Search Engine
15
多媒体文档索引
相似性索引
多维范围查询
空间分割
格量化(Lattice Quantization) 致密格:更接近球形,用较少格即可填满空间
2021年1月18日
难以找到合适的变换 可变距离函数
距离函数可以有一些参数 例如:加权的绝对值距离,权为参数
参数通过相关反馈计算 各种相关反馈算法 各种回归算法
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

tf-idf相关性计算准则下如何优化?
华师大 华师大 华师大 华师大 华师大 华师大 华师大 华师大 华师大 华师大 华师大 华师大
这个页面没人看?
2020/12/25
Multimedia Search Engine
15
查询结果处理
结果排序
2.tf-idf
SEO SPAM
隐藏文字 Meta Tag:<meta content=…> Image Tag: <img alt=…> HTML注释 超长标题 同色文字:文字与背景色相同
用户需要什么?
把结果按与查询相关的程度排序
如何度量文档和查询的相关度?
“华师大”
2020/12/25
Multimedia Search Engine
4
查询结果处理
结果排序
1.按词频
查询关键字在文档中出现的次数越多则越相关
查询关键字有多个? 相应词频相加
sq, d tft,d tq
11
查询结果处理
结果排序
2.tf-idf
文档矢量不一定是归一化的
2020/12/25
doc X 3
doc X 2 doc
simq, d Vq •Vd
Vq Vd
cosq,d
归一化因子
Multimedia Search Engine12源自查询结果处理结果排序
2.tf-idf
长文档的问题:如果把文档切割成几部分
Multimedia Search Engine
2
查询结果处理
查询的特征
缺乏耐心
85%的用户只看第一页结果 78%的查询不会被用户改进
要把用户需要的结果放在第一页
结果排序
2020/12/25
Multimedia Search Engine
3
查询结果处理
结果排序
理想情况:把结果按与用户的需求相关的程 度排序
结果排序
2.tf-idf
idf: inverse document frequency
逆文档频率?
idft
log
D Dt
词的权重
总文档数 包含词t的文档数
所有文档都出现的词(如“的”):D=Dt idft = log(1) = 0 在1%文档中出现的词:D/Dt = 100 idft = log(100) > 0
1 tft,d
max tft,d
td
2020/12/25
Multimedia Search Engine
6
查询结果处理
结果排序
1.按词频
非线性词频
布尔词频
1 bft,d 0
tft,d 0 tft,d 0
对数平均词频
Lft,d
1 log tft,d
1
log
avg
td
tf t ,d
tf: term frequency (词频)
重要性与词频一定是线性关系?
2020/12/25
Multimedia Search Engine
5
查询结果处理
结果排序
1.按词频
非线性词频
对数词频
wf t ,d
1 log tft,d
0
tft,d 0 tft,d 0
归一化词频
ntft,d
自动跳转页 包含大量关键字的页面自动跳转到真实页面
2020/12/25
Multimedia Search Engine
16
查询结果处理
结果排序
2.tf-idf
“王婆卖瓜自卖自夸”
文档的优劣程度不可能通过文档本身来评价 通过文档本身的内容对文档排序的方法不可靠 谁可以评价文档的优劣?
多媒体搜索引擎
查询结果处理
2020/12/25
Multimedia Search Engine
1
查询结果处理
查询的特征

英语:平均2.5词,80% < 3词
不精确
“华师大” 你想要什么?
只使用简单语法
有几个用户懂布尔代数?
大多数查询将返回大量的结果
“华师大”:174万
2020/12/25
用户评价 同行评议
2020/12/25
Multimedia Search Engine
17
查询结果处理
结果排序
用户评价
根据用户在查询结果中的点击来度量网站与关键 字的相关性
需要巨量的用户记录 跟踪较困难
同行评议
根据同行对文档质量的评价来度量网站与关键字 的相关性
谁是同行? Internet
单一主题 词频比例相对固定 词条相对固定
多主题 词频比例变化较大 词条变化大
2020/12/25
Multimedia Search Engine
13
查询结果处理
结果排序
2.tf-idf
长文档的问题
d1 d1+d2
文档集与集中单个文档 的相似度如何衡量?
FAQ文档及其查询
d2
2020/12/25
2020/12/25
Multimedia Search Engine
7
查询结果处理
结果排序
1.按词频
每个词重要性一样?
“北朝鲜的核试验” 北朝鲜 / 的 / 核试验
689万网页 ? 125万网页 词的重要性是不同的!
2020/12/25
Multimedia Search Engine
8
查询结果处理
Multimedia Search Engine
14
查询结果处理
结果排序
2.tf-idf
SEO SPAM (Search Engine Optimization SPAM)
出现在搜索引擎上对网站的访问量影响巨大 希望自己的网站总是出现在搜索结果的最前面
SEO: Search Engine Optimization 根据索引算法优化页面设计
2020/12/25
Multimedia Search Engine
9
查询结果处理
结果排序
2.tf-idf
用idf为权重的加权词频和
sq, d tft,d idft tq
文档中一个词的重要性
tft1 idft1 , tft2 idft2 ,..., tftn idftn
2020/12/25
2020/12/25
Multimedia Search Engine
18
查询结果处理
结果排序
同行评议
Multimedia Search Engine
文档矢量
10
查询结果处理
结果排序
2.tf-idf

? 查询

矢量空间模型 (vector space model)
2020/12/25
Multimedia Search Engine
相关文档
最新文档