多媒体搜索引擎DriveHQ课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
17
查询结果处理
• 结果排序
• 用户评价
• 根据用户在查询结果中的点击来度量网站与关键字的相关 性
• 需要巨量的用户记录 • 跟踪较困难
• 同行评议
• 根据同行对文档质量的评价来度量网站与关键字的相关性
• 谁是同行? • Internet
2020/11/13
多媒体搜索引擎DriveHQ
18
查询结果处理
• 结果排序
• 1.按词频
• 非线性词频
• 布尔词频
• 对数平均词频
1 bft,d 0
tft,d 0 tft,d 0
Lft,d
1logtft,d 1logatvd gtft,d
2020/11/13
多媒体搜索引擎DriveHQ
7
查询结果处理
• 结果排序
• 1.按词频
• 每个词重要性一样?
• “北朝鲜的核试验” • 北朝鲜 / 的 / 核试验
2020/11/13
多媒体搜索引擎DriveHQ
13
查询结果处理
• 结果排序
• 2.tf-idf
• 长文档的问题
d1
d1+d2
文档集与集中单个文档 的相似度如何衡量?
FAQ文档及其查询
d2
2020/11/13
多媒体搜索引擎DriveHQ
14
查询结果处理
• 结果排序
• 2.tf-idf
• SEO SPAM (Search Engine Optimization SPAM)
689万网页 ? 125万网页 词的重要性是不同的!
Biblioteka Baidu
2020/11/13
多媒体搜索引擎DriveHQ
8
查询结果处理
• 结果排序
• 2.tf-idf
• idf: inverse document frequency
• 逆文档频率?
idft
log
D Dt
词的权重
总文档数 包含词t的文档数
所有文档都出现的词(如“的”):D=Dt idft = log(1) = 0
• 结果排序
• 同行评议
• 网页有很多链接
Page A Anchor
hyperlink
Page B
<a href="http:///">Journal of the ACM.</a>
2020/11/13
多媒体搜索引擎DriveHQ
19
查询结果处理
• 结果排序
• 3. 用链接文字索引网页
Armonk, NY-based computer giant IBM announced today
2020/11/13
多媒体搜索引擎DriveHQ
5
查询结果处理
• 结果排序
• 1.按词频
• 非线性词频
• 对数词频
• 归一化词频
wt,fd 1lo0tgft,d
tft,d 0 tft,d 0
ntt,fd
1 tft,d
maxtft,d
td
2020/11/13
多媒体搜索引擎DriveHQ
6
查询结果处理
2
查询结果处理
• 查询的特征
• 缺乏耐心
• 85%的用户只看第一页结果 • 78%的查询不会被用户改进
• 要把用户需要的结果放在第一页
• 结果排序
2020/11/13
多媒体搜索引擎DriveHQ
3
查询结果处理
• 结果排序
• 理想情况:把结果按与用户的需求相关的程度排序
• 用户需要什么?
• 把结果按与查询相关的程度排序
这个页面没人看?
多媒体搜索引擎DriveHQ
15
查询结果处理
• 结果排序
• 2.tf-idf
• SEO SPAM
• 隐藏文字 • Meta Tag:<meta content=…> • Image Tag: <img alt=…> • HTML注释 • 超长标题 • 同色文字:文字与背景色相同
• 自动跳转页 • 包含大量关键字的页面自动跳转到真实页面
doc X 3
doc X 2 doc
sim q,d Vq•Vd
Vq Vd
coqs,d
归一化因子
多媒体搜索引擎DriveHQ
12
查询结果处理
• 结果排序
• 2.tf-idf
• 长文档的问题:如果把文档切割成几部分
• 单一主题 • 词频比例相对固定 • 词条相对固定
• 多主题 • 词频比例变化较大 • 词条变化大
多媒体搜索引擎
查询结果处理
多媒体搜索引擎DriveHQ
查询结果处理
• 查询的特征
•短
• 英语:平均2.5词,80% < 3词
• 不精确
• “华师大” 你想要什么?
• 只使用简单语法
• 有几个用户懂布尔代数?
• 大多数查询将返回大量的结果
• “华师大”:174万
2020/11/13
多媒体搜索引擎DriveHQ
• 如何度量文档和查询的相关度?
“华师大”
2020/11/13
多媒体搜索引擎DriveHQ
4
查询结果处理
• 结果排序
• 1.按词频
• 查询关键字在文档中出现的次数越多则越相关
• 查询关键字有多个? • 相应词频相加
sq,d tft,d tq
tf: term frequency (词频)
重要性与词频一定是线性关系?
2020/11/13
多媒体搜索引擎DriveHQ
10
查询结果处理
• 结果排序
• 2.tf-idf
? 查询
2020/11/13
矢量空间模型(vector space model)
多媒体搜索引擎DriveHQ
11
查询结果处理
• 结果排序
• 2.tf-idf
• 文档矢量不一定是归一化的
2020/11/13
• 出现在搜索引擎上对网站的访问量影响巨大 • 希望自己的网站总是出现在搜索结果的最前面
• SEO: Search Engine Optimization • 根据索引算法优化页面设计
2020/11/13
tf-idf相关性计算准则下如何优化?
华师大 华师大 华师大 华师大 华师大 华师大 华师大 华师大 华师大 华师大 华师大 华师大
在1%文档中出现的词:D/Dt = 100 idft = log(100) > 0
2020/11/13
多媒体搜索引擎DriveHQ
9
查询结果处理
• 结果排序
• 2.tf-idf
• 用idf为权重的加权词频和
sq,d tft,didtf tq
文档中一个词的重要性
tt 1 fit 1 d ,tt 2 fi ft 2 d ,. tt n f . fi.t n d , f文档矢量
2020/11/13
多媒体搜索引擎DriveHQ
16
查询结果处理
• 结果排序
• 2.tf-idf
• “王婆卖瓜自卖自夸”
• 文档的优劣程度不可能通过文档本身来评价 • 通过文档本身的内容对文档排序的方法不可靠 • 谁可以评价文档的优劣?
• 用户评价 • 同行评议
2020/11/13
多媒体搜索引擎DriveHQ