搜索相关性——精选推荐
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
搜索相关性
今天学习了同事总结的搜索相关性计算⽅法,整理如下:
相关性指搜索query和页⾯之间的相关程度,衡量的维度有:⽂本相关性、权威性、查询需求满⾜。
其中权威性要求同等条件下选择更优质、权威的结果;需求满⾜侧重了搜索个性化,同⼀个搜索词有多种不同含义,搜索引擎应该能够分析出⽤户的意图和需求,然后返回适合的结果。
常⽤的⽂本相关性模型有TF*IDF模型,TF:term frequency IDF=log(D/DW)(D:⽂档个数,DW:关键字W出现的⽂档个数),同时,还需要考虑:
1)term出现的顺序和相对位置
2)页⾯级别的特征:主题分析、反链anchor分析、页⾯类型、页⾯质量、站点/频道的属性、正⽂提取/边框去噪等
3)term级别的特征:结构特征及语义(定义词、上下⽂关系等)
得到每个term的tf*idf后,计算相关性的⽅法有:
1)将query中所有term的TF*IDF加权相加,
2)向量夹⾓:query向量和页⾯向量之间的相似度
3)主题匹配度*offset模型(百度)
主题匹配度*offset模型:
⽬标:好结果的召回(包含全部term的⽹页,命中同义词的⽹页,主⼲命中的⽹页)、结果排序
计算:主题匹配度=cqr*ctr,其中cqr是query与⽚段的交集占query的⽐例, ctr是query和⽚段的交集占⽚段的⽐例。
offset:term在⽹页中的分布情况,⽤于计算query中的term在⽹页中的距离,体现了term的相对位置信息,
•Offset差异计算公式:
sum(|(offset_page(i+1)-ofset_page(i))
-(offset_query(i+1)-offset_query(i))|*tight_ratio(i))
计算⽂本相关性,term的重要性是不同的,要按照term的重要性做省略重查,query的主⼲识别很重要。
除了⽂本相关性,相关性计算还涉及权威性、⽤户需求分析、反作弊、⽤户⾏为分析、资源质量判定、svm模型等(概率检索模型?)……------------------------------------------我是分割线——————————————————————————
⽬前的检索过程有:leaf计算scorer、booster后,由searchroot的pre_tuner和post_tuner进⾏调权,放出结果。
scorer是加权和,booster是调权因⼦,tuner是searchroot对结果进⾏调整,如pre_tuner过滤掉死链、死host、重复的doc等,post_tuner是例如去掉相同摘要的doc等等。
scorer如webcontentscorer、webanchorscocer、weburlscorer等,webcontentscorer是对title和content两个section进⾏计算,scorer中有node(query rewriter后产⽣不同node)、window(避免关键词累积作弊,找到命中term密度最⼤的⽚段来计算scorer),计算流程:scorer初始化=》search初始化=》doc初始化=》computerscorerinternal=》computersectionscorer。
=》scorer
searchroot检索流程:
query=》query_rewriter=》parent=>leaf=>searchroot pre_tuner=>parent=>leaf=>snippet=>post_tuner=>filter=>user....。