搜索相关性——精选推荐

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

搜索相关性
今天学习了同事总结的搜索相关性计算⽅法，整理如下：
相关性指搜索query和页⾯之间的相关程度，衡量的维度有：⽂本相关性、权威性、查询需求满⾜。

其中权威性要求同等条件下选择更优质、权威的结果；需求满⾜侧重了搜索个性化，同⼀个搜索词有多种不同含义，搜索引擎应该能够分析出⽤户的意图和需求，然后返回适合的结果。

常⽤的⽂本相关性模型有TF*IDF模型，TF:term frequency IDF=log(D/DW)(D：⽂档个数，DW：关键字W出现的⽂档个数)，同时，还需要考虑：
1）term出现的顺序和相对位置
2)页⾯级别的特征：主题分析、反链anchor分析、页⾯类型、页⾯质量、站点/频道的属性、正⽂提取/边框去噪等
3）term级别的特征：结构特征及语义（定义词、上下⽂关系等）
得到每个term的tf*idf后，计算相关性的⽅法有：
1）将query中所有term的TF*IDF加权相加，
2）向量夹⾓：query向量和页⾯向量之间的相似度
3）主题匹配度*offset模型（百度）
主题匹配度*offset模型：
⽬标：好结果的召回（包含全部term的⽹页，命中同义词的⽹页，主⼲命中的⽹页）、结果排序
计算：主题匹配度=cqr*ctr，其中cqr是query与⽚段的交集占query的⽐例， ctr是query和⽚段的交集占⽚段的⽐例。

offset：term在⽹页中的分布情况，⽤于计算query中的term在⽹页中的距离，体现了term的相对位置信息，
•Offset差异计算公式：
sum(|(offset_page(i+1)-ofset_page(i))
-(offset_query(i+1)-offset_query(i))|*tight_ratio(i))
计算⽂本相关性，term的重要性是不同的，要按照term的重要性做省略重查，query的主⼲识别很重要。

除了⽂本相关性，相关性计算还涉及权威性、⽤户需求分析、反作弊、⽤户⾏为分析、资源质量判定、svm模型等（概率检索模型？）……------------------------------------------我是分割线——————————————————————————
⽬前的检索过程有：leaf计算scorer、booster后，由searchroot的pre_tuner和post_tuner进⾏调权，放出结果。

scorer是加权和，booster是调权因⼦，tuner是searchroot对结果进⾏调整，如pre_tuner过滤掉死链、死host、重复的doc等，post_tuner是例如去掉相同摘要的doc等等。

scorer如webcontentscorer、webanchorscocer、weburlscorer等，webcontentscorer是对title和content两个section进⾏计算，scorer中有node（query rewriter后产⽣不同node）、window(避免关键词累积作弊，找到命中term密度最⼤的⽚段来计算scorer)，计算流程：scorer初始化=》search初始化=》doc初始化=》computerscorerinternal=》computersectionscorer。

=》scorer
searchroot检索流程：
query=》query_rewriter=》parent=>leaf=>searchroot pre_tuner=>parent=>leaf=>snippet=>post_tuner=>filter=>user....。