信息检索中的神经排序模型研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
信息检索中的神经排序模型研究
论⽂:《A Deep Look into Neural Ranking Models for Information Retrieval 》
论⽂时间:2019
零、与现有⼯作的不同之处
分析+对⽐+讨论。
从不同维度深⼊研究 neural ranking model(主要研究⽤于⽂本检索 textual retrieval 的神经排序模型),主要分析它们的基本假设(underlying assumptions )、主要设计原则(major design principles)和学习策略(learning strategies)。
通过基准任务(benchmark tasks)对各种模型进⾏⽐较,以获得对现有技术的全⾯理解。
以及最后的反思与展望。
⼀、相关名词解释 Q&A
IR (information retrieval) 信息检索是什么?
从⼤型集合中获取与信息需求相关的⼀些信息资源的活动,⽽后对得到的信息资源进⾏排序。
(因此关于 ranking model 的研究是 IR 的核⼼问题)
neural ranking model 神经排序模型是什么?
将浅层或深层神经⽹络应⽤于IR中的排序问题。
(applying shallow or deep neural networks to the ranking problem in IR)
neural ranking model 的强⼤之处?
能够从原始⽂本输⼊中学习排序问题,从⽽避免了⼿⼯特征(hand-crafted features)的诸多限制。
近些年被提出的排序模型(ranking models)?
vector space models,probabilistic models,和 learning to rank (LTR) models
已存在的技术,特别是 LTR 模型,已经在诸如 Web 搜索引擎的许多 IR 应⽤中取得了巨⼤的成功,但是对于更复杂的检索任务,这些技术的有效性(effective ness)依然存在很⼤的提升空间。
为什么要将 deep learning ⽤于排序模型?
深度学习已经在诸如语⾳识别、计算机视觉和 NLP 领域获得了激动⼈⼼的突破。
从原始输⼊中学习抽象的表⽰(representations),并且模型具有⾜够的能⼒去解决困难的学习问题,这也是 IR 领域中排序模型(ranking models)所需要的。
此外,⼀⽅⾯,像 LTR 模型,依赖于⼿⼯提取的特征,这⾮常耗时且定义往往过于具体(不够抽象)。
所以,如果排序模型可以⾃动学习有⽤的排序特征(ran king features)会有很⼤的价值。
另⼀⽅⾯,相关性(relevance),作为信息检索中⼀个重要的概念,其建⽴在复杂的⼈类认知过程之上,往往是定义模糊、难以估计的。
⽽我们DL学习的抽象特征正可以更好的代表它。
信息检索中常提到 ad-hoc, routing 等术语是什么意思?
术语 ad-hoc:即这样⼀种场景(scenario),集合(collection)中的⽂档保持相对静态,⽽新的查询(queries)持续地提交给系统。
主要研究任务包括对⼤数据库的索引查询、查询的扩展等等。
术语 routing:⽤户的查询要求相对稳定。
在routing中,查询(query)常常称为 profile,也就是通常所说的兴趣,⽤户的兴趣在⼀段时间内是稳定不变的,但是数据库(更确切的说,是数据流)是不断变化的。
主要任务不是索引,⽽是对⽤户兴趣的建模,即如何对⽤户兴趣建⽴合适的数学模型。
Community-based Question Answering (CQA) 基于社区论坛的问答?
主要包含两个问题,分别是 Question Semantic Matching 和 Question Answer Ranking and Retrieve.
Question Semantic Matching:论坛的⼀个⼤问题,越来越多的问题使问题重复。
进⾏检测以①减少冗余,即如果⼀个⼈回答了这个问题⼀次,他不需要再回答。
②如果第⼀个问题有很多答案,并且询问其相似问题,那么答案可以返回给提问者。
Question Answer Ranking and Retrieve:考虑到CQA⽹站接收的流量,在发布的众多答案中找到⼀个好答案的任务本⾝就是重要的。
给定问题q和答案池a1…am,然后试着找到最好的候选答案。
候选答案池可能包含也可能不包含多个 gold 标签。
什么是TREC?及相关名词
(1)TREC:text retrieval conference,⽂本检索会议
(2)Track:TREC 的每个⼦任务,eg:QA、Filtering、Web
(3)Topic:预先确定的问题,⽤来向检索系统提问
(4)Document:包括训练集和测试集合(TIPSTER&TREC CDs)
(5)Relevance Judgments:相关性评估,⼈⼯或⾃动
(6)Topic 的⼀般结构:① Title:标题,通常由⼏个单词构成,⾮常简短② Description:描述,⼀句话,⽐Title详细,包含了Title的所有单词③ Narrative:详述,更详细地介绍哪些⽂档是相关的
(7)Filtering 任务:①⽬标:对⽂档流中的每个⽂档,在当前的query下,确定是否要检出。
② adaptive filtering:每个topic给出两个正例。
③ batch filtering :每个topic给出 training set 中所有正例④ routing:同 batch filtering,但返回结果排序
(8)QA 任务:①⽬标:每个问题,不仅返回所在⽂档,⽽且要返回答案⽚段② main task:允许以“⽆答案”作为回答(500个问题)③ List Task:答案是列举性质的,⽐如,说出来⾃中国的10个明星?(25个问题)④ Context Task:⼀组问题,其间有关联(10组)
(9)web track 任务:①⽬标:对每个topic,按相关性返回相关Web⽹页,测试link analysis的效果
closed domain 和 open domain:
封闭领域:系统对超出了设计的领域范围之外的,所有其它领域的信息都⽆能为⼒。
开放领域:所提出的问题并不局限于预定义好的领域和领域知识。
在理想情况下,问答系统要有能⼒在很⼤规模的各个领域的⽂本中进⾏探索筛选,找到我们所需的答案。
知识蒸馏 Knowledge Distillation:
基本思路:⼀般来讲,越是复杂的⽹络,参数越多,计算量越⼤,其性能越好;越是⼩的⽹络,越难训练到⼤⽹络那么好的性能。
提升性能和落地部署不要⽤相同的模型:部署⽤的模型和训练提⾼性能⽤的模型,其实应⽤场合不⼀样,应该⽤不⼀样的模型!(训练⽤复杂⼤模型,⽬标为提⾼性能;⽽部署⽤⼩模型,⽬标是为了速度和节约资源)
知识蒸馏就是把⼤模型对样本输出的概率向量作为软⽬标“soft targets”,去让⼩模型的输出尽量去和这个软⽬标靠(原来是和One-hot编码上靠)
⽅法:引⼊温度参数T去放⼤(蒸馏出来)这些⼩概率值所携带的信息
⽆偏学习和迁移学习:
⽆偏学习:如果你想做⼀件事,那么请直接开始做那件事
迁移学习:如果你⽆法直接做那件事,就先做些看起来有帮助的事
PRF 模型:pseudo-relevance feedback (PRF) models
⼆、神经排序模型处理的典型⽂本信息检索任务(textual IR tasks) Q&A
ad-hoc retrieval
(1)定义:ad-hoc 检索是⼀个经典的检索任务,⽤户通过查询(query)指定他的信息需求,该query会发起⼀个,对可能与⽤户相关的⽂档(documents)的搜索。
检索到的⽂档⼀般会通过⼀个 ranking model,作为⼀个 ranking list 返回,其中排名越靠前的⽂档越可能和⽤户查询相关。
(2)异构性(heterogeneity):查询(query)和⽂档(documents)的异构性是 ad-hoc 检索的主要特征(即,查询来⾃搜索意图不明确的⽤户,且通常⾮常简单,⼏个单词到⼏个句⼦不等;⽽⽂档常来⾃于不同作者组,且⽂本长度较长,⼏个句⼦到⼏个段落不等。
因此查询和⽂档结构的不同)。
这种异构性导致了严重的“词汇不匹配问题”(vocabulary mismatch problem)和“不同的相关模式”(diverse relevance patterns)。
考虑短查询和长⽂档的匹配问题,提出了不同的假设(hypothesis)。
eg,verbosity hypothesis(它假定⽂档的长度与其相关性间独⽴ assumes the independ ence of a document’s relevance of its length)和 scope hypothesis(它假定⽂档的长度与其相关性间不独⽴).
(3)相关性(relevance):ad-hoc 检索中的相关性本⾝定义模糊,并且⾼度依赖于⽤户,这使得 ad-hoc 检索中相关性评估(relevance assessment)是⼀个极具挑战的问题。
(4)在 ad-hoc retrieval 任务中评估 neural ranking model 的数据集:Robust,ClueWeb,GOV2, Microblog,as well as logs such as the AOL log and the Bing Search log。
以及最近的,NTCIR WWW Task。
Question Answering QA
Processing math: 100%
(1)定义:QA 是指根据⼀定的信息资源(information sources),⾃动回答⽤户通过⾃然语⾔提出的问题(question)。
其中,question 可能来⾃ closed do main 或 open domain;information sources 可以从结构化数据(eg,knowledge base 知识库)变化到⾮结构化数据(eg,documents 或⽂web pages)。
(2)QA 不同的 task formats:① multiple-choice selection ② answer passage/sentence retrieval(之后的 QA 指这个特定的任务)③ answer span locating ④ answer synthesizing from multiple sources(从多个来源合成答案)
(3)异构性(heterogeneity):相⽐ ad-hoc retrieval,QA 中,the question 和 the answer passage/sentence 之间的异构性降低了。
因为⼀⽅⾯,question 都使⽤⾃然语⾔来描述,这⽐关键词 query 更长,且意图描述更清楚。
另⼀⽅⾯,the answer passage/sentence 通常⽐⽂档的⽂本跨度(text span)更短,这会使得 topics/semantics 更集中。
(4)vocabulary mismatch 问题:词汇不匹配在 QA 中依然是⼀个 basic 的问题。
(5)相关性(relevance):在 QA 中,相关性的概念相对清晰,即是否 target passage/sentence 回答了这个 question,但是评估(assessment)依然是具有挑战的。
(6)评估 QA 任务的数据集:TREC QA,WikiQA,WebAP,InsuranceQA,WikiPassageQA 和 MS MARCO 等。
Community Question Answering CQA
(1)定义:社区问答(CQA)旨在基于CQA⽹站上现有的QA资源找到⽤户问题的答案。
eg,Yahoo! Answers,Stack Overflow,Zhihu
(2)CQA 分类:①直接从答案池中检索答案,这类似于具有⼀些附加⽤户⾏为数据(例如,赞成/否决)的 QA 任务(根据⽤户的Q,找到A)。
②从问题库中检索相似的问题,假设相似问题的答案可以回答新问题。
本⽂将第⼆个任务格式称为 CQA 。
(3)同构性(homogeneity):input question 和 target question 之间是同构性,这和前两个任务不同。
(4)相关性(relevance):CQA 中的相关性是指语义对等/相似,在相关性定义中这两个问题是可以互换的,因此它是明确的和对称的。
(5)vocabulary mismatch 问题:词汇不匹配仍然是具有挑战性的问题,因为这两个问题都很简短,⽽且对于相同的意图存在不同的表达⽅式。
(6)评估 CQA 任务的数据集:eg,Quora Dataset,Yahoo! Answers Dataset,SemEval-2017 Task,CQADupStack8,ComQA9 和 LinkSO 等。
Automatic Conversation AC
(1)定义:⾃动对话(AC)旨在创建⼀个⾃动的⼈机对话过程,⽤于question answer、task completion 和 social chat(即,chit-chat)。
从信息检索⾓度,AC可以被表⽰为旨在对 dialog repository 中的适当 response 进⾏排序/选择的 IR 问题。
(本⽂限制 AC 为社交聊天任务,因为QA已经涵盖了问题回答,⽽ task c ompletion 通常不会被视为 IR 问题。
)
(2)同构性(homogeneity):AC 也有和 CQA ⼀样的同构性,因为 input utterance 和 response 都是短的 natural language sentences.
(3)相关性(relevance):AC 中的相关性指特定的语义对应(certain semantic correspondence),它的定义是宽泛的。
(4)vocabulary mismatch 问题:词汇不匹配问题不再是 AC 的中⼼挑战,因为对于这个任务⼀个好的 response 不需要单词之间的语义匹配(semantic matc hing between the words)。
然⽽,对⼀致性/连贯性建模变得⾄关重要,以避免⼀般琐碎的 response。
(5)在 AC 任务中评估 neural ranking model 的数据集:eg,Ubuntu Dialog Corpus (UDC),Sina Weibo dataset ,MSDialog,”campaign” NTCIR STC 。
三、neural ranking model 的统⼀表⽰
符号定义:
S是⼴义查询集合(generalized query set,可以是 search queries, natural language questions 或 input utterances 的 set)
T是⼴义⽂档集合(generalized document set,可以是 documents, answers 或 responses 的 set)
Y={1,2,···,l} 是标签集(label set, where labels represent grades)
s i∈S代表第i个query;T i=t i,1,t i,2,...,t i,n
i ∈T代表和 query s i相关的 documents 集合。
y i={y i,1,y i,2,...,y i,n
i } 代表和query s i相关的labels集合,n i代表集合T i的⼤⼩。
y i,j代表了t i,j相对于s i的相关度(relevance degree)。
F是⼀个 function class,其中f(s i,t i,j)∈F是⼀个 ranking function,输⼊⼀个query-document pair,给出⼀个相关分数(relevance score)。
L(f;s i;t i,j,y i,j) 是⼀个loss function,定义在f基于query-document pair 给出的预测和他们对应的label之上。
泛化的 LTR 问题,就是在labeled dataset上去寻找最⼩化loss function的最优的f∗:
f∗=arg min ∑
i
∑
j L(f;s i;t i,j,y i,j)
ranking function f可以进⼀步被抽象:
f(s,t)=g(ψ(s),ϕ(t),η(s,t))
其中,s 和 t 是两个输⼊⽂本;ψ和ϕ是representation function,分别从 s 和 t 中提取 features;η是从(s,t) pair 中提取 features 的交互函数(interaction function);g是基于feature representations 计算相关性分数的评估函数(evaluation function)。
注:在neural ranking model中,我们认为输⼊可以是原始的⽂本,也可以是 word embeddings。
也就是说,我们认为embedding mapping 是基本的输⼊层,不包含在ψ,ϕ和η中。
四、model architecture
4.1 对称架构(Symmetric)与⾮对称架构(Asymmetric)
对称架构:输⼊⽂本 s 和 t 是同构的(with the underlying homogeneous assumption),所以可以 apply 对称的⽹络结构作⽤于 inputs 。
即,输⼊s和t可以在不影响最终输出的情况下。
交换它们在输⼊层中的位置。
两类典型的对称结构:
siamese networks:字⾯意思是⽹络结构中的对称结构。
代表模型,DSSM、CLSM 和 LSTM-RNN 。
(猜测⼤多的交互函数η是⾮对称的,所以这类中不使⽤η)
symmetric interaction networks:采⽤对称的交互函数η(a symmetric interaction function)来表⽰输⼊。
代表模型,DeepMatch、Arc-II、atchPyramid 和Match-SRNN 。
注:因为对称架构基于同构假设,因此可以很好的适合 CQA 和 QA 任务(它们的 s 和 t 通常具有相似的长度和相似的形式)。
⾮对称架构:输⼊ s 和 t 是异构的(heterogeneous),因此应该在输⼊上应⽤⾮对称的⽹络结构。
即,如果我们改变输⼊s和t在输⼊层中的位置,我们将得到完全不同的输出。
⾮对称结构中使⽤了三种主要策略来处理查询和⽂档之间的异构性:
Query split:假设 ad-hoc retrieval 中的⼤多数 query 是基于 keyword 的,可以将 query 拆分成词条(term),与 document 进⾏匹配。
基于该策略的模型代表,DRMM、KNRM等。
Document split:假设在作⽤域假设(scope hypothesis)下,长⽂档可能与查询部分相关。
所以拆分⽂档以捕获细粒度交互信号,⽽不是将其作为⼀个整体对待。
基于该策略的模型代表,HiNT。
Joint split:同时使⽤查询拆分和⽂档拆分的假设。
基于该策略的模型代表,DeepRank和PACRR。
注:因为query 和 document 之间的异构性,⾮对称⽹络主要⽤于 ad-hoc 检索任务。
也可以⽤于 QA 任务,其中 answer passages 被相对于 natural language questions 进⾏排序。
4.2 Representation-focused 与 Interaction-focused 架构
基于对relevance evaluation的,不同的关于features的假设进⾏分类。
Representation-focused architecture:
这种结构的基本假设是关联性取决于输⼊⽂本(input texts)的构成意义(compositional meaning)。
这类模型通常定义复杂的representation function ψ,ϕ(即,deep neural networks,eg,FCNN、CNN或RNN),但是没有 interaction function η,并且使⽤简单的 evaluation function g(例如,cosine function 或 MLP)去产⽣最后的 relevance score。
① representation-focused architecture 可以更好地将任务与全局匹配(global matching)的需求相匹配。
②更适合短输⼊⽂本的任务,因为对于长⽂本⽽⾔,很难获得好的⾼层表⽰。
eg,CQA 和 AC 就有这样的特征。
③此外,这类模型对于在线计算很有效,⼀旦预先学习了ψ和ϕ,就可以离线预先计算⽂本的表⽰。
Interaction-focused Architecture:
这类架构的基本假设是,相关性(relevance)本质上是输⼊⽂本间的关系(relation)。
因此,这类模型定义了复杂的interaction function η,没有定义 representation function ψ和ϕ,同时使⽤了复杂的 evaluation function g对 interaction 进⾏抽象,并产⽣最后的 relevance score。
对于已经被提出的 interaction function,可以分为两类:
① Non-parametric interaction functions:没有可学习的参数。
eg,⼀些是基于每对⼉ input word vectors 定义的;⼀些是基于⼀个 word vector 和⼀组 word v ectors 之间关系定义的。
② parametric interaction functions:从数据中学习相似度/距离函数。
当有⾜够的训练数据时可以采⽤参数交互函数,因为它们以更⼤的模型复杂度为代价带来了模型灵活性。
①将evaluation relevance 直接定义在 interactions上,这类模型可以满⾜⼤多数的IR任务。
②此外,通过使⽤详细的交互信号⽽不是单个⽂本的⾼级表⽰,该结构可以更好地适合需要特定匹配模式(例如,exact word matching)和不同的匹配要求的任务,eg,ad-hoc retrieval 任务。
③该结构可以更好地拟合异构输⼊的任务,eg,ad-hoc retrieval 和 QA 任务,因为避开了对于长⽂本的编码过程。
④但是该类模型对于在线计算不是很有效,因为交互函数η不能被提前计算,只有看到了输⼊对(s,t) 后才可以。
4.3 Single-granularity 与 Multi-granularity 架构
evaluation function g,根据对相关性估计过程(the estimation process for relevance)的不同假设,将现有的神经⽹络排序模型分为单粒度模型和多粒度模型。
Single-granularity 架构:单粒度体系结构的基本假设是,可以基于φ,ψ和η从单格式⽂本输⼊中提取的⾼层特征来评估相关性。
这种假设下,φ,ψ和η实际上被视为评估函数g的⿊盒。
同时,输⼊s和t被简单地视为 words 或 word embeddings的集合/序列(set/sequence),没有任何附加的语⾔结构。
eg,DSSM、MatchPyramid、DRMM、HiNT、ARC-I、MV-LSTM、K-NRM、Match-SRNN等。
Multi-granularity 架构:多粒度架构的基本假设是相关性估计(relevance estimation)需要多粒度的特征,要么来⾃不同级别的特征抽象(feature abstraction),要么基于输⼊的不同类型的语⾔单元(different types of language units)。
在此假设下,表⽰函数φ,ψ和交互函数η不再是g的⿊盒,我们考虑s和t中的语⾔结构,可以识别出两种基本的多粒度类型,即垂直多粒度(vertical multi-granularity)和⽔平多粒度(horizontal multi-granularity)。
垂直多粒度:利⽤了深层⽹络的分层性质,使得评估函数g可以利⽤特征的不同级别抽象来进⾏相关性估计。
⽔平多粒度:通过将输⼊从单词(words)扩展到短语/n元串(phrases/n-grams)或句⼦(sentences)来增强输⼊,在每个输⼊形式上应⽤特定的单粒度体系结构,并聚合最终相关性输出的所有粒度。
通过提取多粒度特征,该类别的模型可以更好地拟合需要细粒度匹配信号进⾏相关性计算的任务,eg,ad-hoc retrieval 和 QA。
当然,增强的模型能⼒通常是以更⼤的模型复杂性为代价的。
五、Model Learning
5.1 学习⽬标 Learning objective
5.1.1. Pointwise Ranking Objective 逐点学习
定义:给定⼀组查询⽂档对 (s i,t i,j) 及其对应的relevance annotation (y i,j),pointwise ranking objective 试图通过要求排名模型直接预测y i,j for (s i,t i,j)来优化排名模型。
换⾔之,pointwise ranking objective 的损失函数是基于每个(s,t)对⼉独⽴计算的。
L(f;S,T,Y)=∑
i
∑
j L(y i,j,f(s i,t i,j))
eg, cross entropy 交叉熵损失函数—最流⾏的pointwise loss function 之⼀。
(如果是数值labels,MSE 均⽅误差)
L(f;S,T,Y)=−∑
i
∑
j y i,j log(f(s i,t i,j))+(1−y i,j)log(1−f(s i,t i,j))
优点:① pointwise ranking objectives 基于每个query-document pair (s i,t i,j) 分别计算,这使得它很简单且易于扩展。
②以 pointwise loss function 作为损失函数的 neural model 的输出往往在实际中有真实的含义和价值。
缺点:⼀般⽽⾔,按点排序⽬标在排序任务中被认为效率较低。
因为逐点损失函数不考虑⽂档偏好或排序信息,因此它们不能保证在模型损失达到全局最⼩值时可以⽣成最佳的排序列表。
5.1.2. Pairwise Ranking Objective
定义:成对排序⽬标侧重于优化⽂档之间的相对偏好,⽽不是它们的标签。
其基于所有可能的⽂档对的排列来计算成对损失函数。
L(f;S,T,Y)=∑
i
∑
(j,k),y i,j≻y i,k L(f(s i,t i,j)−f(s i,t i,k))
其中,t i,j和t i,k是和query s i相关的两个⽂档,其中,t i,j⽐t i,k更可取(即,y i,j≻y i,k)。
eg,⼀个著名的pairwise loss function 是 Hingle loss:
L(f;S,T,Y)=∑
i
∑
(j,k),y i,j≻y i,k max(0,1−f(s i,t i,j+f(s i,t i,k)))
eg,另⼀个流⾏的pairwise 损失函数是pairwise cross entropy:
L(f;S,T,Y)=−∑
i
∑
(j,k),y i,j≻y i,k logσ(f(s i,t i,j)−f(s i,t i,k))
其中,σ是sigmoid 函数。
优点:理想情况下,当成对排序损失最⼩化时,⽂档之间的所有偏好关系都应该得到满⾜,并且模型将为每个查询⽣成最优结果列表。
这使 pairwise ranking objectives 在根据相关⽂档的排序来评估性能的许多任务中有效。
缺点:然⽽,在实践中,由于以下两个原因,在 pairwise ⽅法中优化⽂档偏好并不总是导致最终ranking metrics 的改进:
①开发⼀个在所有情况下都能正确预测⽂档偏好的排序模型是不可能的。
②在⼤多数现有排名度量的计算中,并不是所有的⽂档对都同等重要。
5.1.3. Listwise Ranking Objective
定义:主要思想是构造直接反映模型最终排序性能的损失函数。
不再是每次⽐较两个⽂档,listwise loss function ⼀起计算每个查询及其候选⽂档列表的ranking loss。
L(f;S,T,Y)=∑
i L({y i,j,f(s i,t i,j)|t i,j∈T i})
其中,T i是 query s i的候选⽂档集合。
L定义为按y i,j排序的⽂档列表(称为πi)和按f(s i,t i,j) 排序的⽂档列表的函数。
eg,ListMLE、Attention Rank function(函数见论⽂23页)
优点:①当我们在⽆偏学习框架下⽤⽤户⾏为数据(例如,点击)训练神经排序模型时,它特别有⽤。
②它们适⽤于对⼀⼩部分候选⽂档的重新排序阶段(re-ranking phase)。
由于许多实⽤的搜索系统现在使⽤神经模型进⾏⽂档重新排序,因此 Listwise Ranking Objective 在神经排序框架中变得越来越流⾏。
缺点:虽然列表排序⽬标通常⽐成对排序⽬标更有效,但其⾼昂的计算成本往往限制了它们的应⽤。
5.1.4. Multi-task Learning Objective
定义:在某些情况下,神经排序模型的优化可能包括同时学习多个排序或⾮排序⽬标。
这种⽅法背后的动机是使⽤来⾃⼀个领域的信息来帮助理解来⾃其他领域的信息。
⼀般⽽⾔,现有的多任务学习算法最常⽤的⽅法是构造对多个任务或域中的排序普遍有效的共享表⽰。
5.2 训练策略 Training Strategies
Supervised learning:监督学习是指对查询-⽂档对进⾏标记的最常见的学习策略。
数据可以由专家、众包来标记,或者可以从⽤户与搜索引擎的交互中收集,作为隐式反馈。
在该训练策略中,假设有⾜够数量的标记训练数据可⽤。
然⽽,由于通常是“数据饥渴”的,标注的数据有限,在这种训练模式下只能学习参数空间受限的模型。
Weakly supervised learning:弱监督学习指的是使⽤诸如BM25的现有检索模型⾃动⽣成查询⽂档标签的学习策略。
该学习策略不需要带标签的训练数据。
除了 ranking 之外,弱监督已经在其他信息检索任务中显⽰出成功的结果,eg,query performance prediction 、learning relevance-based
word embedding 和 efficient learning to rank 等。
Semi-supervised learning:半监督学习指的是⼀种学习策略,它利⽤⼀⼩组已标记的query-document pair 加上⼀⼤组未标记的数据。
六、模型⽐较
在 ad-hoc retrieval 任务上的⽐较
①概率模型(即QL和BM25)虽然简单,但已经可以达到相当好的性能。
具有⼈为设计特征的传统PRF模型(RM3)和LTR模型(RankSVM和LambdaMart)是强基线,其性能是⼤多数基于原始⽂本的神经排序模型难以⽐拟的。
然⽽,PRF技术也可以⽤来增强神经排序模型,⽽⼈类设计的LRT特征可以集成到神经排序模型中以提⾼排序性能。
②随着时间的推移,该任务中的 neural ranking model architecture 似乎从对称到不对称,从以表⽰为中⼼到以交互为中⼼的范式发⽣转变。
的确,不对称和以交互为中⼼的结构可能更适合表现出异构性的ad-hoc检索任务。
③在不同数量的查询和标签⽅⾯具有更⼤的数据量的神经模型更有可能获得更⼤的性能改进。
(与⾮神经模型相⽐)
④观察到,通常情况下,⾮对称的、关注交互的、多粒度的架构可以在ad-hoc检索任务中⼯作得更好。
在 QA 任务上的⽐较
①可能因为问题和答案之间的同构性的增加,对称(symmetric)结构在 QA 任务中得到了更⼴泛的采⽤。
②在QA任务中,以表⽰为中⼼的架构和以交互为中⼼的架构没有⼀个明显的胜者。
在 short answer sentence retrieval 数据集(即TREC QA和WikiQA)上更多地采⽤了以表⽰为中⼼的架构,⽽在longer answer passage retrieval 数据集(例如Yahoo!)上更多地采⽤了以交互为中⼼的架构。
③与ad-hoc检索类似,在较⼤的数据集上,神经模型⽐⾮神经模型更有可能获得更⼤的性能改进。
七、未来可能的趋势
Indexing: from Re-ranking to Ranking
Learning with External Knowledge
Learning with Visualized Technology
Learning with Context
Neural Ranking Model Understanding
……
需要查询的问题
learning to rank(LTR)模型
可以看下这篇 paper Mitra and Craswell [41] gave an introduction to neural information retrieval.。