8-图像检索中的相关反馈
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1
2
图像检索中的相关反馈
3
提纲
概述 相关反馈技术分类 查询向量相关反馈
特征权重相关反馈
4
1.概述
5
概述
目前,基于内容的图像检索CBIR技术所能够达到的检索效 果仍落后于目前最好的文本搜索引擎所能达到的检索效果,如
Alta Vista、Lycos等。
CBIR早期研究集中于寻求各种各样的图像特征表示方法, 希望找到 “最佳”特征或特征组合提高图像检索精确度。
文档检索中的查询向量相关反馈
假设在所有的候选文档中,已经知道与查询相关 的文档集合 DR ,以及与查询不相关的文档集合 D N , 则可以通过以下的公式来计算最优的查询向量:
Qopt 1 NR 1 Di NT N R iDR
iDN
D
i
上述的最优查询向量是理想状况下的查询向量, 在实际中 DR 和 D N 都无法事先知道。但是可以从用 户的反馈中得到 DR 和 D N 的近似值。
•Boolean反馈:对于一个给定的检索词,二值相关反馈会指明某 个文档是相关的或是不相关的(0 or 1)
•分级相关反馈:用一系列数字、字母、或描述指出某个文档与 检索词的相关程度(1,2,3,4,5 or A, B, C, D)
11
隐式反馈
Implicit feedback
Implicit feedback is inferred from user behavior, such as noting which documents they do and do not select for viewing, the duration of time spent viewing a document, or page browsing or scrolling actions .
用户根据他的需求主观地确定关键字是比较困难的。初始 查询时的查询向量Q一般是通过比较简单的方式确定的,比如 认为所有关键字的权重是相同的。因此,初始的查询向量Q无 法精确地反映用户的查询需求。
为克服这个困难,人们使用了相关性反馈的技术。让系统根 据用户对以前返回的查询结果的反馈意见来自动调整当前的 查询向量,使之更加接近用户的真实信息需求。
在检索时用户选择一种或多种图像“最佳”视觉特征,并指 定各特征之间的权重,基于用户明确的指导由检索系统找出与用 户提交的查询范例相似的其他图像。这种以计算机为中心的图像 检索系统的检索性能并不令人满意
6
概述
计算机为中心的图像检索系统的性能不好的原因
(1)高层语义概念同底层特征之间的差距。用户的指导能力在大多 数的情况下无法完成这个任务,尤其是两者之间的距离较大时。 (2)由于感知的主观性,人类对同一个查询需求的描述很难获得的 一致性。这种差异性导致了检索结果的不确定性增加。
动地调整特征权重来更好地模拟图像的高层语义和感知主观性。
8Leabharlann Baidu
概述
9
相关反馈技术分类
1. Explicit feedback(显式反馈)
2. Implicit feedback(隐式反馈) 3. Blind feedback(伪反馈)
10
显式反馈
显式反馈
用户用二值或者等级显式的告诉系统检索结果的相关性
从向量模型的角度出发,可以将相关反馈技术分成两大类:
查询向量优化算法和特征权重调整算法。
14
相关反馈技术分类
假设每次用户进行查询时,他心目中都有一个理想的查询点恰 好能够准确地表达他的信息需求,称为理想查询点。但实际上,用户 必须借助某些其他对象或手段才能够表达他的查询请求,比如输入查 询文本或者提交例子图像等,这些查询文本或例子图像在特征空间中 对应的点就是查询点。查询点应该比较接近理想查询点,但在一般情 况下两者还是有明显差距的。
特征空间 最佳匹配点
用户查询点
15
查询向量优化算法
查询向量优化算法的本质就是根据用户反馈信息来调整查 询点,使之更加接近理想查询点,再用调整后的查询点去重新 计算检索结果。 每次相关反馈中,用户提交反馈正例和反馈负例。查询向 量优化算法将移动查询点,使之更加靠近反馈正例在特征空间 中所对应的点,同时远离反馈负例所对应的点,通过这种方式 来接近理想查询点。 大量实验结果表明,采用优化后的查询点重新计算的检索 结果明显优于前一次的查询结果。 这类算法中比较有代表性的是
tk
wik
22
(k=1,…,N)代表字典中的关键字(N为字典中关 键字的数量)
Wik为文档Di中关键字tk的权重
文档检索中的查询向量相关反馈
在向量模型中,文档 Di 可以用一个关键字空间 中的权重向量来表示,如下所示:
Di wi1 ,...,wik ,...wiN
估计关键字的权重,考虑以下两个方面的因素
7
概述
为解决上述方法的局限性,90年代末CBIR的研究焦点转向把 人作为检索过程一部分的交互式检索机制,就是基于相关反馈的 CBIR方法。
相关反馈是传统的基于文本信息检索中的一项有力技术。它 根据用户对前一次检索结果的相关性反馈,自动地调整查询,使 调整后的查询更加接近用户的信息需求。
相关反馈技术意味着用户不需要人为指定各种特征的权重, 而只需要指出他认为的与查询相似或不相似的图像,系统能够自
同一个特征向量的不同分量的物理含义可能不同。 不同分量的值域范围因此可能是千差万别的。
28
图像检索相关反馈模型
受文本检索方法的启发,Rui和Huang针对图像检索领域提出 了分量重要因子ci(component importance)和逆集合重要因 子ici(inverse collection importance)的概念。其中ci因 子反映了某个分量在一个特征向量中的相对重要程度,而ici 因子体现了某个分量将一个特征向量区别于集合中其他图像
26
文档检索中的查询向量相关反馈
假设用户在上一次返回的查询结果中,选取了一 ' ' 些他认为的相关文档 DR 和无关文档 DN ,我们可 以用如下的公式来计算新的查询
1 Q ' Q Dr
1 dj Dnr d j Dr
d j Dnr
dj
Q’ = modified query vector; Q = original query vector; α,β,γ: weights (hand-chosen or set empirically); Dr = set of known relevant doc vectors; Rocchio 算法。该算法( Rocchio ,1971)是 20 世纪70 年代左右在 Dnr = set of known irrelevant doc vectors
12
伪反馈
Blind feedback
Pseudo relevance feedback, also known as blind relevance feedback, provides a method for automatic local analysis. It automates the manual part of relevance feedback, so that the user gets improved retrieval performance without an extended interaction. The method is to do normal retrieval to find an initial set of most relevant documents, to then assume that the top "k" ranked documents are relevant, and finally to do relevance feedback as before under this assumption. The procedure is: (1)Take the results returned by initial query as relevant results (only top k with k being between 10 to 50 in most experiments). ( 2 ) Select top 20-30 (indicative number) terms from these documents using for instance tf-idf weights.
相关反馈技术分类
文本检索与图像检索中采用最多的都是向量模型,即将文 本或者图像都表示成特征空间中的向量形式。现有各种检索技 术大多是以向量模型为基础,包括相关反馈技术在内。
所以可以把文本(图像)看作是特征空间中的点,而检索过 程实质上是寻找特征空间中离查询向量最近的那些点所对应的 文本(图像)。
19
其他相关反馈算法
除了上述的两大类算法之外还有很多其他相关反 馈算法。比较常见的有基于贝叶斯的相关反馈算法。
20
3.查询向量相 关反馈
21
文档检索中的查询向量相关反馈
一个典型文档信息模型检索包括一个文档模型,一个查询 模型和一个计算文档和查询之间相似度模型。 在文本检索模型中,每个文档都是由关键字的集合来表示 的,而每个关键字的权重是根据关键字对文档的重要程度决定 的。
The key differences of implicit relevance feedback from that of explicit include : (1)the user is not assessing relevance for the benefit of the IR system, but only satisfying their own needs and ( 2 ) the user is not necessarily informed that their behavior (selected documents) will be used as relevance feedback
Q [wq1 ,...,wqk ,...,wqN ]
在检索过程中需要计算文档D和查询Q之间的相似度。相似 度可以通向量之间的余弦距离来定义:
DTQ Sim( D, Q) D Q
24
文档检索中的查询向量相关反馈
在向量模型中,查询Q中关键字的权重是非常重要的,因为 D和Q的相似度以它为基础。
MARS系统中实现的算法。
16
查询向量优化算法
特征空间 最佳匹配点
用户查询点
17
查询向量优化算法
特征空间 最佳匹配点
用户查询点
18
特征权重调整算法
特征权重调整算法的核心思想是:每幅图像都对应着特征 空间中一个N维特征向量,而检索开始时特征空间每一维度上 的权重都是相等的。 在相关反馈中,检查所有反馈正例和负例的特征向量:假设 所有反馈正例在某个维度上的值相差很大,则说明这个维度和 用户查询的关系并不密切,因此可以降低该维度上的权重;反 之,如果所有正例在某个维度上的值非常接近,则说明该维度 很好地反映了查询中的某个特点,因此应该提高该维度的权重。 在MARS系统中也同样实现了这类算法,它的基本方法是用反 馈正例在某个维度上值的标准偏(standard deviation)来衡量 该维度的权重的。
(3)Do Query Expansion, add these terms to query, and then match the returned documents for this query and finally return the most relevant documents.
13
关键字频率TF(term frequency)
tf k
逆文档频率因子IDF(inverse document frequency)
idfk log2
23
M 1 dfk
文档检索中的查询向量相关反馈
最后将关键字的TF和IDF的乘积作为该关键字在文档中 的权重,这就是广泛采用的TF×IDF模型。 查询Q和文档D具有类似的模型,即也可以表现为一个关键 字空间中的权重向量:
Salton 的SMART 系统中引入并广泛流传的一种相关反馈算法 Q' 表示优化后的查询向量,它能够通过不断的
27
相关反馈逐步逼近理想的最优查询向量
Dopt
图像检索相关反馈模型
假设图像i的特征向量表示为:
Fi [ f i1 ,..., f ik ,..., f iN ]
值得特别注意的是:
2
图像检索中的相关反馈
3
提纲
概述 相关反馈技术分类 查询向量相关反馈
特征权重相关反馈
4
1.概述
5
概述
目前,基于内容的图像检索CBIR技术所能够达到的检索效 果仍落后于目前最好的文本搜索引擎所能达到的检索效果,如
Alta Vista、Lycos等。
CBIR早期研究集中于寻求各种各样的图像特征表示方法, 希望找到 “最佳”特征或特征组合提高图像检索精确度。
文档检索中的查询向量相关反馈
假设在所有的候选文档中,已经知道与查询相关 的文档集合 DR ,以及与查询不相关的文档集合 D N , 则可以通过以下的公式来计算最优的查询向量:
Qopt 1 NR 1 Di NT N R iDR
iDN
D
i
上述的最优查询向量是理想状况下的查询向量, 在实际中 DR 和 D N 都无法事先知道。但是可以从用 户的反馈中得到 DR 和 D N 的近似值。
•Boolean反馈:对于一个给定的检索词,二值相关反馈会指明某 个文档是相关的或是不相关的(0 or 1)
•分级相关反馈:用一系列数字、字母、或描述指出某个文档与 检索词的相关程度(1,2,3,4,5 or A, B, C, D)
11
隐式反馈
Implicit feedback
Implicit feedback is inferred from user behavior, such as noting which documents they do and do not select for viewing, the duration of time spent viewing a document, or page browsing or scrolling actions .
用户根据他的需求主观地确定关键字是比较困难的。初始 查询时的查询向量Q一般是通过比较简单的方式确定的,比如 认为所有关键字的权重是相同的。因此,初始的查询向量Q无 法精确地反映用户的查询需求。
为克服这个困难,人们使用了相关性反馈的技术。让系统根 据用户对以前返回的查询结果的反馈意见来自动调整当前的 查询向量,使之更加接近用户的真实信息需求。
在检索时用户选择一种或多种图像“最佳”视觉特征,并指 定各特征之间的权重,基于用户明确的指导由检索系统找出与用 户提交的查询范例相似的其他图像。这种以计算机为中心的图像 检索系统的检索性能并不令人满意
6
概述
计算机为中心的图像检索系统的性能不好的原因
(1)高层语义概念同底层特征之间的差距。用户的指导能力在大多 数的情况下无法完成这个任务,尤其是两者之间的距离较大时。 (2)由于感知的主观性,人类对同一个查询需求的描述很难获得的 一致性。这种差异性导致了检索结果的不确定性增加。
动地调整特征权重来更好地模拟图像的高层语义和感知主观性。
8Leabharlann Baidu
概述
9
相关反馈技术分类
1. Explicit feedback(显式反馈)
2. Implicit feedback(隐式反馈) 3. Blind feedback(伪反馈)
10
显式反馈
显式反馈
用户用二值或者等级显式的告诉系统检索结果的相关性
从向量模型的角度出发,可以将相关反馈技术分成两大类:
查询向量优化算法和特征权重调整算法。
14
相关反馈技术分类
假设每次用户进行查询时,他心目中都有一个理想的查询点恰 好能够准确地表达他的信息需求,称为理想查询点。但实际上,用户 必须借助某些其他对象或手段才能够表达他的查询请求,比如输入查 询文本或者提交例子图像等,这些查询文本或例子图像在特征空间中 对应的点就是查询点。查询点应该比较接近理想查询点,但在一般情 况下两者还是有明显差距的。
特征空间 最佳匹配点
用户查询点
15
查询向量优化算法
查询向量优化算法的本质就是根据用户反馈信息来调整查 询点,使之更加接近理想查询点,再用调整后的查询点去重新 计算检索结果。 每次相关反馈中,用户提交反馈正例和反馈负例。查询向 量优化算法将移动查询点,使之更加靠近反馈正例在特征空间 中所对应的点,同时远离反馈负例所对应的点,通过这种方式 来接近理想查询点。 大量实验结果表明,采用优化后的查询点重新计算的检索 结果明显优于前一次的查询结果。 这类算法中比较有代表性的是
tk
wik
22
(k=1,…,N)代表字典中的关键字(N为字典中关 键字的数量)
Wik为文档Di中关键字tk的权重
文档检索中的查询向量相关反馈
在向量模型中,文档 Di 可以用一个关键字空间 中的权重向量来表示,如下所示:
Di wi1 ,...,wik ,...wiN
估计关键字的权重,考虑以下两个方面的因素
7
概述
为解决上述方法的局限性,90年代末CBIR的研究焦点转向把 人作为检索过程一部分的交互式检索机制,就是基于相关反馈的 CBIR方法。
相关反馈是传统的基于文本信息检索中的一项有力技术。它 根据用户对前一次检索结果的相关性反馈,自动地调整查询,使 调整后的查询更加接近用户的信息需求。
相关反馈技术意味着用户不需要人为指定各种特征的权重, 而只需要指出他认为的与查询相似或不相似的图像,系统能够自
同一个特征向量的不同分量的物理含义可能不同。 不同分量的值域范围因此可能是千差万别的。
28
图像检索相关反馈模型
受文本检索方法的启发,Rui和Huang针对图像检索领域提出 了分量重要因子ci(component importance)和逆集合重要因 子ici(inverse collection importance)的概念。其中ci因 子反映了某个分量在一个特征向量中的相对重要程度,而ici 因子体现了某个分量将一个特征向量区别于集合中其他图像
26
文档检索中的查询向量相关反馈
假设用户在上一次返回的查询结果中,选取了一 ' ' 些他认为的相关文档 DR 和无关文档 DN ,我们可 以用如下的公式来计算新的查询
1 Q ' Q Dr
1 dj Dnr d j Dr
d j Dnr
dj
Q’ = modified query vector; Q = original query vector; α,β,γ: weights (hand-chosen or set empirically); Dr = set of known relevant doc vectors; Rocchio 算法。该算法( Rocchio ,1971)是 20 世纪70 年代左右在 Dnr = set of known irrelevant doc vectors
12
伪反馈
Blind feedback
Pseudo relevance feedback, also known as blind relevance feedback, provides a method for automatic local analysis. It automates the manual part of relevance feedback, so that the user gets improved retrieval performance without an extended interaction. The method is to do normal retrieval to find an initial set of most relevant documents, to then assume that the top "k" ranked documents are relevant, and finally to do relevance feedback as before under this assumption. The procedure is: (1)Take the results returned by initial query as relevant results (only top k with k being between 10 to 50 in most experiments). ( 2 ) Select top 20-30 (indicative number) terms from these documents using for instance tf-idf weights.
相关反馈技术分类
文本检索与图像检索中采用最多的都是向量模型,即将文 本或者图像都表示成特征空间中的向量形式。现有各种检索技 术大多是以向量模型为基础,包括相关反馈技术在内。
所以可以把文本(图像)看作是特征空间中的点,而检索过 程实质上是寻找特征空间中离查询向量最近的那些点所对应的 文本(图像)。
19
其他相关反馈算法
除了上述的两大类算法之外还有很多其他相关反 馈算法。比较常见的有基于贝叶斯的相关反馈算法。
20
3.查询向量相 关反馈
21
文档检索中的查询向量相关反馈
一个典型文档信息模型检索包括一个文档模型,一个查询 模型和一个计算文档和查询之间相似度模型。 在文本检索模型中,每个文档都是由关键字的集合来表示 的,而每个关键字的权重是根据关键字对文档的重要程度决定 的。
The key differences of implicit relevance feedback from that of explicit include : (1)the user is not assessing relevance for the benefit of the IR system, but only satisfying their own needs and ( 2 ) the user is not necessarily informed that their behavior (selected documents) will be used as relevance feedback
Q [wq1 ,...,wqk ,...,wqN ]
在检索过程中需要计算文档D和查询Q之间的相似度。相似 度可以通向量之间的余弦距离来定义:
DTQ Sim( D, Q) D Q
24
文档检索中的查询向量相关反馈
在向量模型中,查询Q中关键字的权重是非常重要的,因为 D和Q的相似度以它为基础。
MARS系统中实现的算法。
16
查询向量优化算法
特征空间 最佳匹配点
用户查询点
17
查询向量优化算法
特征空间 最佳匹配点
用户查询点
18
特征权重调整算法
特征权重调整算法的核心思想是:每幅图像都对应着特征 空间中一个N维特征向量,而检索开始时特征空间每一维度上 的权重都是相等的。 在相关反馈中,检查所有反馈正例和负例的特征向量:假设 所有反馈正例在某个维度上的值相差很大,则说明这个维度和 用户查询的关系并不密切,因此可以降低该维度上的权重;反 之,如果所有正例在某个维度上的值非常接近,则说明该维度 很好地反映了查询中的某个特点,因此应该提高该维度的权重。 在MARS系统中也同样实现了这类算法,它的基本方法是用反 馈正例在某个维度上值的标准偏(standard deviation)来衡量 该维度的权重的。
(3)Do Query Expansion, add these terms to query, and then match the returned documents for this query and finally return the most relevant documents.
13
关键字频率TF(term frequency)
tf k
逆文档频率因子IDF(inverse document frequency)
idfk log2
23
M 1 dfk
文档检索中的查询向量相关反馈
最后将关键字的TF和IDF的乘积作为该关键字在文档中 的权重,这就是广泛采用的TF×IDF模型。 查询Q和文档D具有类似的模型,即也可以表现为一个关键 字空间中的权重向量:
Salton 的SMART 系统中引入并广泛流传的一种相关反馈算法 Q' 表示优化后的查询向量,它能够通过不断的
27
相关反馈逐步逼近理想的最优查询向量
Dopt
图像检索相关反馈模型
假设图像i的特征向量表示为:
Fi [ f i1 ,..., f ik ,..., f iN ]
值得特别注意的是: