图像语义自动标注介绍
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
6 特征提取的主要方法
(2)基于纹理的特征提取
纹理是物体表面固有的一种特性,它具有区域特性和 旋转不变性,反映了不同对象之间的区分。所以纹理也是 图像的主要提取特征。 常用的纹理特征提取方法有:
●局部二值模式法 ●灰度共生矩阵法 ●随机场模型法法
●基于小波变化法 ●基于Gabor滤波器法 ●自回归纹理模型法 ●结构法 ● ……
8 图像标注的主要方法
(1)基于分类的标注算法
将标注问题看成是图像语义分类问题。将每个语义关键词 都看成是一个类别标记,则图像标注问题就转化为图像分类问 题。
①按照每个标注词将训练集分为正例和反例;
②提取所有正例的全局特征和反例的全局特征; ③根据正反例特征值构造分类器; ④用每个标注词分类器为待标注图像分类; ⑤在所有标注词中选取分类值最高的几个作为标注词;
6 特征提取的主要方法
(1)基于颜色的特征提取
由于颜色特征具有对尺度、平移和旋转等不变的特性, 同时颜色特征是我们辨别物体的主要方法,所以基于颜色的 特征提取是目前图像特征提取的最常用方法。 常用的颜色特征提取方法有:
●颜色直方图法 ●颜色相关图法 ●颜色矩法 ●颜色集法 ●颜色聚合向量法 ● ……
②提取每幅图像的区域视觉特征;(颜色、纹理、形状等;即提取视觉单词) ③将所有图像的区域视觉特征聚类; (即建立视觉单词字典) ④用统计方法计算每个区域视觉特征与标注词的相关概率; (?) ⑤根据待标注图像的区域视觉特征对其标注最相关的几个标注词;
(具体方法模型:Co-occurrence模型、翻译模型、LDA、CMRM、CRM、MBRM模型)
图像。即试图在图像的高层语义和低层视觉特征之间建立一种 映射关系,一定程度上解决“语义鸿沟”问题。
(1)基于整幅图特征的语义映射;(自然场景、纹理、建筑,不区分前后景) (2)基于规则块或同质区域的语义映射;
(比(1)多了位置区分)
(3)基于图中物体识别的语义词射;(语义更准确、更丰富)
5 用于标注实验的数据集
电脑)。
11 课题研究可能的切入点
(1)颜色、纹理、形状这些底层特征间的权重、优先序。 (2)文本检索比较成熟,从文本检索中找一些启发。 (3)基于区域的不均匀块分割(快速、易分割、位置相关) (4)基于视觉权重的图像特征提取(基于心理学的视觉焦点) (5)从图像+相关文本+人反馈的综合角度提出新的方法思路,从质上 改变鸿沟现状。
目前较为公认的图像集是Corel-5k
◆它由科雷尔公司收集整理,分成三部分:
(1)4000张像作为训练集;
(2)500张作为验证集用来估计模型参数;
(3)500张作为测试集评价算法性能; ◆5000张图片按照每100张一个主题,共分为50个主题。 ◆图像库中的每张图片被标注3∽5个标注词,训练集中 总共有374个标注词,在测试集中总共使用了263个标注词。
答案:让机器进行多示例学习。
结论: 让机器通过多示例学习后自动完成图像内容 语义的标注,即图像语义自动标注。
3 什么是图像语义自动标注
图像自动标注(Automatic
Image Annotation,AIA)就是让计算机自动地给
图像加上能够反映其内容的语义关键词。自动标注的使用可以有效改善目前
的图像检索困境。使检索在保留基于文本关键词搜索的同时,免去了人工标 注的巨大工作量,也一定程度的跨越了“语义鸿沟”。
(3)目前的训练集是否具有一般性? (4)大众标注与专家标注差异较大。(提出两者互为补充)
困难?机遇? 现有的自动图像标注方法多数停留在理论研究上,还无法进行具体应用,甚至目前还 没有一个被学界普遍接受的已标注图像库。
感谢各位的聆听!
由于查阅文献资料的有限性,以及个人水 平所限,报告中必然有不妥或错误之处,恳请
12 问题与疑惑
(1)“语义鸿沟”似乎永远无法逾越,目前所有工作只是缩小“鸿沟”而 已。人工标注的训练集也不是最客观、无“鸿沟”的。
(特征语义,对象语义,空间关系语义,场景语义,行为语义以及情感语义)
(2)若训练集共有500个标注词,那么构造出的分类器给出的词也就是那
500个,这如何足够去描绘丰富的现实呢?
批评与指正。
图像语义自动标注 课题介绍
介绍人:李思辉
1 问题提出背景
随着数字影像技术与互联网技术的迅速发展,
互联网上有约数以百亿记的图像,如何快速的检
索到用户需要的图片成为一个关键问题。
目 前 商 业 化 的 图 像 搜 索 引 擎 如 baidu 、
Google、Yahoo等都是以文本关键字的形式来查
询,其关键字主要依靠人工标注及 Web 文本,工
8 图像标注的主要方法
(3)基于图学习的标注算法
将已标注图像和未标注图像放在一起,将每一幅图像 视为一个图节点,以图像间的相似关系作为边,实现标注 信息从已标注图像到未知图像的传播,从而完成对待标注
图像的标注任务。
同样的方法也可用于标注词,并依据标注词之间的语 义相关性进一步改善基于图学习生成的标注。
9 标注的评价指标
相关
检索到 未检索到 A C
不相关
B D
(1)查全率 = A/(A+C)
(2)查准率 = A/(A+B) 该评价指标主要借鉴于文本检索领域的查全率和查准率,针对图 像的非精确度匹配原则,有待于寻找一种更适合的评价标准。
10 WordNet在标注中的作用
WordNet是由Princeton大学的心理学家、语言学家和计算 机工程师联合设计的一种基于认知语言学的英语词典。它按
(4)基于空间关系的特征提取
空间关系是指图像中多个目标之间的相互位置或方向 关系。这些关系可分为连接、邻接、交叠、包含等。空间 关系加强了图像内容的描述和区分能力。
空间关系特征提取方法:
●基于图像的规则子块分割,建立子块索引法。
●基于图像中对象或区域的分割,建立对象索引。
7 图像相似度的计算
判断两幅图像是否相似,就是计算两幅图像的特征向量, 然后将特征向量看做多维空间中的点,然后计算两点之间的
6 特ຫໍສະໝຸດ Baidu提取的主要方法
(3)基于形状的特征提取
形状是刻画物体的基本特征之一,用形状区别物体非 常直观。通过形状特征的提取可以识别图像中所包含的事 物或对象,从而提取出其中感兴趣的目标。 常用的形状特征提取方法有:
●边界特征值法 ●形状不变矩法 ● …… ●几何参数法 ●傅里叶形状描述法
6 特征提取的主要方法
照单词的语义将其组成一个“单词网络”,体现了不同单词
间的语义层次和关系(相近、对立、包容等)。在自然语言 理解和人工智能的应用研究上都具有重要的价值。 在图像语义自动标注中,可以借助WordNet的结构化语 义信息来衡量词汇之间的关系,从而更好的选取适当的语义
词(生物、鸟类、白鸽),以及剔除冗余的语义词(计算机、
基于内容的检索结果 2
此概念于1992年由T.Kato在论文“Query by Visual Example
- Content based Image Retrieval”中提出。最早应用是IBM的 QBIC系统,是为一个俄国博物馆制作的绘画作品查询系统。
目前基于内容的图像检索系统,例如:谷歌搜图、百度
识图等,因为“语义鸿沟”的原因,都不能很好的匹配用户
的检索意图。
所谓“语义鸿沟”是指基于图像底层可视特征(颜色、
纹理、形状等)的匹配,并不能完全反映用户更高层次的语
义查询,例如:生命、呵护、沉思…
图像检索问题的思考?
(1)如何克服方式1中人工标注的难题?
答案:让机器代替人去做。
(2)如何克服方式2中“语义鸿沟问题”?
作量巨大,且缺乏一定的客观性。
2 目前图像检索方式
(1)基于文本的图像检索(Text-based Image Retrieval——TBIR)
通过关键字检索,图像库中的关键字由人工标注,现有互联网搜索 引擎主要使用此方式。
优点:将图的检索问题转为文本的检索问题,效率高,技术成熟。
缺点:需要人工给每幅图片标注对应的若干个语义词,工作量巨大。
(具体方法模型:多示例学习、SVM、语言索引法、多样性密度法、高斯混合模型等)
8 图像标注的主要方法
(2)基于概率关联模型的标注算法
在概率统计模型的基础上,分析图像区域特征与语义关键 词之间的共生概率关系,并以此为待标注图像进行语义标注。
(两篇内容最相似的文章,其相同单词出现的概率就最高)
①将训练集中每幅图像进行区域分割;(每个区域可为一个视觉单词)
(2)基于内容的图像检索(Content-based Image Retrieval—— CBIR)
输一幅图像,通过计算图像的可视特征(如颜色、纹理、形状等) 来实现图像的匹配与检索。
优点:无需人工标注,由计算机自动计算特征并匹配。 缺点:“语义鸿沟”使检索出的结果不能完全反映检索者的意图。
基于内容的检索结果 1
它是图像语义理解研究领域的一个热点。由Mori等人在1999年提出。
涉及技术:图像处理(增强、去噪、分割等)、计算机视觉(特征提取)、模式 识别(分类和理解)、机器学习(建立分类器)等。
4自动标注方法原理
利用已标注图像集或其他可获得的信息自动学习语义概念
空间与视觉特征空间的关系模型,并用此模型标注未知语义的
距离,距离越短越相似。常用的距离度量公式有:
Minkkowsky 距 离 , Manhattan 距 离 , Euclidean 距 离 , 加 权 Euclidean距离,Chebyshev距离,Mahalanobis距离等。 当然还有其它方法,例如:支持向量机的分类学习方法, 它将图像的匹配过程看成是相似图像的分类过程。