图像分类算法与应用研究
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
组合多分类器框架的研究
组合分类器框架选择 分类器权重计算 分类器选择
最优词汇表构造的研究
Filter方法 预计方法:
生成一个较大的词汇表(5000-10000)
根据每个词汇的对类别的判别能力控制聚类
最优空间信息进行图像分类的研究
Kernel Methods Gaussian, χ2 ,Histogram Intersection 根据训练图像学习出金字塔每个层次的最 优权重
k x, x' x, x'
常用核函数
高斯核(Gaussian RBF):
x x' 2 , 0 k x, x' exp 2 2
k x, x' exp x x'
2
,
0
拉普拉斯核(Laplacian RBF):
Spatial Pyramid χ2 Kernel
2 l D H X i H yl i , 0 l l I H X , HY exp l l i=1 H X i H y i
Evaluation
“山川”被误分为“海滩”
融合方法与子分类器的精度对照
RGB HSV Lab Edge CCV PWT Fusion
Average precision of each image class
1.0
0.8
0.6
0.4
0.2
0.0 Cat 0 Cat 1 Cat 2 Cat 3 Cat 4 Cat 5 Cat 6 Cat 7 Cat 8 Cat 9
min ek hk (t ) g (t ) max[min(min(hk (t )), g (E ))] max[[0,1]( , g (h ))]
T E T xE
ek max min hk ti , g Ai
g A1 g t1
Patch SIFT gradient location and orientation histogram (GLOH) shape context steerable filters moment invariants SURF
State of Art方法
词汇表的构造(K-Means,GMM,VQ,pLSA) 图像相似性的度量(Distance Metric Learning, Kernel Methods(PMK,EMD) ) 多特征融合(Random Forest/Ferns,SVM) 图像空间信息的利用(Spatial Pyramid, ABS-pLSA,TSI-pLSA,LDA(Fei-Fei) ) 感兴趣区域选取(Anna Bosch)
结果
Corel图像库中的10类 Libsvm,线性核 C=2-5,2-4,……,210 5折交叉验证
特征名 CH-RGB CH-HSV CH-Lab CCV
特征长度 64 96 100 128
描述 4bins R×4bins G×4bins B 32bins H+32bins S+ 32bins V 32bins L+32bins a+36bins b 4bins R×4bins G×4bins B×2
Edge Histogram
PWT
80
27
结果比较
平均精度 我的方法 DD-SVM Hist-SVM 84.66% 81.5% 66.7%(Chen) 79.8%(Qi)
CCV
MILES Qi DD-SVM(Qi)
80.52%
82.6% 88.8% 82%
经常被误分的图片
“海滩”被误分为“山川”
预期达到目标
建立通用的图像分类系统,达到如下指标: Caltech101 80% Caltech256 45% Corel十 类90% 建立网络图像挖掘系统,该系统的准确率 比现有的搜索引擎高50%以上
为完成课题已具备和所需的条件
图像库:Caltech 101, Caltech 256, Corel 十类图像库, MIT CBCL, PASCAL等图像库 LabelME 等大规模图像资源库 常用的图像特征提取算法:颜色直方图, 颜色一致向量,边缘直方图,SIFT特征等 开源机器学习工具包libsvm等
类内差异
类间差异
研究现状
图像表示
底层视觉特征表示 语义图像wenku.baidu.com示 词包模型表示
机器学习算法
多示例学习算法
底层视觉特征表示
Vailaya 6类假日图片 层次分类 贝叶斯分类器 Chang 全局特征,SVM分类器 付岩 3类图片 3种颜色特征对比 SVM分类器 Torralba 收集了8000万张32*32的图片,用最近 邻方法进行分类
遇到的困难以及解决办法
图像处理以及计算机视觉知识的缺乏 机器学习理论功底不足 多搜索引擎的网络爬虫
已发表的论文
De-Yuan Zhang, Bing-Quan Liu, Xiao-Long Wang, Li-Juan Wang. Image Classification by Combining Multiple SVMS. International Conference on Machine Learning and Cybernetics(ICMLC)
已有工作基础
支持向量机(SVM)进行图像分类 融合多分类器的图像分类
SVM进行图像分类
min
l 1 T J w, b, w w C j 2 j 1
s.t. y j w T x j b 1 j
j 0, j
: X H
x x
Image categories
不同训练样本下的精度对照
Average Classification Accuracy
0.85
Our Method DD-SVM
0.9
Average Classification Accuracy
0.8
0.7
0.80
0.6
0.5
Our Method CH-RGB CH-HSV CH-Lab EH CCV PWT
图像分类算法与应用 研究
报告人: 张德园 导 师:王晓龙教授
目录
研究背景 相关研究工作 已有工作基础 论文主要研究内容
课题来源
本课题来源于国家八六三计划目标导向类 课题“基于NLP的智能搜索引擎”(项目编 号:2006AA01Z197)。
实际意义
按照语义内容进行图像管理/图像浏览 减少人工标注时间(Flickr, Picasa) 辅助图像检索(Google, Baidu, Picsearch)
Corel图像库中的10类
Libsvm,5折交叉验证 C= 2-3, 2-1, ……, 215 γ=2-15,2-13,……,25
Spatial Pyramid RBF Gaussian Kernel
Spatial Pyramid χ2 Kernel
以上两种核的结果都有所提高 1+4的形式最好
0.75
0.4
0.70 100 200 300 400 500
0.3 100 200 300 400 500
Number of Training Images
Number of training images
改进: 自动抛弃性能较差的分类器
主要研究内容,实施方案与可行性 论证
组合多分类器框架的研究 最优词汇表构造的研究 最优空间信息进行图像分类的研究 Internet图像挖掘研究
k x, x' exp x x' , 0
x x' k x, x' exp , 0
多项式核(polynomial):
k x, x' x, x' c , d N , c 0
d
无限多项式核(infinite polynomials):
图像分类的语义层次
James Wang: 1.语义类别(例如照片或者剪贴画,室外) 2.物体的罗列(人,篮球架,楼…………) 3.抽象的语义(运动,打篮球) 4.具体的语义(具体的描述一个图像)
场景分类
物体分类
Caltech 101
图像分类
非洲
恐龙
海滩
图像分类的挑战
光照变化
尺度变化
图像分类的挑战
k x, x'
1 , 1 x, x'
x 1, x' 1
Svetlana Lazebnik-Spatial Pyramid Matching Kernel(空间金字塔匹配核)
Spatial Pyramid RBF Gaussian Kernel
2 D l l I H , H exp H X i H y i , 0 i=1 l X l Y
自动学习出权重
多分类器融合的图像分类
多分类器融合框架
模糊积分
函数g : 2T →[0,1]叫做gλ–模糊测度,如果它满足如下性质: (I) g(Φ)=0; (II) g(T)=1; (III) g(A)≤g(B), if A⊂B 并且 A, B⊂T (IV) 对于所有的A, B⊂T并且 A∩B = Φ g(A∪B) = g(A) + g(B) +λg(A)g(B) 对于某一个 λ > -1
语义图像表示(局部)
Vogel和Schiele提出
词包模型
感兴趣区域检测器
描述子
Dense Harris-Laplace Hessian-Laplace Harris Hessian Edge-Laplace Haar-Hessian DoG( Difference of Gaussian)
g Ai g i g Ai 1 g i g Ai 1
1 i n
模糊积分
训练
传统的Reward-Punishment算法
设置初始gi 对训练样本的分类进行Reward和Punishment 对初始gi依赖,陷入局部最优解
改进
设置多组初始gi 本文选取gi=t/N
多示例学习
多示例训练集由包(bag)组成,每个包里面包含多 个实例(instance)。如果一个包为正例,则包中至 少有一个实例为正例;如果一个包为反例,则包 中所有的实例均为反例。 方法:
Maron─Diverse
Density Andrew ─ Mi-SVM以及MI-SVM Chen ─ DD-SVM以及MILES Qi ─DD-SVM变种 周志华─MIML框架(Multi-Instance Multi-Label)
Internet图像挖掘研究
现有图像挖掘方法的不足:
训练数据存在噪声 不能很好的突破搜索引擎返回结果数量的限制
解决方案:
查询扩展 多个搜索引擎结果集成 文本分类技术与图像分类技术结合 少量标记样本半监督学习
论文进度安排
2006年9月-2007年7月:阅读相关文献,分析图像分类在国内外的研 究现状 2007年9月-2008年6月:进行组合多分类器方面的研究,发表一篇以 上学术论文 2008年8月-2008年12月: 进行最优空间信息进行图像分类的研究, 发表一篇以上学术论文 2009年1月-2009年5月:进行最优词汇表构造的研究,发表一篇以上 学术论文 2009年6月-2009年12月:进行网络分类挖掘的研究,发表一篇学术 论文 2010年1月-2010年4月:总结博士阶段所做的工作,撰写博士论文 2010年5月-2010年7月:准备答辩
Szummer和Picard 分类“室内”/“室外” 颜色 和纹理特征 K-NN 投票 Serrano SVM分类 SVM输出结果相加 Paek和Chang 图像分割 使用贝叶斯网络
语义图像表示(全局)
Spatial Envelope ---Oliva和Torralba提出
Naturalness Openness Roughness Expansion Ruggedness