图片分类程序的常见步骤
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
《数字图像处理》大作业2009
本次作业的任务是进行图片分类实验,实验数据集由20个类别共2000张图片组成,其中1000张图片用于训练,另1000张图片用于测试(详情见附录A)。
图片分类程序的常见步骤
【建议】图片分类程序可以分为以下5个步骤:
(1)为训练图片提取底层特征,用特征向量表示训练图片;
(2)利用训练图片的特征向量和类别标注数据训练分类器;
(3)为测试图片提取底层特征,用特征向量表示测试图片;
(4)使用训练好的分类器对测试图片的特征向量进行预测分类;
(5)对预测分类的结果进行评测。
底层特征
【要求】在本次大作业中,请大家查阅相关资料, 至少要用到以下特征:
(1)边缘直方图(Edge Histogram)
(2)灰度共生矩阵(Gray Level Co-occurrence Matrix)
(3)SIFT (Scale-invariant feature transform)
(4)除上述3种特征外, 请至少实现一种形状类特征(Hu不变矩, Hough变换等)和一种颜
色类特征,如CCV (Color Coherence Vector)等。
【建议】不限制必做特征的具体做法, 可以尝试多种途径来提升该特征的效果(如对图片分块等)
【建议】可以在对不同的底层特征进行融合的过程中,观察不同的底层特征之间的互补关系,并加以分析。
分类方法
【要求】在本次大作业中,至少要用到以下分类器:
(1)Libsvm:SVM是一种被广泛采用的分类方法,Libsvm是一个应用非常普遍的开源的
SVM实现,当前的最新版本是2.88版本(下载地址);
(2)除Libsvm外,自选另外至少一种分类方法。
【建议】可以根据数据本身的特点, 合理改进分类器(如改进SVM的核函数等)
【建议】可以在实验过程中,观察不同的分类方法的效果优劣,并加以分析。
【建议】可以对多个分类器的分类结果进行融合, 提高最终的分类效果。
统一的预测分类结果文件格式
为了便于进行图片分类结果的评测和比较,在实验的过程中请将图片分类结果输出为以下统一的格式:
(1)每一行由3个数字组成,分别是图片(在整个图片集中)的序号、图片的真实(标
注)类别、图片分类程序的预测类别;
(2)由于共有1000张图片,该文件共有1000行。
50 1 1
51 1 3
…
1999 20 20
结果评测指标
图片分类实验的评测指标平均准确率A是所有类别的准确率的平均值,即:
A=(A1+A2+…+A20)/ 20
其中Ai是对类别i的测试图片进行预测分类的准确率,定义如下:
Ai=Ri / Ni
其中Ri是类别i的测试图片中预测分类正确的图片的数目,Ni是类别i的测试图片的数目(对于本次作业的图片集Ni=50)。
结果显示
【要求】图形界面:实现一个图形化的界面用来展示图片分类结果。
【建议】可以按照下图进行图形化演示界面的设计。其中A为图片类别列表,B为当前选定类别的训练图片列表,C为当前选定类别的测试图片列表。
【建议】图形化演示界面的原则是越能清楚地反应图片分类结果越好,越美观越好。并不一定要按照上面的结构进行设计。
【要求】Confusion matrix: 将图片分类结果的Confusion matrix以一张图的形式显示出来。Confusion matrix是一个20x20的矩阵,其中的第(i,j)个元素,是测试图片中第i类图片被判断为第j类的概率。Confusion matrix中每一行中所有元素的和应为1。Confusion matrix 中对角线上的第(i,i)个元素是第i类图片的分类准确率Ai,对角线上所有元素的平均值就是图片分类实验的平均准确率A。
【建议】尽量将Confusion matrix的图做的清楚,美观。例子:下面是一个6个类别的图片分类实验的Confusion matrix(出处)。
0.9692 0.0031 0.0021 0.0051 0.0021 0.0185
0.0700 0.3762 0.0312 0.0425 0.3150 0.1650
0.0009 0.0009 0.9962 0.0009 0 0.0009
0.0504 0 0.0150 0.9283 0.0016 0.0047
0 0 0 0 0.9886 0.0114
0.0028 0.0083 0.0014 0 0.0028 0.9848
作业提交方式
本次作业至少需要提交以下内容:
提交内容详细要求
作业文档详细介绍采用的图片分类方法,包括使用的底层特征和分类方法的细节、最终的图片分类结果等。
程序源代码相关程序的全部源代码,要求能够正常编译和运行;如果程序中使用了网上的开源代码,请同时提供下载地址。
程序说明详细说明如何编译源代码、如何运行图片分类程序、如何评测分类结果。
助教将根据“程序说明”编译你提交的源代码,并重新运行图片分类程序,如果出现代码无法编译、运行出错、运行结果与作业文档中的结果不一致等情况,在正常评分的基础上将酌情减分。
附录A:实验图片集
本次大作业采用的实验图片集含有20个类别共2000张图片(0.jpg-1999.jpg),每个类别