模式识别-贝叶斯统计-iris数据集
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
IRIS数据集下基于最小错误率和最小风险的贝叶斯决策的实验与分析
贺翔
3115370035
硕5101
1.问题描述
1.1 I ris 数据集
Iris 数据集包含3类4维样本,分别标为1, 2, 3。其中, 每类样本数目为50, 且服从正态分布,每个数据样本有4个特征向量,分别代表萼片长度, 萼片宽度, 花瓣长度和花瓣宽度。 1.2要求
假设Iris 数据是正态分布的,要求考虑各种实验可能性(分组数量、分组策略、先验概率等),用样本对多维正态密度函数进行参数估计(均值向量和协方差矩阵),最后对3类Iris 两两分类。
2.原理描述
2.1贝叶斯公式
已知共有M 类别M
i i
,2,1, ,统计分布为正态分布,已知先
验概率)(i P 及条件概率密度函数)|(i X P ,对于待测样品,贝叶斯公式可以计算出该样品分属各类别的概率,即后验概率。贝叶斯公式为
M
i P X P P X P X P M
j j
j
i i i ,2,1,)
()|()
()|()|(1
因此给定一个未知类别的数据样本X ,贝叶斯分类法将预测
X 属于具有最高后验概率的类。故此问题的数学描述为:多元正
态概率模型下的贝叶斯分类。
2.2参数估计
其中,条件概率密度函数)|(i X P 为正态密度函数,用大量样本对其中未知参数进行估计,多维正态密度函数为
)]()(21exp[)2(1
)(1
2/12
/
X S X S
X P T n
式中,)
,,(21n x x x X
为n 维向量;
),,(21n 为n 维均值向量; ]))([(T X X E S 为
n 维协方差矩阵;
1 S 是S 的逆矩阵;
S 是S 的行列式。
大多数情况下,条件密度可以采用多维变量的正态密度函数来模拟。
)]}()(2
1exp[)2(1ln{
)|()(1
)(2
/12/i i X X S X X S X P i T i
n i
i i T S n X X S X X i i ln 2
12ln 2)()(21)(1
)(
)(i X 为i 类的均值向量。
2.3先验概率
设数据集样本有d 个属性,因此可用一个d 维列向量
12[,,...,]T
d x x x x 来表示。同时假定有c 个类12,,...c 。如果类的先验
概率未知,则可以假定这些类是等概率的,即
12()()...()
c P P P ,且
()i
i S P S
其中,i S 是类i 中的训练样本数,而S 是训练样本总数。
2.4贝叶斯决策
2.4.1最小错误判别准则,似然比形式:
2
11221)()
()|()|()( X P P X P X P X l
其中,)(X l 为似然比,)()
(12 P P 为似然比阈值。
2.4.2最小风险判别准则:
对观测值X 条件下,各状态后验概率求加权和的方式,表示风险如下:
M
j j i X P j i L X R 1)
|(),()(
其中,),(j i L 为将第j 类判为第i 类的损失。若判对i=j ,则),(j i L 取负值或零值,表示没有损失;若判对i j ,则),(j i L 取正值,数值大小表示损失多少。
对得到的M 个类型的风险值M
i X R i
,2,1),( 进行比较,得到使
条件风险最小的类别,判别X 属于该类别。
3.实验过程
实验环境:MATLAB R2014a
实验策略:三类数据两两分类,考虑以下几种可能性, A.取几组数据(数量可变)?B.怎么选组(取法可变)? C.改变先验概率等... 3.1最小错误判别准则:
以“对第2类、第3类鸢尾花数据分类”为例,
(1)准备第2类、第3类数据集,共100个样本,每个样本包含4维特征,
(2)读入训练样本,
(3)读入训计算各组的均值向量和协方差矩阵,即正态分布的两个重要参数均值 和方差2 ,
(4)已经估计出三类数据的统计特征。首先使用最小错误判别准则进行分类,实验中采用对数形式计算。比较三个值的大小,哪个最大,就可判断X属于哪一类。最后进行了分类器判据结果的验证。
(5)其中比较函数为,
3.2最小风险判别准则:
(1)再使用最小风险判别准则进行分类,实验中仍采用对数形式计算。设计出风险参数矩阵L,该数据可根据实际损失的情况需要进行修改。将X代入得到三个数值,哪个最小,即为风险最小,便属于该类型,
(2)最小风险判别准则有着自己相应的比较函数
4.实验结果与分析4.1最小错误判别准则:
第1 个样本属于第2类第2 个样本属于第2类第3 个样本属于第2类第4 个样本属于第2类第5 个样本属于第2类第6 个样本属于第2类第7 个样本属于第2类第8 个样本属于第2类第9 个样本属于第2类第10个样本属于第2类第11个样本属于第2类第12个样本属于第2类第13个样本属于第2类第14个样本属于第2类第15个样本属于第2类第16个样本属于第2类第17个样本属于第2类第18个样本属于第2类第19个样本属于第2类第20个样本属于第2类第21个样本属于第3类
第23个样本属于第2类第24个样本属于第2类第25个样本属于第2类第26个样本属于第2类第27个样本属于第2类第28个样本属于第2类第29个样本属于第2类第30个样本属于第2类第31个样本属于第2类第32个样本属于第2类
第34个样本属于第3类
第36个样本属于第2类第37个样本属于第2类第38个样本属于第2类第39个样本属于第2类第40个样本属于第2类第41个样本属于第2类第42个样本属于第2类第43个样本属于第2类第44个样本属于第2类第45个样本属于第2类第46个样本属于第2类第47个样本属于第2类第48个样本属于第2类第49个样本属于第2类第50个样本属于第2类第51个样本属于第3类第52个样本属于第3类第53个样本属于第3类第54个样本属于第3类第55个样本属于第3类第56个样本属于第3类第57个样本属于第3类第58个样本属于第3类第59个样本属于第3类第60个样本属于第3类第61个样本属于第3类第62个样本属于第3类第63个样本属于第3类第64个样本属于第3类第65个样本属于第3类第66个样本属于第3类第67个样本属于第3类第68个样本属于第3类第69个样本属于第3类第70个样本属于第3类第71个样本属于第3类第72个样本属于第3类第73个样本属于第3类第74个样本属于第3类第75个样本属于第3类第76个样本属于第3类第77个样本属于第3类第78个样本属于第3类