模式识别-贝叶斯统计-iris数据集

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

IRIS数据集下基于最小错误率和最小风险的贝叶斯决策的实验与分析

贺翔

3115370035

硕5101

1.问题描述

1.1 I ris 数据集

Iris 数据集包含3类4维样本,分别标为1, 2, 3。其中, 每类样本数目为50, 且服从正态分布,每个数据样本有4个特征向量,分别代表萼片长度, 萼片宽度, 花瓣长度和花瓣宽度。 1.2要求

假设Iris 数据是正态分布的,要求考虑各种实验可能性(分组数量、分组策略、先验概率等),用样本对多维正态密度函数进行参数估计(均值向量和协方差矩阵),最后对3类Iris 两两分类。

2.原理描述

2.1贝叶斯公式

已知共有M 类别M

i i

,2,1, ,统计分布为正态分布,已知先

验概率)(i P 及条件概率密度函数)|(i X P ,对于待测样品,贝叶斯公式可以计算出该样品分属各类别的概率,即后验概率。贝叶斯公式为

M

i P X P P X P X P M

j j

j

i i i ,2,1,)

()|()

()|()|(1

因此给定一个未知类别的数据样本X ,贝叶斯分类法将预测

X 属于具有最高后验概率的类。故此问题的数学描述为:多元正

态概率模型下的贝叶斯分类。

2.2参数估计

其中,条件概率密度函数)|(i X P 为正态密度函数,用大量样本对其中未知参数进行估计,多维正态密度函数为

)]()(21exp[)2(1

)(1

2/12

/

X S X S

X P T n

式中,)

,,(21n x x x X

为n 维向量;

),,(21n 为n 维均值向量; ]))([(T X X E S 为

n 维协方差矩阵;

1 S 是S 的逆矩阵;

S 是S 的行列式。

大多数情况下,条件密度可以采用多维变量的正态密度函数来模拟。

)]}()(2

1exp[)2(1ln{

)|()(1

)(2

/12/i i X X S X X S X P i T i

n i

i i T S n X X S X X i i ln 2

12ln 2)()(21)(1

)(

)(i X 为i 类的均值向量。

2.3先验概率

设数据集样本有d 个属性,因此可用一个d 维列向量

12[,,...,]T

d x x x x 来表示。同时假定有c 个类12,,...c 。如果类的先验

概率未知,则可以假定这些类是等概率的,即

12()()...()

c P P P ,且

()i

i S P S

其中,i S 是类i 中的训练样本数,而S 是训练样本总数。

2.4贝叶斯决策

2.4.1最小错误判别准则,似然比形式:

2

11221)()

()|()|()( X P P X P X P X l

其中,)(X l 为似然比,)()

(12 P P 为似然比阈值。

2.4.2最小风险判别准则:

对观测值X 条件下,各状态后验概率求加权和的方式,表示风险如下:

M

j j i X P j i L X R 1)

|(),()(

其中,),(j i L 为将第j 类判为第i 类的损失。若判对i=j ,则),(j i L 取负值或零值,表示没有损失;若判对i j ,则),(j i L 取正值,数值大小表示损失多少。

对得到的M 个类型的风险值M

i X R i

,2,1),( 进行比较,得到使

条件风险最小的类别,判别X 属于该类别。

3.实验过程

实验环境:MATLAB R2014a

实验策略:三类数据两两分类,考虑以下几种可能性, A.取几组数据(数量可变)?B.怎么选组(取法可变)? C.改变先验概率等... 3.1最小错误判别准则:

以“对第2类、第3类鸢尾花数据分类”为例,

(1)准备第2类、第3类数据集,共100个样本,每个样本包含4维特征,

(2)读入训练样本,

(3)读入训计算各组的均值向量和协方差矩阵,即正态分布的两个重要参数均值 和方差2 ,

(4)已经估计出三类数据的统计特征。首先使用最小错误判别准则进行分类,实验中采用对数形式计算。比较三个值的大小,哪个最大,就可判断X属于哪一类。最后进行了分类器判据结果的验证。

(5)其中比较函数为,

3.2最小风险判别准则:

(1)再使用最小风险判别准则进行分类,实验中仍采用对数形式计算。设计出风险参数矩阵L,该数据可根据实际损失的情况需要进行修改。将X代入得到三个数值,哪个最小,即为风险最小,便属于该类型,

(2)最小风险判别准则有着自己相应的比较函数

4.实验结果与分析4.1最小错误判别准则:

第1 个样本属于第2类第2 个样本属于第2类第3 个样本属于第2类第4 个样本属于第2类第5 个样本属于第2类第6 个样本属于第2类第7 个样本属于第2类第8 个样本属于第2类第9 个样本属于第2类第10个样本属于第2类第11个样本属于第2类第12个样本属于第2类第13个样本属于第2类第14个样本属于第2类第15个样本属于第2类第16个样本属于第2类第17个样本属于第2类第18个样本属于第2类第19个样本属于第2类第20个样本属于第2类第21个样本属于第3类

第23个样本属于第2类第24个样本属于第2类第25个样本属于第2类第26个样本属于第2类第27个样本属于第2类第28个样本属于第2类第29个样本属于第2类第30个样本属于第2类第31个样本属于第2类第32个样本属于第2类

第34个样本属于第3类

第36个样本属于第2类第37个样本属于第2类第38个样本属于第2类第39个样本属于第2类第40个样本属于第2类第41个样本属于第2类第42个样本属于第2类第43个样本属于第2类第44个样本属于第2类第45个样本属于第2类第46个样本属于第2类第47个样本属于第2类第48个样本属于第2类第49个样本属于第2类第50个样本属于第2类第51个样本属于第3类第52个样本属于第3类第53个样本属于第3类第54个样本属于第3类第55个样本属于第3类第56个样本属于第3类第57个样本属于第3类第58个样本属于第3类第59个样本属于第3类第60个样本属于第3类第61个样本属于第3类第62个样本属于第3类第63个样本属于第3类第64个样本属于第3类第65个样本属于第3类第66个样本属于第3类第67个样本属于第3类第68个样本属于第3类第69个样本属于第3类第70个样本属于第3类第71个样本属于第3类第72个样本属于第3类第73个样本属于第3类第74个样本属于第3类第75个样本属于第3类第76个样本属于第3类第77个样本属于第3类第78个样本属于第3类

相关文档
最新文档