用身高和体重数据进行性别分类的实验报告
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
用身高和体重数据进行性别分类的实验报告 一、 基本要求
用FAMALE.TXT 和MALE.TXT 的数据作为训练样本集,建立Bayes 分类器,用测试样本数据对该分类器进行测试。调整特征、分类器等方面的一些因素,考察它们对分类器性能的影响,从而加深对所学内容的理解和感性认识。
二、 具体做法
(1)应用两个特征进行实验:同时采用身高和体重数据作为特征,分别假设二者相关或不相关,在正态分布假设下估计概率密度,建立最小错误率Bayes 分类器,写出得到的决策规则,将该分类器应用到训练/测试样本,考察训练/测试错误情况。比较相关假设和不相关假设下结果的差异。在分类器设计时可以考察采用不同先验概率(如0.5 vs. 0.5, 0.75 vs. 0.25, 0.9 vs. 0.1等)进行实验,考察对决策和错误率的影响。 (2)自行给出一个决策表,采用最小风险的Bayes 决策重复上面的实验。
三、 原理简述及程序框图
A. 正态分布的监督参数估计
监督参数估计:样品所属的类别及类条件总体概率密度函数的形式
为已知,而表征概率密度函数的某些参数是未知的。
本实验符合上述条件且在正态分布假设下估计分布密度参数故使用正态分布的监督参数估计
对于多元正态分别,其最大似然估计的结果为:
11ˆN
K K X n μ
==∑ ()()1
1ˆˆˆN
T
K
K K X
X N
μ
μ=∑
=--∑ B. 最小错误率Bayes 分类器
在多元正态模型下的最小错误率角度来分析Bayes 分类器
(1) 假设身高与体重不相关 令协方差矩阵次对角元素为零
判别函数可简化为()0T T i i i i g x x W x w x w =++
其中 11
2
i i W -=-∑,1i i w μ-=∑
()1
01122i
T i i i i w u u In InP ω-=-∑-∑+ 具体算法步骤如下:
第一步将训练样本集数据转为矩阵FA ,MA 。
第二步分别对FA ,MA 求取协方差12,∑∑,令协方差矩阵次对角
元素为零,平均值12,μμ并输入先验概率()()12,P P ωω
第三步将第二步所得数值代入判别函数表达式得()()12,g x g x 。
第四步将待测样本集数据转为矩阵T ,将T 中数值依次代()()12g x g x -
,若()()120g x g x ->,则判断其为第一类,反之,第二类。
(2) 假设身高与体重相关
判别函数可简化为()0T T i i i i g x x W x w x w =++
其中 11
2
i i W -=-∑,1i i w μ-=∑
()1
01122i T i i
i i w u u In InP ω-=-∑-∑+ 具体算法步骤如下:
第一步将训练样本集数据转为矩阵FA ,MA 。
第二步分别对FA ,MA 求取协方差12,∑∑平均值12,μμ并输入先验
概率()()12,P P ωω
第三步将第二步所得数值代入判别函数表达式得()()12,g x g x 。
第四步将待测样本集数据转为矩阵T ,将T 中数值依次代()()12g x g x -,
若()()120g x g x ->,则判断其为第一类,反之,第二类。
C. 最小风险Bayes 分类器
(1)在已知先验概率()j P ω和类条件概率密度()j P x ,j=1, …c 及给出带识别的x 的情况下,根据Bayes 公式计算后验概率:
()()()
()()
1
,1,,c j j j c
i
i
i P x P P x j P x P ωωωω==
=∑
(2)利用后验概率及决策表,计算条件风险()i R a x
()()()1,1,
,c
i i j j i R x P x i a αλαω===∑
(3)()()1,,min k i i a
R a x R a x ==,k a 就是最小风险Bayes 决策。
其中(1)中先验概率()j P ω根据自行输入,类条件概率密度
()j P x ω=()()
()11
2
2
1
1exp ()22T d
P x x u x u π-⎧⎫
=
--∑-⎨⎬⎩⎭
∑
,本实验
为二维二类,故d=2,(2)中决策表自行输入。
四、 实验结果及分析总结
(1)用最小错误率Bayes 决策
假设身高与体重相关(以训练样本建立判别函数)
由表可知:
对于训练样本,当女生先验概率为0.5时,判别错误率最小
对于测试样本,当女生先验概率为1/6时,判别错误率最小
故可推测用最小错误率Bayes 决策假设身高与体重相关当女 生先验概率等于待测样本中女生样本占待测样本的概率时, 错误率最小,且越远离此概率,错误率越大。
最佳决策对于训练样本,当女生先验概率为0.5
对于测试样本,当女生先验概率为1/6
假设身高与体重不相关(以训练样本建立判别函数)
对于训练样本当女生先验概率接近0.5时错误率最小最佳决策对于训练样本,当女生先验概率为0.5
(2)用最小风险的Bayes决策
当决策表为
身高体重相关