用身高和体重数据进行分类实验
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
用身高和体重数据进行性别分类的实验报告
一、基本要求:
1.用FAMALE.TXT和MALE.TXT的数据作为训练样本集,建立Bayes分类器,用测试样本数据对该分类器进行测试。调整特征、分类器等方面的一些因素,考察它们对分类器性能的影响,从而加深对所学内容的理解和感性认识。二、具体做法:
(1)应用单个特征进行实验:以(a)身高或者(b)体重数据作为特征,在正态分布假设下利用最大似然法或者贝叶斯估计法估计分布密度参数,建立最小错误率Bayes分类器,写出得到的决策规则,将该分类器应用到测试样本,考察测试错误情况。在分类器设计时可以考察采用不同先验概率(如0.5对0.5, 0.75对0.25, 0.9对0.1等)进行实验,考察对决策规则和错误率的影响。
(2)应用两个特征进行实验:同时采用身高和体重数据作为特征,分别假设二者相关或不相关,在正态分布假设下估计概率密度,建立最小错误率Bayes分类器,写出得到的决策规则,将该分类器应用到训练/测试样本,考察训练/测试错误情况。比较相关假设和不相关假设下结果的差异。在分类器设计时可以考察采用不同先验概率(如0.5 vs. 0.5, 0.75 vs. 0.25, 0.9 vs. 0.1等)进行实验,考察对决策和错误率的影响。
(3)自行给出一个决策表,采用最小风险的Bayes决策重复上面的某个或全部实验。
三、原理简述及程序框图
最小错误率Bayes分类器
(1)基于身高
第一步求出训练样本的方差和期望
第二步利用单变量正态分布公式算出条件概率
第三步将前两步的值带入贝叶斯公式
第四步 若pF>=pM ,则判断其为第一类,反之,第二类
(2-1) 假设身高与体重不相关
令协方差矩阵次对角元素为零
判别函数可简化为()0T T i i i i g x x W x w x w =++
其中 11
2
i i W -=-∑,1i i w μ-=∑
()1
01122
i
T i i i i w u u In InP ω-=-∑-∑+ 具体算法步骤如下:
第一步将训练样本集数据转为矩阵FA ,MA 。
第二步分别对FA ,MA 求取协方差12,∑∑,令协方差矩阵次对角
元素为零,平均值12,μμ并输入先验概率()()12,P P ωω
第三步将第二步所得数值代入判别函数表达式得()()12,g x g x 。
第四步将待测样本集数据转为矩阵T ,将T 中数值依次代()()12g x g x -
,若()()120g x g x ->,则判断其为第一类,反之,第二类。
(2-2) 假设身高与体重相关
判别函数可简化为()0T T i i i i g x x W x w x w =++
其中 11
2
i i W -=-∑,1i i w μ-=∑
()1
01122
i T i i
i i w u u In InP ω-=-∑-∑+ 具体算法步骤如下:
第一步将训练样本集数据转为矩阵FA ,MA 。
第二步分别对FA ,MA 求取协方差12,∑∑平均值12,μμ并输入先验
概率()()12,P P ωω
第三步将第二步所得数值代入判别函数表达式得()()12,g x g x 。
第四步将待测样本集数据转为矩阵T ,将T 中数值依次代()()12g x g x -,
若()()120g x g x ->,则判断其为第一类,反之,第二类。
最小风险Bayes 分类器
(1)在已知先验概率()j P ω和类条件概率密度()j P x ω,j=1, …c 及给出带识别的x 的情况下,根据Bayes 公式计算后验概率:
()()()
()()
1
,1,,c j j j c
i
i
i P x P P x j P x P ωωωωω==
=∑
(2)利用后验概率及决策表,计算条件风险()i R a x
()()()1,1,,c
i i j j i R x P x i a αλαωω===∑
(3)()()1,,min k i i a
R a x R a x == ,k a 就是最小风险Bayes 决策。
其中(1)中先验概率()j P ω根据自行输入,类条件概率密度
()j P x ω=()()
()11
2
2
1
1exp ()22T d
P x x u x u π-⎧⎫
=
--∑-⎨⎬⎩⎭
∑
,本实验
为二维二类,故d=2,决策表自行输入。
四实验结果及分析总结
用最小错误率Bayes 决策
(1)基于身高身高(300个测试样本)
(2-1)身高与体重不相关(300个样本)
(2-2)假设身高与体重相关(300个测试样本)
(2)用最小风险的Bayes决策
当决策为
身高体重相关(300个测试样本)
结论:当女生先验概率等于待测样本中女生样本占待测样本的概率时,正确率,且越远离此概率,正确率越小。