蠓虫分类
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
案例 蠓虫分类
问题背景 两种蠓虫Af 和Apf 已由生物学家W.L.Grogon 和W.W.Wirth (1981)根据它们的触角长度、翅膀长度加以区分. 现测得6只Apf 和9只Af 的触长、翅膀长的数据如下:
问题 ⑴如何根据以上数据,制定一种方法正确区分两种蠓虫?
⑵将你的方法用于触长、翅长分别为()()()1.24,1.80,1.28,1.84,1.40,2.04的3个样本进行识别.
该问题属于概率统计模型.
问题分析与建模
一、问题分析
将蠓虫的触长和翅长作为分量,给出的两类蠓虫的数据构成两个不同总体的二维向量,其中Apf 类蠓虫与Af 类蠓虫构成的向量分别记为
{}{}11262129,,,,,,,.G G αααβββ==
由此画出两类蠓虫触长和翅长的散点图.
散点图表示两类蠓虫还是有比较明显的区别. 即两类蠓虫的触长、翅长向量与x 轴(触长)的夹角有明显的区别.
以两类蠓虫的触长、翅长的均值向量为基准,凡与Apf 的基准向量夹角余弦大于与Af 的基准向量夹角余弦的蠓虫归为Apf ,反之,则归为Af .
二、模型建立
⑴计算Apf 和Af 两类蠓虫的均值向量
6611
11,.66i i i i ααββ====∑∑ ⑵对于待判定的蠓虫x 分别计算()()
cos ,,cos ,.x x αβ其中,()cos ,x α定义为 ()cos ,.x x x ααα⋅=
⑴
⑶建立判别函数 ()()cos ,cos ,.d x x αβ=- ⑵
相应的判别准则为:
准则:()()0,Apf,0,Af.
d x x d x x >∈⎧⎪⎨<∈⎪⎩ ⑶
三、解模
按上面分析过程,建立相应的m 文件,并对给定的三个蠓虫进行识别,
得到数据如下:
即三个蠓虫均属于Apf .
四、结果分析
对判定准则可靠性分析的常用方法是回代误判率和交叉误判率.
误判率定义 若有1N 个属于1G 的样品被误判为属于2G ,2N 个属于2G 的样品被误判为属于1,G 两类物品的总数是P ,则定义误判率为
12.N N P
+ ⑷
⑴回代误判率 设12,G G 为两个总体,12,,,m X X X 和12,,,n Y Y Y 是分别来自12,G G 的训练样本,以这些训练样本作为m n +个新样品,逐个代入已建立的判定准则以确定其归属,整个过程称
为回代. 若有1N 个属于1G 的样品被误判为属于2G ,2N 个属于2G 的样品被误判为属于1,G 则误判率的估计值为
12.N N p m n
+=+
显示结果为零,即没有误判.
⑵交叉误判率
交叉误判率是每次剔除一个样品,利用其余的训练样本建立判别准则,再用所建立的准则对删除的样品进行判定,对训练样本中每个样品都作如上分析,以其误判的比例作为误判率. 具体过程如下:
①从总体为1G 的训练样本开始,剔除其中每一个样品,剩余的1m -个样品与2G 中的全部样品建立判别函数;
②用建立的判别函数对剔除的样品进行判别;
③重复上述步骤,直到1G 中的全部样品依次被剔除、判别,其误判的总数记为12m ; ④对2G 的样品重复步骤①②③,直到2G 中的样品全部被剔除、判别,其误判的个数记
为21,m
交叉误判率的估计值为
1221
.m m p m n +=+
⑸ 程序如下:
计算结果为
即两类不同类别的蠓虫都没有被误判.