有序样品的聚类

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
种可选择的分类方法。
一个好的分类方法就是应该使处于同一类事物之间的差别尽 可能地小,而使类与类之间的差别尽可能地大。为了表示类 内部事物与事物的差别,我们借用统计中全距(直径)的计 算方法, 以 4,5,6,7,8 、9,10,11这个分类为例来说 1,2,3 、 明计算类内差别的方法: 1,2,3 对应的数据为9.3、1.8、1.9,最大值为 其中第一类 9.3,最小值为1.8,这一类的差异我们用全距 9.3-1.8=7.5 第二类 4,5,6,7,8 中最大值为2.0,最小值为1.3,则 2.0-1.3=0.7 第三类 9,10,11 中的最大值为2.3,最小值为1.9,则 2.3-1.9=0.4 为衡量上述分类方法的优劣,我们计算此种分类方法中的三 个类内的平均差异,即规定该分类方法的优劣指标K为 7.5 0.7 0.4 K 2.87 3
以同样的方法分析,可知把这11个数据分成 两类的最好分类方法是
1, 2,3,4,5,6,7,8,9,10,11
这时的优劣指标K为 0.5
那么这11个数据分成几类为宜呢? 为此.我们分别找到把11个数据分成1类、2类、…、11类 的最好的分类法,计算出各最好分类方法的优劣指标,列 表如下:


对于另一种分类方法 {1.、2、3、4} 、{5、6}、{7、 8、9、10、11} 其第一类的类内差异为7.6,第二类的类内差异为 0.2.第三类的类内差异为0.9。该分类方法的优劣指 标K为2.9。相比之下,此分类方法不如前一种分类方 法好。 试问:分三类最好的分类方法应怎么分?

把11个有序数据分成3类共有45种方法,计算每类分 法的优劣指标并加以比较,可以得到最好的(分三类) 方法为 {1}、{2,3,4,5,6,7} 、{8、9、10、11} 此分 类方法的优劣指标K是 0.3
由表可看到,如果把1至11岁的数据只分成一类时,K=8, 优劣指标值太大;而对n大于4时的K值相差不多;而当n =3或n=4时,K值已降为0.30和0.20.而n=5及其以上时, K相差太小,而类分得太多无意义,因此分成3类或4类为 宜。
有序样Hale Waihona Puke Baidu的聚类
为了了解儿童的生长发育规律,今随机抽样统计了男孩 从出生到11岁平均增长的重量数据表如下,试问:男孩发 育可分为几个阶段?

记与年龄对应的儿童增重数的11个数据,表示儿童的增重 数,例如 x8 2.0表示8岁儿童的平均年增重为 2 (千克)。 如果要把增重数
x1 , x2 ....x11 分成保持次序的3个组.这时 2 9,10,11就是一 4,5,6,7,8 , 可以有C10 种选择。例如 1,2,3 ,
相关文档
最新文档