数学建模之聚类分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
聚类分析
聚类分析是将个对象按各自的特征将相似的对象归到同一个类或簇的一种方法,它的原则是同一个类中的对象有很大的相似性,而不同类间的对象有很大的相异性。特点:
①适用于没有先验知识情况下的分类。对于没有先前的经验或一些规则的对象进行分类,则显得很随意和主观,这时需要使用聚类分析法通过对象各自的特性来合理的分类;
②能处理多个维度或属性决定的分类。例如,对于某个地区的全部家庭的富裕程度而言,通过家庭的收入和支出差可以简单分类,容易知道。但是如果要求从家庭的收入、家庭的支出、家庭的固有资产、家庭所在地区的地段等多个变量来分析就比较复杂,然后解决这个问题可以使用聚类分析算法。
③聚类分析算法也是一种探索性分析方法,能够挖掘对象的潜在规律和特性,并根据相似性原则对事物进行分类。
几类距离公式:
()
()()
()
()
()()()211112
21
11.2.=,3.,4.||5.1||
6.2||7p q
pq ij
i G j G p q
pq p q T
p q
pq
p
q p
q
p q
p
q
q ij ik jk
k p
ij ik jk k p
ij ik jk
k D d
n n D d x x n n ward D x
x x x n n Minkowski d q x x d x x d x x ∈∈====
=
=
-+⎡
⎤=-⎢⎥⎣⎦
=-⎡
⎤=-⎢⎥⎣⎦∑∑∑∑∑类平均距离重心距离
离差平方和距离闵科夫斯基绝对值距离
欧氏距离
()
()(
)())1
||.8.p
ik jk ij k ik jk
ij x x Wiliams d L x x Mahalanobis d M =-=+=
∑
兰式距离马氏距离其中是样品协方差
系统聚类法思想
先将每一个样本作为一个单独的类,然后计算各个样本之间的距离i S ,在将计算出来的距离i S 定义为类之间的距离j S ,以为j S 标准的距离,进行合理合并,形成新的一个类,在重新对新类和其他剩余的类进行计算其距离,循环执行合并动作,直到全部的样本都属于一个大类为止。 步骤:
①若有n 个样本点,计算出每两个样本点之间的距离ij d ,即矩阵()ij n n D d ⨯=; ②建立n 个类,每个类中仅有一个样本点,且每个类的平台高度都为0; ③将距离最近的两个类合并为新类,选取聚类图的平台高度为这两类之间的距离值;
④求出新类和目前各类之间的距离,如果类的个数等于1,执行步骤⑤,否则,返回执行步骤③;
⑤画出聚类图; ⑥确定类的数目和类, 例题:
设有5个销售员12345,,,,w w w w w ,他们的销售业绩由二维变量12(,)v v 描述,见表1。
表1 销售员业绩表
记销售员(1,2,3,4,5)i w i =的销售业绩为12(,)i i v v 。若使用绝对值距离来测量点与点之间的距离,使用最短距离法来测量类与类之间的距离,即
{}2
1
(,),(,)min (,)i p
j q
i j ik jk p q i j w G k w G d w w v v D G G d w w ∈=∈=-=∑
①题中有5个样本点,计算出每两个样本点之间的距离ij d ,即矩阵D 为
014660355024040 ⎡⎤⎢⎥ ⎢⎥⎢⎥ ⎢⎥ ⎢⎥⎢⎥ ⎣⎦
②建立5个类{}112345,,,,H w w w w w =。每个类的平台高度()(1,2,3,4,5)i f w i =都为0;
③将12,,w w 合并为新类6w ,选取新的平台高度为1,此时有
{}16345,,,H w w w w =;
④将34,,w w 合并为新类7w ,选取新的平台高度为2,此时有{}
2675,,H w w w =
;
⑤将67,,w w 合并为新类8w ,选取新的平台高度为3,此时有{}385,H w w =; ⑥将85,,w w 合并为新类9w ,选取新的平台高度为4,此时有{}49H w =; ⑦画出聚类图;
有聚类图可以看出,在这五个推销员中5w 的工作成绩最佳,34,w w 的工作成绩较好,而 12,w w 的工作成绩较差。
如有侵权请联系告知删除,感谢你们的配合!