kmeans作业实验报告
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
实验报告
1.仔细阅读ppt,利用自己所熟悉的语言编写一 个c-means聚类算法,并运行ppt中的例子数据。
2.要求撰写实验报告。
3.完成后要检查代码。
1
2· 4 聚类的算法
2.4.3 动态聚类法——C-均值法 ⒈ 条件及约定 x1, x2 ,, xN 设待分类的模式特征矢量集为: 类的数目C是事先取定的。 ⒉ 算法思想 该方法取定 C个类别和选取 C个初始聚类中 心,按最小距离原则将各模式分配到 C类中的某 一类,之后不断地计算类心和调整各模式的类别, 最终使各模式到其判属类别中心的距离平方之和 最小。 2
1 0 x2 ( )-( ) =1 Z1 (1) = 0 0
7
1 1 x2 Z 2 (1) ( ) ( ) 0 0 0 因为 x2 Z1 (1) > x2 Z 2 (1) , 所以 x2 Z 2 (1)
x3 Z1 (1) =1 < x3 Z 2 (1) 2 ,\ x3 Z1 (1) x4 Z1 (1) = 2 > x4 Z 2 (1) 1,\ x4 Z 2 (1) ... x20 与第二个聚类中心的距 同样把所有 x5、 x6、 ... x20 都属于 Z 2 (1) 离计算出来,判断 x5、 x6、
同理
因此分为两类:
一、 G 1 (1) ( x 1 , x 3 ), N 1 2 , N 2 18 二、 G 2 (1) ( x2 , x4 , x 5 ,... x20 )
8
10
9 8
X2
7 6
5
4
Z
(1) 2
x12
x16 x13
x19 x20 x17 x18 x14 x15 x10 x11
X1
1 2 x2
3 4
5
6 7 8
9 10
12
第四步: 因Z j (3) Z j (2), j 1, 2, 转第二步
第二步: 重新计算x1 , x2 ,..., x20到Z1 (3), Z 2 (3)的距离,
分别把x1 , x2 ,..., x20归于最近的那个聚类中心, 重新分为二类G1 (4) ( x1 , x2 ,..., x8 ) G2 (4) ( x9 , x10 ,..., x20 ), N1 8, N 2 12
3
kmeans算法数学公式 目标函数:J (U , Z )
2 u ( x z ) ip ij pj p 1 i 1 j 1 k n m
uip {0,1}
注:U为数据对象分配矩阵,Z为质心 ,k为簇数目,
n为数据对象个数,m为数据维度
迭代公式为:
z pj
u
i 1 n i 1
1 Z 2 (3) N2
(7.67,7.33)T
11
10
9 8
X2
Z
( 2) 2
7 6
5
4
x12
x16 x13
x19 x20 x17 x18 x14 x15 x10 x11
x9
3
Z1( 2)
2
1 x3 0 x1
x6 x4
x7 x8 x5
第三步:更新聚类中心
Z1 (4) Z1 (3) (1.25,1.13)T Z 2 (4) Z 2 (3) (7.67,7.33)T 计算结束。
13
第三步:更新聚类中心
1 1 Z1 (3) xi ( x1 x2 x3 ... x8 ) N1 x 8 i G1 (2) (1.25,1.13)T 1 xi ( x9 x10 ... x20 ) 12 xi G2 (2)
第一步:令C=2,选初始聚类中心为
T Z1 (1) x1 (0, 0) ; Z2 (1) x2 (1, 0)T
5
10
9 8
X2
7 6
5
4
x12
x16 x13
x19 x20 x17 x18 x14 x15 x10 x11
x9
2
3
1 x3 0 x1
x6 x4
x7 x8 x5
X1
1 2 x2
3 4
5
6 7 8
9 10
6
0 0 ( )-( ) =0 第二步: x1 Z1 (1) = 0 0
0 1 Z 2 (1) = x1 ( )-( ) =1
0 0
因为 x1 Z1 (1) < x1 Z 2 (1) 所以 x1 Z1 (1)
样本序号 特征x1 特征x2 8 6 6 7 7 7
x1
0 0 8 7
x2 x3 x4 x5 x6 x7 x8 x9 x10
1 0 9 7 0 1 7 8 1 1 8 8 2 1 1 2 9 8 2 2 8 9 3 2 9 9 6 6 7 6
x11 x12 x13 x14 x15 x16 x17 x18 x19 x20
x9
3
Z 1(1)
x3
2 1
x6 x4
x7 x8 x5
X1
0 x1
1 2 x2
3 4
5
6 7 8
9 10
9
10
G1 (2) ( x1 , x2 ,..., x8 ), N1 8 G2 (2) ( x9 , x10 ,..., x20 ), N2 12
n
ip ij
x
u
ip
m m 2 2 ' 1, uip ( xij z pj ) uip ( xij z p ' j ) , p p. uip j 1 j 1 0本,每个样本有2个特征,数据 分布如下图,使用C-均值法实现样本分类(C=2)。
2· 4 聚类的算法
2.4.3 动态聚类法——C-均值法 1. 设置簇数目C的值 2. 初始化簇中心 Z=(Z1,Z2,…,ZC) 循环开始
3. 计算模式与每个簇中心的距离,并把模式分配
到与之最近的簇中; 4. 根据每个簇中的模式重新计算簇中心; 5. 判断是否收敛,如果收敛,则结束循环,否则 继续循环。
1.仔细阅读ppt,利用自己所熟悉的语言编写一 个c-means聚类算法,并运行ppt中的例子数据。
2.要求撰写实验报告。
3.完成后要检查代码。
1
2· 4 聚类的算法
2.4.3 动态聚类法——C-均值法 ⒈ 条件及约定 x1, x2 ,, xN 设待分类的模式特征矢量集为: 类的数目C是事先取定的。 ⒉ 算法思想 该方法取定 C个类别和选取 C个初始聚类中 心,按最小距离原则将各模式分配到 C类中的某 一类,之后不断地计算类心和调整各模式的类别, 最终使各模式到其判属类别中心的距离平方之和 最小。 2
1 0 x2 ( )-( ) =1 Z1 (1) = 0 0
7
1 1 x2 Z 2 (1) ( ) ( ) 0 0 0 因为 x2 Z1 (1) > x2 Z 2 (1) , 所以 x2 Z 2 (1)
x3 Z1 (1) =1 < x3 Z 2 (1) 2 ,\ x3 Z1 (1) x4 Z1 (1) = 2 > x4 Z 2 (1) 1,\ x4 Z 2 (1) ... x20 与第二个聚类中心的距 同样把所有 x5、 x6、 ... x20 都属于 Z 2 (1) 离计算出来,判断 x5、 x6、
同理
因此分为两类:
一、 G 1 (1) ( x 1 , x 3 ), N 1 2 , N 2 18 二、 G 2 (1) ( x2 , x4 , x 5 ,... x20 )
8
10
9 8
X2
7 6
5
4
Z
(1) 2
x12
x16 x13
x19 x20 x17 x18 x14 x15 x10 x11
X1
1 2 x2
3 4
5
6 7 8
9 10
12
第四步: 因Z j (3) Z j (2), j 1, 2, 转第二步
第二步: 重新计算x1 , x2 ,..., x20到Z1 (3), Z 2 (3)的距离,
分别把x1 , x2 ,..., x20归于最近的那个聚类中心, 重新分为二类G1 (4) ( x1 , x2 ,..., x8 ) G2 (4) ( x9 , x10 ,..., x20 ), N1 8, N 2 12
3
kmeans算法数学公式 目标函数:J (U , Z )
2 u ( x z ) ip ij pj p 1 i 1 j 1 k n m
uip {0,1}
注:U为数据对象分配矩阵,Z为质心 ,k为簇数目,
n为数据对象个数,m为数据维度
迭代公式为:
z pj
u
i 1 n i 1
1 Z 2 (3) N2
(7.67,7.33)T
11
10
9 8
X2
Z
( 2) 2
7 6
5
4
x12
x16 x13
x19 x20 x17 x18 x14 x15 x10 x11
x9
3
Z1( 2)
2
1 x3 0 x1
x6 x4
x7 x8 x5
第三步:更新聚类中心
Z1 (4) Z1 (3) (1.25,1.13)T Z 2 (4) Z 2 (3) (7.67,7.33)T 计算结束。
13
第三步:更新聚类中心
1 1 Z1 (3) xi ( x1 x2 x3 ... x8 ) N1 x 8 i G1 (2) (1.25,1.13)T 1 xi ( x9 x10 ... x20 ) 12 xi G2 (2)
第一步:令C=2,选初始聚类中心为
T Z1 (1) x1 (0, 0) ; Z2 (1) x2 (1, 0)T
5
10
9 8
X2
7 6
5
4
x12
x16 x13
x19 x20 x17 x18 x14 x15 x10 x11
x9
2
3
1 x3 0 x1
x6 x4
x7 x8 x5
X1
1 2 x2
3 4
5
6 7 8
9 10
6
0 0 ( )-( ) =0 第二步: x1 Z1 (1) = 0 0
0 1 Z 2 (1) = x1 ( )-( ) =1
0 0
因为 x1 Z1 (1) < x1 Z 2 (1) 所以 x1 Z1 (1)
样本序号 特征x1 特征x2 8 6 6 7 7 7
x1
0 0 8 7
x2 x3 x4 x5 x6 x7 x8 x9 x10
1 0 9 7 0 1 7 8 1 1 8 8 2 1 1 2 9 8 2 2 8 9 3 2 9 9 6 6 7 6
x11 x12 x13 x14 x15 x16 x17 x18 x19 x20
x9
3
Z 1(1)
x3
2 1
x6 x4
x7 x8 x5
X1
0 x1
1 2 x2
3 4
5
6 7 8
9 10
9
10
G1 (2) ( x1 , x2 ,..., x8 ), N1 8 G2 (2) ( x9 , x10 ,..., x20 ), N2 12
n
ip ij
x
u
ip
m m 2 2 ' 1, uip ( xij z pj ) uip ( xij z p ' j ) , p p. uip j 1 j 1 0本,每个样本有2个特征,数据 分布如下图,使用C-均值法实现样本分类(C=2)。
2· 4 聚类的算法
2.4.3 动态聚类法——C-均值法 1. 设置簇数目C的值 2. 初始化簇中心 Z=(Z1,Z2,…,ZC) 循环开始
3. 计算模式与每个簇中心的距离,并把模式分配
到与之最近的簇中; 4. 根据每个簇中的模式重新计算簇中心; 5. 判断是否收敛,如果收敛,则结束循环,否则 继续循环。