第四讲 聚类分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
q Minkowski: ( xi yi ) i
1 q
夹角余弦(相似系数1) : xi yi cosine i
C xy (1) cos xy
i i
xi 2 yi 2
Pearson correlation
(相似系数2):
C xy (2) rxy
聚类分析 (cluster analysis)
• 对变量的聚类称为R型聚类,而对观测 值聚类称为Q型聚类。
• 这两种聚类在数学上是对称的,没有什 么不同
问题陈述
• 通过实验测得16种饮料的热量、咖啡因、 钠及价格的值,如何根据观测的数据对 这16种饮料进行分类?
• 16种饮料的热量、咖啡因、钠及价格四种变量
分 类
聚类分析
• 对于一个数据,既可以对变量(指标)进行分 类(相当于对数据中的列分类),也可以对观测 值(事件,样品)来分类(相当于对数据中的 行分类) • 比如学生成绩数据就可以对学生按照理科或文 科成绩(或者综合考虑各科成绩)分类 • 当然,并不一定事先假定有多少类,完全可以 按照数据本身的规律来分类
实例分析1
• 假定要把这16种饮料分成3类。利用 SPSS进行快速聚类。
功能菜单
• 在SPSS中选择Analyze-Classify-KMenas Cluster
指定或保存聚类的中心
SPSS实现(聚类分析)
K-均值聚类 • 以 数 据 drink.sav 为 例 , 在 SPSS 中 选 择 Analyze-Classify-K-Menas Cluster, • 然后把calorie(热量)、caffeine(咖啡因)、 sodium(钠)、price(价格)选入Variables, • 在Number of Clusters处选择3(想要分的类 数), • 如果想要知道哪种饮料分到哪类,则选Save, 再选Cluster Membership等。 • 注意k-均值聚类只能做Q型聚类,如要做R型 聚类,需要把数据阵进行转置。
类平均法: 1 D pq n1n2
p i p 2
xi G p x j Gq
d (x , x )
i j
离差平方和: D1
xi G p
( x x ) '( x x ), D
i xk G p Gq
x j Gq
(x
j
xq ) '( x j xq ),
D1 2
实例分析2
• 假定要把这16种饮料分成3类。利用 SPSS进行分层聚类。
功能菜单
点击Analyze→Classify →Hierarchical Cluster
SPSS实现(聚类分析)
• 然后把calorie(热量)、caffeine(咖 啡因)、sodium(钠)、price(价格) 选入Variables, • 在Cluster选Cases(这是Q型聚类:对 观测值聚类),如果要对变量聚类(R 型聚类)则选Variables, • 为 了 画 出 树 状 图 , 选 Plots , 再 点 Dendrogram等。
饮料数据(drink.sav )
两个距离概念
• 按照远近程度来聚类需要明确两个概念:一个 是点和点之间的距离,一个是类和类之间的距 离。 • 点间距离有很多定义方式(最简单的是欧氏距 离) • 当然还有一些和距离相反但起同样作用的概念, 比如相似性等,两点越相似度越大,就相当于 距离越短。 • 由一个点组成的类是最基本的类;如果每一类 都由一个点组成,那么点间的距离就是类间距 离。但是如果某一类包含不止一个点,那么就 要确定类间距离。
聚类要注意的问题
• 聚类结果主要受所选择的变量影响。如果去 掉一些变量,或者增加一些变量,结果会很 不同。 • 相比之下,聚类方法的选择则不那么重要了。 因此,聚类之前一定要目标明确。 • 另外就分成多少类来说,也要有道理。只要 你高兴,从分层聚类的计算机结果可以得到 任何可能数量的类。但是,聚类的目的是要 使各类距离尽可能的远,而类中点的距离尽 可能的近,而且分类结果还要有令人信服的 解释。这一点就不是数学可以解决的了。
( xk x ) '( xi x ) Dpq D1 2 D1 D2
事先要确定分多少类:k-均值聚类
• 聚类可以走着瞧,事先不一定确定有多少类; 但是这里的k-均值聚类却要求你先说好要分多 少类。 • 假定你说分3类,这个方法还进一步要求你事 先确定3个点为“聚类种子”(SPSS软件自动 选种子);即把这3个点作为三类中每一类的基 石。 • 然后,根据和这三个点的距离远近,把所有点 分成三类。再把这三类的中心(均值)作为新 的基石或种子,重新按照距离分类。 • 如此叠代下去,直到达到停止叠代的要求。
( x x )( y y )
i i
(x x ) ( y y)
2 i i i i
i
2
当变量的测量值相差悬殊时,要先进行标准
类Gp与类Gq之间的距离Dpq (d(xi,xj)表示点xi∈ Gp和xj ∈ Gq之间的距离)
最短距离法: Dpq min d ( xi , x j ) 重心法: Dpq min d ( x p , xq ) 最长距离法: Dpq max d ( xi , x j )
结果分析--树型图
实例分析3
• 对20种啤酒的热量、钠含量、酒精、 价格四个方面的观测值如下页表,使用 分层聚类的方法进行聚类。
啤酒成分和价格数据(beer.sav)
啤酒名 Budweiser Schlitz Ionenbrau Kronensourc Heineken Old-milnaukee Aucsberger Strchs-bohemi Miller-lite Sudeiser-lich Coors Coorslicht Michelos-lich Secrs Kkirin Pabst-extra-l Hamms Heilemans-old Olympia-goldSchlite-light 热量 144.00 181.00 157.00 170.00 152.00 145.00 175.00 149.00 99.00 113.00 140.00 102.00 135.00 150.00Biblioteka Baidu149.00 68.00 136.00 144.00 72.00 97.00 钠含量 酒精 19.00 4.70 19.00 4.90 15.00 4.90 7.00 5.20 11.00 5.00 23.00 4.60 24.00 5.50 27.00 4.70 10.00 4.30 6.00 3.70 16.00 4.60 15.00 4.10 11.00 4.20 19.00 4.70 6.00 5.00 15.00 2.30 19.00 4.40 24.00 4.90 6.00 2.90 7.00 4.20 价格 .43 .43 .48 .73 .77 .26 .40 .42 .43 .44 .44 .46 .50 .76 .79 .36 .43 .43 .46 .47
啤酒例子—结果分析 下表(Proximity matrix)中行列交叉点为 两种啤酒之间各变量的欧氏距离平方和
Proximity Matrix Squared Euclidean Distance 4: 6: 8: 9: 10: 12: 13: 16: 18: 19: 20: Kronensourc 5: Heineken Old-milnaukee 7: Aucsberger Strchs-bohemi Miller-lite Sudeiser-lich 11: Coors Coorslicht Michelos-lich 14: Secrs 15: Kkirin Pabst-extra-l 17: Hamms Heilemans-old Olympia-gold- Schlite-light .724 .570 .140 .198 .147 .358 .556 .023 .213 .193 .391 .855 1.069 .014 .061 1.109 .530 .665 .623 .249 .098 .230 .745 .886 .161 .591 .376 .467 .926 1.714 .183 .164 1.708 .933 .390 .339 .337 .267 .348 .364 .482 .039 .301 .123 .323 .532 1.332 .104 .206 1.142 .475 .000 .071 1.451 1.054 1.308 .815 .776 .589 .885 .418 .385 .054 2.269 .800 1.037 1.531 .756 .071 .000 1.272 .936 1.026 .682 .729 .471 .653 .345 .155 .059 1.899 .612 .801 1.331 .656 1.451 1.272 .000 .222 .130 .661 .930 .228 .457 .555 .929 1.672 1.162 .149 .114 1.497 .934 1.054 .936 .222 .000 .137 1.041 1.358 .326 .805 .709 .630 1.354 2.086 .297 .114 2.239 1.314 1.308 1.026 .130 .137 .000 .867 1.201 .283 .540 .643 .557 1.496 1.416 .168 .027 1.786 1.152 .815 .682 .661 1.041 .867 .000 .087 .222 .065 .122 .791 .741 .540 .292 .638 .288 .027 .776 .729 .930 1.358 1.201 .087 .000 .363 .210 .132 .953 .703 .556 .473 .951 .196 .050 .589 .471 .228 .326 .283 .222 .363 .000 .141 .087 .394 .685 .948 .026 .156 .873 .347 .885 .653 .457 .805 .540 .065 .210 .141 .000 .128 .572 .823 .443 .139 .388 .395 .148 .418 .345 .555 .709 .643 .122 .132 .087 .128 .000 .428 .434 .810 .167 .455 .538 .153 .385 .155 .929 .630 .557 .791 .953 .394 .572 .428 .000 .395 1.695 .412 .451 1.496 .870 .054 .059 1.672 1.354 1.496 .741 .703 .685 .823 .434 .395 .000 2.068 .893 1.199 1.283 .641 2.269 1.899 1.162 2.086 1.416 .540 .556 .948 .443 .810 1.695 2.068 .000 .847 1.314 .256 .607 .800 .612 .149 .297 .168 .292 .473 .026 .139 .167 .412 .893 .847 .000 .086 .927 .455 1.037 .801 .114 .114 .027 .638 .951 .156 .388 .455 .451 1.199 1.314 .086 .000 1.535 .882 1.531 1.331 1.497 2.239 1.786 .288 .196 .873 .395 .538 1.496 1.283 .256 .927 1.535 .000 .217 .756 .656 .934 1.314 1.152 .027 .050 .347 .148 .153 .870 .641 .607 .455 .882 .217 .000 Case 1: Budweiser 2: Schlitz 3: Ionenbrau 1: Budweiser .000 .111 .062 2: Schlitz .111 .000 .090 3: Ionenbrau .062 .090 .000 4: Kronensourc .724 .665 .390 5: Heineken .570 .623 .339 6: Old-milnaukee .140 .249 .337 7: Aucsberger .198 .098 .267 8: Strchs-bohemi .147 .230 .348 9: Miller-lite .358 .745 .364 10: Sudeiser-lich .556 .886 .482 11: Coors .023 .161 .039 12: Coorslicht .213 .591 .301 13: Michelos-lich .193 .376 .123 14: Secrs .391 .467 .323 15: Kkirin .855 .926 .532 16: Pabst-extra-l 1.069 1.714 1.332 17: Hamms .014 .183 .104 18: Heilemans-old .061 .164 .206 19: Olympia-gold1.109 1.708 1.142 20: Schlite-light .530 .933 .475 This is a dissimilarity matrix
两个距离概念
• 类间距离是基于点间距离定义的:比如两类之 间最近点之间的距离可以作为这两类之间的距 离。 • 也可以用两类中最远点之间的距离作为这两类 之间的距离;当然也可以用各类的中心之间的 距离来作为类间距离。 • 在计算时,各种点间距离和类间距离的选择是 通过统计软件的选项实现的。不同的选择的结 果会不同,但一般不会差太多。
第四讲聚类分析与判别分析
何 帆
聚类分析
• • 快速聚类 分层聚类
• 俗语说,物以类聚、人以群分。 • 但什么是分类的根据呢? • 比如,要想把中国的县分成若干类,就有很 多种分类法; • 可以按照自然条件来分, • 比如考虑降水、土地、日照、湿度等方面; • 也可以考虑收入、教育水准、医疗条件、基 础设施等指标; • 既可以用某一项来分类,也可以同时考虑多 项指标来分类。
Valid Missing
根据需要,可 以输出哪些点 分在一起。结 果是:第一类 为饮料1、10; 第二类为饮料2、 4、8、11、12、 13 、 14 ; 第 三 类为剩下的饮 料3、5、6、7、 9、15、16。
事先不用确定分多少类:分层聚类
• 另一种聚类称为分层聚类或系统聚类 (hierarchical cluster)。 • 开始时,有多少点就是多少类。 • 它第一步先把最近的两类(点)合并成 一类,然后再把剩下的最近的两类合并 成一类; • 这样下去,每次都少一类,直到最后只 有一大类为止。显然,越是后来合并的 类,距离就越远。
向量x=(x1,…, xp)与y=(y1,…, yp)之间的 距离或相似系数
欧氏距离: Euclidean
( xi yi )
i
2
( xi yi )2 Squared Euclidean
i
平方欧氏距离:
Block(绝对距离): Si|xi-yi| Chebychev: Maxi|xi-yi|
聚类结果分析
Final Cluster Centers 1 203.10 1.65 13.05 3.15 Cluster 2 33.71 4.16 10.06 2.69 3 107.34 3.49 8.76 2.94
CALORIE CAFFEINE SODIUM PRICE
Numbe r of Case s in each Cluster Cluster 1 2 3 2.000 7.000 7.000 16.000 .000
1 q
夹角余弦(相似系数1) : xi yi cosine i
C xy (1) cos xy
i i
xi 2 yi 2
Pearson correlation
(相似系数2):
C xy (2) rxy
聚类分析 (cluster analysis)
• 对变量的聚类称为R型聚类,而对观测 值聚类称为Q型聚类。
• 这两种聚类在数学上是对称的,没有什 么不同
问题陈述
• 通过实验测得16种饮料的热量、咖啡因、 钠及价格的值,如何根据观测的数据对 这16种饮料进行分类?
• 16种饮料的热量、咖啡因、钠及价格四种变量
分 类
聚类分析
• 对于一个数据,既可以对变量(指标)进行分 类(相当于对数据中的列分类),也可以对观测 值(事件,样品)来分类(相当于对数据中的 行分类) • 比如学生成绩数据就可以对学生按照理科或文 科成绩(或者综合考虑各科成绩)分类 • 当然,并不一定事先假定有多少类,完全可以 按照数据本身的规律来分类
实例分析1
• 假定要把这16种饮料分成3类。利用 SPSS进行快速聚类。
功能菜单
• 在SPSS中选择Analyze-Classify-KMenas Cluster
指定或保存聚类的中心
SPSS实现(聚类分析)
K-均值聚类 • 以 数 据 drink.sav 为 例 , 在 SPSS 中 选 择 Analyze-Classify-K-Menas Cluster, • 然后把calorie(热量)、caffeine(咖啡因)、 sodium(钠)、price(价格)选入Variables, • 在Number of Clusters处选择3(想要分的类 数), • 如果想要知道哪种饮料分到哪类,则选Save, 再选Cluster Membership等。 • 注意k-均值聚类只能做Q型聚类,如要做R型 聚类,需要把数据阵进行转置。
类平均法: 1 D pq n1n2
p i p 2
xi G p x j Gq
d (x , x )
i j
离差平方和: D1
xi G p
( x x ) '( x x ), D
i xk G p Gq
x j Gq
(x
j
xq ) '( x j xq ),
D1 2
实例分析2
• 假定要把这16种饮料分成3类。利用 SPSS进行分层聚类。
功能菜单
点击Analyze→Classify →Hierarchical Cluster
SPSS实现(聚类分析)
• 然后把calorie(热量)、caffeine(咖 啡因)、sodium(钠)、price(价格) 选入Variables, • 在Cluster选Cases(这是Q型聚类:对 观测值聚类),如果要对变量聚类(R 型聚类)则选Variables, • 为 了 画 出 树 状 图 , 选 Plots , 再 点 Dendrogram等。
饮料数据(drink.sav )
两个距离概念
• 按照远近程度来聚类需要明确两个概念:一个 是点和点之间的距离,一个是类和类之间的距 离。 • 点间距离有很多定义方式(最简单的是欧氏距 离) • 当然还有一些和距离相反但起同样作用的概念, 比如相似性等,两点越相似度越大,就相当于 距离越短。 • 由一个点组成的类是最基本的类;如果每一类 都由一个点组成,那么点间的距离就是类间距 离。但是如果某一类包含不止一个点,那么就 要确定类间距离。
聚类要注意的问题
• 聚类结果主要受所选择的变量影响。如果去 掉一些变量,或者增加一些变量,结果会很 不同。 • 相比之下,聚类方法的选择则不那么重要了。 因此,聚类之前一定要目标明确。 • 另外就分成多少类来说,也要有道理。只要 你高兴,从分层聚类的计算机结果可以得到 任何可能数量的类。但是,聚类的目的是要 使各类距离尽可能的远,而类中点的距离尽 可能的近,而且分类结果还要有令人信服的 解释。这一点就不是数学可以解决的了。
( xk x ) '( xi x ) Dpq D1 2 D1 D2
事先要确定分多少类:k-均值聚类
• 聚类可以走着瞧,事先不一定确定有多少类; 但是这里的k-均值聚类却要求你先说好要分多 少类。 • 假定你说分3类,这个方法还进一步要求你事 先确定3个点为“聚类种子”(SPSS软件自动 选种子);即把这3个点作为三类中每一类的基 石。 • 然后,根据和这三个点的距离远近,把所有点 分成三类。再把这三类的中心(均值)作为新 的基石或种子,重新按照距离分类。 • 如此叠代下去,直到达到停止叠代的要求。
( x x )( y y )
i i
(x x ) ( y y)
2 i i i i
i
2
当变量的测量值相差悬殊时,要先进行标准
类Gp与类Gq之间的距离Dpq (d(xi,xj)表示点xi∈ Gp和xj ∈ Gq之间的距离)
最短距离法: Dpq min d ( xi , x j ) 重心法: Dpq min d ( x p , xq ) 最长距离法: Dpq max d ( xi , x j )
结果分析--树型图
实例分析3
• 对20种啤酒的热量、钠含量、酒精、 价格四个方面的观测值如下页表,使用 分层聚类的方法进行聚类。
啤酒成分和价格数据(beer.sav)
啤酒名 Budweiser Schlitz Ionenbrau Kronensourc Heineken Old-milnaukee Aucsberger Strchs-bohemi Miller-lite Sudeiser-lich Coors Coorslicht Michelos-lich Secrs Kkirin Pabst-extra-l Hamms Heilemans-old Olympia-goldSchlite-light 热量 144.00 181.00 157.00 170.00 152.00 145.00 175.00 149.00 99.00 113.00 140.00 102.00 135.00 150.00Biblioteka Baidu149.00 68.00 136.00 144.00 72.00 97.00 钠含量 酒精 19.00 4.70 19.00 4.90 15.00 4.90 7.00 5.20 11.00 5.00 23.00 4.60 24.00 5.50 27.00 4.70 10.00 4.30 6.00 3.70 16.00 4.60 15.00 4.10 11.00 4.20 19.00 4.70 6.00 5.00 15.00 2.30 19.00 4.40 24.00 4.90 6.00 2.90 7.00 4.20 价格 .43 .43 .48 .73 .77 .26 .40 .42 .43 .44 .44 .46 .50 .76 .79 .36 .43 .43 .46 .47
啤酒例子—结果分析 下表(Proximity matrix)中行列交叉点为 两种啤酒之间各变量的欧氏距离平方和
Proximity Matrix Squared Euclidean Distance 4: 6: 8: 9: 10: 12: 13: 16: 18: 19: 20: Kronensourc 5: Heineken Old-milnaukee 7: Aucsberger Strchs-bohemi Miller-lite Sudeiser-lich 11: Coors Coorslicht Michelos-lich 14: Secrs 15: Kkirin Pabst-extra-l 17: Hamms Heilemans-old Olympia-gold- Schlite-light .724 .570 .140 .198 .147 .358 .556 .023 .213 .193 .391 .855 1.069 .014 .061 1.109 .530 .665 .623 .249 .098 .230 .745 .886 .161 .591 .376 .467 .926 1.714 .183 .164 1.708 .933 .390 .339 .337 .267 .348 .364 .482 .039 .301 .123 .323 .532 1.332 .104 .206 1.142 .475 .000 .071 1.451 1.054 1.308 .815 .776 .589 .885 .418 .385 .054 2.269 .800 1.037 1.531 .756 .071 .000 1.272 .936 1.026 .682 .729 .471 .653 .345 .155 .059 1.899 .612 .801 1.331 .656 1.451 1.272 .000 .222 .130 .661 .930 .228 .457 .555 .929 1.672 1.162 .149 .114 1.497 .934 1.054 .936 .222 .000 .137 1.041 1.358 .326 .805 .709 .630 1.354 2.086 .297 .114 2.239 1.314 1.308 1.026 .130 .137 .000 .867 1.201 .283 .540 .643 .557 1.496 1.416 .168 .027 1.786 1.152 .815 .682 .661 1.041 .867 .000 .087 .222 .065 .122 .791 .741 .540 .292 .638 .288 .027 .776 .729 .930 1.358 1.201 .087 .000 .363 .210 .132 .953 .703 .556 .473 .951 .196 .050 .589 .471 .228 .326 .283 .222 .363 .000 .141 .087 .394 .685 .948 .026 .156 .873 .347 .885 .653 .457 .805 .540 .065 .210 .141 .000 .128 .572 .823 .443 .139 .388 .395 .148 .418 .345 .555 .709 .643 .122 .132 .087 .128 .000 .428 .434 .810 .167 .455 .538 .153 .385 .155 .929 .630 .557 .791 .953 .394 .572 .428 .000 .395 1.695 .412 .451 1.496 .870 .054 .059 1.672 1.354 1.496 .741 .703 .685 .823 .434 .395 .000 2.068 .893 1.199 1.283 .641 2.269 1.899 1.162 2.086 1.416 .540 .556 .948 .443 .810 1.695 2.068 .000 .847 1.314 .256 .607 .800 .612 .149 .297 .168 .292 .473 .026 .139 .167 .412 .893 .847 .000 .086 .927 .455 1.037 .801 .114 .114 .027 .638 .951 .156 .388 .455 .451 1.199 1.314 .086 .000 1.535 .882 1.531 1.331 1.497 2.239 1.786 .288 .196 .873 .395 .538 1.496 1.283 .256 .927 1.535 .000 .217 .756 .656 .934 1.314 1.152 .027 .050 .347 .148 .153 .870 .641 .607 .455 .882 .217 .000 Case 1: Budweiser 2: Schlitz 3: Ionenbrau 1: Budweiser .000 .111 .062 2: Schlitz .111 .000 .090 3: Ionenbrau .062 .090 .000 4: Kronensourc .724 .665 .390 5: Heineken .570 .623 .339 6: Old-milnaukee .140 .249 .337 7: Aucsberger .198 .098 .267 8: Strchs-bohemi .147 .230 .348 9: Miller-lite .358 .745 .364 10: Sudeiser-lich .556 .886 .482 11: Coors .023 .161 .039 12: Coorslicht .213 .591 .301 13: Michelos-lich .193 .376 .123 14: Secrs .391 .467 .323 15: Kkirin .855 .926 .532 16: Pabst-extra-l 1.069 1.714 1.332 17: Hamms .014 .183 .104 18: Heilemans-old .061 .164 .206 19: Olympia-gold1.109 1.708 1.142 20: Schlite-light .530 .933 .475 This is a dissimilarity matrix
两个距离概念
• 类间距离是基于点间距离定义的:比如两类之 间最近点之间的距离可以作为这两类之间的距 离。 • 也可以用两类中最远点之间的距离作为这两类 之间的距离;当然也可以用各类的中心之间的 距离来作为类间距离。 • 在计算时,各种点间距离和类间距离的选择是 通过统计软件的选项实现的。不同的选择的结 果会不同,但一般不会差太多。
第四讲聚类分析与判别分析
何 帆
聚类分析
• • 快速聚类 分层聚类
• 俗语说,物以类聚、人以群分。 • 但什么是分类的根据呢? • 比如,要想把中国的县分成若干类,就有很 多种分类法; • 可以按照自然条件来分, • 比如考虑降水、土地、日照、湿度等方面; • 也可以考虑收入、教育水准、医疗条件、基 础设施等指标; • 既可以用某一项来分类,也可以同时考虑多 项指标来分类。
Valid Missing
根据需要,可 以输出哪些点 分在一起。结 果是:第一类 为饮料1、10; 第二类为饮料2、 4、8、11、12、 13 、 14 ; 第 三 类为剩下的饮 料3、5、6、7、 9、15、16。
事先不用确定分多少类:分层聚类
• 另一种聚类称为分层聚类或系统聚类 (hierarchical cluster)。 • 开始时,有多少点就是多少类。 • 它第一步先把最近的两类(点)合并成 一类,然后再把剩下的最近的两类合并 成一类; • 这样下去,每次都少一类,直到最后只 有一大类为止。显然,越是后来合并的 类,距离就越远。
向量x=(x1,…, xp)与y=(y1,…, yp)之间的 距离或相似系数
欧氏距离: Euclidean
( xi yi )
i
2
( xi yi )2 Squared Euclidean
i
平方欧氏距离:
Block(绝对距离): Si|xi-yi| Chebychev: Maxi|xi-yi|
聚类结果分析
Final Cluster Centers 1 203.10 1.65 13.05 3.15 Cluster 2 33.71 4.16 10.06 2.69 3 107.34 3.49 8.76 2.94
CALORIE CAFFEINE SODIUM PRICE
Numbe r of Case s in each Cluster Cluster 1 2 3 2.000 7.000 7.000 16.000 .000