聚类分析实例分析题

合集下载

CDA数据分析师Level 2考试题库库案例之聚类问题

CDA数据分析师LevelⅡ考试题库案例之聚类问题
案例：
为了研究世界各国森林、草原资源的分布规律，共抽取了21个国家的数据，每个国家4项指标，原始数据见下表。

使用该原始数据按照国别进行聚类分析，国家按照表顺序从上往下依次编号，如图所示:
使用SPSS软件分析结果如下：
问题1：聚类分析常用的方法不包括哪个()
A、动态聚类法
B、合成法
C、加入法
D、分解法
答案：B
问题2：从聚类结果来看，与其他国家相似度最低，处于最高类别的国家是()
A、巴西
B、中国
C、俄罗斯
D、美国
答案：C
问题3：下列各项关于聚类分析的描述中，不正确的是()
A、相关聚类度量是表示两个事物之间关联度的值，常见的计算方法包括SAD、SSD、MAE、MSE等
B、层次聚类算法是自下而上的一种分类方法
C、层次聚类算法的缺点是必须提前知道数据有多少组/类，即K值，否则会造成严重的错误和偏差
D、常用的聚类算法包括层次聚类、K-均值聚类和DBSCAN聚类
答案：C
问题4：在聚类分析中不会使用的距离是()
A、Minkowski距离
B、绝对距离
C、笛卡尔距离
D、欧式距离
答案：C
问题5：在聚类结果中，与中国最应该聚为一类的国家是()
A、澳大利亚
B、印尼
C、日本
D、加拿大
答案：A。

08聚类分析与判别分析的例题

聚类分析与判别分析的例题1、某超市经销十种品牌的饮料，其中有四种畅销，三种滞销，三种平销。

下表是这十种品牌饮料的销售价格（元）和顾客对各种饮料的口味评分、信任度评分的平均数。

（1）根据数据建立贝叶斯判别函数，并根据此判别函数对原样本进行回判。

（2)现有一新品牌的饮料再该超市试销，其销售价格为3.0，顾客对其口味的评分平均分为8，信任评分为5，试预测该饮料的销售情况。

2、银行的贷款部门需要判别每个客户的信用好坏（是否未履行还贷责任），以决定是否给予贷款。

可以根据贷款申请人的年龄、受教育程度、现从事工作的年龄、未变更住址的年数、收入，负债收入比例、信用卡债务、其他债务等来判断其信用情况。

下表是某银行的客户资料中抽取的部分数据，（1）根据样本资料分别用距离判别法、贝叶斯判别法和费系尔判别法建立判别函数和判别规则。

(2)某客户的如上情况资料为（53，1，9，18，50，11，20，2.02，3.58），对其进行信3、从胃癌患者、萎缩性胃炎患者和非胃炎患者中分别抽取五个病人进行思想生化指标的化验：血清铜蛋白、蓝色反应、尿吲哚乙酸和中性硫化物，数据见下表。

试用距离判别法建立判别函数，并根据此判4、为了了解儿童的生长发育规律，今随机抽取了男孩从出生到11岁每年平均增长的重量数据表，试问男孩发育可分为几个阶段？表1~11岁儿童每年平均增长的重量5、下表是15个上市公司2001年的一些主要财务指标，使用系统聚类法和K均值法分别对这些公司进行聚类，并对结果进行分析。

6、下表是某年我国16个地区农民支出情况的抽样调查数据，每个地区调查了反映每人平均生活消费支出情况的六个经济指标。

试通过统计分析软件用不同的方法进行系统聚类分析，并比较何种方法与人们观察到的实际情况较接近。

7、下表是2003年我国省会城市和计划单列市的主要经济指标：人均GDP元、人均工业产值元、客运总量万人、货运总量万人、地方财政预算内收入亿元、固定资产投资总额亿元、在岗职工人数占总人口的比例%、在岗职工人均工资额元、城乡居民年底储蓄余额亿元。

聚类分析实验报告例题

一、实验目的1. 理解聚类分析的基本原理和方法。

2. 掌握K-means、层次聚类等常用聚类算法。

3. 学习如何使用Python进行聚类分析，并理解算法的运行机制。

4. 分析实验结果，并评估聚类效果。

二、实验环境1. 操作系统：Windows 102. 编程语言：Python3.83. 库：NumPy、Matplotlib、Scikit-learn三、实验数据本次实验使用的数据集为Iris数据集，包含150个样本，每个样本有4个特征（花萼长度、花萼宽度、花瓣长度、花瓣宽度），属于3个不同的类别。

四、实验步骤1. 导入Iris数据集，并进行数据预处理。

2. 使用K-means算法进行聚类分析，选择合适的K值。

3. 使用层次聚类算法进行聚类分析，观察聚类结果。

4. 分析两种算法的聚类效果，并进行比较。

5. 使用Matplotlib绘制聚类结果的可视化图形。

五、实验过程1. 数据预处理```pythonfrom sklearn import datasetsimport numpy as np# 加载Iris数据集iris = datasets.load_iris()X = iris.datay = iris.target# 数据标准化X = (X - np.mean(X, axis=0)) / np.std(X, axis=0) ```2. K-means聚类分析```pythonfrom sklearn.cluster import KMeans# 选择K值k_values = range(2, 10)inertia_values = []for k in k_values:kmeans = KMeans(n_clusters=k, random_state=42) kmeans.fit(X)inertia_values.append(kmeans.inertia_)# 绘制肘部图import matplotlib.pyplot as pltplt.plot(k_values, inertia_values, marker='o') plt.xlabel('Number of clusters')plt.ylabel('Inertia')plt.title('Elbow Method')plt.show()```3. 层次聚类分析```pythonfrom sklearn.cluster import AgglomerativeClustering# 选择层次聚类方法agglo = AgglomerativeClustering(n_clusters=3)y_agglo = agglo.fit_predict(X)```4. 聚类效果分析通过观察肘部图，可以发现当K=3时，K-means算法的聚类效果最好。

聚类分析例题及解答

聚类分析作业之青柳念文创作
例题：
停止聚类分析，步调如下：
1、尺度化的欧式间隔聚类
各类所属
得出以上成果，以欧氏间隔为计算间隔方法，把以
上17个亚洲国家地区按6个变量欧氏间隔划分为三类.
第一类为：Bangladesh
第二类为：China
第三类为：Malaysia
2、测验测验其他类间间隔方法
其他类间间隔方法得出以上成果，以欧氏间隔为计
算间隔方法，把以上17个亚洲国家地区按6个变量欧氏
间隔也可以划分为以下三类:
第一类为：Bangladesh
第二类为：China
第三类为：Malaysia
3、用样本主成分画图
由图可知，所聚成的3类中:
第1类有5个样本，类间间隔较接近，效果较好；第2类有6个样本，类间间隔较接近，效果次之；第3类有6个样本.类间间隔较团圆，效果最差.。

(6)聚类分析例子

例题1：下表是我国16个地区农民在1982年支出情况的抽样调查数据的汇总资料，每个地区都调查了反映每人平均生活消费支出情况的六个指标。

试利用调查资料对16个地区进行分类。

地区食品衣着燃料住房生活用品及其他文化生活服务支出北京190.33 43.77 9.73 60.54 49.01 9.04 天津135.2 36.4 10.47 44.16 36.49 3.94 河北95.21 22.83 9.3 22.44 22.81 2.8 山西104.78 25.11 6.4 9.89 18.17 3.25 内蒙古128.41 27.63 8.94 12.58 23.99 3.27 辽宁145.68 32.83 17.19 27.29 39.09 3.47 吉林159.37 33.38 18.37 11.81 25.29 5.52 黑龙江116.22 29.57 13.24 13.76 21.75 6.04 上海221.11 38.64 12.53 115.65 50.82 5.89 江苏144.98 29.12 11.67 42.6 27.3 5.74 浙江169.92 32.75 12.72 47.12 34.35 5安徽153.11 23.09 15.62 23.54 18.18 6.39 福建144.92 21.26 16.96 19.52 21.75 6.73 江西140.51 21.5 17.64 19.19 15.97 4.94 山东115.84 30.26 12.2 33.61 33.77 3.85 河南101.18 23.26 8.46 20.2 20.5 4.3下面用统计学软件 SAS(Statistical Analysis System) data dfdf;input city $ x1 x2 x3 x4 x5 x6;cards;beijing 190.33 43.77 9.73 60.54 49.01 9.04tianjing 135.20 36.40 10.47 44.16 36.49 3.94hebei 95.21 22.83 9.30 22.44 22.81 2.80shanxi 104.78 25.11 6.40 9.89 18.17 3.25 neimenggu 128.41 27.63 8.94 12.58 23.99 3.27 liaoning 145.68 32.83 17.19 27.29 39.09 3.47jilin 159.37 33.38 18.37 11.81 25.29 5.22 heilongjiang 116.22 29.57 13.24 13.76 21.75 6.04 shanghai 221.11 38.64 12.53 115.65 50.82 5.89 jiangsu 144.98 29.12 11.67 42.60 27.30 5.74 zhejiang 169.92 32.75 12.72 47.12 34.35 5.00anhui 153.11 23.09 15.62 23.54 18.18 6.39fujian 144.92 21.26 16.96 19.52 21.75 6.73jiangxi 140.54 21.50 17.64 19.19 15.97 4.94 shandong 115.84 30.26 12.20 33.61 33.77 3.85henan 101.18 23.26 8.46 20.20 20.50 4.30;run;proc cluster data=dfdf std outtree=tree method=ave pesudo rsq;id city;run; /*ward离差平方和法 war; 类平均法 ave; 重心法 cen;最长距离法 com;中间距离法 med; 最短距离法 sin;密度估计法 den;极大似然法 eml; 可变类平均 fle;相似分析法 mcq; 两阶段密度估计 two; */proc tree data=tree out=new graphics horizontal；id city;run;Cluster HistoryNormRMS NCL Clusters Joined--- FREQ SPRSQ RSQ PSF PST2 Dist 15 anhui fujian 2 0.0025 0.998 28.7 . 0.193 14 hebei henan 2 0.0055 0.992 19.1 . 0.2869 13 CL14 shanxi 3 0.0068 0.985 16.7 1.2 0.3116 12 CL15 jiangxi 3 0.0099 0.975 14.4 4 0.3481 11 jiangsu zhejiang 2 0.0089 0.966 14.4 . 0.366 10 CL13 neimengg 4 0.0106 0.956 14.4 1.7 0.3692 9 tianjing shandong 2 0.0092 0.947 15.5 . 0.3711 8 CL9 CL11 4 0.0237 0.923 13.7 2.6 0.4957 7 liaoning jilin 2 0.0189 0.904 14.1 . 0.5329 6 heilongj CL12 4 0.0267 0.877 14.3 4.3 0.5463 5 CL8 CL7 6 0.0528 0.824 12.9 3.5 0.6681 4 CL5 CL6 10 0.1269 0.698 9.2 6.6 0.7823 3 CL4 CL10 14 0.1955 0.502 6.6 7.8 0.8751 2 beijing shanghai 2 0.0562 0.446 11.3 . 0.91841CL2 CL3 16 0.4458 0 . 11.3 1.5454（1）2R 统计量（列标题为RSQ ）用于评价每次合并成NCL 个类时的聚类效果。

聚类分析与判别分析例题与代码

1、设有20个土壤样品分别对5个变量的观测数据如下表所示，试利用二种聚类法对其进行样品聚类分析。

解：首先将16组的异常有机物值修改为3.33.通过SPss软件进行K-均值检验，得到：由上表可见三组的聚类中心。

可认为：第一组含沙量低，淤泥含量高，黏土含量高，有机物含量中等，PH值中等。

第二组含沙量高，淤泥含量低，黏土含量低，有机物含量较低，PH值中等。

第三组含沙量中等，淤泥含量中等，黏土含量中等，有机物含量较高，PH值中等迭代两次后得到结果。

具体分组如下运用层次聚类法：首先将数据标准化，然后使用标准化后数据组别解释如下：一组：含沙量低，淤泥含量中等，黏土含量高，有机物含量高，PH值中等；二组：含沙量高，淤泥含量低，黏土含量中等，有机物含量中等，PH值较高；三组：含沙量高，淤泥含量高，黏土含量低，有机物含量高，PH值较低；但是考虑到数据可能具有相关性，我们在matlab中使用马氏距离clearclcX=importdata('lunwen.txt');normplot(X(:,5))figurenormplot(X(:,2))figurenormplot(X(:,3))figurenormplot(X(:,4))服从正态分布，使用马氏距离clearclcX=[77.30 13.00 9.70 1.50 6.40;82.50 10.00 7.50 1.50 6.50;66.90 20.00 12.50 2.30 7.00;47.20 33.30 19.00 2.80 5.80;65.30 20.50 14.20 1.90 6.90;83.30 10.00 6.70 2.20 7.00;81.60 12.70 5.70 2.90 6.70;47.80 36.50 15.70 2.30 7.20;48.60 37.10 14.30 2.10 7.20;61.60 25.50 12.60 1.90 7.30;58.60 26.50 14.90 2.40 6.70;69.30 22.30 8.40 4.00 7.00;61.80 30.80 7.40 2.70 6.40;67.70 25.30 7.00 4.80 7.30;57.20 31.20 11.60 2.40 6.30;67.20 22.70 10.10 33.3 6.20;59.20 31.20 9.60 2.40 6.00;80.20 13.20 6.60 2.00 5.80;82.20 11.10 6.70 2.20 7.20;69.70 20.70 9.60 3.10 5.90];%x=zscore(X);corrcoef(X)Y=pdist(X,'mahal');Z=linkage(Y,'average');T=cluster(Z,3);[H,T]=dendrogram(Z);可知，部分变量之间具有相关性，因此得到谱系图认为组一：含沙量中等偏低，淤泥含量低，黏土含量低，有机物含量低，PH偏酸性；认为组二：含沙量中等，淤泥含量低，黏土含量中等偏低，有机物含量高。

第5章聚类分析习题

个样品为六类，利用最短距离法5.11 解：设6个样品为六类，G1，…，G6，利用最短距离法个样品为六类，及5.12式，D(0)计算结果为式
G1 G1 G2
G3
0 1 2 5 8 10 0 1 4 7 9 0 3 6 8 0 3 5 0 2 0
G2
G3
G4
G5
G6
G4
G5 G6
D(0)中的最小元素是中的最小元素是D12=D23=1,将G1，G2和G3合并成，构成合并成G7，构成D(1) 中的最小元素是将，和合并成
D
2 中的最小元素是D12=D23=1,将G1，G2和G3合并成G7，构成 =1,将合并成G (0) 中的最小元素是D
D2(1)
例如，k=5：例如，k=5：D 2 57 = 1 D 2 51 + 1 D 2 52 + 1 D 2 53 − 1 D 212 − 1 D 213 − 1 D 2 23 3 3 3 9 9 9 1 1 1 6 149 2 = 64 + 49 + 36 − = − = 49 3 3 3 9 3 3 1 1 1 1 1 1 例如，k=6：例如，k=6：D 2 67 = D 2 61 + D 2 62 + D 2 63 − D 212 − D 213 − D 2 23 3 3 3 9 9 9 1 1 1 6 245 2 = 100 + 81 + 64 − = − = 121 .5 3 3 3 9 3 3
第五章聚类分析习题
思考与习题
判别分析与聚类分析有何区别 5.1 判别分析与聚类分析有何区别答：判别分析：就是希望利用已经测得的变量数据，判别分析：就是希望利用已经测得的变量数据，找出一种判别函数，使得这一函数具有某种最优性质，一种判别函数，使得这一函数具有某种最优性质，能把属于不同类别的样本点尽可能地区别开来。或者说，于不同类别的样本点尽可能地区别开来。或者说，确定了某种标准，在类别已知的情况下，某种标准，在类别已知的情况下，利用这种标准将它们区别开来。别开来。聚类分析：就是利用这些标准，在类别未知时，聚类分析：就是利用这些标准，在类别未知时，找出类别的个数，并将它们分别聚成为不同的类里。类别的个数，并将它们分别聚成为不同的类里。试述系统聚类的基本思想 5.2 试述系统聚类的基本思想就是距离相近的样品先聚成类，答：就是距离相近的样品先聚成类，距离相远的后聚成类，过程一直进行下去，每个总能聚到合适的类中。成类，过程一直进行下去，每个总能聚到合适的类中。

聚类分析例题

聚类分析例题聚类分析例题5.2酿酒葡萄的等级划分5.2.1葡萄酒的质量分类由问题1中我们得知，第二组评酒员的的评价结果更为可信，所以我们通过第二组评酒员对于酒的评分做出处理。

我们通过excel计算出每位评酒员对每支酒的总分，然后计算出每支酒的10个分数的平均值，作为总的对于这支酒的等级评价。

通过国际酿酒工会对于葡萄酒的分级，以百分制标准评级，总共评出了六个级别（见表5）。

等级特优优优良良及格不及格分数95-100 90-94 80-89 70-79 60-69 0-59在问题2的计算中，我们求出了各支酒的分数，考虑到所有分数在区间[61.6，81.5]波动，以原等级表分级，结果将会很模糊，不能分得比较清晰。

为此我们需要进一步细化等级。

为此我们重新细化出5个等级，为了方便计算，我们还对等级进行降序数字等级（见表6）。

等级偏优偏优良良中及格分数80-84 75-79 70-74 65-69 60-64数字等级 5 4 3 2 1通过对数据的预处理，我们得到了一个新的关于葡萄酒的分级表格（见表7）：编号红酒原等级细化等级白酒原等级细化等级1号68.1 2 2 77.9 3 4 2号74 3 3 75.8 3 4 3号74.6 3 4 75.6 3 4 4号71.2 3 3 76.9 3 4 5号72.1 3 3 81.5 4 5 6号66.3 2 2 75.5 3 4 7号65.3 2 2 74.2 3 3 8号66 2 2 72.3 3 3 9号78.2 3 4 80.4 4 510号68.8 2 2 79.8 3 411号61.6 2 1 71.4 3 312号68.3 2 2 72.4 3 313号68.8 2 2 73.9 3 314号72.6 3 3 77.1 3 415号65.7 2 2 78.4 3 416号69.9 2 3 67.3 2 217号74.5 3 3 80.3 4 518号65.4 2 2 76.7 3 419号 72.6 3 3 76.4 3 4 20号 75.8 3 4 76.6 3 4 21号 72.2 3 2 79.2 3 4 22号 71.6 3 3 79.4 3 4 23号 77.1 3 4 77.4 3 4 24号 71.5 3 3 76.1 3 4 25号 68.2 2 2 79.5 3 4 26号 72 3 3 74.3 3 3 27号 71.5 3 3 77 3 4 28号 79.6 3 4 考虑到葡萄酒的质量与酿酒葡萄间有比较之间的关系，我们将保留葡萄酒质量对于酿酒葡萄的影响，先单纯从酿酒葡萄的理化指标对酿酒葡萄进行分类，然后在通过葡萄酒质量对酿酒葡萄质量的优劣进一步进行划分。

聚类分析实例

聚类分析实例一、聚类分析例1、为深入了解我国人口的文化程度状况，现利用1990年全国人口普查数据对全国30个省市自治区进行聚类分析。

分析选用了三个指标：（1）大学以上文化程度的人口占全部人口的比例（DXBZ）；（2）初中文化程度的人口占全部人口的比例（CZBZ）；（3）文盲半文盲人口占全部人口的比例（WMBZ），分别用来反映较高、中等、较低文化程度人口的状况，原始数据如下表：（%）例2、根据信息基础设施的发展状况，对世界20个国家和地区进行分类。

这里选取了发达国家、新兴工业化国家、拉美国家、亚洲发展中国家、转型国家等不同类型的20个国家作聚类分析。

描述信息基础设施的变量主要的有六个：call——千人拥有电话号码，movecall——每千户居民蜂窝移动电话，fee——高峰时期每三分钟国际电话成本，computer——每千人拥有的计算机数，mips——每千人中计算机功率，net——每千人互联网例3、为了研究1982年全国各地区农民家庭收支的分布规律，根据抽样调查资料进行分类处理，共抽取28个省、市、自治区的样本，每个样本有六个指标，这六个指标反映了平均每人生活消费的支出情况，其原始数据见表3。

例4为了研究世界各国森林、草原资源的分布规律，共抽取了21个国家的数据，每个国家例5 若要从沪市的蒲发银行、齐鲁石化、东北高速、武钢股份、东风汽车等53家上市公司中优选适合开放式基金组合投资的10只股票，我们以总股本和流通股本为分类标志，根据这53家公司的总股本和A股流通股本数据（见表5.3），用聚类分析法将它们分成若干类，再从各类公司中选出比较活跃的股票建立股票池。

表5.3 53家上市公司股本资料单位：十万股例6沪市上市公司2001年末总股本在10000—12000万股、流通股本在3600—5050万股之间共有23家（对于股本结构在其它范围内的上市公司，用雷同的方法，可以建立相应的每股收益预测模型），各公司2000年及2001年有关的财务数据见表。

聚类分析案例

K-Means聚类分析一、实验方法K-Means聚类分析二、实验目的根据2001年全国31省市自治区各类小康和现代化指数的数据，用Spass对地区进行K-Means 聚类分析。

三、实验数据综合指数社会结构经济与技术发展人口素质生活质量法制与治安北京93.2 100 94.7 108.4 97.4 55.5上海92.3 95.1 92.7 112 95.4 57.5天津87.9 93.4 88.7 98 90 62.7浙江80.9 89.4 85.1 78.5 86.6 58广东79.2 90.4 86.9 65.9 86.5 59.4江苏77.8 82.1 74.8 81.2 75.9 74.6辽宁76.3 85.8 65.7 93.1 68.1 69.6福建72.4 83.4 71.7 67.7 76 60.4山东71.7 70.8 67 75.7 70.2 77.2黑龙江70.1 78.1 55.7 82.1 67.6 71吉林67.9 81.1 51.8 85.8 56.8 68.1湖北65.9 73.5 48.7 79.9 56 79陕西65.9 71.5 48.2 81.9 51.7 85.8河北65 60.1 52.4 75.6 66.4 76.6山西64.1 73.2 41 73 57.3 87.8海南64.1 71.6 46.2 61.8 54.5 100重庆64 69.7 41.9 76.2 63.2 77.9内蒙古63.2 73.5 42.2 78.2 50.2 81.4湖南60.9 60.5 40.3 73.9 56.4 84.4青海59.9 73.8 43.7 63.9 47 80.1四川59.3 60.7 43.5 71.9 50.6 78.5宁夏58.2 73.5 45.9 67.1 46.7 61.6新疆64.7 71.2 57.2 75.1 57.3 64.6安徽56.7 61.3 41.2 63.5 52.5 72.6云南56.7 59.4 49.8 59.8 48.1 72.3甘肃56.6 66 36.6 66.2 45.8 79.4 四、分析方法与结果表一31个省市自治区小康和现代化指数的K-Means聚类分析结果（一）初始聚类中心聚类1 2 3综合指数79.20 92.30 51.10社会结构90.40 95.10 61.90经济与技术发展86.90 92.70 31.50人口素质65.90 112.00 56.00生活质量86.50 95.40 41.00法制与治安59.40 57.50 75.60ANOVA聚类误差均方自由度均方自由度F 显著性综合指数1633.823 2 22.518 28 72.556 .000 社会结构1539.872 2 47.312 28 32.547 .000 经济与技术发展4381.296 2 56.760 28 77.190 .000 人口素质1817.856 2 74.363 28 24.446 .000 生活质量3315.174 2 59.276 28 55.928 .000 法制与治安530.188 2 76.284 28 6.950 .004由于已选择聚类以使不同聚类中个案之间的差异最大化，因此 F 检验只应该用于描述目的。

spss聚类分析例题

1.打开数据文件后，在数据编辑窗口中，从菜单栏中选择“分析”—“分类”—“k-均值
聚类”命令。

2.在该对话框中选择变量城市进入“个案标记依据”文本框，作为标签变量。

把聚类数标
记为4次。

3.选择变量一至十二月份的日照时数进入“变量”列表框作为观测变量。

4.单击“迭代”按钮，迭代次数为10次，收敛性标准为0.
5.单击“保存”按钮，选择“聚类成员”。

6.单击“选项”按钮，选择“初始聚类中心”和“ANOVA表”，要求输出方差分析表，单
击“继续”。

7.单击“确定”按钮，执行快速聚类分析。

[数据集1] C:\Documents and Settings\Administrator\桌面\ch9\主要城市日照时数.sav
每个聚类中的案例数。

聚类分析例子

案例数据源：有20种12盎司啤酒成分和价格的数据，变量包括啤酒名称、热量、钠含量、酒精含量、价格。

【一】问题一：选择那些变量进行聚类？——采用“R型聚类”1、现在我们有4个变量用来对啤酒分类2、先确定用相似性来测度，度量标准选用pearson系数，聚类方法选最远元素，将来的相似性矩阵里的数字为相关系数。

若果有某两个变量的相关系数接近1或-1，说明两个变量可互相替代。

3、只输出“树状图”就可以了，从proximity matrix表中可以看出热量和酒精含量两个变量相关系数0.903，最大，二者选其一即可，没有必要都作为聚类变量，导致成本增加。

至于热量和酒精含量选择哪一个作为典型指标来代替原来的两个变量，可以根据专业知识或测定的难易程度决定。

（与因子分析不同，是完全踢掉其中一个变量以达到降维的目的。

）这里选用酒精含量，至此，确定出用于聚类的变量为：酒精含量，钠含量，价格。

【二】问题二：20中啤酒能分为几类？——采用“Q型聚类”1、现在开始对20中啤酒进行聚类。

开始不确定应该分为几类，暂时用一个3-5类范围来试探，这一回用欧式距离平方进行测度。

2、主要通过树状图和冰柱图来理解类别。

最终是分为4类还是3类，这是个复杂的过程，需要专业知识和最初的目的来识别。

我这里试着确定分为4类。

选择“保存”，则在数据区域内会自动生成聚类结果。

【三】问题三：用于聚类的变量对聚类过程、结果又贡献么，有用么？——采用“单因素方差分析”1、聚类分析除了对类别的确定需讨论外，还有一个比较关键的问题就是分类变量到底对聚类有没有作用有没有贡献，如果有个别变量对分类没有作用的话，应该剔除。

2、这个过程一般用单因素方差分析来判断。

注意此时，因子变量选择聚为4类的结果，而将三个聚类变量作为因变量处理。

方差分析结果显示，三个聚类变量sig值均极显著，我们用于分类的3个变量对分类有作用，可以使用，作为聚类变量是比较合理的。

【四】问题四：聚类结果的解释？——采用”均值比较描述统计“1、聚类分析最后一步，也是最为困难的就是对分出的各类进行定义解释，描述各类的特征，即各类别特征描述。

聚类分析实例讲解

聚类分析实例讲解Lab 6 聚类分析一、分析背景Chrysler公司为了赢得市场竞争地位，打算推出新产品Viper，该种产品的目标客户是雅皮士阶层。

为了进一步了解这种人群的心理特征，定位自己的产品，吸引目标客户，Chrysler公司举行了一次市场调研。

讨论者使用九点量表测量400名被试者对30项陈述的态度，从而了解这些目标客户的心理特征。

调研还咨询被试者对Dodge Viper型汽车的态度来测量标准变量，标准变量的测量通过九点量表来测试消费者对“我情愿购买Chrysler公司生产的Dodge Viper型汽车”的态度。

本次分析的目的是：通过聚类分析，将原始变量分离聚成三类和四类，比较两种办法的效果。

同时，比较使用原始变量得到的聚类结果和使用因子得分得到的聚类结果，看哪一种办法能更好地解释数据。

二、分析结果1、按照原始变量举行的聚类分析首先按照原始变量举行聚类分析，因为样本数较大，采纳迭代聚类法，分离将样本聚为三类和四类，下面是聚类分析的结果比较。

表1 聚为三类后的组重心表2 聚为四类后的组重心表3 聚为三类的每组样本数表聚为四类的每组样本数表5 聚为三类后组重心之间的距离表6 聚为四类后组重心之间的距离由方差分析的结果（结果略）可知，在聚为三类和四类的分析中，V8,V9,V18,V19,V20和V27的组间差异均大于0.05，结果不显著。

2、按照因子得分举行的聚类分析以下是按照因子得分，采纳迭代法将样本聚为三类和四类的结果：表7 聚为三类后的组重心-.45298 .16364 .29950 .36038 -.22794 -.15239 .28739-.32881 .00765 .25444 .70915 -.87203 .52946 -.29355-.26021 .18363 .11953 -.28471 .00228 .20936 -.18616 .56772-.64844.01414消费因子时尚因子社会因子爱国因子期望因子偏好因子共性因子家庭因子12 3 Cluster表8 聚为三类时的样本数137.000 123.000 140.000400.000 .0001 2 3ClusterValidMissing以下是按照因子得分聚为四类的结果：从以上用因子得分的结果可以看出，聚为三类和四类时八个因子的组间差异都很显著。

聚类的数模题目

聚类的数模题目
1. 在一个城市中，有许多商店分布在不同的位置上。

现在需要对这些商店进行聚类，以便将相似的商店聚集在一起。

请设计一个数学模型，根据商店之间的距离和具体的商店类型，对商店进行聚类。

2. 在一个学校中，学生的兴趣爱好和学习成绩是多种因素的综合体现。

现在需要对学生进行聚类，以便发现相似兴趣和学习能力的学生群体。

请设计一个数学模型，根据学生的兴趣爱好和学习成绩，对学生进行聚类。

3. 在一个互联网平台上，用户的行为特征（如搜索历史、点击偏好等）可以反映出他们的兴趣和需求。

现在需要对用户进行聚类，以便将相似的用户聚集在一起，提供个性化推荐服务。

请设计一个数学模型，根据用户的行为特征，对用户进行聚类。

4. 在一个医院中，病人的病症和健康状况往往是复杂多变的。

现在需要对病人进行聚类，以便找出相似病症和健康状况的病人群体，为其提供更针对性的治疗方案。

请设计一个数学模型，根据病人的病症和健康状况，对病人进行聚类。

5. 在一个社交网络中，用户的社交关系和兴趣爱好可以反映出用户之间的相似性和联系程度。

现在需要对用户进行聚类，以便将相似的用户聚集在一起，进行社交网络分析和推荐算法的改进。

请设计一个数学模型，根据用户的社交关系和兴趣爱好，对用户进行聚类。

聚类分析案例2

岗位知识含量指标体系的构建及聚类分析案例作者：戴昌均、徐华、傅磊作者单位：上海东华大学旭日工商管理学院一、问题的提出知识员工与传统体力工作员工并非泾渭分明、互相排斥，体力工作需要知识，知识工作也必然涉及体力劳动。

所谓知识员工和非知识员工，只不过是其工作中包含的知识在量上的不同而已。

这种量上的区别，导致了对知识工作与非知识工作、知识员工与非知识员工生产率管理问题上的本质区别，又导致了研究方法和工具上的截然不同。

至今岗位知识含量的衡量工作虽然取得了一些成果，但总体上还停留在定性研究的阶段，尚未进入量化分析和实证研究，各种资料文献提出的结构模型和理论框架缺少实际数据的支撑，因而显得不够完善。

在当前第五代管理正日益深入人心的背景下，如何将岗位知识含量指标体系正规化、完备化、科学化，正显示出深刻的理论地位和巨大的潜在应用价值。

本案例运用PAQ(Position Analysis Questionnaire)问卷，通过工作岗位的实证调查，提炼了一套表征知识工作特征的指标，计算出岗位的知识含量，从而使岗位中的知识工作部分得到了定量表述。

数据的统计分析表明，这一定量表述在区分知识工作和体力工作方面具备统计的显著性，对于表征知识工作的特征有很高的效度。

二、研究方法设计和指标的形成1、利用以PAQ为基础改造的《企业员工生产率调查问卷》，对不同类型的单位及工作岗位进行知识含量调查，从中归纳衡量一般岗位知识含量的指标体系。

对PAQ问卷进行的修改如下：（1）原PAQ的194项条目中，187项属于完成一项岗位任务所包含的工作内容和工作特征，称为工作元素。

对PAQ问卷中的187项工作元素条目，每一项条目都添加一个或多个能反映岗位工作特征的考核指标，与PAQ原有方式一样，采用6点量表形式打分，这些指标包括：1）频率、比例、自主性、结构化程度：按该项工作元素在完成整个工作中发生的次数、所占比重及重要性。

（这些指标可以判断不同知识含量的工作在不同元素上的频率分布情况以及重要性程度）2）程序性、创新性、自主性、结构化程度：指按规定的工作程序或借鉴先例进行，还是更多地要靠自主决定，自主创新。

第7章聚类分析例题,R程序,用数据框形式输入数据

# 用数据框形式输入数据x=data.frame(x1=c(2959.19, 2459.77, 1495.63, 1046.33, 1303.97, 1730.84, 1561.86, 1410.11, 3712.31, 2207.58, 2629.16, 1844.78,2709.46, 1563.78, 1675.75, 1427.65, 1783.43, 1942.23,3055.17, 2033.87, 2057.86, 2303.29, 1974.28, 1673.82,2194.25, 2546.61, 1472.95, 1525.57, 1654.69, 1375.46,1608.82),x2=c(730.79, 495.47, 515.90, 477.77, 524.29, 553.90, 492.42, 510.71, 550.74, 449.37, 557.32, 430.29, 428.11,303.65,613.32, 431.79, 511.88, 512.27, 353.23, 300.82, 186.44,589.99, 507.76, 437.75, 537.01, 839.70, 390.89, 472.98,437.77, 480.99, 536.05),x3=c(749.41, 697.33, 362.37, 290.15, 254.83, 246.91, 200.49, 211.88, 893.37, 572.40, 689.73, 271.28, 334.12, 233.81,550.71, 288.55, 282.84, 401.39, 564.56, 338.65, 202.72,516.21, 344.79, 461.61, 369.07, 204.44, 447.95, 328.90,258.78, 273.84, 432.46),x4=c(513.34, 302.87, 285.32, 208.57, 192.17, 279.81, 218.36, 277.11, 346.93, 211.92, 435.69, 126.33, 160.77, 107.90,219.79, 208.14, 201.01, 206.06, 356.27, 157.78, 171.79,236.55, 203.21, 153.32, 249.54, 209.11, 259.51, 219.86,303.00, 317.32, 235.82),x5=c(467.87, 284.19, 272.95, 201.50, 249.81, 239.18, 220.69, 224.65, 527.00, 302.09, 514.66, 250.56, 405.14, 209.70,272.59, 217.00, 237.60, 321.29, 811.88, 329.06, 329.65,403.92, 240.24, 254.66, 290.84, 379.30, 230.61, 206.65,244.93, 251.08, 250.28),x6=c(1411.82, 735.97, 540.58, 414.72, 463.09, 445.20, 459.62, 376.82, 1034.98, 585.23, 795.87, 513.18, 461.67, 393.99, 599.43, 337.76, 617.74, 697.22, 873.06, 621.74, 477.17,730.05, 575.10, 445.59, 561.91, 371.04, 490.90, 449.69,479.53, 424.75, 541.30),x7=c(478.42, 570.84, 364.91, 281.84, 287.87, 330.24, 360.48, 317.61, 720.33, 429.77, 575.76, 314.00, 535.13, 509.39,371.62, 421.31, 523.52, 492.60, 1082.82, 587.02, 312.93, 438.41, 430.36, 346.11, 407.70, 269.59, 469.10, 249.66,288.56, 228.73, 344.85),x8=c(457.64, 305.08, 188.63, 212.10, 192.96, 163.86, 147.76, 152.85, 462.03, 252.54, 323.36, 151.39, 232.29,160.12,211.84, 165.32, 182.52, 226.45, 420.81, 218.27, 279.19,225.80,223.46, 191.48, 330.95, 389.33, 191.34, 228.19,236.51, 195.93, 214.40),s=c("北京", "天津", "河北", "山西", "内蒙古","辽宁", "吉林", "黑龙江", "上海", "江苏", "浙江","安徽", "福建", "江西", "山东", "河南", "湖北","湖南","广东","广西","海南","重庆","四川","贵州", "云南","西藏","陕西","甘肃","青海","宁夏","新疆"))# 生成距离结构，作系统聚类d=dist(scale(x))hc1=hclust(d)hc2=hclust(d, "average")hc3=hclust(d, "centroid")hc4=hclust(d, "ward")# 绘出谱系图和聚类情况（最长距离法和类平均法）opar=par(mfrow=c(2,1),mar=c(5.2, 4,0,0))plclust(hc1,hang=-1);re1=rect.hclust(hc1,k=5,border="red") plclust(hc2,hang=-1);re2=rect.hclust(hc2,k=5,border="red")par(opar)。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

5.2酿酒葡萄的等级划分
5.2.1葡萄酒的质量分类
由问题1中我们得知，第二组评酒员的的评价结果更为可信，所以我们通过第二组评酒员对于酒的评分做出处理。

我们通过excel计算出每位评酒员对每支酒的总分，然后计算出每支酒的10个分数的平均值，作为总的对于这支酒的等级评价。

通过国际酿酒工会对于葡萄酒的分级，以百分制标准评级，总共评出了六个级别（见表5）。

表5：葡萄酒等级表
在问题2的计算中，我们求出了各支酒的分数，考虑到所有分数在区间[61.6，81.5]波动，以原等级表分级，结果将会很模糊，不能分得比较清晰。

为此我们需要进一步细化等级。

为此我们重新细化出5个等级，为了方便计算，我们还对等级进行降序数字等级（见表6）。

表6：细化后的葡萄酒等级表
通过对数据的预处理，我们得到了一个新的关于葡萄酒的分级表格（见表
7）：
表7：各支葡萄酒的等级
经过整理，我们初步得到了对于葡萄酒的质量的分类的表格。

考虑到葡萄酒的质量与酿酒葡萄间有比较之间的关系，我们将保留葡萄酒质量对于酿酒葡萄的影响，先单纯从酿酒葡萄的理化指标对酿酒葡萄进行分类，然后在通过葡萄酒质量对酿酒葡萄质量的优劣进一步进行划分。

5.2.2建立模型
在通过酿酒葡萄的理化指标对酿酒葡萄分类的过程，我们用到了聚类分析方法中的ward最小方差法，又叫做离差平方和法。

聚类分析是研究分类问题的一种多元统计方法。

所谓类，通俗地说，就是指相似元素的集合。

为了将样品进行分类，就需要研究样品之间关系。

这里的最小方差法的基本思想就是将一个样品看作P维空间的一个点，并在空间的定义距离，距离较近的点归为一类；距离较远的点归为不同的类。

面对现在的问题，我们不知道元素的分类，连要分成几类都不知道。

现在我们将用SAS系统里面的
stepdisc 和cluster 过程完成判别分析和聚类分析，最终确定元素对象的分类问题。

建立数据阵，具体数学表示为：
1111...............m n nm X X X X X ⎡⎤
⎢⎥=⎢⎥
⎢⎥⎣⎦
（5.2.1）式中，行向量1(,...,)i i im X x x =表示第i 个样品；
列向量1(,...,)'j j nj X x x =’，表示第j 项指标。

(i=1,2,…,n;j=1,2,…m)
接下来我们将要对数据进行变化，以便于我们比较和消除纲量。

在此我们用了使用最广的方法，ward 最小方差法。

其中用到了类间距离来进行比较，定义为：
2||||/(1/1/)kl k l k l D X X n n =-+ （5.2.2） Ward 方法并类时总是使得并类导致的类离差平方和增量最小。

系统聚类数的确定。

在聚类分析中，系统聚类最终得到的一个聚类树，如何确定类的个数，这是一个十分困难但又必须解决的问题；因为分类本身就没有一定标准，人们可以从不同的角度给出不同的分类。

在实际应用中常使用下面几种方法确定类的个数。

由适当的阀值确定，此处阀值为kl D 。

根据样本的散点图直观的确定。

当样本所含指标只有2个或3个时，可运用散点图直观观察。

如果指标超过3个时，可用主成份法先综合指标。

根据统计量确定分类个数。

在SAS 中，提供了一些来自方差分析思想的统计量近似检验类个数如何选择更合适。

1) 2R 统计量:
22222
1//A T B T R S S S S =-= （5.2.3）
其中，2
A S 为分类数为k 个数时的总类离差平方和，2T S 为所有样品或变量的
总离差平方和。

2R 越大，说明类的离差平方和在总离差平方和中比例较小，也就是分为k 个类的效果越好。

显然分类越多，每个类离差越小，2R 越大，所以我们只能取k 使得2R 足够大，但k 本身比较小，而且2R 不再大幅度增加。

2)半偏2R 统计量:在把类k C 和类l C 合并为下一水平的类m C 时，定义半偏相关：
2/kl B T =半偏R （5.2.4）
其中()kl m k l B S S S =-+为合并类引起的类离差平方和的增量: T S 为类T C 的类离差平方和。

半偏2R 用于评价单次合并效果，其值越大，说明上次合并效果越好。

3)伪F 统计量:
(T-P )/(k-1)
=
/()
k k F P n k -伪（5.2.5）
伪统计量评价分为k 个类的效果。

伪F 统计量越大，表达分为k 个类越合理。

通常取伪F 统计量较大而类数小的聚类水平。

4) 伪2t 统计量:
2/(()/(2))kl k l k l t B S S n n =++- （5.2.6）用此统计量评价合并类k C 和类l C 的效果，该值大说明合并的两个类k C 和类
l C 是很分开的，这个合并不成功，而应该去合并前的水平。

通过使用sas 软件的cluster 过程和tree 过程，可以求解分析出结果。

5.2.3模型的求解与分析
首先，我们利用附件2中白葡萄酒中酿酒葡萄的59个理化指标，通过聚类
分析，把酿酒葡萄分成五类，得到初步的结果（见图3）：
从图中我们能够直观的看到把酿酒葡萄分为5大类，为了检验效果，我们通过判别分析检验原本的28种葡萄分类的结果，得到表8.
表8：误判概率表(具体表见附录)
在误差一栏我们看到，每一组的分类都存在或多或少的误差，我们觉得这个结果是不满意的。

为了进一步优化方案以及简化分析过程，我们利用逐步判别法对参与分类的因素进行逐步剔除，以达到减少噪声干扰的目的，让得到的结果更加合理和完善。

通过逐步判别法，我们剔除了原本59个数据中的35个相关不大，造成干扰的因素，剩下了24个因素。

经过剔除干扰项后，为了检验剔除后干扰项后的结果是否更加合理，我们重新对剩余的24个因素进行了聚类分析，做谱系聚类图和判别分析。

得到了新的结果（见表9）：
表9：优化后的聚类分析部分结果(详细见附录)
3 21 0.1032 0.701 29.3 17.9
2 7 0.1648 0.536 30.1 10.0
1 28 0.536
2 0 . 30.1
综合个数据检验，把葡萄分为5个类别是比较合理的一种方案，为了检验与之前的差异我们得到了新的谱系聚类图（见图4）
图3：谱系聚类图图4：优化后的谱系聚类图
通过对比前后的两图，我们可以发现，分类的结果除了组间的类别有点波动之外，整体的分组是没有改变的。

所以，我们第一步得到了优化结果的可靠。

但仅仅用图说明是不够的，为此我们通过判别分析法，通过具体数据来说明分析结果的可靠。

表10：优化后的判别分析表数据
组号 1 2 3 4 5
概率0 0 0.1667 0 1.000 我们不难发现，表中的错误只在第3组出现了0.1667的误差，其他组是没有存在误差的。

这个结果是比较令人满意也令人信服的。

由此，我们得到的结果
是，我们此次对于白葡萄酒的酿酒葡萄进行的分类是合理可靠的。

具体分类结果为：
表11：白葡萄酒酿酒葡萄分类
通过该组的成功检验，我们接下来将会对红葡萄酒的酿酒葡萄进行同算法的分类。

由于用到的算法与检验方法一样，所以这里不再累赘，将直接输出最后分组结果。

部分详细容见附录。

表12：红葡萄酒酿酒葡萄的分类
分类完毕，接下来我们将利用关于红酒质量的评分等级来对对应的葡萄进行评分，首先应该说明的是，烂葡萄是不能酿出好酒，根据这个，我们可以客观的说出一点，一般好的葡萄能酿出好的酒，可能酿酒过程会意外让酒变质导致酒变
差，但好的酒由好的葡萄酿制出来是毫无疑问的。

为此我们把对于酒的等级相当于对葡萄打分。

每种葡萄分别得到分数i S ，i 表示第i 种葡萄。

通过将每组的葡萄总分除以组总数得到的数据，对葡萄进行分类，
i =/S 分类指标组内数
通过指标的具体分数，我们就可以轻松对葡萄进行等级划分，结果见表13：
表13：对白葡萄酒和红葡萄酒的酿酒葡萄评价分类有：
附录四：第二小题，优化后的数据运行程序
附录五：原判别分析表
附录六：优化后的判别分析表
在表中的各列数据代表的意思是:”NCL”为分类数量，表示新类别形成后类别的总数。

“--Clusters Joined---”为合并的类别，指明这一步合并了哪两个类，有两列。

其中OBx表示某一个原始样品，而CLx表示在某一个聚类水平上产生的类。

“FREQ”表示这次合并得到的类有多少个样品。

“SPRSQ”是半偏，“RSQ”是，”CCC”是考察聚类效果的统计量，该值越大，聚类水平越好，”PSF”为伪F统计量，“PST2”为伪统计量，“Tie”指示距离最小的候选类对是否有多对，本例全无。