应用多元统计分析SAS作业第六章资料
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
6-10 今有6个铅弹头,用“中子活化”方法测得7种微量元素的含量数据(见表1)。
(1) 试用多种系统聚类法对6个弹头进行分类;并比较分类结果; (2) 试用多种方法对7种微量元素进行分类。
问题求解
1对6个弹头进行分类
对数据进行标准化变换,样品间距离定义为欧式距离,系统聚类的方法分别使用类平均法(A VE )、中间距离法(MID )、可变类平均法(FLE )和离差平方合法(WARD )。使用SAS 软件CLUSTER 过程对数据进行聚类分析(程序见附录1)。 1.1类平均法
图1 类平均聚类法相关矩阵特征值图
图2 类平均聚类分析法聚类历史图
由图2可知,NCL=1时半偏R 2最大且伪F 统计量在NCL=2,5时和伪t 方统计量在NCL=1,4时较大。因此,将6个弹头分为两类{}{}(2)
(2)
121,2,4,6,3,5G G ==。SAS 绘制的谱系聚类图如图
3所示。
图3 类平均聚类分析法谱系聚类图
1.2中间距离法
图4 中间距离聚类法相关矩阵特征值图
图5 中间距离聚类法聚类历史图
由图5可知,中间距离法与类平均法结果一致。因此,也将6个弹头分为两类
{}{}(2)(2)
121,2,4,6,3,5G G ==。
SAS 绘制的谱系聚类图如图6所示。
图6中间距离聚类法谱系聚类图
1.3可变类平均法
图7可变类平均聚类法分析结果图
图8 可变类平均聚类法聚类历史图
由图8可知,可变类平均法(=0.25
β-)输出结果与前两种方法稍有不同,NCL=1时半偏R2最大且伪F统计量在NCL=2时次大,NCL=5时最大;而伪t方统计量在NCL=1时最大。因此,分
类结果与之前相同,将6个弹头分为两类
{}{}(2)(2)
121,2,4,6,3,5G G ==。
SAS 绘制的谱系聚类图如图9所示。
图9 可变类平均聚类法谱系聚类图
1.4离差平方和法
图10 离差平方和聚类法相关矩阵特征值图
图11 离差平方和聚类法聚类历史
由图11可知,离差平方和法输出结果与可变类平均法结果一致。
SAS 绘制的NCL=2时离差平方和法谱系聚类图和分类结果如下所示。
图12 离差平方和聚类法谱系聚类图
图13 离差平方和聚类法聚类结果图
1.5 综合分析
综上所述,四种分类方法得到的结果一致,都是将6个弹头分为两类
{}{}(2)(2)
121,2,4,6,3,5G G ==。
四种方法中,类平均法和中间距离法结果相近;可变类平均法和离差平方和法得到结果相近且
更加准确(伪t 方统计量在NCL=1时最大)。
2对7种元素进行分类
同问题1,系统聚类的方法分别使用类平均法(A VE )、中间距离法(MID )、可变类平均法(FLE )和离差平方合法(WARD )。使用SAS 软件CLUSTER 过程对数据进行聚类分析(程序见附录2)。 2.1 类平均法
图14 7种元素类平均法聚类历史图
由图14可知,NCL=1,2时半偏R2较大;伪F统计量在NCL=4,5,6时较大;而伪t方统计量在NCL=3,4时较大。因此,较合适的分法是将7种元素分为四类和五类。
SAS绘制的谱系聚类图如下所示。
图15 7种元素类平均法谱系聚类图
2.2 中间距离法
图16 7种元素中间距离法聚类历史图
由图16可知,中间距离法聚类结果中NCL=1,2时半偏R2较大;伪F统计量在NCL=4,5,6时较大;而伪t方统计量在NCL=3,4时较大。因此,与类平均法相同,较合适的分法是将7种元素分为四类和五类。
SAS绘制的谱系聚类图如下所示。
图17 7种元素中间距离法谱系聚类图
2.3 可变类平均法
图18 7种元素可变类平均法聚类历史图
由图18可知,可变类平均法聚类结果与前两种方法结果相同,较合适的分法是将7种元素分为四类和五类。
SAS绘制的谱系聚类图如下所示。
图19 7种元素可变类平均法谱系聚类图
2.4 离差平方和法
图20 7种元素离差平方和法聚类历史图
由图20可知,离差平方和法聚类结果与前三种方法结果也相同,较合适的分法是将7种元素分为四类和五类。
SAS绘制的NCL=4,5时的谱系聚类图和分类结果图如下所示。
图21 7种元素离差平方和法谱系聚类图
图22 分为四类时7种元素聚类结果图
图23 分为五类时7种元素聚类结果图
2.4综合分析
综上所述,四种分类方法结果相同,合适的分法是将7种元素分为四类和五类。 分为四类时,分类结果如下
{}{}{}{}(4)(4)(4)(4)
1234,,,,,,G Ag Al Ca Cu G Bi G Sb G Sn ====;
分为五类时,分类结果如下
{}{}{}{}{}(5)(5)(5)(5)(5)
12345,,,,,G Ag Al Ca G Cu G Bi G Sb G Sn =====,。
6-11 设在某地区抽取了14块岩石标本,其中7块含矿,7块不含矿。对每块岩石测定了Cu,Ag,Bi三种化学成分的含量,得到的数据见表2,试用几种系统聚类方法进行聚类分析,给出综合的分析结果,并与实际情况进行比较。
表2 岩石化学成分的含量数据
问题求解
1多种系统聚类方法分析数据
系统聚类的方法分别使用类平均法(A VE)、可变类平均法(FLE)和离差平方合法(WARD)。使用SAS软件CLUSTER过程对数据进行聚类分析(程序见附录3)。
1.1 类平均法
图1类平均法聚类历史
由图1可知,类平均法聚类结果中NCL=1时半偏R2最大,NCL>1时半偏R2明显减小且缓慢递减;伪F统计量在NCL=2时的值大于NCL=3时的值;而伪t方统计量在NCL=1时的值明显大于NCL=2时的值。因此,将14块岩石标本分为两组较为合适。
SAS绘制的谱系聚类图及聚类结果图如下所示。