最新多元统计分析课程设计
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
多元统计分析课程设
计
课程设计报告课程名称多元统计分析
专业统计学
班级统计学0901
学号 200910020109
姓名李宗藩
指导教师戴婷
2011年12 月19 日
湖南工程学院
课程设计任务书
课程名称多元统计分析课题多元统计分析
专业班级统计学0901
学生姓名李宗藩
学号 200910020109
指导老师戴婷
审批
任务书下达日期2011 年12 月19 日任务完成日期2011年12 月30日
目录
一:课程设计准备 (3)
(1)建立数据库 (3)
(2)分析数据库 (3)
二:聚类分析和判别分析 (3)
(1)聚类分析的步骤 (3)
(2)判别分析的步骤 (3)
(3)聚类分析的结果 (4)
(4)判别分析的的结果及分析 (4)
三:因子分析 (10)
(1)是否可进行因子分析的判断 (10)
(2)因子分析的步骤 (10)
(3)因子分析的结果及其分析 (11)
四:参考文献 (16)
五:总结 (17)
六:评分表 (18)
七:附录表 (19)
一:课程设计准备
(1):建立和打开数据库
建立或打开数据文件,数据窗中输入待分析的数据,或利用File菜单中的Open功能打开已经存在的数据文件。《2010年各地区按主要行业分的全社会固定资产投资》。
(2):分析数据库
样本数据来自中国2010年各地区按主要行业分的全社会固定资产投
资,见附表。在这里选取了我国的三十一个省份作为样本,描述固定资产
投资行业的变量有十九个:农、林、牧、副、渔业(x1),采矿业
(x2),制造业(x3),电力、燃气及水的生产和供应业(x4),建筑业
(x5),交通运输、储蓄和邮政业(x6),信息传输、计算机服务和软件
业(x7),批发和零售业(x8),住宿和餐饮业(x9),金融业(x10),
房地产业(x11),租赁和商务服务业(x12),科学研究、技术服务、地
质勘察(x13),水利、环境、公共设施(x14),居民服务和其他服务业
(x15),教育(x16),卫生、社会保障和福利业(x17),文化、体育、
娱乐业(x18),公共管理和社会组织(x19)。
二:聚类分析和判别分析
(一)聚类分析的步骤
1. 按Analyze→Classify→K-means-cluster顺序单击菜单项,打开聚类分
析主对话框。
2. 选择分析变量送到右边的Variables栏中。
3. 在“Number of Cluster”中选择3,在Method选项中选择“Classify only”
4. 单击Save按钮,在对话框栏内选择Cluster membership选项,
5. 单击Option按钮,,在对话框Statistics栏内选择Initial cluster
centers选项,在对话框Missing Values栏内选择Exclude cases
listwise选项
(二) 判别分析的步骤
1. 按Analyze→Classify→Discriminant顺序单击菜单项,打开判别分析主对话框。
2. 主对话框左边的矩形框中选定分类变量,并用上面一个箭头按钮将其移到“Grouping Variable”框中。然后用其下面的“Define Range”输入最小变量和最大变量
3.选择判别变量送到右边的Independents栏中。在主对话框中选择“Enter independents together”
4. 在主对话框中单击“Statistics”按钮可以打开选择输出统计量的对话框,在对话框Description栏内选择Means选项,在对话框Function Coefficints 栏内选择Fisher’s和unstandardized选项,在对话框Matrices栏内选择Within-groups covariance选项。
5. 在主对话框中单击“classification”按钮,打开选择分类参数与分类结果对话框,除系统默认之外,在对话框Display栏内选择和Casewise results选项和Summary table选项,在对话框Plots栏内选择三种。
6. 在主对话框中单击“Save...”可打开选择将各样品的判别结果保存于数据文件的对话框,选中“Predicted group membership”可保存各样品的预报(判别)分类;
选中“Discriminant scores”可保存各样品的典型判别函数值;
选中“Probabilities of group membership”可保存各样品的后验概率。
(三)聚类分析的结果
快速聚类整理表:
(四):判别分析的的结果
各类的均值:
建筑业40.0365 68.7633 243.34 交通运输、储蓄和邮政业470.2504 847.4208 1026.35 信息传输、计算机服务和软件业61.2263 110.7646 109.4647 批发和零售业63.6769 236.4418 606.5013 住宿和餐饮业33.4261 130.2939 246.8029 金融业 6.8905 17.43 16.9265 房地产业859.6059 2225.9117 4017.1351 租赁和商务、服务业34.3253 90.568 182.916 科学研究、技术服务和地质勘查
业
23.252 45.3526 126.5754 水利、环境和公共设施管理业366.3587 905.947 1311.6814 居民服务和其他服务业10.0867 34.8087 106.375 教育68.6707 157.3901 232.5481 卫生、社会保障和社会福利业30.9537 92.5174 111.1115 文化、体育和娱乐业38.154 99.1365 272.5649 公共管理和社会组织109.5961 158.9508 477.9933 Eigenvalues(特征值)
Functio n Eigenval
ue
% of
Variance
Cumulative
%
Canonical
Correlatio
n
1 56.435(a
)
89.1 89.1 .991
2 6.893(a) 10.9 100.0 .935
a First 2 canonical discriminant functions were used in the analysis. 两个典型判别分析,特征值(Eigenvalue)分别为56.435和6.89,典型相关
系数(Canonical Correlation)分别为0.991和0.935,
Wilks' Lambda
Test of Function(s) Wilks'
Lambda
Chi-
square df Sig.
1 through
2 .002 116.217 38 .000
2 .127 39.254 18 .003
根据Wilks' Lambda 表,可知:=0.002和0.127很小,近视分布
=116.217和39.254,相伴概率为7.418568558275e-010和0.03,小于0.01,高度显著,所以各类的样本均值向量有显著性差异,因此判别有效。Classification Function Coefficients分类函数系数
Cluster Number of Case
1 2 3
农、林、牧、渔业.006 -.088 -.482