最新多元统计分析课程设计

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

多元统计分析课程设

课程设计报告课程名称多元统计分析

专业统计学

班级统计学0901

学号 200910020109

姓名李宗藩

指导教师戴婷

2011年12 月19 日

湖南工程学院

课程设计任务书

课程名称多元统计分析课题多元统计分析

专业班级统计学0901

学生姓名李宗藩

学号 200910020109

指导老师戴婷

审批

任务书下达日期2011 年12 月19 日任务完成日期2011年12 月30日

目录

一:课程设计准备 (3)

(1)建立数据库 (3)

(2)分析数据库 (3)

二:聚类分析和判别分析 (3)

(1)聚类分析的步骤 (3)

(2)判别分析的步骤 (3)

(3)聚类分析的结果 (4)

(4)判别分析的的结果及分析 (4)

三:因子分析 (10)

(1)是否可进行因子分析的判断 (10)

(2)因子分析的步骤 (10)

(3)因子分析的结果及其分析 (11)

四:参考文献 (16)

五:总结 (17)

六:评分表 (18)

七:附录表 (19)

一:课程设计准备

(1):建立和打开数据库

建立或打开数据文件,数据窗中输入待分析的数据,或利用File菜单中的Open功能打开已经存在的数据文件。《2010年各地区按主要行业分的全社会固定资产投资》。

(2):分析数据库

样本数据来自中国2010年各地区按主要行业分的全社会固定资产投

资,见附表。在这里选取了我国的三十一个省份作为样本,描述固定资产

投资行业的变量有十九个:农、林、牧、副、渔业(x1),采矿业

(x2),制造业(x3),电力、燃气及水的生产和供应业(x4),建筑业

(x5),交通运输、储蓄和邮政业(x6),信息传输、计算机服务和软件

业(x7),批发和零售业(x8),住宿和餐饮业(x9),金融业(x10),

房地产业(x11),租赁和商务服务业(x12),科学研究、技术服务、地

质勘察(x13),水利、环境、公共设施(x14),居民服务和其他服务业

(x15),教育(x16),卫生、社会保障和福利业(x17),文化、体育、

娱乐业(x18),公共管理和社会组织(x19)。

二:聚类分析和判别分析

(一)聚类分析的步骤

1. 按Analyze→Classify→K-means-cluster顺序单击菜单项,打开聚类分

析主对话框。

2. 选择分析变量送到右边的Variables栏中。

3. 在“Number of Cluster”中选择3,在Method选项中选择“Classify only”

4. 单击Save按钮,在对话框栏内选择Cluster membership选项,

5. 单击Option按钮,,在对话框Statistics栏内选择Initial cluster

centers选项,在对话框Missing Values栏内选择Exclude cases

listwise选项

(二) 判别分析的步骤

1. 按Analyze→Classify→Discriminant顺序单击菜单项,打开判别分析主对话框。

2. 主对话框左边的矩形框中选定分类变量,并用上面一个箭头按钮将其移到“Grouping Variable”框中。然后用其下面的“Define Range”输入最小变量和最大变量

3.选择判别变量送到右边的Independents栏中。在主对话框中选择“Enter independents together”

4. 在主对话框中单击“Statistics”按钮可以打开选择输出统计量的对话框,在对话框Description栏内选择Means选项,在对话框Function Coefficints 栏内选择Fisher’s和unstandardized选项,在对话框Matrices栏内选择Within-groups covariance选项。

5. 在主对话框中单击“classification”按钮,打开选择分类参数与分类结果对话框,除系统默认之外,在对话框Display栏内选择和Casewise results选项和Summary table选项,在对话框Plots栏内选择三种。

6. 在主对话框中单击“Save...”可打开选择将各样品的判别结果保存于数据文件的对话框,选中“Predicted group membership”可保存各样品的预报(判别)分类;

选中“Discriminant scores”可保存各样品的典型判别函数值;

选中“Probabilities of group membership”可保存各样品的后验概率。

(三)聚类分析的结果

快速聚类整理表:

(四):判别分析的的结果

各类的均值:

建筑业40.0365 68.7633 243.34 交通运输、储蓄和邮政业470.2504 847.4208 1026.35 信息传输、计算机服务和软件业61.2263 110.7646 109.4647 批发和零售业63.6769 236.4418 606.5013 住宿和餐饮业33.4261 130.2939 246.8029 金融业 6.8905 17.43 16.9265 房地产业859.6059 2225.9117 4017.1351 租赁和商务、服务业34.3253 90.568 182.916 科学研究、技术服务和地质勘查

23.252 45.3526 126.5754 水利、环境和公共设施管理业366.3587 905.947 1311.6814 居民服务和其他服务业10.0867 34.8087 106.375 教育68.6707 157.3901 232.5481 卫生、社会保障和社会福利业30.9537 92.5174 111.1115 文化、体育和娱乐业38.154 99.1365 272.5649 公共管理和社会组织109.5961 158.9508 477.9933 Eigenvalues(特征值)

Functio n Eigenval

ue

% of

Variance

Cumulative

%

Canonical

Correlatio

n

1 56.435(a

)

89.1 89.1 .991

2 6.893(a) 10.9 100.0 .935

a First 2 canonical discriminant functions were used in the analysis. 两个典型判别分析,特征值(Eigenvalue)分别为56.435和6.89,典型相关

系数(Canonical Correlation)分别为0.991和0.935,

Wilks' Lambda

Test of Function(s) Wilks'

Lambda

Chi-

square df Sig.

1 through

2 .002 116.217 38 .000

2 .127 39.254 18 .003

根据Wilks' Lambda 表,可知:=0.002和0.127很小,近视分布

=116.217和39.254,相伴概率为7.418568558275e-010和0.03,小于0.01,高度显著,所以各类的样本均值向量有显著性差异,因此判别有效。Classification Function Coefficients分类函数系数

Cluster Number of Case

1 2 3

农、林、牧、渔业.006 -.088 -.482

相关文档
最新文档