多元统计分析课程设报告计参考Word
多元统计分析课程设计题目Word版
问题:分别从样本协方差阵S和样本相关系数矩阵R出发做主成分分析,求主成分的贡献率和各个主成分. 在两种情况下,你认为应保留几个主成分?其意义如何解释?就此而言,你认为基于S和R的分析那个结果更为合理?
7.51
8.62
17.42
10.00
1.04
11.21
2
内蒙古
9.25
23.75
6.61
9.19
17.77
10.48
1.72
10.51
3
吉林
8.19
30.50
4.72
9.78
16.28
7.60
2.52
10.32
4
黑龙江
7.73
29.20
5.42
9.43
19.29
8.49
2.52
10.00
5
河南
9.42
155
149
46
73
68
80
102
90
122
47
72
83
68
104
69
96
48
65
60
70
119
94
89
49
52
70
76
7.76
1.41
13.25
17
辽宁
7.90
39.77
8.49
12.94
19.27
11.05
2.04
13.29
18
四川
7.18
40.91
7.32
8.94
多元统计分析报告整理版.doc
1、主成分分析的目的是什么?主成分分析是考虑各指标间的相互关系,利用降维的思想把多个指标转换成较少的几个相互独立的、能够解释原始变量绝大局部信息的综合指标,从而使进一步研究变得简单的一种统计方法。
它的目的是希望用较少的变量去解释原始资料的大局部变异,即数据压缩,数据的解释。
常被用来寻找判断事物或现象的综合指标,并对综合指标所包含的信息进展适当的解释。
2、主成分分析根本思想?主成分分析就是设法将原来指标重新组合成一组新的互相无关的几个综合指标来代替原来指标。
同时根据实际需要从中选取几个较少的综合指标尽可能多地反映原来的指标的信息。
● 设p 个原始变量为 ,新的变量(即主成分)为 , 主成分和原始变量之间的关系表示为?3、在进展主成分分析时是否要对原来的p 个指标进展标准化?SPSS 软件是否能对数据自动进展标准化?标准化的目的是什么?需要进展标准化,因为因素之间的数值或者数量级存在较大差距,导致较小的数被淹没,导致主成分偏差较大,所以要进展数据标准化; 进展主成分分析时SPSS 可以自动进展标准化;标准化的目的是消除变量在水平和量纲上的差异造成的影响。
求解步骤⏹ 对原来的p 个指标进展标准化,以消除变量在水平和量纲上的影响 ⏹ 根据标准化后的数据矩阵求出相关系数矩阵 ⏹ 求出协方差矩阵的特征根和特征向量⏹ 确定主成分,并对各主成分所包含的信息给予适当的解释版本二:根据我国31个省市自治区2006年的6项主要经济指标数据,表二至表五,是SPSS 的输出表,试解释从每X 表可以得出哪些结论,进展主成分分析,找出主成分并进展适当的解释:〔下面是SPSS 的输出结果,请根据结果写出结论〕 表一:数据输入界面p 21p x x x ,,, 2121p y y y ,,, 21表二:数据输出界面a〕此表为相关系数矩阵,表示的是各个变量之间的相关关系,说明变量之间存在较强的相关系数,适合做主成分分析。
观察各相关系数,假如相关矩阵中的大局部相关系数小于,如此不适合作因子分析。
多元统计分析课程设计报告样例女性空腹及摄入食糖后体内血糖含量主成分分析
目录目录 (I)一、问题分析 (1)1.1 问题重述 (1)1.2 问题分析 (1)二、主成分分析方法基本原理 (2)2.1 主成分分析基本思想 (2)2.2 主成分分析的数学模型 (2)2.3 主成分分析的计算步骤 (3)三、问题求解 (5)四、结果分析 (7)4.1 相关系数矩阵 (7)4.2 协方差阵 (8)五、总结 (9)六、课程设计心得体会 (9)参考文献 (10)一、问题分析1.1 问题重述49位女性在空腹情况下三个不同时刻的血糖含量(用321,,X X X 表示)和摄入等量食糖一小时后的三个时刻的血糖含量(用小654,,X X X 表示)的观测值(单位:mg/100ml ).问题:分别从样本协方差阵S 和样本相关系数矩阵R 出发做主成分分析,求主成分的贡献率和各个主成分. 在两种情况下,你认为应保留几个主成分?其意义如何解释?就此而言,你认为基于S 和R 的分析那个结果更为合理?1.2 问题分析我们根据主成分分析的基本思想,设法将原来众多的具有一定相关性的指标,重新组合成一组新的互不相关的综合指标来代替原来指标。
通常数学上的处理就是将原来p 个指标作线性组合,作为新的综合指标。
然后,在所有的线性组合中分别从样本协方差阵S 和样本相关系数矩阵R 出发做主成分分析,计算出各个主成分,进而代表原来p 个指标的信息。
进一步,建立主成分分析的数学模型。
最后利用sas 统计软件来求解出各个主成分和各主成分的贡献率。
二、主成分分析方法基本原理2.1 主成分分析基本思想主成分分析是数学上对数据降维的一种方法。
其基本思想是设法将原来众多的具有一定相关性的指标(比如p 个指标),重新组合成一组新的互不相关的综合指标来代替原来指标。
通常数学上的处理就是将原来p 个指标作线性组合,作为新的综合指标。
但是这种线性组合,如果不加限制,则可以有很多,应该如何去选取呢?在所有的线性组合中所选取的1F 应该是方差最大的,故称1F 为第一主成分。
《多元统计分析分析》实验报告
《多元统计分析分析》实验报告2012 年月日学院经贸学院姓名学号实验实验成绩名称一、实验目的(一)利用SPSS对主成分回归进行计算机实现.(二)要求熟练软件操作步骤,重点掌握对软件处理结果的解释.二、实验内容以教材例题7.2为实验对象,应用软件对例题进行操作练习,以掌握多元统计分析方法的应用三、实验步骤(以文字列出软件操作过程并附上操作截图)1、数据文件的输入或建立:(文件名以学号或姓名命名)将表7.2数据输入spss:点击“文件”下“新建”——“数据”见图1:图1点击左下角“变量视图”首先定义变量名称及类型:见图2:图2:然后点击“数据视图”进行数据输入(图3):图3完成数据输入2、具体操作分析过程:(1)首先做因变量Y与自变量X1-X3的普通线性回归:在变量视图下点击“分析”菜单,选择“回归”-“线性”(图4):图4将因变量Y调入“因变量”栏,将x1-x3调入“自变量”栏(图5):然后选择相关要输出的结果:①点击右上角“统计量(s)”:“回归系数”下选择“估计”;“残差”下选择“D.W”;在右上角选择输出“模型拟合度”、“部分相关和偏相关”“共线性诊断”(后两项是做多重共线性检验)。
选完后点击“继续”(见图6)②如果需要对因变量与残差进行图形分析则需要在“绘制”下选择相关项目(图7),一般不需要则继续③如果需要将相关结果如因变量预测值、残差等保存则点击“保存”(图8),选择要保存的项目④如果是逐步回归法或者设置不带常数项的回归模型则点击“选项”(图9)其他选项按软件默认。
最后点击“确定”,运行线性回归,输出相关结果(见表1-3)图5 图6图7图8图9回归分析输出结果:的协差阵也就是相关阵进行分解做因子分析或主成分分析),如果不需要对变量做标准化处理就选“协方差矩阵”;“输出”中的两项都选,要求输出没有旋转的因子解(主成分分析必选项)和碎石图(用图形决定提取的主成分或因子的个数);“抽取“下,默认的是基于特征值(大于1表示提取的因子或主成分至少代表1个单位标准差的变量信息,因为标准化后的变量方差为1,因子或者主成分作为提取的综合变量应该至少代表1个变量的信息),也可以自选提取的因子个数(即第二项),本例中做主成分回归,选择提取全部可能的3个主成分,所以自选个数填3。
多元统计课程设计(参考)
2012年河北省国民经济发展的数理分析1.问题的提出1.1 课题背景为加强多元统计分析课程的实践教学力度,培养和提升学生运用SPSS,SAS 等统计软件解决实际统计问题的能力,本次实验主要内容为各小组成员分别选取某一省份下各市地区(不少于10个省辖地区)2012/2013年度的社会经济发展指标,通过省份统计年鉴及其他途径收集相关数据(不少于10个经济发展指标),在此基础上,运用多元统计分析课程中所学的聚类分析、主成分分析和因子分析三大分析方法,建立相关数学模型;对选取省份2013/2014年度的社会经济发展状况作出综合分析。
最后撰写实验报告,对所研究结果作出整理,提交任课老师,作为课程学习能力评价的依据。
实验报告内容要求如下:(1)给出数学模型的简单推导。
(2)给出模型求解的基本步骤。
(3)给出数据获取来源、三大分析的实验结果、经济发展情况分析和相关建议。
1.2 课题目的①采用聚类分析,对所选省份各市区的经济发展情况进行分类,分析各市区间的经济发展差异,得到各行政区域的经济发展状况的层级分类结果和经济类型划分结果,并对此做出简单的经济分析和统计意义阐释,达到分析所选省份区域经济发展差异,给出相关区域规划和经济政策制定建议的研究目标。
②运用主成分和因子分析,提取能综合解释所选省域地区经济发展的因素,并据此对各地区社会经济发展状况进行分类、比较和综合评价,给出具体数量关系表达式,并讨论所选综合指标间的相关性;对模型结果做出合理化解释和经济发展建设相关建议。
达到系统展现省域社会经济发展状况,为政府决策者统筹区域规划提供参考依据的目的。
2.问题的分析引言:本小组成员打算借鉴汪潘义和王骑运用因子分析和聚类分析方法分析安徽省区域经济差异的经验,准备选取河北省2012年度11个地级市地区的经济发展状况相关指标和数据,分别利用聚类分析、主成分分析和因子分析三大分析方法建立经济综合评价的统计模型,借此系统展现省域社会经济发展状况全貌,分析所选省份区域经济发展差异,给出相关区域规划和经济政策制定建议的研究目标。
多元统计分析实验报告2
多元统计分析
实验报告一
学生姓名刘琪
学号20111315008
院系数学与统计学院
专业统计学
课程名称多元统计分析
任课教师来鹏
二0一三年十一月五日
一、测量15名两周岁婴儿的身高胸围上半臂围的数据如下表所示,假定这三组都服从
正态总体且协方差相等,试在显著性水平α=0.05下检验男女婴幼儿的这三项指标是否有差异。
data baby;
input sex$ X1 X2 X3@@;
cards;
f 78 60.6 16.5
f 76 58.1 12.5
f 98 63.2 14.5
f 81 59.0 16.0
f 81 60.8 14.0
f 84 59.5 15.0
m 80 58.4 14.0
m 75 59.2 13.0
m 78 60.3 14.0
m 75 57.4 12.0
m 79 59.5 12.5
m 78 58.1 14.0
m 75 58.0 12.5
m 64 55.5 11.0
m 80 59.2 12.5
;
proc glm;
/*proc anova data=baby;*/
class sex;
model X1 X2 X3=sex/ss3; run;
结果:
有上述结果可以得出
二、1992年美国总统选举的三位候选人为布什、佩罗特和克林顿。
从支持三位候选人的选民中分别抽取了20人,登记他们的年龄段(X1)和受教育程度(X2)资料如下表所示:。
多元统计课程设计参考范本
多元统计课程设计参考范本一、课程目标知识目标:1. 理解并掌握多元统计的基本概念、原理及方法,如多元线性回归、聚类分析等;2. 学会运用多元统计方法对实际问题进行数据分析,并得出有效结论;3. 了解多元统计在实际应用领域的价值,如经济、生物、社会等。
技能目标:1. 能够运用多元统计软件(如SPSS、R等)进行数据处理和分析;2. 培养学生的团队协作能力,学会与他人共同探讨、分析并解决实际问题;3. 提高学生的数据解读和报告撰写能力,能够清晰、准确地向他人表达分析结果。
情感态度价值观目标:1. 培养学生对多元统计学科的兴趣,激发学习热情;2. 增强学生的数据分析意识,使其认识到数据分析在解决实际问题中的重要性;3. 培养学生严谨、客观、批判性的思维品质,面对数据不盲目迷信,敢于质疑和探究。
课程性质:本课程旨在帮助学生掌握多元统计的基本理论和方法,提高学生运用数据分析实际问题的能力。
学生特点:高中年级学生,具备一定的数学基础,对数据分析有一定了解,但对多元统计知识掌握不足。
教学要求:结合学生特点,注重理论与实践相结合,充分调动学生的积极性,提高其多元统计素养。
通过具体案例教学,引导学生学会运用多元统计方法解决实际问题,并注重培养学生的团队协作和表达能力。
在教学过程中,关注学生的情感态度变化,激发其学习兴趣,培养其批判性思维。
将课程目标分解为具体的学习成果,为后续教学设计和评估提供依据。
二、教学内容1. 多元统计概述:介绍多元统计的基本概念、应用领域及研究方法,使学生初步了解多元统计的整体框架。
教材章节:第一章 多元统计分析导论2. 多元线性回归:讲解多元线性回归模型的建立、参数估计、假设检验等,使学生掌握多元线性回归分析方法。
教材章节:第二章 多元线性回归分析3. 聚类分析:介绍聚类分析的基本原理、方法及步骤,使学生学会对数据进行分类处理。
教材章节:第三章 聚类分析4. 主成分分析:讲解主成分分析的基本概念、计算方法及其应用,帮助学生掌握降维技术在数据分析中的应用。
多元统计分析课程设计
课程设计报告课程名称多元统计分析专业班级学号姓名指导教师2011年12 月19 日课程设计任务书课程名称多元统计分析课题多元统计分析专业班级统计学0901学生姓名学号指导老师审批任务书下达日期2011 年12 月19 日任务完成日期2011年12 月30日目录一:课程设计准备 (3)(1)建立数据库 (3)(2)分析数据库 (3)二:聚类分析和判别分析 (3)(1)聚类分析的步骤 (3)(2)判别分析的步骤 (3)(3)聚类分析的结果 (4)(4)判别分析的的结果及分析 (4)三:因子分析 (10)(1)是否可进行因子分析的判断 (10)(2)因子分析的步骤 (10)(3)因子分析的结果及其分析 (11)四:参考文献 (16)五:总结 (17)六:评分表 (18)七:附录表 (19)一:课程设计准备(1):建立和打开数据库建立或打开数据文件,数据窗中输入待分析的数据,或利用File菜单中的Open功能打开已经存在的数据文件。
《2010年各地区按主要行业分的全社会固定资产投资》。
(2):分析数据库样本数据来自中国2010年各地区按主要行业分的全社会固定资产投资,见附表。
在这里选取了我国的三十一个省份作为样本,描述固定资产投资行业的变量有十九个:农、林、牧、副、渔业(x1),采矿业(x2),制造业(x3),电力、燃气及水的生产和供应业(x4),建筑业(x5),交通运输、储蓄和邮政业(x6),信息传输、计算机服务和软件业(x7),批发和零售业(x8),住宿和餐饮业(x9),金融业(x10),房地产业(x11),租赁和商务服务业(x12),科学研究、技术服务、地质勘察(x13),水利、环境、公共设施(x14),居民服务和其他服务业(x15),教育(x16),卫生、社会保障和福利业(x17),文化、体育、娱乐业(x18),公共管理和社会组织(x19)。
二:聚类分析和判别分析(一)聚类分析的步骤1. 按Analyze→Classify→K-means-cluster顺序单击菜单项,打开聚类分析主对话框。
多元统计分析报告范文
多元统计分析报告范文自己写的多元统计分析的报告,使用了聚类,主成分,因子分析方法,使用的软件有p和matlab聚类分析、主成分分析、因子分析的应用一、选题背景我曾参加过2022年的全国大学生数学建模竞赛,但是我们那时并没有深入的学习多元统计学方面的知识,当时做的时候只把前两问使用显著性分析和使用主成分分析进行了一些处理,通过上统计分析的课觉得这个题完全可以使用所学的知识解决,因此本文通过参考一些优秀的论文将这个题的整个过程详细的实现了一遍。
使用的分析工具有E某CLE2007,SPSS17.0中文版和MATLAB2022.a。
具体的题目如下:确定葡萄酒质量时一般是通过聘请有资质的评酒员进行品评。
每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。
酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。
附件1给出了某一年份一些葡萄酒的评价结果,附件2和附件3分别给出了该年份这些葡萄酒的和酿酒葡萄的成分数据。
请尝试建立数学模型讨论下列问题:1.分析附件1中两组评酒员的评价结果有无显著性差异,哪一组结果更可信?4.分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量?二、分析过程1.问题一自己写的多元统计分析的报告,使用了聚类,主成分,因子分析方法,使用的软件有p和matlab表1(两种葡萄酒的得分情况)使用表1中得出的平均值,利用SPSS中的Kendall和调系数检验法对这两组评委的打分进行一致性检验,这里之所以选择Kendall和调系数检验法,随让一致性检验有多种方法,但是不同的方法使用范围是有限制的,而此方法正是用来检验多个评分者给分的一致性程度。
Kendall和调系数检验法原理和谐系数的计算公式:若评分中出现相同等级,则需要计算校正的系数,其公式为:SPSS操作步骤打开SPSS并导入处理之后的结果,选择菜单栏中的“分析”—>“非参数检验”—>“K个相关样本”—>“选择检验的数据”。
多元统计分析课程设计报告
湖南工程学院课程设计任务书课程名称多元统计分析课题2011年城市建设状况专业班级统计学1101学生姓名马静学号02指导老师戴婷审批任务书下达日期2013 年11 月11日任务完成日期2013年11 月24 日目录一源数据…………………………………………………………………(一)指标选择………………………………………………………(二)源数据…………………………………………………………二统计分析过程及分析…………………………………………………(一)聚类分析1……………………………………………………………2 .聚类分析操作步骤及分析………………………………………3.聚类结果……………………………………………………………(二)主成分分析……………………………………………………………1.操作步骤及分析……………………………………………………2.三分析结果解释……………………………………………………………(一)聚类结果解释………………………………………………………(二)主成分分析结果解释…………………………………………………参考文献………………………………………………………………………总结……………………………………………………………………………评分标准……………………………………………………………………..一.源数据(一)指标选择为了分析我国城市建设状况,主要考虑从城区面积,建成区面积,城市建设用地面积,征用土地面积,城市人口密度等几个方面对我国的城市建设状况进行考察。
因此选择以下指标:城区面积,建成区面积,城市建设用地面积,征用土地面积。
先从2011年的调查资料中抽取20个样本进行分析(二)源数据2011年城市建设状况2011年城市建设状况地区城区面积x1建成区面积x2城市建设用地面积x3征用土地面积x4城市人口密度x5北京市12,187 1,231 1,426 50 1,428 天津市2,334 711 711 74 2,636 河北省6,627 1,685 1,625 43 2,362 山西省3,401 957 878 26 2,977 辽宁省12,822 2,277 2,249 186 1,712 吉林省4,718 1271 1,204 75 2,371 黑龙江省2,653 1,679 1,722 48 5,146 江苏省13,272 3,494 3,553 183 2,013 浙江省10,484 2,221 2,263 89 1,741 安徽省5,573 1,598 1,565 118 2,265 福建省4,481 1,130 1,077 52 2,306 江西省1,891 1,020 986 58 4,527 山东省20,158 3,751 3,681 142 1,389 河南省4,214 2,098 2,019 41 5,124 湖北省9,049 1,812 2,043 74 1,969 湖南省4,602 1,408 1,475 85 2,908 广东省17,957 4,829 4,172 73 2,637 海南省850 238 268 15 2,639 重庆市5,697 1,035 945 54 1,830 四川省5,999 1,788 1,746 72 2,782二.统计分析过程及分析(一)聚类分析1.聚类分析统计分析过程1.描述统计分析方法:根据分析描述统计量的输出结果可知:各城市征用土地面积的平均值最低,城区面积建设的平均值最高;从极值角度看,极大值最大的为城区面积建设,极小值最小的为各城市征用土地面积2.聚类分析操作结果及分析Cluster[DataSet2]Average Linkage (Between Groups)分析:此图给出了反应聚类过程的凝聚过程的凝聚过程表,下面介绍表中各列数据的含义:Stage:聚类步骤。
多元统计分析实验报告【范本模板】
1。
正态性检验Kolmogorov-Smirnov a Shapiro—Wilk统计量df Sig。
统计量df Sig.净资产收益率。
113 35 .200*.978 35 .677总资产报酬率.121 35 。
200*.964 35 。
298资产负债率.086 35 。
200*。
962 35 。
265总资产周转率.180 35 。
006 .864 35 .000流动资产周转率.164 35 .018 。
885 35 .002已获利息倍数.281 35 。
000 .551 35 。
000销售增长率.103 35 。
200*.949 35 。
104资本积累率.251 35 .000 。
655 35 .000*. 这是真实显著水平的下限.a. Lilliefors 显著水平修正此表给出了对每一个变量进行正态性检验的结果,因为该例中样本中n=35〈2000,所以此处选用Shapiro—Wilk统计量.由Sig.值可以看到,总资产周转率、流动资产周转率、已获利息倍数及资本积累率均明显不遵从正态分布,因此,在下面的分析中,我们只对净资产收益率、总资产报酬率、资产负债率及销售增长率这四个指标进行比较,并认为这四个变量组成的向量遵从正态分布(尽管事实上并非如此).这四个指标涉及公司的获利能力、资本结构及成长能力,我们认为这四个指标可以对公司运营能力做出近似的度量。
2。
主体间因子N行业电力、煤气及水的生产和供应业11 房地行业15 信息技术业9多变量检验a效应值 F 假设 df 误差 df Sig。
截距Pillai 的跟踪。
967 209.405b4。
000 29.000 .000 Wilks 的 Lambda 。
033 209。
405b 4.000 29.000 .000 Hotelling 的跟踪28。
883 209。
405b4。
000 29.000 .000 Roy 的最大根28.883 209.405b 4.000 29。
多元统计分析课程设计.doc
• 完全凝固阶段 整个熔池完全凝固而形成整体的焊缝。此时受到拉应力作用,
变形由整个焊缝承担,而不再集中于晶界,有较高的抗裂能力,不会开裂。
• 由焊接凝固状态特征得出: • 结晶裂纹产生于焊缝凝固后期,此时结构并未承受外力,可见
时也会出现在焊缝中。
• 冷裂纹断口特征 • 宏观上冷裂纹的断口具有脆性断裂的特征,表面有金属光泽,呈人字形态发
展。
• 冷裂纹产生的时间 • 冷裂纹有些出现在焊接过程中,但较多是在焊后延续一段时间才产生,延迟
时间可能是几小时、几天或十几天。
• 冷裂纹的分布 • 1、焊道下裂纹 是在靠近堆焊焊道的热影响区所形成的焊接冷裂纹,一般不
• 结晶裂纹产生的原因:焊缝金属在结晶后期出现开裂,原因来自于两方面:
焊缝金属在结晶后期抗裂能力下降和拉伸应变的形成。
• 焊接整个凝固过程可划分为三个阶段: • 液—固阶段 金属处理液体状态,即使有拉应力作用,流动的液体可以填满被
拉开的缝隙,而不会产生开裂的现象。
• 固—液阶段 金属液体里部分被凝固,形成所谓的“液态薄膜”。此时,即使
显露于焊缝表面。
• 2、焊趾裂纹 焊缝表面与母材交界处叫做焊趾。沿应力集中的焊趾处所形成
的焊接冷裂纹,即为焊趾裂纹。
• 3、焊根裂纹 沿应力集中的焊缝根部所形成的焊接冷裂纹,称为焊根裂纹,
主要发生在预热不足的条件下。
• 4、横向裂纹 横向裂纹起源于熔合线,沿垂直于焊缝长度方向扩展到焊缝和
热影响区。多发生于多层焊表层下金属中。
开裂是由于焊缝冷却过程中的内应力所产生的。焊接时的局部 加热是焊接应力的根本原因。
多元统计分析报告对应分析报告
学生实验报告学院:统计学院课程名称:多元统计分析专业班级:统计123班姓名:叶常青学号:0124253学生实验报告一、实验目的及要求:目的熟悉和掌握对应分析的原理和上机操作方法容及要求本次操作就父母与孩子的受教育程度的关系进行对应分析,分别对父亲与孩子和母亲与孩子的受教育程度做对应分析,最后再对输出结果进行详细的分析。
二、仪器用具:三、实验方法与步骤:打开GSS93 subset .sav数据,对变量Degree与变量padeg和madeg进行对应分析,依次选择分析→降维…进入对应分析对话框,进行进行如下设置,便可输出想要的数据的:四、实验结果与数据处理:按照上述方法和步骤得出以下输出结果.对父亲受教育程度与孩子受教育程度的关系进行分析如下:表1表21 .400 .160 .846 .846 .025 .2562 .164 .027 .142 .988 .0263.047 .002 .012 1.004.006 .000 .000 1.00总计. 228.193.000a 1.001.00a. 16 自由度,表3第二部分摘要给出了惯量,卡方值以及每一维度所解释的总惯量的百分比信息。
总惯量为0.,卡方值为228.193 ,有关系式228.193=0.*1205,由此可以清楚的看到总惯量和卡方的关系。
Sig.是假设卡方值为0成立的概率,它的值几乎为0说明列联表之间有较强的相关性。
表注表明的自由度为(5-1)*(5-1)=16。
惯量部分是四个公共因子分别解释总惯量的百分比。
表4表5LT High School .808 .487 .387 .218 .253 .467 High School .140 .392 .453 .383 .374 .353 Junior College .005 .017 .027 .039 .030 .Bachelor . .068 . .228 .182 .100 Graduate .016 . .040 .131 .162 .有效边际 1.000 1.000 1.000 1.000 1.000第三部分的结果是在对应分析中点击Statistics按钮,进入Statistics对话框,选中Row profiles和Column profiles 交友程序运行所得到的。
应用多元统计》综合性实验报告.docx
华北科技学院基础部傑合牲实验实验报告课程名称 _________ 应用多元统计 _____________实验学期2013至2014学年第2学期学生所在系部基础部年级12专业班级计算B121学生姓名郭春元学号201209014115任课教师李强丽实验成绩《应用多元统计》课程综合性实验报告开课实验室:数学应用实验室2014年7月2日1、计算相关系数矩阵;2、以X3为因变量,XI、X2、X4、X5为自变量进行多元线性回归分析,并进行线性回归关系的显著性检验;3、利用欧式距离定义样品间的距离,采用重心法进行聚类分析,将结果分为三类;4、利用重心法得到的聚类分析的结果作为分组变量,将15号样品江油作为待判别的样品,进行判别分析,并写出贝叶斯判别和费希尔判别函数;5、利用主成分分析法对这些地区进行综合评价和分类;6、检验数据是否适合做因子分析,若是适合,利用因子分析对这些企业进行因子分析;7、只考虑XI、X2、X3这三个变量,应用对应分析,揭示各厂家与这三个变量之间的关系;&采用多维标度法对这厂家的经济情况进行分析。
四、实验结果及分析1、计算相关系数矩阵;表1*. Correlation is significant at the 0.05 level (2-tailed).2、以X3为因变量,XI、X2、X4、X5为自变量进行多元线性回归分析,并进行线性回归关系的显著性检验;表2a. Predictors: (Constant),同定资产产值率,I古I定资产利税率,资金利税率,资金利润率由表2可知R~0. 919说明拟合度很好。
表3表4由表3 可知回归方程为x3 二19.684 + 0.678x1 -1.187x2 +1.522x4 + 0.062x5.线性回归关系的显著性检验:原假设为A =02二…05=°,由表4可知p < a(a =0. 05),则要拒绝原假设,说明回归模型是显著的;回归参数的统计推断:原假设仏为A =0^对立假设为7为0严0,由表3可知p} =0. 058>cr , p2=Q. 035<a , p3=Q.059>a , “4 二0,325>Q,说明勺与乙之间有显著的线性关系,与可、兀、兀5之间没有显著的线性关系。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
XXXX课程设计任务书课程名称多元统计分析课题判别分析与因子分析专业班级学生姓名学号指导老师审批任务书下达日期任务完成日期目录课题一判别分析摘要 (1)一、指标和数据 (1)二、聚类分析的实施 (1)三、判别分析的实施 (2)四、结果分析 (5)课题二因子分析摘要 (6)一、数据 (6)二、因子分析的实施 (6)三、结果分析 (10)总结 (11)参考文献 (11)评分标准 (12)附表 (13)课题一判别分析摘要聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。
而判别分析是根据表明事物特点的变量值和它们所属的类,求出判别函数。
根据判别函数对未知所属类别的事物进行分类的一种分析方法。
核心是考察类别之间的差异。
本课题正是基于多元统计分析中聚类分析和判别分析的方法,以《各地区按行业分城镇单位就业人员平均工资》的调查数据为对象(预留出待判样本),借助Spss统计软件用聚类分析进行分类,并以分好的类别为依据对待判样本进行判别分类以及对已分类样本进行回判分析。
一、指标和数据按要求于国家统计局网站查找变量数大于等于10,样本数大于等于20的合适数据并整理。
得到整理后的《各地区按行业分城镇单位就业人员平均工资》(见附表一)。
其体系共有31个地区,19项指标。
具体指标x1:农、林、牧、渔业就业人员平均工资,简写“农、林、牧、渔业”(以下具以简写形式省略“就业人员平均工资”);x2:采矿业;x3:制造业;x4:电力、燃气及水的生产和供应;x5:建筑业;x6:交通运输、仓储和邮政业;x7:信息传输、计算机服务和软件业;x8:批发和零售业;x9:住宿和餐饮业;x10:金融业;x11:房地产业;x12:租赁和商务服务业;x13:科学研究、技术服务和地质勘查业;x14:水利、环境和公共设施管理业;x15:居民服务和其他服务业;x16:教育;x17:卫生、社会保障和社会福利业;x18:文化、体育和娱乐业;x19:公共管理和社会组织。
二、聚类分析的实施随机抽取5个样本预留作待判样本,将整理后的数据录入SPSS软件定义相应变量,进行聚类分析。
具体操作流程为:Analyze----Classify----Hierarchical Cluster。
定义相关变量,然后在其相应子菜单勾选所需内容,得到的结果及其相应解释如下:1、案例处理汇总表Case Processing Summary(a,b)a Squared Euclidean Distance usedb Average Linkage (Between Groups)由个案处理汇总表可知,有效个案数26,缺失个案数0,总体个案数26。
即总体值全部为有效值。
2、绘制树状图如下:根据树状图可以直观地将总体(不包括待判样本)分为三类,如下表:类别样本各类别特点第一类天津、江苏、浙江、广东、西藏经济较发达地区经济不发达地区第二类河北、山西、内蒙古、辽宁、吉林、黑龙江、福建。
江西、山东、河南、湖北、湖南、海南、重庆、四川、贵州、云南、陕西、青海、新疆第三类上海经济发达地区三、判别分析的实施将预留样本以及对原样本的分类(序号)一并录入SPSS软件,进行判别分析。
具体操作流程为:Analyze---Classify----.-Discriminant然后将导入Grouping Variable,在Defiene Rang中定义最小值为1,最大值为3,再导入变量,在相应子菜单下勾选所需内容,得到结果及其解释部分如下:1、分析案例处理摘要表:Analysis Case Processing Summary上表显示:有效个案数26个,缺失或超出组界代码个案数5个(待判样本),总体个案数31个。
2、标准化的典型判别式函数系数表:Standardized Canonical Discriminant Function Coefficients3、由上表可以得到标准化典型判别函数如下:F1=-1.460x1+2.937x2-0.652x3-0.665x4-0.656x5+0.093x6-3.719x7+0.283x8-0.787x9+2.681x10+0.999x11-1.258x12-0.175x13-2.8980x14-0.827x15+0.846x16+2.174x17+2.057x18+1.446x19F2=0.187x1+1.350x2-0.888x3+1.036x4+2.335x5-1.631x6+1.2340x7+3.345x8-0.487x9-1.236x10+0.225x11+2.072x12-0.947x13-1.4950x14+1.695x15+0.957x16-1.876x17+0.175x18-1.814x19运用判别函数时,将样本的各指标的数据代入函数中,将每个样本对应的各函数值进行比较,其中最大的那个是第几个函数,则该样本就判为第几类。
5、交叉核实交叉核实法的思想是:为了判断第i个观测的判别正确与否,用删除第i个观测的样本数据集计算出判别函数,然后用此判别函数来判别第i个观测。
对每一个观测都这样进行。
交叉核实检查比较严格,能说明所选择的判别方法是否有效,以下为交叉核实结果:分类结果b,cAverage Linkage (Between Groups)预测组成员合计1 2 3初始计数 1 20 0 0 202 0 5 0 53 0 0 1 1未分组的案例 4 0 1 5分类结果b,cAverage Linkage (Between Groups)预测组成员合计1 2 3初始计数 1 20 0 0 202 0 5 0 53 0 0 1 1未分组的案例 4 0 1 5% 1 100.0 .0 .0 100.02 .0 100.0 .0 100.03 .0 .0 100.0 100.0未分组的案例80.0 .0 20.0 100.0 交叉验证a计数 1 19 1 0 202 1 4 0 53 0 1 0 1% 1 95.0 5.0 .0 100.02 20.0 80.0 .0 100.03 .0 100.0 .0 100.0% 1 100.0 .0 .0 100.02 .0 100.0 .0 100.03 .0 .0 100.0 100.0未分组的案例80.0 .0 20.0 100.0 交叉验证a计数 1 19 1 0 202 1 4 0 53 0 1 0 1% 1 95.0 5.0 .0 100.02 20.0 80.0 .0 100.03 .0 100.0 .0 100.0a. 仅对分析中的案例进行交叉验证。
在交叉验证中,每个案例都是按照从该案例以外的所有其他案例派生的函数来分类的。
b. 已对初始分组案例中的 100.0% 个进行了正确分类。
c. 已对交叉验证分组案例中的 88.5% 个进行了正确分类。
分析上述图表交叉核实的结果为:原第一类5个样本中错判至第二类的有1个,原分类中第二类20个样本中错判到第一类的有1个,原第三类1个样本错判至第二类的有1个。
回判结果如下表:回判结果表明,总的结果回代判对率为88.5%。
四、结果分析第三类地区属于经济发达地区,其交通发达、科技先进,城市化建设起步较早,在地理上占极大优势,各行业发展得都比较理想,尤其是在高收入行业金融业方面发展迅速,独占鳌头,故而就业人员平均收入水平受较大影响明显偏高;第一类地区经济较发达,属于发展中地区,各行业发展前景都比较可观,金融业发展仅次于第三类地区,所以就业人员平均收入略低于第三类地区;第二类地区经济发展较慢,呈现出多元化经济发展情形,高收入行业不再仅限于金融业,而采矿业、信息传输、计算机服务和软件业、科学研究、技术服务和地质勘查业等行业也逐渐发展起来。
虽说就业人员平均工资没有第二、三类地区的高,不过行业的发展空间大,提升空间大。
课题二因子分析摘要《各地区按行业分城镇单位就业人员平均工资》评估指标体系是建立在评估指标的可比性和可操作的原则上,指标很多而且各指标之间通常又有很强的相关性,很难直接判断出各地区就业收入平均水平的情况。
而因子分析法是从研究相关矩阵或协方差矩阵内部的依赖关系出发,把一些错综复杂的变量归结为少数几个不相关的综合变量(因子),以再现因子与原始变量之间的内在关系的多变量统计分析方法,可以较大限度地克服指标之间的相关性对评价结果的影响。
一、数据引用判别分析数据进行因子分析——《各地区按行业分城镇单位就业人员平均工资》(见附表1)。
二、因子分析的实施将数据导入软件,定义变量进行因子分析。
具体操作流程为:Analyze----Data Reduction----Factor.然后在Descriptives菜单下勾选Coefficients和KMO and Bartlett's test of sphericity,在Rotation菜单下勾选Varimax(正交旋转),在Scores 菜单下勾选Save as variables,其他均为默认。
可得到如下结果:1、系数矩阵由得到的相关系数矩阵,可知19个行业指标之间存在较强的相关关系,初步断定可以进行因子分析。
进一步用KMO值检验是否适合进行因子分析。
2、KMO值检验:KMO and Bartlett's TestKaiser-Meyer-Olkin Measure of Sampling Adequacy是用于比较观测相关系数值与偏相关系数值的一个指标,其值愈逼近1,表明对这些变量进行因子分析的效果愈好。
由上表可以看出KMO值=0.860>0.6,故此数据适合作因子分析。
3、公因子方差CommunalitiesExtraction Method: Principal Axis Factoring.4、解释的总方差Total Variance ExplainedExtraction Method: Principal Axis Factoring.由于前三个特征值的累积贡献率达到88.543%>85%。
它们已载有绝大部分信息量,因此提取前三个特征值便能够对所分析的问题进行很好的解释。
5、建立因子载荷矩阵Factor Matrix(a)Factor1 2 3x1 .792 .090 .222x2 .538 -.393 .261x3 .873 -.423 -.013x4 .942 -.092 .121x5 .878 -.327 .104x6 .838 -.056 .118x7 .926 -.025 -.226x8 .938 -.118 -.298x9 .916 .162 -.171x10 .942 -.055 -.257x11 .918 .209 .013x12 .841 -.116 -.187x13 .926 .035 -.004x14 .959 -.005 .222x15 .427 .546 .065x16 .942 .179 .181x17 .980 .134 -.069x18 .966 .121 -.020x19 .934 .210 .108Extraction Method: Principal Axis Factoring.a 3 factors extracted. 11 iterations required.由因子载荷阵可以看出,各公共因子的典型代表变量不是很突出,各指标在第一个公共因子上均有相当程度的载荷值,而在第二、三个公因子上的载荷值远小于第一个的。