多元统计分析(2)

多元统计分析(2)
多元统计分析(2)

课程设计

题目: 湖北省各地区经济差

异的多元统计分析

学院:理学院

专业:数学与应用数学

班级:数学09 —(1)班

学生姓名:

学生学号: 2009026206 指导教师:周永芳

2012 年 6 月 29 日

摘要

本文通过多元统计分析的方法,对湖北省各地区主要的经济指标进行因子分析和方差分析,进而可以得出湖北省12个城市的经济发展水平的差异,由因子分析的结果可知,这12个城市的综合经济实力从大到小的排名依次为武汉、宜昌、襄樊、黄石、荆州、十堰、鄂州、荆门、随州、孝感、黄冈、咸宁。由方差分析的结果可知,以武汉为中心,根据地理位置将这12个城市划分为四个地区:武汉以东的地区(黄石、鄂州、黄冈)、武汉以南的地区(孝感、荆州)、武汉以西的地区(宜昌、荆门、随州)、武汉以北的地区(十堰、襄樊、咸宁)这四个地区的经济发展趋于稳定。根据分析的结果我们可以为湖北省经济的稳步发展出一份薄力。

关键词:经济指标,因子分析,方差分析

目录

湖北省各地区经济差异的多元统计分析 (4)

1 引言 (4)

2 分析方法介绍 (4)

2.1 因子分析 (4)

2. 1. 2 因子分析的模型 (4)

2.1.3 因子分析的步骤 (5)

2.2 方差分析 (6)

3 问题分析 (6)

4 数据处理过程 (6)

4.1 因子分析的结果 (7)

4.2 方差分析结果 (10)

5 总结及建议 (11)

参考文献 (13)

湖北省各地区经济差异的多元统计分析

1 引言

近几年湖北省经济得到了快速发展,但发展中还是碰到了很多问题,各个城市的经济水平还存在很大的差异,为了准确弄清楚湖北省主要的12 个城市的经济差异,我们利用因子分析对各个地区的综合经济实力进行比较分析,然后再利用方差分析对各个地区的整体实力进行比较,为湖北今后的经济发展提供一些比较科学的发展方案。

2 分析方法介绍

2.1 因子分析

因子分析模型是主成分分析的推广。它也是利用降维的思想,由研究原始变量相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。相对于主成分分析,因子分析更倾向于描述原始变量之间的相关关系;因此,因子分析的出发点是原始变量的相关剧增。因子分析的思想始于1904 年查尔斯·斯皮尔曼对学生考试成绩的研究。近年来,随着电子计算机的高速发展,人们将因子分析的理论成功地应用于心理学、医院、气象、地质、经济学等各个领域,也使得因子分析的理论和方法更加丰富。

2. 1. 1 基本思想

因子分析的基本思想是根据相关性大小把原始变量分组,使得同组内的变

量之间相关性较高,而不同组的变量间的相关性则较低。每组变量代表一个基本结构,并用一个不可观测的综合变量表示,这个基本结构就称为公共因子。对于所研究的某一具体问题,原始变量就可以分解成两部分之和的形式,一部分是少数几个不可测的所谓公共因子的线形函数,另一部分是与公共因子无关的特殊因子。

2. 1. 2 因子分析的模型

①查尔斯·斯皮尔曼提出因子分析时用到的例子

①一般因子分析模型:设有n 个样品,每个样品观察p 个指标,这p 个指标之间有较强的相关性(要求p 个指标相关性较强的理由是很明确的,只有相性较强才能从原始变量中提取出“公共”因子)。为了便于研究,并消除由于观测量纲的差异及数量级不同所造成的影响,将样本观测数据进行标准化处理,使标准化后的变量均值为0,方差为1。

2.1.3 因子分析的步骤

① 确定因子载荷:主成分法、主轴因子法、最小二乘法、极大似然法、α 因子提取法等。由于这些方法求解因子载荷的出发点不同,所得的结果也不完全相同,为此我们就本论文所用到的主成分法寻找公共因子的方法做详细介绍。主成分寻找公共因子的方法如下:假定从相关阵出发求解主成分,没有p 个变量,则我们可以找出p 个主成分。将所得的p 个主成分按由大到小的顺序排列,记为12,,,P Y Y Y 则主成分与原始变量之间存在如下关系式:

(1)11111221221222221122P P P P P P P PP P Y X X X Y X X X Y X X X γγγγγγγγγ=+++??=+++??

?

?=+++?

式中,ij γ 为随机向量X 的相关矩阵的特征值所对应的特征向量的分量,因

为特γ征向量之间彼此正交,从X 到Y 的转换关系是可逆的,很容易得出由Y 到X 的转换关系为:

(2) 11111221221122221122P P P P P P P PP P X Y Y Y X Y Y Y X Y Y Y γγγγγγγγγ=+++??=+++??

?

?=+++?

我们对上面每一等式只保留前m 个主成分而把后面的部分用代替,则㈡式可 变为:

(3)11111221112112222211122P P P P P P PP P P

X Y Y Y X Y Y Y X Y Y Y γγγεγγγεγγγε=++++??=++++???

?=++++? 这个式子在形式上已经与因子模型相一致,且(1,2,,)i Y i m = 之间相互独立,为

了把i Y 转化成合适的公因子,现在要做的工作只是把i Y 主成分变为方差为1 的变

量。为完成此变换,必须将i Y

令/i ji F Y =则㈢式变为:

(4)11111221112112222211122P P P P P P PP P P

X F F F X F F F X F F F γγγεγγγεγγγε=++++??=++++???

?=++++?

这与因子模型完全一致,这样,就得到了载荷A 矩阵和一组初始公因子(未旋转)。

②因子旋转:因子旋转分为正交旋转与斜交旋转,正交旋转由初始载荷矩阵A左乘一正交阵而得到。经过正交旋转而得到的新的公因子仍然保持彼此独立的性质。而斜交旋转则放弃了因子之间彼此独立这个限制,因而可能达到更为简洁的形式,其实际意义也更容易解释。但不论是正交旋转还是斜交旋转,都应当使新的因子载荷系数要么尽可能地接近与零,要么尽可能地远离零。

③因子得分:因子得分就是公共因子在每一个样品点上的得分。根据因子得分我们可以知道那个城市的经济发展水平要高,那个城市的经济发展水平要底。

2.2 方差分析

方差分析的基本思想是根据研究目的和设计类型,将总变异中的离均差平方和SS 及其自由度分别分解成相应的若干部分,然后求各相应部分的变异;再用各部分的变异与组内(或误差)变异进行比较,得出统计量F 值;最后根据F 值的大小确定P 值,作出统计推断方差分析的检验假设H0 为各样本来自均数相等的总体,H1 为各总体均数不等或不全相等。若不拒绝H0 时,可认为各样本均数间的差异是由于抽样误差所致,而不是由于处理因素的作用所致。理论上,此时的组间变异与组内变异应相等,两者的比值即统计量F 为1;由于存在抽样误差,两者往往不恰好相等,但相差不会太大,统计量F 应接近于1。若拒绝H0,接受H1 时,可认为各样本均数间的差异,不仅是由抽样误差所致,还有处理因素的作用。此时的组间变异远大于组内变异,两者的比值即统计量F 明显大于1。在实际应用中,当统计量F值远大于1 且大于某界值时,拒绝H0,接受H1,即意味着各样本均数间的差异,不仅是由抽样误差所致,还有处理因素的作用方差分析的用途①两个或多个样本均数间的比较;②分析两个或多个因素间的交互作用;

③回归方程的线性假设检验;④多元线性回归分析中偏回归系数的假设检验;⑤两样本的方差齐性检验等。

3 问题分析

我们给出2003 年湖北省12 个城市的主要经济指标,借助这些指标体系对湖北省12 个城市的经济差异作出分析。然后以武汉为中心,根据地理位置将12个城市划分为四个地区:武汉以东的地区(黄石、鄂州、黄冈)、武汉以南的地区(孝感、荆州)、武汉以西的地区(宜昌、荆门、随州)、武汉以北的地区(十堰、襄樊、咸宁),用方差分析对这四个地区的经济进行分析比较。

4 数据处理过程

下表给出的是2003 年湖北省12 个城市的主要经济指标,为了得出它们的经济的差异,我用多元统计方法里面的因子分析和方差分析对这些数据进行处

理。

表1 湖北省12 个城市的经济指标

注:数据来源于《2004 年中国统计年鉴》

其中1—地区生产总值(单位:万元) 2—地方财政一般预算内收入(单位:万元) 3—地方财政一般预算内支出(单位:万元) 4—当年合同外资金额(单位:万美元) 5—环境污染治理投资额(单位:万元) 6—工业总产值(单位:万元) 7—建成区绿化覆盖面积(单位:公顷) 8—产品销售收入(单位:万元)9—邮政业务总量(单位:万元) 10—固定资产投资完成额(单位:万元) 11 —房地产开发投资完成额(单位:万元) 12—商品房屋销售面积(单位:万平方米) 13—全年新增固定资产(单位:万元) 14—全年供水总量(单位:万立方米) 15—年末实有铺装道路总面积(单位:万平方米) 16—园林绿地面积(单位:公顷) 17—工业废水排放总量(单位:万吨) 18—液化石油气供气总量(单位:吨) 19—高等学校学生数(单位:人) 20—各类专业技术人员(单位:万人) 21—医院、卫生院数(单位:个)

4.1 因子分析的结果

由于经济指标太多,不利于我们进行问题的分析,因此我们需要对其进行降维处理。用spss 软件可得到上述经济指标的相关系数矩阵,除了少数指标之间的相关性较低外,其他指标之间均有较强的相关性(全部大于0.3),故可以做因子分析

表2相关系数矩阵

表3 总方差解释解释表

从表中我们可以看到,当保留五个公共因子时,公共因子可以解释原始变

量90.931%的方差,这样就把一个二十一维的问题降至五维。同时spss软件还给出了因子载荷矩阵,见下表:

表4 因子分析的成分矩阵

由上表可以写出特殊因子忽略不计时的因子模型,以第一行为例,有:标准化地区生产总值≈ 0.967 × fac1+0.143 × fac2+0.004 × fac3-0.002 ×fac4+0.010×fac5此时所得未旋转的公因子实际意义不好解释,对公因子进行方差最大化旋转,得到其旋转矩阵:

从上表可以看到,旋转后因子载荷矩阵发生了很大的变化。第一个公共因子基本上反映了地区生产总值与其他行业的信息,大体可以解释为一个城市的综合经济实力以及经济发展的创新能力。第二个因子主要集中了第二产业的信息,可以解释为第二产业对经济的贡献。第三个因子也集中了第二产业的部分信息,但较第二因子而言,它对经济的贡献没第二因子重要。第四个公共因子主要集中了各地区公共支出的信息,可以解释为各地区公共支出对经济的影响。由于第五个公因子不好解释,故我们在这不作解释。事实上,这与我们客观存在的事实是相符合的。对原始的二十一个指标提取共因子后,就可以通过分析少数几个公因子来对个城市进行比较研究了。利用spss 软件可以得到各个城市的经济水平在五个公共因子上的得分,同时也可以得到各个城市的经济水平在五个公共因子上的秩的排序(由于武汉明显比其他城市的各项指标要高出很多,故武汉的综合经济

实力是最强的,所以我们在对各城市的经济水平进行综合排名时除去武汉,此举是实用可行的)。下表即给出了因子得分表以及各城市经济水平在各个公共因子上的排序和综合排名。由于我们只需要研究其综合经济实力,故各因子水平上的排名我们不作过多的说明。由下表我们可以得出这11 个城市的综合经济实力从大到小的排名依次为宜昌、襄樊、黄石、荆州、十堰、鄂州、荆门、随州、孝感、黄冈、咸宁。

表6 因子得分表

FAC1_1 FAC2_1 FAC3_1 FAC4_1 FAC5_1 RFAC1_1

黄石 0.07473 -0.08899 1.90908 -0.77653 - 1.15232 3

十堰 -0.42433 2.15839 -1.29371 0.04057 0.52693 7

宜昌 2.84656 -0.41248 -0.65016 0.10302 -0.04521 1

襄樊 0.43304 .19078 1.51081 0.85165 0.55305 2

鄂州 -0.17004 0.90176 -0.44378 -1.07731 -1.59407 5

荆门 -0.71969 -0.23265 0.79479 0.36231 0.50758 11

孝感 -0.3712 -0.7971 -0.29784 -0.30413 0.12894 6

荆州 -0.09454 -0.30263 0.186 -0.20373 1.95181 4

黄冈 -0.47779 -1.17413 -0.42057 -0.42054 0.37718 8

咸宁 -0.5308 -0.6258 -0.71687 -1.02574 -0.11055 9

续表

RFAC2_1 RFAC3_1 RFAC4_1 RFAC5_1 y Ry 黄石 4 1 9 10 0.14118 3 十堰 1 11 5 3 -0.05439 5 宜昌 7 9 4 7 1.38528 1 襄樊 2 2 2 2 0.64912 2 鄂州 3 7 11 11 -0.16073 6 荆门 5 3 3 4 -0.27601 7 孝感 10 5 7 6 -0.35717 9 荆州 6 4 6 1 -0.00985 4 黄冈 11 6 8 5 -0.47815 10 咸宁 9 10 10 8 -0.52972 11 随州 8 8 1 9 -0.30955 8

4.2 方差分析结果

接下来我们利用方差分析对我们题中的四个地区的经济进行分析,看各个地区的经济是否有显著性差异。用spss 软件得到下面的多变量检验表:表7 方差分析的多元检验表

上表给出了几个统计量,由Sig.值可以看到,无论从哪个统计量来看,四个地区的经济没有显著性差异。由此可知,湖北除武汉以为各个地区发展是均衡的。接着用spss软件可以得到每个公共因子的分析结果,见下表,由表可以看到,五个公共因子的Sig.值分别为0.828,0.336,0.941,0.194及0.216,说明四个地区在五个公共因子上也没有显著性差别。

由因子分析的数据处理过程我们可以看到,湖北省主要的12个城市的综合经济实力是有差别的,武汉市具有雄厚的经济实力,作为特大城市,武汉的总体发展水平雄居榜首。近几年,武汉市在加快经济建设、努力培植新的经济增长点的同时,在交通运输邮电通讯、城市基础设施等方面取得了超常规发展。目前,武汉市形成了集铁路、公路、水路、航空运输于一体的立体综合运输体系,货物吞吐能力大大增强;城市建设己形成了以内环线为中心、中环开通、外环初显雏形的联结三镇的交通网络。从得分情况看,武汉市人口与劳动力子系统、经济规模、居民收入和消费水平、科技、教育与文化等子系统与其他城市相比遥遥领先,其“块头”优势为省内乃至华中地区诸城市所无与伦比。地级城市综合实力层次性明显。从数据处理的十个地级市情况看,大体可分两个层次。第一层次为宜昌、黄石、襄樊、荆州、十堰等

市。这类城市虽有名次之分,但综合实力相当,呈现齐头并进之势。处理的结果表明:宜昌市“人口与劳动力”、“经济发展”、“环境和基础设施”等三个子系统均位居地级市前列,黄石市“经济发展”和“环境与基础设施”得分第二,襄樊市“人口与劳动力”名次较前,居第二位,十堰市的“社会发展”系统得分则占居鳌头。但各子系统得分较为均衡当属宜昌市。评价情况表明,这些城市在促进两个文明建设方面各有建树,有些方面取得了较大的实效。从第二层次看,荆门、鄂州、孝感、黄冈和咸宁等市的综合实力相对偏弱,

5 总结及建议

由因子分析的数据处理过程我们可以看到,湖北省主要的12个城市的综合

经济实力是有差别的,武汉市具有雄厚的经济实力,作为特大城市,武汉的总体发展水平雄居榜首。近几年,武汉市在加快经济建设、努力培植新的经济增长点

的同时,在交通运输邮电通讯、城市基础设施等方面取得了超常规发展。目前,武汉市形成了集铁路、公路、水路、航空运输于一体的立体综合运输体系,货物吞吐能力大大增强;城市建设己形成了以内环线为中心、中环开通、外环初显雏形的联结三镇的交通网络。从得分情况看,武汉市人口与劳动力子系统、经济规模、居民收入和消费水平、科技、教育与文化等子系统与其他城市相比遥遥领先,其“块头”优势为省内乃至华中地区诸城市所无与伦比。

地级城市综合实力层次性明显。从数据处理的十个地级市情况看,大体可分两个层次。第一层次为宜昌、黄石、襄樊、荆州、十堰等市。这类城市虽有名次之分,但综合实力相当,呈现齐头并进之势。处理的结果表明:宜昌市“人口与劳动力”、“经济发展”、“环境和基础设施”等三个子系统均位居地级市前列,黄石市“经济发展”和“环境与基础设施”得分第二,襄樊市“人口与劳动力”名次较前,居第二位,十堰市的“社会发展”系统得分则占居鳌头。但各子系统得分较为均衡当属宜昌市。评价情况表明,这些城市在促进两个文明建设方面各有建树,有些方面取得了较大的实效。

从第二层次看,荆门、鄂州、孝感、黄冈和咸宁等市的综合实力相对偏弱,在全国评价中属三类或四类城市。但通过近几年的发展,总体实力正在上升,有些系统得分有较大提高。如荆门市经济发展较快,该系统得分位居全省第四,鄂州市“社会发展”,子系统得分也居第四名。但综合考察表明,在“人口与劳动力”、“社会发展”、“经济发展”和“环境与基础设施”四个系统中,这些城市有的在某一方面较为突出,而其他方面则得平平;有的部分系统得分较高但因少数系统得分过低而拖了“后腿”。说明在城市均衡发展、协调进步方面还有很多工作要做。

由方差分析的数据处理结果我们可以看到,以武汉为中心,根据地理位置将这12个城市划分为四个地区:武汉以东的地区(黄石、鄂州、黄冈)、武汉以南的地区(孝感、荆州)、武汉以西的地区(宜昌、荆门、随州)、武汉以北的地区(十堰、襄樊、咸宁)这四个地区的经济发展趋于稳定。

为此我们对湖北省各个城市今后的发展作出如下的建议:

我省城市化水平在全国居中上游水平,城市化道路变小城镇主导为大城市主导具有较好条件。湖北城市化的发展方针应该是:充分发挥特大城市优势,壮大完善大城市,因地制宜发展中小城市,择优发展小城镇。充分发挥特大城市优势。就是充分发挥首位城市武汉的作用。

武汉作为目前我省唯一的特大城市,也是华中和长江中游地区最大城市,应在城市化中发挥龙头作用。壮大完善大城市。宜昌、襄樊、荆州、黄石4 个现有50 万以上市区非农业人口的大城市要进一步壮大规模,完善功能。其中,宜昌、襄樊要加快向100万人口的特大城市迈进的步伐,为我省西部地区的城市化和区域经济发展发挥“发动机”和“推进器”的作用。

因地制宜发展中小城市。我省中等城市规模偏小,小城市实力也很弱。从我省实际出发,要因地制宜发展中小城市。十堰、荆门、鄂州等几个条件较好的中等城市要积极向大城市发展,其中十堰要尽快建成大城市。要力争建设一批城区聚居人口在20 万以上的中等城市和城区聚居人口在10—20 万的小城市。从经济发展角度讲,应鼓励所有县级市向中等城市发展,实行公平竞争。目前已经设立地级市的城市和直管市,要努力发展经济,搞好城市建设,健全城市功能,壮大综合实力,建成名副其实的中等城市。要鼓励和支持一批区位条件好、发展潜力大的县级市和县建成中等城市或小城市江汉平原对武汉市具有极其重要的战略

价值。

武汉因江汉平原而兴,也必然不能脱离江汉平原而发展。江汉平原是湖北省的富庶之地,原来评为“十强县市”十之八九在江汉平原,它们在武汉以西形成半月形拱己之势,在经济发展战略上和功能分工上比较容易与武汉市实现一体化发展格局,成为武汉进一步发展可依托的厚实的腹地。在江苏省,为什么省会南京的经济实力会被省内的苏州、无锡超过,一个很重要的原因就在于南京周围都是较穷的农村,而苏南农村自改革开放以来则是全国最富饶的地区,形成连片中小城市群,所以苏州、无锡具有坚实的腹地,具有了超越南京的基础和条件。现在搞的“武汉都市圈”主要包括东部地区,江汉平原只覆盖了东半部,而江汉平原最主要的两个城市荆州、荆门没有包括进去,其理由是这两个城市空间距离与武汉远一些。实际上,高速公路到荆州只需2 个半小时,这比到天门的时间不会长多少。而2002 年9 月长荆铁路通车后,武汉到荆门的距离被“拉”直了,而且“十一五”期间,武汉到荆门的高速修通之后,往来会更方便,所需时间与到荆州相同。因此,建议将荆州、荆门两市纳入“武汉大都市圈”范围,以利江汉平原的整体发展,构成武汉市完整的腹地,实现武汉市与江汉平原的良性互助,共同发展,早日形成在全国具有较大影响的城市密集区。

其次,还要建设宜昌都市区和襄樊都市区。武汉都市区覆盖鄂东地区和江汉平原,宜昌都市区覆盖鄂西南,襄樊都市区覆盖鄂西北地区。要通过三大都市区的建设,优化我省区域城镇布局,加强都市区内城镇布局网络化,统筹安排区域内重要基础设施,避免重复建设,努力发挥集约效应、突破作用和“拳头”功能,以促进工业化和城市化的发展。

当然,提“一主两副”并不是不重视其他大城市的发展,而是更准确地调整各个城市的定位,以利于各大城市和其他中小城市更快地发展。目前的大城市中,荆州、黄石能发展多快就鼓励、支持发展多快,未来10 年如也可以发展成为特大城市,那当然是大好事,但目前不宜做“空头”规划。到2020 年,荆州、黄石将建设成为特大城市。十堰市应继续作为大城市支持发展。还需要特别指出的是,“副中心城市”和“城市群”的提法,是从经济和城市发展的角度提出的,是为了给各个城市准确定位,搞好城市建设中的布局,促进所有城市的发展,这与行政级武汉理工大学《多元统计分析课程设计》论文别无关,不存在谁高谁低、谁大谁小的问题,更不存在谁服从谁的问题。各城市应树立全局意识,充分认识自身的经济、区位、资源、人员、历史等因素,选择独具特色的城市发展功能,既要有竞争观念,又要考虑与周边城市的关系,加强城市群内部和城市群之间的分工与协作,分工越明确、协作性越高,其功能也就越强大,城市发展就越快。

参考文献

[1] 中国统计年鉴2004 年.中国统计出版社.

[2] 何晓群编著.《多元统计分析》.中国人民大学出版社2004 年版.

[3] Richard A.Johnson Dean W.Wichern 著.陆璇葛余博等译.清华大学出版社第四版.

[4] 卢纹岱. SPSS for Windows 统计分析[M].北京:电子工业出版社,2000.

[5] 宇传华编. 《SPSS 与统计分析》.电子工业出版社2007 年版.

[6] 罗积玉邢瑛.经济统计分析方法__2012

评阅书

应用多元统计分析课后答案

2.1.试叙述多元联合分布和边际分布之间的关系。 解:多元联合分布讨论多个随机变量联合到一起的概率分布状况,12(,,)p X X X X '=L 的联合分布密 度函数是一个p 维的函数,而边际分布讨论是12(,,)p X X X X '=L 的子向量的概率分布,其概率密度 函数的维数小于p 。 2.2设二维随机向量1 2()X X '服从二元正态分布,写出其联合分布。 解:设1 2()X X '的均值向量为()1 2μμ'=μ,协方差矩阵为21 122212σσσσ?? ? ?? ,则其联合分布密度函数为 1/2 12 2 2112112222122121()exp ()()2f σσσσσσσσ--???????? '=---?? ? ??? ?????? x x μx μ。 2.3已知随机向量12()X X '的联合密度函数为 12121222 2[()()()()2()()] (,)()()d c x a b a x c x a x c f x x b a d c --+-----= -- 其中1a x b ≤≤,2c x d ≤≤。求 (1)随机变量1X 和2X 的边缘密度函数、均值和方差; (2)随机变量1X 和2X 的协方差和相关系数; (3)判断 1X 和2X 是否相互独立。 (1)解:随机变量 1X 和2X 的边缘密度函数、均值和方差; 11212122 2[()()()()2()()] ()()()d x c d c x a b a x c x a x c f x dx b a d c --+-----=--? 1221222222 2()()2[()()2()()]()()()() d d c c d c x a x b a x c x a x c dx b a d c b a d c -------=+----? 121 222202()()2[()2()]()()()() d d c c d c x a x b a t x a t dt b a d c b a d c ------= +----? 221212222 2()()[()2()] 1()()()()d c d c d c x a x b a t x a t b a d c b a d c b a ------=+= ----- 所以 由于1X 服从均匀分布,则均值为2b a +,方差为 ()2 12 b a -。

多元统计分析期末复习试题

第一章: 多元统计分析研究的内容(5点) 1、简化数据结构(主成分分析) 2、分类与判别(聚类分析、判别分析) 3、变量间的相互关系(典型相关分析、多元回归分析) 4、多维数据的统计推断 5、多元统计分析的理论基础 第二三章:

二、多维随机变量的数字特征 1、随机向量的数字特征 随机向量X 均值向量: 随机向量X 与Y 的协方差矩阵: 当X=Y 时Cov (X ,Y )=D (X );当Cov (X ,Y )=0 ,称X ,Y 不相关。 随机向量X 与Y 的相关系数矩阵: 2、均值向量协方差矩阵的性质 (1).设X ,Y 为随机向量,A ,B 为常数矩阵 E (AX )=AE (X ); E (AXB )=AE (X )B; D(AX)=AD(X)A ’; Cov(AX,BY)=ACov(X,Y)B ’; (2).若X ,Y 独立,则Cov(X,Y)=0,反之不成立. (3).X 的协方差阵D(X)是对称非负定矩阵。例2.见黑板 三、多元正态分布的参数估计 2、多元正态分布的性质 (1).若 ,则E(X)= ,D(X)= . )' ,...,,(),,,(2121P p EX EX EX EX μμμ='= )' )((),cov(EY Y EX X E Y X --=q p ij r Y X ?=)(),(ρ) ,(~∑μP N X μ ∑ p X X X ,,,21

特别地,当 为对角阵时, 相互独立。 (2).若 ,A为sxp 阶常数矩阵,d 为s 阶向量, AX+d ~ . 即正态分布的线性函数仍是正态分布. (3).多元正态分布的边缘分布是正态分布,反之不成立. (4).多元正态分布的不相关与独立等价. 例3.见黑板. 三、多元正态分布的参数估计 (1)“ 为来自p 元总体X 的(简单)样本”的理解---独立同截面. (2)多元分布样本的数字特征---常见多元统计量 样本均值向量 = 样本离差阵S= 样本协方差阵V= S ;样本相关阵R (3) ,V分别是 和 的最大似然估计; (4)估计的性质 是 的无偏估计; ,V分别是 和 的有效和一致估计; ; S~ , 与S相互独立; 第五章 聚类分析: 一、什么是聚类分析 :聚类分析是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。用于对事物类别不清楚,甚至事物总共可能有几类都不能确定的情况下进行事物分类的场合。聚类方法:系统聚类法(直观易懂)、动态聚类法(快)、有序聚类法(保序)...... Q-型聚类分析(样品)R-型聚类分析(变量) 变量按照测量它们的尺度不同,可以分为三类:间隔尺度、有序尺度、名义尺度。 μ ) ,(~∑μP N X ) ,('A A d A N s ∑+μ) () 1(,,n X X X )' ,,,(21p X X X )' )(() () (1 X X X X i i n i --∑=n 1 X μ∑μ X ) 1 , (~∑n N X P μ) ,1(∑-n W p X X

多元统计分析报告完整版

多元统计分析报告标准化管理处编码[BBX968T-XBB8968-NNJ668-MM9N]

随着经济的发展,这个差距越来越大。 由于我国人口众多,素质较低,而且就业观念较落后,导致我国劳动力普遍廉价,就业职工工资普遍低下。刚毕业的大学生人数众多,城市发展速度与农村发展速度不平衡,各省市自治区的就业条件和国家政策,就业环境不同,导致职工工资存在行业间的工资水平存在着巨大的差异,从另一个方面反映出了中国贫富差距的不断扩大。对我国就业人员职工工资的研究,对我国的社会保障政策和就业政策,教育政策等具有重要的决策意义。

也为对我国经济社会的研究提供了一个因素。我国就业职工工资水平的行业间的差异已经日益成为我国政府重视的一个问题。 [关键词] 不同行业就业平均工资 一、引言 当前我国处于经济发展快速时期,由于我国人口总数较大,就业人员众多。因此,就业问题成为了我国社会的一个焦点问题。研究好行业间就业问题以及就业职工工资问题,能够有效的把握好社会状况,能够帮助大学生更准确的定位自己,找到自己满意的工作。制定正确的就业政策和社会保障,社会福利政策,来促进大学生的就业问题以及我国国民经济的发展。 本文选取2013年我国各行业城镇单位就业人员平均工资的数据,主要利用以下几种统计方法进行分析:因子分析法、聚类分析法。将全国各省按照不同行业就业人数进行分类和排序,并与人们实际观察到的情况进行比较分析。 因子分析是指研究从变量群中提取共性因子的统计技术。因子分析可在许多变量中找出隐藏的具有代表性的因子。将相同本质的变量归入一个因子,可减少变量的数目,还可检验变量间关系的假设。 聚类分析是一组将研究对象分为的群组的统计分析技术,依据研究对象(样品或指标)的特征,对其进行分类的方法,减少研究对象的数目。 二、数据 下表是我国按行业分城镇单位就业人员平均工资的原始数据,数据来源于《2013中

多元统计分析(最终版)

题目:研究不同温度与不同湿度对粘虫发育历期的影响,得试验数据如表。分析不同温度和湿度对粘虫发育历期的影响是否存在着显著性差异。(注:要对方差齐性进行检验) 不同温度与不同湿度粘虫发育历期表 根据上述题目,分析结果如下。 一、相关理论概述 F检验与方差齐性检验 在方差分析的F检验中,是以各个实验组内总体方差齐性为前提的,因此,按理应该在方差分析之前,要对各个实验组内的总体方差先进行齐性检验。如果各个实验组内总体方差为齐性,而且经过F检验所得多个样本所属总体平均数差异显著,这时才可以将多个样本所属总体平均数的差异归因于各种实验处理的不同所致;如果各个总体方差不齐,那么经过F 检验所得多个样本所属总体平均数差异显著的结果,可能有一部分归因于各个实验组内总体方差不同所致。 但是,方差齐性检验也可以在F检验结果为多个样本所属总体平均数差异显著的情况下进行,因为F检验之后,如果多个样本所属总体平均数差异不显著,就不必再进行方差齐性检验。本文分析数据采用后一种方法,即先F检验再方差齐次性检验。

二、从单因子方差角度分析 (一)在假定相对湿度不变的情况下分析 1、假定相对湿度恒为40%,分析不同温度对粘虫发育历期的影响。如下表: 温度℃ 重复 25 27 29 31 1 100. 2 90.6 77.2 73.6 2 103. 3 91.7 85.8 73.2 3 98.3 94.5 81.7 76. 4 4 103.8 92.2 79.7 72. 5 Ti 405. 6 369 324.4 295.7 T 2 i 164511.36 136161 105235.36 87438.49 在本例中,r=4,m=4, n=16 , =1394.7, = 123413.4696 T 2 /n=(1394.7)2/ 16=121574.2556 (式1) ( 式2) (式3) S E =S T -S A =1839.214-1762.297=76.917 (式4) 数据的方差分析表见表1. 表1 粘虫发育历期方差分析表 粘虫发育历期 (相对湿度40%) 来源 平方和 df 均方 F 显著性 组间 1762.297 3 587.432 91.646 .000 组内 76.917 12 6.410 总数 1839.214 15 分析表1可知,F 0.05(3,12)=3.49,F 值=,91.646,F>F 0.05,P=0.000<0.05,说明在相对湿度为40%时,不同温度对粘虫发育历期有显著影响。同时,在方差齐次性检验中P=0.304>0.05,说明方差齐次性显著,如下表。以下方差齐次性检验于此类同,限于篇幅,直接得出结果,方差齐性检验 粘虫发育历期 Levene 统计量 df1 df2 显著性 1.351 3 12 .304 相关程序源代码附录如下:DATASET ACTIV ATE 数据集0. ONEW AY 粘虫发育历期 BY X2 /STA TISTICS HOMOGENEITY =493346.2105/4-121574.2556=1762.297 =123413.4696-121574.2556=1839.214

多元统计学SPSS实验报告一

华东理工大学2016–2017学年第二学期 《多元统计学》实验报告 实验名 称实验1数据整理与描述统计分析

教师批阅:实验成绩: 教师签名: 日期: 实验报告正文: 实验数据整理 (一)对“employee”进行数据整理 1.观察量排序 ( based on current salary) 2.变量值排序(based on current salary : rsalary) 3.计算新的变量(incremental salary=current salary - beginning salary)

4.拆分数据文件(based on gender) 结论:There are 215 female employees and 259 male employees. 5.分类汇总 (break variable: gender ; function: mean ) 结论:The average current salary of female is . The average current salary of male is . (二)分别给出三种工作类别的薪水的描述统计量 实验描述统计分析 1)样本均值矩阵 结论:总共分析六组变量,每组含有十个样本。 每股收益(X1)的均值为;净资产收益率(X2)的均值为;总资产报酬率(X3)的均值为;销售净

利率(X4)的均值为;主营业务增长率(X5)的均值为;净利润增长率(X6)的均值为. 2)协方差阵 结论:矩阵共六行六列,显示了每股收益(X1)、净资产收益率(X2)、总资产报酬率(X3)、销售净利率(X4)、主营业务增长率(X5)和净利润增长率(X6)的协方差。 3)相关系数 结论:矩阵共六行六列,显示了每股收益 (X1)、净资产收益率(X2)、总资产报酬 率(X3)、销售净利率(X4)、主营业务增 长率(X5)和净利润增长率(X6)之间的 相关系数。 每格中三行分别显示了相关系数、显著性 检验与样本个数。 4)矩阵散点图

多元统计分析课程设计

多元统计分析课程设计 题目:《因子分析在环境污染方面的应用》 姓名:王厅厅 专业班级:统计学2014级2班 学院:数学与系统科学学院 时间:2016年1月 3 日

目录 1.摘要: (1) 2.引言: (1) 背景 (1) 问题的研究意义 (1) 方法介绍 (2) 3.实证分析 (10) 指标 (10) 原始数据 (10) 数据来源 (13) 分析过程: (13) 4.结论及建议 (25) 5.参考文献 (26)

1.摘要: 中国的环境问题,由于中国政府对环境问题的关注,环境法律日趋完善,执法力度加大,对环境污染治理的投人逐年有较大幅度的增加,中国环境问题已朝着好的方面发展。但是,仍存在着环境问题,主要体现在环境污染问题,其中主要为水污染和大气污染。 关键词:环境污染水污染大气污染因子分析2.引言: 背景: 我国的环境保护取得了明显的成就,部分地区环境质量有所改善。但是,从整体上看,我国的环境污染仍在加剧,环境质量还在恶化。大气二氧化硫含量居高不下,境质量呈恶化趋势,固体废弃物污染量大面广,噪声扰民严重,环境污染事故时有发生。据中国社会科学院公布的一项报告表明:中国环境污染的规模居世界前列。 问题的研究意义: 为分析比较各地环境污染特点,利用因子分析对环境污染的各个指标进行降维处理并得到影响环境的内在因素,进一步对环境污染

原因及治理措施进行分析,让更多的人认识到环境的重要性,准确把握各地区环境治理方法以及针对不同地区制定不同的政策改善环境问题,这对综合治理环境问题具有重要意义。 方法介绍 因子分析的意义:变量间的信息的高度重叠和高度相关会给统计方法的应用设置许多障碍。为解决此问题,最简单和最直接的解决方案是削减变量个数,但这必然会导致信息丢失和 信息不完全等问题的产生。为此人们希望探索一种更有效地解决方法,它既能大幅减少参与数据建模的变量个数,同时也不会造成信息的大量丢失。因子分析正是这样一种能够有效降低变量维数的分析方法。 因子分析的步骤: ·因子分析的前提条件:要求原有变量之间存在较强的相关关系。 ·因子提取:将原有变量综合成少数几个因子是因子分析的核心内容。 若存在随机向量 ) (),,(1p q F F F q ≤'=Λ及 ),,(1' =p εεεΛ,使 ??????????+??????????????????? ?=??????????p q pq p q p F F a a a a X X εεM M ΛM M ΛM 1111111 简记为ε+=AF X ,且 (1) q I F D F E ==)(,0)((标准化);

多元统计分析

系统聚类法的几种不同的方法: 一.组间连接法Dendrogram using Average Linkage (Between Groups) Rescaled Distance Cluster Combine C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+ 6 -+ 9 -+ 2 -+ 12 -+ 4 -+ 10 -+ 1 -+ 7 -+ 14 -+ 3 -+ 15 -+---------+ 11 -+ +-------------------------------------+ 5 -+ | | 8 -----------+ | 13 -------------------------------------------------+ 二.组内连接法 Dendrogram using Average Linkage (Within Group) Rescaled Distance Cluster Combine C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+ 6 -+ 9 -+ 2 -+ 12 -+ 4 -+ 10 -+ 1 -+ 3 -+ 7 -+ 14 -+-+ 15 -+ +-------+ 11 -+ | +-------------------------------------+ 5 ---+ | | 8 -----------+ | 13 -------------------------------------------------+ 三.Dendrogram using Single Linkage Rescaled Distance Cluster Combine C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+ 6 -+ 9 -+ 2 -+ 12 -+ 4 -+ 10 -+

多元统计分析方法在商业企业中的应用_党玮

65 《商场现代化》2006年10月(上旬刊)总第481期 一、引言 多元统计分析是统计学中一个非常重要的分支。在国外,从20世纪30年代起,已开始在自然科学、管理科学、社会和经济等领域广泛应用。我国自20世纪80年代起在许多领域拉开了多元统计分析应用的帷幕,20多年来在多元统计分析的理论研究和应用上取得了很显著的成绩。 在商业企业经营过程中,往往需要对诸如产品销售收入、产品销售成本、产品销售费用、产品销售税金及附加、产品销售利润、管理费用、利润总额、利税总额等变量进行分析和研究,如何同时对多个变量的观测数据进行有效的分析和研究,这就需要利用多元统计分析方法来解决,通过对多个变量观察数据的分析,来研究变量之间的相互关系以及揭示这些变量之间内在的变化规律。实践证明,多元分析是实现做定量分析的有效工具。 二、多元统计分析研究的主要内容 在当前科技和经济迅速发展的今天,在国民经济许多领域中,特别是对社会现象的分析,只停留在定性分析的基础上是不够的,为提高科学性、可靠性,通常需要定性和定量的分析。如果说一元统计方法是研究一个随机变量统计科学的规律,那么多元统计分析方法是研究多个随机变量之间相互依赖关系以及内在统计规律性的一门统计学科。同时,利用多元统计分析中不同的方法可以对研究对象进行分类和简化。 多元统计分析包括的主要内容有:聚类分析、判别分析、主成分分析、因子分析、对应分析、典型相关分析等。 三、多元统计分析方法在商业企业中的应用 在这里,重点研究聚类分析、判别分析、主成分分析、因子分析方法及其在商业企业中的应用。 1.聚类分析 随着生产技术和科学的发展,人类的认识不断加深,分类越来越细,要求也越来越高,光凭经验和专业知识是不能确切分类的,往往需要定量和定性的分析结合起来去分类,于是数学工具逐渐被引进分类学中,形成了数值分类学。后来随着多元分析的引进,聚类分析逐渐从数值分类学中脱离出来而形成一个相对独 立的分支。 聚类分析又称群分析,它是研究分类问题的一种多元统计方 法。所谓类,通俗地说,就是指相似元素的集合。聚类分析的基本思想是首先将每个样本当作一类,然后根据样本之间的相似程度并类,并计算新类与其它类之间的距离,再选择相近者并类,每合并一次减少一类,继续这一过程,直到所有样本都并成一类为止。所以,聚类分析依赖于对观测间的接近程度(距离)或相似程度的理解,定义不同的距离量度和相似性量度就可以产生不同的聚类结果。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。 在企业销售领域,销售商需要考虑对不同生产企业生产的同名称商品的分类问题。例如,某商场对销售的20种啤酒进行分类,以便对不同类别的啤酒采用不同的销售策略,变量包括啤酒名称、热量卡路里、钠含量、酒精含量、价格。根据以上指标, 利用聚类分析可以实现把同一类型的啤酒企业归到同一类别。再如商业企业制定商品销售价格时,需要对某个大城市的物价指数进行考察,而物价指数很多,有农用生产物价指数、服务项目物价指数、食品消费物价指数、零售价格指数等等。由于要考察的价格指数很多,通常先对这些价格指数利用聚类分析方法进行分类。 2.判别分析 在生产、科研和日常生活中经常需要根据观测到的数据资料,对所研究的对象进行分类。判别分析是判断样品所属类型的一种多元统计分析方法,其目的是对已知分类的数据,建立由数值指标构成的分类规则,然后把这样的规则应用到未知分类的样本中去分类。 判别分析与聚类分析不同。判别分析是已知研究对象分成若干类型并取得各种类型的一批已知样品的观测数据,在此基础上根据某些准则建立判别式,然后对未知类型的样品进行判别分析。 判别分析内容很丰富,方法很多。判别分析按判别的组数来区分,有两组判别分析和多组判别分析;按区分不同总体所用的模型来分,有线性判别和非线性判别;按判别式所处理的变量方法不同,又分逐步判别和序贯判别等。判别分析可以从不同角度提出问题,因此有不同的判别准则,如马氏距离最小准则、Fisher准则、平均损失最小准则、最小平方准则、最大似然准则、最大概率准则等等。 商业企业在市场预测中,往往根据以往所调查的种种指标,用判别分析方法判断下季度是畅销、平销或滞销。当然,判别分析与聚类分析常常联合起来使用。在聚类分析中,某商场对销售的20种啤酒进行分类,假定分类结果为一级品、二级品及三级品,现在判断某种新商标的啤酒属于哪个级别的产品就需要用判别分析。 3.主成分分析 在实际问题中,研究多指标(变量)问题是经常遇到的,然而在多数情况下,不同指标之间有一定相关性。由于指标较多,再加上指标之间有一定的相关性,势必增加了分析问题的复杂性。主成分分析就是设法将原来指标重新组合成一组新的互相无关的几个综合指标来代替原来指标,同时根据实际需要从中可取几个较少的综合指标,尽可能多地反映原来指标的信息,这种将多个指标化为少数相互无关的综合指标的统计方法,叫做主成分分析 多元统计分析方法在商业企业中的应用 党 玮 石河子大学商学院 [摘 要] 随着市场经济的发展和竞争的日益激烈,如何运用科学的分析方法,对收集到的数据做出准确、及时的分析并制定正确的决策,已成为企业极为关注的问题。本文重点介绍了多元统计分析方法中的聚类分析、判别分析、主成分分析、因子分析及其在商业企业中的应用。 [关键词] 多元统计 分析方法 商业企业

何晓群多元统计分析(数据)

第二章数据 行业公司简称净资产 收益 率% 总资产 报酬 率% 资产负 债率% 总资产周 转率 流动资 产周转 率 已获利 息倍数 销售增 长率% 资本积 累率% 电力、煤气及水的生产和供应业深能源A16.8512.35 42.32 0.37 1.78 7.18 45.73 54.54 深南电A2215.30 46.51 0.76 1.77 15.67 48.11 19.41 富龙热力8.977.98 30.56 0.17 0.58 10.43 17.80 9.44 穗恒运A10.258.99 40.44 0.46 2.46 5.06 11.06 1.09 粤电力A20.8120.00 35.87 0.43 1.25 34.89 24.77 12.67 韶能股份8.867.52 27.59 0.24 0.84 20.59 -3.50 54.02 惠天热电10.987.94 49.30 0.36 0.69 12.43 16.88 3.52 原水股份8.858.88 36.20 0.13 0.41 8.53 -11.49 2.44 大连热电9.037.41 46.89 0.28 0.79 6.86 16.23 -1.52 龙电股份12.078.70 16.81 0.28 0.68 29.75 4.11 63.06 华银电力 6.85 6.12 41.93 0.24 0.65 4.38 11.20 3.80 房地行业长春经开9.8510.50 31.23 0.34 0.40 17.13 18.05 7.18 兴业房产 1.07 1.52 66.91 0.21 0.24 1.53 -31.93 1.08 金丰投资19.447.01 73.34 0.26 0.30 7.02 71.22 12.73 新黄浦7.61 5.92 39.64 0.16 0.17 4.20 14.77 7.91 浦东金桥 4.24 3.99 37.30 0.20 0.25 3.98 -9.24 4.69 外高桥 1.673 1.92 49.05 0.03 0.05 1.06 -21.74 0.24 中华企业8.78 6.28 57.42 0.17 0.19 3.58 75.29 2.93 渝开发A0.2 2.24 63.40 0.09 0.15 1.07 -12.56 0.29 辽房天8.12 3.98 69.10 0.10 0.72 2.65 -35.83 3.16 粤宏远A0.42 1.16 37.42 0.09 0.15 1.59 19.18 0.43 ST中福 5.17 6.62 65.48 0.16 0.21 1.33 -19.91 23.74 倍特高新0.72 2.76 65.39 0.30 0.42 1.24 8.40 0.70 三木集团 5.99 4.53 65.17 0.74 0.88 4.14 75.36 0.87 寰岛实业0.420.20 24.03 0.02 0.03 -8.18 -71.33 0.42 中关村9.32 4.48 67.76 0.32 0.37 16.42 -29.42 4.09 信息技术 业中兴通讯18.7811.09 69.15 0.93 1.08 4.79 80.80 23.27 长城电脑14.949.48 45.53 1.14 1.85 9.51 34.47 35.93 青鸟华光9.7888.70 36.67 0.28 0.39 13.11 28.36 7.87 清华同方15.919.08 34.19 0.85 1.19 15.61 98.92 95.66 永鼎光缆9.48.67 32.75 0.79 1.25 13.49 41.75 6.33 宏图高科14.577.96 65.86 0.76 0.94 3.95 54.45 15.71 海星科技 4.06 3.35 36.49 0.48 0.60 4.64 -16.28 1.69 方正科技27.4816.69 57.13 2.51 2.87 7.40 63.27 32.02

应用多元统计分析应用报告(DOC)

应用多元统计分析 课程报告 班级专业:_ 市调0901 _ 学号: 2009***** __ 姓名:__ CYQ _____ 成绩:______________ 2010年10月7日

我国部分城市主要经济指标统计 ——官方与民间数据差异分析 一、引言 经济指标是反映一定社会经济现象数量方面的名称及其数值。本题主要经济指标包括人均GDP 1x (元)、人均工业产值2x (元)、客运总量3x (万人)、货运总量4x (万吨)、5x (亿元)、固定资产投资总额6x (亿元)、在岗职工占总人口的比例7x (%)、在岗职工人均工资额8x (元)、城乡居民年底储蓄余额9x (亿元)。所以我们借助这一指标体系对我国部分城市的主要经济指标进行分析。 二、数据分析 过程 1. 在SPSS 窗口中选择Analyze→Classify→Hierachical Cluster ,调出系统聚类分析主界面,并将变量X 1~X 5移入Variables 框中。在Cluster 栏中选择Cases 单选按钮,即对样品进行聚类(若选择Variables ,则对变量进行聚类)。在Display 栏中选择Statistics 和Plots 复选框,这样在结果输出窗口中可以同时得到聚类结果统计量和统计图。

2. 点击Statistics按钮,设置在结果输出窗口中给出的聚类分析统计 量。这里我们选择系统默认值,点击Continue按钮,返回主界面。 3. 点击Plots按钮,设置结果输出窗口中给出的聚类分析统计图。选 中Dendrogram复选框和Icicle栏中的None单选按钮,即只给出聚类树形图,而不给出冰柱图。单击Continue按钮,返回主界面。 4. 点击Method按钮,设置系统聚类的方法选项。这里我们仍然均沿 用系统默认选项。单击Continue按钮,返回主界面。 5. 点击Save按钮,指定保存在数据文件中的用于表明聚类结果的新 变量。None表示不保存任何新变量;Single solution表示生成一

多元统计分析重点归纳.归纳.docx

多元统计分析重点宿舍版 第一讲:多元统计方法及应用;多元统计方法分类(按变量、模型、因变量等) 多元统计分析应用 选择题:①数据或结构性简化运用的方法有:多元回归分析,聚类分析,主成分分析,因子分析 ②分类和组合运用的方法有:判别分析,聚类分析,主成分分析 ③变量之间的相关关系运用的方法有:多元回归,主成分分析,因子分析, ④预测与决策运用的方法有:多元回归,判别分析,聚类分析 ⑤横贯数据:{因果模型(因变量数):多元回归,判别分析相依模型(变量测度):因子分析,聚类分析 多元统计分析方法 选择题:①多元统计方法的分类:1)按测量数据的来源分为:横贯数据(同一时间不同案例的观测数据),纵观数据(同样案例在不同时间的多次观测数据) 2)按变量的测度等级(数据类型)分为:类别(非测量型)变量,数值型(测量型)变量 3)按分析模型的属性分为:因果模型,相依模型 4)按模型中因变量的数量分为:单因变量模型,多因变量模型,多层因果模型 第二讲:计算均值、协差阵、相关阵;相互独立性 第三讲:主成分定义、应用及基本思想,主成分性质,主成分分析步骤 主成分定义:何谓主成分分析 就是将原来的多个指标(变量)线性组合成几个新的相互无关的综合指标(主成分),并使新的综合指标尽可能多地反映原来的指标信息。 主成分分析的应用 :(1)数据的压缩、结构的简化;(2)样品的综合评价,排序 主成分分析概述——思想:①(1)把给定的一组变量X1,X2,…XP ,通过线性变换,转换为一组不相关的变量Y1,Y2,…YP 。(2)在这种变换中,保持变量的总方差(X1,X2,…Xp 的方差之和)不变,同时,使Y1具有最大方差,称为第一主成分;Y2具有次大方差,称为第二主成分。依次类推,原来有P 个变量,就可以转换出P 个主

多元统计分析自己写

多元统计分析有哪些应用? 比较 关系 预测 分类 评价 各种应用对应的多元统计分析方法 比较:多元方差分析 关系:回归模型 预测:回归模型 分类:聚类分析与判别分析、回归模型 评价:主成分分析与因子分析 ?多元回归、logisitic回归、Cox回归、Poisson回归 多元统计分析方法主要内容 多元T检验、多元方差分析 ?Hotelling T2 ?multivariate analysis of variance (MANOV A) 多元线性回归(multivariate linear regression) logistic回归(logistic regression) Cox比例风险模型(Cox model) Poisson回归(Poisson regression) 聚类分析(cluster analysis) 判别分析(discriminant analysis) 主成分分析和因子分析 生存分析 本课程的要求 上机做练习,分析实际资料 学会看文献,判断统计分析的应用是否正确 统计软件SAS,或Stata, SPSS10.01 考试: 理论占30%,实验占70% 二、多元统计分析的基本概念 研究因素从广义的角度看,所有可以测量的变量都可以成为研究因素,比如:年 龄、性别、文化程度、人体的各种生物学特征和生理生化指标环境因素、心理因素等。狭义来看,研究因素是指可能与研究目的有关的影响因素 多元统计分析对多变量样本的要求 ①分布:多元正态分布、相互独立、多元方差齐 ②样本含量 目前尚没有多元分析的样本含量估计方法,一般认为样本含量应超过研究因素5-10倍以上即可。 数值变量→分类成有序分类变量 哑变量的数量=K-1(K为分类数)

数学建模多元统计分析

实验报告 一、实验名称 多元统计分析作业题。 二、实验目的 (一)了解并掌握主成分分析与因子分析的基本原理和简单解法。 (二)学会使用matlab编写程序进行因子分析,求得特征值、特征向量、载荷矩阵等值。(三)学会使用排序、元胞数组、图像表示最后的结果,使结果更加直观。 三、实验内容与要求

四、实验原理与步骤 (一)第一题: 1、实验原理: 因子分析简介: (1) 1.1 基本因子分析模型 设p维总体x=(x1,x2,....,xp)'的均值为u=(u1,u2,....,u3)',因子分析的一般模型为 x1=u1+a11f1+a12f2+........+a1mfm+ε 1 x2=u2+a21f1+a22f2+........+a2mfm+ε 2 ......... xp=up+ap1f1+fp2f2+..........+apmfm+εp 其中,f1,f2,.....,fm为m个公共因子;εi是变量xi(i=1,2,.....,p)所独有的特殊因子,他们都是不可观测的隐变量。称aij(i=1,2,.....,p;j=1,2,.....,m)为变量xi的公共因子fi上的载荷,它反映了公共因子对变量的重要程度,对解释公共因子具有重要的作用。上式可以写为矩阵形式 x=u+Af+ε

其中A=(aij)pxm 称为因子载荷矩阵;f=(f1,f2,....,fm)'为公共因子向量;ε=(ε1,ε2,.....εp)称为特殊因子向量 (2) 1.2 共性方差与特殊方差 xi的方差var(xi)由两部分组成,一个是公共因子对xi方差的贡献,称为共性方差;一个是特殊因子对xi方差的贡献,称为特殊方差。每个原始变量的方差都被分成了共性方差和特殊方差两部分。 (3) 1.3 因子旋转 因子分析的主要目的是对公共因子给出符合实际意义的合理解释,解释的依据就是因子载荷阵的个列元素的取值。当因子载荷阵某一列上各元素的绝对值差距较大时,并且绝对值大的元素较少时,则该公共因子就易于解释,反之,公共因子的解释就比较困难。此时可以考虑对因子和因子载荷进行旋转(例如正交旋转),使得旋转后的因子载荷阵的各列元素的绝对值尽可能量两极分化,这样就使得因子的解释变得容易。 因子旋转方法有正交旋转和斜交旋转两种,这里只介绍一种普遍使用的正交旋转法:最大方差旋转。这种旋转方法的目的是使因子载荷阵每列上的各元素的绝对值(或平方值)尽可能地向两极分化,即少数元素的绝对值(或平方值)取尽可能大的值,而其他元素尽量接近于0. (4) 1.4 因子得分 在对公共因子做出合理解释后,有时还需要求出各观测所对应的各个公共因子的得分,就比如我们知道某个女孩是一个美女,可能很多人更关心该给她的脸蛋、身材等各打多少分,常用的求因子得分的方法有加权最小二乘法和回归法。 注意:因子载荷矩阵和得分矩阵的区别: 因子载荷矩阵是各个原始变量的因子表达式的系数,表达提取的公因子对原始变量的影响程度。因子得分矩阵表示各项指标变量与提取的公因子之间的关系,在某一公因子上得分高,表明该指标与该公因子之间关系越密切。简单说,通过因子载荷矩阵可以得到原始指标变量的线性组合,如X1=a11*F1+a12*F2+a13*F3,其中X1为指标变量1,a11、a12、a13分别为与变量X1在同一行的因子载荷,F1、F2、F3分别为提取的公因子;通过因子得分矩阵可以得到公因子的线性组合,如F1=a11*X1+a21*X2+a31*X3,字母代表的意义同上。 (5) 1.5 因子分析中的Heywood(海伍德)现象 如果x的各个分量都已经标准化了,则其方差=1。即共性方差与特殊方差的和为1。也就是说共性方差与特殊方差均大于0,并且小于1。但在实际进行参数估计的时候,共性方差

多元统计分析整理版

1、主成分分析的目的是什么? 主成分分析是考虑各指标间的相互关系,利用降维的思想把多个指标转换成较少的几个相互独立的、能够解释原始变量绝大部分信息的综合指标,从而使进一步研究变得简单的一种统计方法。它的目的是希望用较少的变量去解释原始资料的大部分变异,即数据压缩,数据的解释。常被用来寻找判断事物或现象的综合指标,并对综合指标所包含的信息进行适当的解释。 2、主成分分析基本思想? 主成分分析就是设法将原来指标重新组合成一组新的互相无关的几个综合指标来代替原来指标。同时根据实际需要从中选取几个较少的综合指标尽可能多地反映原来的指标的信息。 设p 个原始变量为 ,新的变量(即主成分)为 , 主成分和原始变量之间的关系表示为 ? 3、在进行主成分分析时是否要对原来的p 个指标进行标准化?SPSS 软件是否能对数据自动进行标准化?标准化的目的是什么? 需要进行标准化,因为因素之间的数值或者数量级存在较大差距,导致较小的数被淹没,导p 21p x x x ,,, 21p ,21p y y y ,,, 21

致主成分偏差较大,所以要进行数据标准化; 进行主成分分析时SPSS可以自动进行标准化; 标准化的目的是消除变量在水平和量纲上的差异造成的影响。 求解步骤 ?对原来的p个指标进行标准化,以消除变量在水平和量纲上的影响 ?根据标准化后的数据矩阵求出相关系数矩阵 ?求出协方差矩阵的特征根和特征向量 ?确定主成分,并对各主成分所包含的信息给予适当的解释 版本二:根据我国31个省市自治区2006年的6项主要经济指标数据,表二至表五,是SPSS 的输出表,试解释从每张表可以得出哪些结论,进行主成分分析,找出主成分并进行适当的解释:(下面是SPSS的输出结果,请根据结果写出结论) 表一:数据输入界面 表二:数据输出界面a)

多元统计分析对应分析

多元统计分析对应分析

学生实验报告 学院:统计学院 课程名称:多元统计分析 专业班级:统计123班 姓名:叶常青 学号: 0124253

学生实验报告 学生姓名叶常青学号0124253 同组人 实验项目对应分析的上机操作 □必修□选修□演示性实验□验证性实验□操作性实验□综合性实验实验地点实验仪器台号 指导教师李燕辉实验日期及节次 一、实验目的及要求: 目的熟悉和掌握对应分析的原理和上机操作方法 内容及要求本次操作就父母与孩子的受教

育程度的关系进行对应分析,分别对父亲与孩子和母亲与孩子的受教育程度做对应分析,最后再对输出结果进行详细的分析。 二、仪器用具: 仪器名称 规格/型号 数 量 备注 计算机 1 有网络环境 SPSS 软件 1 三、实验方法与步骤: 打开GSS93 subset .sav 数据,对变量Degree 与变量padeg 和madeg 进行对应分析,依次选择 分析→降维 …进入 对应分析 对话框,进行进行如下设置, 便可输出想要的数据的:

四、实验结果与数据处理: 按照上述方法和步骤得出以下输出结果. 对父亲受教育程度与孩子受教育程度的关系进行分析如下: 表1 对应表 Father' s Highest Degree R's Highest Degree Le ss than HS Hi gh school Jun ior college B achel or G radua te 有 效边 际 LT High School 15 6 30 8 29 4 5 2 5 5 63

High School 27 24 8 34 7 9 3 7 4 25 Junior College 1 11 2 8 3 2 5 Bachelo r 6 43 7 4 7 1 8 1 21 Graduat e 3 22 3 2 7 1 6 7 1 有效边际 19 3 63 2 75 2 06 9 9 1 205 表2 摘要 维数奇 异值 惯 量 卡 方 S ig. 惯量 比例 置信 奇异值 解 释 累 积 标 准差 相 关 2 1 . 400 . 160 . 846 . 846 . 025 . 256 2 . 164 . 027 . 142 . 988 . 026

多元统计分析习题分为三部分思考题验证题和论文题

《多元统计分析》习题分为三部分:思考题、验证题和论文题 思考题 第一章绪论 1﹑什么是多元统计分析? 2﹑多元统计分析能解决哪些类型的实际问题? 第二章聚类分析 1﹑简述系统聚类法的基本思路。 2﹑写出样品间相关系数公式。 3﹑常用的距离及相似系数有哪些?它们各有什么特点? 4﹑利用谱系图分类应注意哪些问题? 5﹑在SAS和SPSS中如何实现系统聚类分析? 第三章判别分析 1﹑简述距离判别法的基本思路,图示其几何意义。 2﹑判别分析与聚类分析有何异同? 3﹑简述贝叶斯判别的基本思路。 4﹑简述费歇判别的基本思路。 5﹑简述逐步判别法的基本思想。 6﹑在SAS和SPSS软件中如何实现判别分析? 第四章主成分分析 1﹑主成分分析的几何意义是什么? 2﹑主成分分析的主要作用有那些? 3﹑什么是贡献率和累计贡献率,其意义何在? 4﹑为什么说贡献率和累计贡献率能反映主成分中所包含的原始变量的信息? 5﹑为什么要用标准化数据去估计V的特征向量与特征值? 6﹑证明:对于标准化数据有S=R。 7﹑主成分分析在SAS和SPSS中如何实现? 第五章因子分析 1﹑因子得分模型与主成分分析模型有何不同?

2﹑因子载荷阵的统计意义是什么? 3﹑方差旋转的目的是什么? 4﹑因子分析有何作用? 5﹑因子模型与回归模型有何不同? 6﹑在SAS和SPSS中如何实现因子分析? 第六章对应分析 1﹑简述对应分析的基本思想。 2﹑简述对应分析的基本原理。 3﹑简述因子分析中Q型与R 型的对应关系。 4﹑对应分析如何在SAS和SPSS中实现? 第七章典型相关分析 1﹑典型相关分析适合分析何种类型的数据? 2﹑简述典型相关分析的基本思想。 3﹑典型变量有哪些性质? 4﹑典型相关系数和典型变量有何意义? 5﹑典型相关分析有何作用? 6 ﹑在SAS和SPSS中如何实现典型相关分析? 验证题 第二章聚类分析 1、为了更深入了解我国人口的文化程度,现利用1990年全国人口普查数据对全国30个省、直辖市、自治区进行聚类分析。分析选用了三个指标:(1)大学以上文化程度的人口占全部人口的比例(DXBZ);(2)初中文化程度的人都占全部人口的比例(CZBZ);(3)文盲半文盲人口占全部人口的比例(WMBZ),分别用来反映较高、中等、较低文化程度人口的状况。计算样品之间的相似系数,使用最长距离法、重心法和Ward法,将上机结果按样品号画出聚类图,并根据聚类图将30个样品分为四类。 2、根据信息基础设施的发展状况,对世界20个国家和地区进行分类。只要采用6个指标:(1)Call—每千人拥有电话线数,(2)movecall—每千户居民蜂窝移动电话数,(3)fee—高峰时期每三分钟国际电话的成本,(4)Computer—每千人拥有的计算机数,(5)mips—每千人中计算机功率(每秒百万指令),(6)net—每千人互联网络户主数。计算样本之间的距离采用欧式距离,用最长距离法、重心法、离差平方和法进行计算。

相关文档
最新文档