多元统计分析 第一讲

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2014-11-20
22 cxt
某中学22名男、女生身体测量资料
───────────────────────────── 男 生 女 生 ──────── ─────────── 编号 身高 体重 胸围 编号 身高 体重 胸围 ───────────────────────── 1 171 58.5 81.0 1 152 44.8 74 2 175 65 87 2 153 46.5 80 3 159 38 71 3 158 48.5 73.5 4 155.3 45 74 4 150 50.5 87 5 152 35 63 5 144 36.3 68 6 158.3 44.5 75 6 160.5 54.7 86 7 154.8 44.5 74 7 158 49 84 8 164 51 72 8 154 50.8 76 9 165.2 55 79 9 153 40 70 10 164.5 46 71 10 159.6 52 76 11 159.1 48 72.5 12 164.2 46.5 73
2014-11-20
32 cxt
多元统计无处不在
2014-11-20
33 cxt
多元分析的基本步骤
1、研究什么问题? 明确分析的问题 2、如何获取数据? 3、如何分析数据? 4、如何解释分析结果?
2014-11-20
34 cxt
在前期的准备过程中要注意两点: 1、样本量要足够的大!
2014-11-20 18 cxt
如果:我们想知道我国基础设施发展属于哪 一类型? 运用判别分析
依据:20个国家的分类结果
2014-11-20
19 cxt
3、变量间的相互联系 一是:分析一个或几个变量的变化是否 依赖另一些变量的变化。(回归分析) 多元线性回归分析,逐步回归分析 定性指标的相关分析,多对多的回归分析 二是:两组变量间的相互关系(典型相 关分析)
97
68 76
89
88 84
10
11 12
2014-11-20
95
76 85
82
72 75
90
43
6 cxt
62
67 34
39
78 37
50
若用一元统计方法,每次分析处理一门课程 的成绩。 其缺点: 丢失的信息太多,分析的结果不能客观全 面地反映该年级学生的学习情况。 要同时分析多门课程的成绩,分析各门课程 之间的相关关系、相对重要性等问题。需要 借助“多元统计”。
2014-11-20
12 cxt
运用主成分分析以97.4%的精度,用三新变 量就取代了原17个变量。根据经济学知识, 斯通给这三个新变量分别命名为总收入F1、 总收入变化率F2和经济发展或衰退的趋势F3。 更有意思的是,这三个变量其实都是可以直 接测量的。斯通将他得到的主成分与实际测 量的总收入I、总收入变化率⊿I以及时间t 因素做相关分析,得到下表:
2014-11-20 20 cxt
4、多元数据的统计推断
点估计 参数估计 统 计 推 断 参数 假设 检验 非参 区间估计 u检验 t检验 F检验 相关与回归 卡方检验 秩和检验 秩相关检验
21 cxt
2014-11-20
主要讲解:多元正态分布的均值向量 及协方差矩阵的估计和假设检验
例: 调查某中学同年级22名男女生, 测量其身高 (cm)、体重(kg)和胸围(cm),数据见表。试检验 该中学全体男女生的身体发育状况有无差别。
14 cxt
主成分分析得到的主成分(新变量)与原始变 量之间的关系:
1、主成分保留了原始变量绝大多数信息。
2、主成分的个数大大少于原始变量的数目。
3、各个主成分之间互不相关。
4、每个主成分都是原始变量的线性组合。
2014-11-20
15 cxt
2、分类与判别(归类问题) 对所考察的变量按相似程度进行分类。 (1)聚类分析:根据分析样本的各研究 变量,将性质相似的样本归为一类的方法。 (2)判别分析:判别样本应属何种类型 的统计方法。
2014-11-20 28 cxt
教育学: 测试学生入学后的考试成绩与入学考试 成绩的相关关系? 现行教育模式是否合理? 经济学: 如:衡量一个地区的经济发展情况,需观测 的指标有:人均收入、就业率、物价、信贷、 税收、年财政收入、基础设施建设等等。
20 29 cxt
医学: 通过检测:血压、心脏脉搏跳动的次数、 白血球等等,判定一个人是有病还是没病? 根据某病人的体温、白血球、恶心、呕 吐、腹部压疼感等判别此人是患何种类型阑 尾炎?急性、慢性、有无穿孔?
2014-11-20 13 cxt
F1 F1 F2 F3 i Δi t
2014-11-20
F2
F3
i
i
t
1 0 0 0.995 -0.056 -0.369 1 0 -0.041 0.948 1 0.057 -0.124 l -0.102 -0.414 l -0.112 1
-0.282 -0.836
2014-11-20
16 cxt
例:根据信息基础设施的发展状况,对世界20个国家 和地区进行分类。 考察指标有6个: 1、X1:每千居民拥有固定电话数目 2、X2:每千人拥有移动电话数目 3、X3:高峰时期每三分钟国际电话的成本 4、X4:每千人拥有电脑的数目 5、X5:每千人中电脑使用率 6、X6:每千人中开通互联网的人数
2014-11-20
3 cxt
有了一元统计的理论和方法,为什么还要多 元统计分析呢? 将多个变量用一元方法进行处理,问题不就 解决了吗?
事实却与此相悖!!
2014-11-20
4 cxt
例:考察某高中三年级学生的学习情况。随 机抽取12名学生政治、语文、外语、数学、 物理等5门课程期末考试的成绩。
2014-11-20 17 cxt
具体数据参见(于秀林、任学松,多元统计 分析,第92页) 分析结果:将20个国家分为两类 第1类(基础设施落后):巴西、墨西哥、 波兰、匈牙利、智利、俄罗斯、泰国、印度、 马来西亚 第2类(基础设施发达):瑞典、丹麦、 美国、中国台湾、韩国、日本、德国、法国、 新加坡、英国、瑞士
多元统计分析优点: 分析问题更全面更透彻
能使我们对所研究的问题更全面, 更深刻的认识. 帮助我们透过现象看本质,发现事物之间内在的本 质规律。
2014-11-20
9 cxt
二、多元统计分析的内容和方法
1、简化数据结构(降维问题) 将具有错综复杂关系的多个变量综合成数 量较少且互不相关的变量,使研究问题得到 简化但损失的信息又不太多。 (1)主成分分析 (2)因子分析 (3)对应分析等
2014-11-20
25 cxt
三、多元统计的发展
起源于:20世纪20年代 1928年威沙特(Wishart)发表的《多元正 态总体样本协方差矩阵的精确分布》为开端 30年代多元分析在理论上得到迅速发展 费希尔(Fisher)、霍特林(Hotelling)等 进一步发展多元统计。 40年代在心理学、教育学等领域进行应用 因计算量大,发展受到影响
2014-11-20 23 cxt
一元方差分析的结果 ━━━━━━━━━━━━━━━━━━━━━━━━━
身高
── ─────── 组别 男 女 平均值 标准差 161.9 154.2 6.8 5.0
体重
────── 平均值 标准差 48.1 47.3 8.3 5.6
胸围
────── 平均值 74.4 77.4 标准差 5.9 6.6
MULTIVARIATE STATISTICS ANALYSIS
多元统计分析
zf
课程的主要安排和要求
一、了解各种多元统计学方法的适用前提条件 和用应范围 二、掌握一种统计软件——SPSS 三、正确解释软件输出结果及结论
2014-11-20
2 cxt
一、什么是多元统计分析
多元统计分析是运用数理统计的方法来研究 多变量(多指标)问题的理论和方法,是一 元统计学的推广。 多元统计分析是研究多个随机变量之间相互 依赖关系以及内在统计规律的一门统计学科。
2014-11-20
5 cxt
序号
1
2 3
政治X1 语文X2 外语X3 数学X4 物理X5
99
99 100
94
88 98
93
96 81
100
99 96
100
97 100
4
5 6
93
100 90
88
91 78
88
72 82
99
96 75
96
78 97
7
8 9
75
93 87
73
84 73
88
83 60
一般认为,样本数是研究变量个数的10倍左右。
2、变量类型及其数量化
2014-11-20
35 cxt
1、为什么需要足够多的观测样本呢?
如:抛掷硬币的试验结果 ━━━━━━━━━━━━━━━━━━━━━ 试验者 抛掷次数(n) 正面次数(k) 频率(k/n) ───────────────────── TONG 3 3 1.00 5 4 0.80 10 3 0.30 20 7 0.35 50 27 0.54 100 52 0.52 500 246 0.492 ━━━━━━━━━━━━━━━━━━━━━
2014-11-20
30 cxt
气象学: 根据目前空气湿度、风向、风力等指标判 断未来24小时内天气情况 社会学: 随着经济的发展,居民的幸福感是增强呢 还是减弱呢? 农民工的工资支付情况是否明显好转?
2014-11-20 31 cxt
文学: 《红楼梦》前80回和后40回是否出自同一 作者?
2014-11-20 10 cxt
指标与指标可能存在相关关系
信息重叠,分析偏误
指标太多,增加问题的复杂性和分析难度 如何避免? 选用主成分分析或因子分析
2014-11-20 11 cxt
例:美国的统计学家斯通(stone)在1947年 关于国民经济的研究。他曾利用美国1929一 1938年各年的数据,得到了17个反映国民收 入与支出的变量要素,例如雇主补贴、消费 资料和生产资料、纯公共支出、净增库存、 股息、利息外贸平衡等等。
2014-11-20 36 cxt
历史上许多著名科学家做过抛掷硬币的试验, 抛掷 硬币试验结果如表
━━━━━━━━━━━━━━━━━━━━━━━━━ 试验者 抛掷次数(n) 正面次数(k) 频率(k/n) ───────────────────────── De Morgan 2048 1061 0.518 Buffon 4,040 2,048 0.5069 Pearson 12,000 6,019 0.5016 Pearson 24,000 12,012 0.5005 ━━━━━━━━━━━━━━━━━━━━━━━━━
2014-11-20 26 cxt
20世纪50年代中期——,多元统计在地质、气象、 医学、社会学等方面得到广泛应用 因计算机的出现和发展
我国:70年代初期才开始重视多元统计在各领域的 应用
2014-11-20
27 cxt
四、多元统计的应用
1、教育学 2、医学 3、气象学 4、环境科学 5、地质学 6、考古学 7、经济学 8、社会科学 等等
─────────────────────────
─────────────────────────
F值
8.7**
** P<0.01
0.1
1.3
从表可以看出,该校男、女生的身高差异有显著性意义,而体重、胸 围差异无显著性意义。那么, 该年级全体男女生的身体发育状况有无 差别,我们不能得到一个明确的结论。
2014-11-20 7 cxt
我们用多元统计: 1、用各科成绩的总和作为综合指标,来比 较学生学习的好坏。 2、根据各科成绩相近程度对学生进行分类 (成绩好的与差的;文科成绩好的和理科成 绩好的等等) 3、各科成绩之间的关系(如物理与数学成 绩的关系;文科成绩与理科成绩的关系等)
2014-11-20 8 cxt
2014-11-20 24 cxt
多元方差分析:
可用男、女生的身高、体重、胸围组成的样本均数向量推论该 年级男、女生身体发育指标的总体均数向量μ1和μ2相等与否, 得到: F=8.8622,P=0.0008。拒绝该年级男女生身体发育指标的 总体均数向量相等的假设,从而可认为该校男女生身体发育状 况不同。
2014-11-20
37 cxt
观测样本(次数)越少,抽样误差越大,样 本的对研究总体的代表性就小。
相关文档
最新文档