多元统计分析绪论(终稿)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
其他领域的应用
工业 企业经济效益的评价? 服装企业如何确定适应大多数顾客的服装的 主要指标以及分类的型号?
农业 如何按照城乡居民消费水平,对我国30个
省市自治区进行分类? 如何根据全国各地区农民生活消费支出情
况研究农民消费结构的趋势?
医学
如何根据某病人的多种症状(体温、白血球、 恶心、呕吐、腹部压痛感)判别此人患何种类 型阑尾炎(急性、慢性、有无穿孔等)?
我们将要讨论的多元统计方法,它同时对多门课程 的成绩进行分析。这样的分析对诸课程间的关系、相依 性和相对重要性等都能提供有用的信息。如果说一元统 计分析是研究一个随机变量统计规律性的学科,那么多 元统计分析则是研究多个随机变量之间相互依赖关系以 及内在统计规律性的一门统计学科。
由于大量实际问题都涉及到多个变量,这些 变量又是随机变量,如学生的学习成绩随着被抽 取学生的不同,成绩也有变化(我们往往需要依 据它们来推断全年级的学习情况)。所以要讨论 多个随机变量的统计规律性。
环境保护
研究多种污染气体的浓度与污染源的排放和 气象因子(风向、风速、温度、湿度)等之间 的相互关系。
军事科学 研究某飞机洞库可燃性气体变化的规律以及 对气体浓度的预测。
文学 对《红楼梦》作者的版权鉴定
序号
1 2 3 4 5 6 7 8 9 10 11 12
表1.1 12名学生5门课程的考试成绩
政治(X1) 99 99 100 93 100 90 75 93 87 95 76 85
语文(X2) 94 88 98 88 91 78 73 84 73 82 72 75
外语(X3) 93 96 81 88 72 82 88 83 60 90 43 50
应用多元统计分析 北京大学出版社 2001 . 张文彤 闫洁 编著
SPSS统计分析基础教程、SPSS统计分析高级教程 高等教育出版社 2005
关于学习方法的说明
(1)理论与应用并重。既要重视理论方法,也要重 视应用模型和应用中实际问题的解决;
(2)对于理论方法,重点是思路而不是数学过程; (3)注意各种统计方法的应用; (4)必须十分重视综合练习; (5)必须掌握一种应用软件( SAS 或 SPSS ),注意
数学(X4) 100 99 96 99 96 75 97 68 76 62 67 34
物理(X5) 100 97 100 96 78 97 89 88 84 39 78 37
表1.1提供的数据,如果用一元统计方法,势必要 对多门课程分别分析,每次分析处理一门课程的成绩。 这样处理,由于忽视了课程之间可能存在的相关性, 因此,一般说来,丢失信息太多,分析的结果不能客 观全面地反映某年级学生的学习情况。
应用多元统计分析
Applies Multivariate Statistical Analysis
衡量一个地区的经济发展情况 总产值,利润,效益,劳动生产率,生产值能耗,固定 资产,流动资金周转率,物价,信贷,税收等
要了解一种岩石,需要观测指标有:颜色,硬度,含碳 量,含硫量等 要判断某人是有病还是无病,需要做多项指标体检如血 压,脉搏,白血球,红血球等
课堂的软件应用演示,多练。
引言
多元统计分析(简称多元分析)是运用数理统计的 方法来研究多变量(多指标)问题的理论和方法,它 是一元统计学的推广。
在实际问题中,很多随机现象涉及到的变量不是一个, 而经常是多个变量,并且这些变量间又存在一定的联系。我 们常常需要处理多个变量的观测数据。
例如考察学生的学习情况时,就需了解学生在几个主要 科目的考试成绩。表1.1给出某年级随机抽取的12名学生5门主 课期末考试成绩。
多元统计分析的应用
多元统计分析是解决实际问题的有效的数据处理方法。
1.教育学 4.环境科学 7.服装工业 10.社会科学
2.医学 5.地质学 8.经济学 11.文学
3.气象学 6.考古学 9.农业 12.其他
经济学中的应用
对我国30个省市自治区的社会情况分析(聚类分析 法)
市场预测产品是否畅销(判别分析法) 研究国民收入变量与投资性变量之间的相关关系
数据或结构性化简 分类和组合
变量之间的相关关系 预测与决策
尽可能简单地表示所研究的现 多元回归分析、聚类分析、
象,但不损失很多有用的信息,主成分分析、因子分析、
并希望这种表示能够很容易的 相应分析、多维标度法、
解释。
可视化分析
基于所测量到的一些特征,给 判别分析、聚类分析、主 出好的分组方法,对相似的对 成分分析、可视化分析 象或变量分组。
变量之间是否存在相关关系, 相关关系又是怎样体现。
多元回归、典型相关、主 成分分析、因子分析、相 应分析、多维标度法、可 视化分析
通过统计模型或最优准则,对 多元回归、判别分析、聚
未来进行预见或判断。
类分析、可视化分析
假设的提出及检验
检验由多元总体参数表示的某 多元总体参数估计、假设 种统计假设,能够证实某种假 检验 设条件的合理性。
多元统计分析就是讨论多个随机变 量的理论和统计方法的总称。其内容 包括一元统计学中某些方法的直接推 广,也包括多个随机变量特有的一些 问题,多元统计分析是一类范围很广 的理论和方法。
就以学生成绩为例,我们可以研究很多问题:
用各科成绩的总和作为综合指标,来比较学生学习成 绩的好坏;
根据各科成绩相近程度对学生进行分类(如成绩好的 与成绩差的,又如文科成绩好的与理科成绩好的); 研究各科成绩之间的关系(如物理与数学成绩的关系, 文科成绩与理科成绩的关系);等等。
所有这些都属于多元统计分析研究内容。
多元统计分析的内容
多元正态分布及检验 聚类分析 判别分析 主成分分析 因子分析 对应分析 典型相关分析 定性数据的建模分析 路径分析
英国著名统计学家肯德尔(Kendall)在《多元统计》一书把多元 统计分析所研究的内容和方法概括为以下几个方面。
指标 随机变量
反映社会经济现象总体的数量特征的概念和数值。
《应用多元统计分析》课程简介
多元分析起源于本世纪初,1928年Wishart发表了论文《多元
正态总体样本协方差阵的精确分布》,可是说是多元统计的开端。
20世纪30年代R.A.Fisher(英)、H.Hotelling (美) 、许宝 禄等人作了一系列的奠基工作,使多元分析在理论上得到了迅速
1. 简化数据结构(降维问题)
简化数据结构即是将某些复杂的数据结构通过变量变换等 方法使相互依赖的数据变成互不相关的;或把高维空间的数据 投影到低维空间,使问题得到简化而损失的信息又不太多的。 例如主成分分析、因子分析,以及对应分析等多元统计方法就 是这样一类方法。
2. 分类与判别(归类问题)
归类问题即是对所考察的观测点(或变量)按相似程度进 行分类(或归类)。例如聚类分析和判别分析等方法就是解决 这类问题的统计方法。
地质学 在地质勘探中,如何根据岩石样本的多种特征来
判别地层的地址年代,是有矿还是无矿,是铜矿 还是铁矿等? 社会学
调查青年对婚姻家庭的态度、对文化和职业的要 求、对经济收入的态度、对老人的责任、对相貌 的重视等等作主要因素分析以便进行正确的引导
考古学
对挖掘出来的人头盖骨的高、宽等特征来判别 是男或女,根据挖掘出来的动物牙齿的有关测 试指标,判别它属于哪一类动物、是哪一个时 代的。
教育学
如何对高考的考生成绩作因素分析?学生入 学后的考试成绩和入学考试的各门课程成绩有 何相关关系?
体育科学
如何研究体力测试指标(反复横向跳、立 定体前屈、俯卧上体后仰等)与运动能力测 试指标(耐力跑、跳远、投球等)之间的相 关关系?
生态学
对1000个类似的鱼类样本,如何根据测量 的特征如体重、身长、鳍数、鳍长、头宽等, 将这些鱼分成几个不同品种?
课程说明
教学目的:
《应用多元统计分析》本课程努力突出实际案例 的应用和统计思想的渗透,结合统计软件较全面地系统 介绍多元统计分析的实用方法,把多元分析的方法与实 际应用结合起来,注意定性分析与定量分析的紧密结合。 本书以统计软件SPSS系统作为典型工具,通过实例介绍 如何用统计软件处理数据分析中的各种实际问题。
3. 变量间的相互联系
(1)相互依赖关系:分析一个或几个变量的变化是否依赖 于另一些变量的变化?如果是,建立变量间的定量关系式,并 用于预测或控制——回归分析。
(2)变量间的相互关系:分析两组变量间的相互关系— —典型相关分析。
4. 多元数据的统计判断 这是关于参数估计和假设检验的问题。特别是多元正态分
先修课程:
微积分、线性代数、概率论与数理统计、经济统 计学、应用数理统计
参考教材:
. 理查德·A·约翰逊 著陆璇 译 实用多元统计分析(第四版) 清华大学出版社 2001
.张尧庭 方开泰 著 多元统计分析引论 科学出版社 .方开泰著 实用多元统计分析 华东师范大学出版社 1989 . 高惠璇 编著
(典型相关分析法) 对全国28个省市自治区经济效益做综合评价(不包
括西藏、青海)(主成分分析和因子分析)
考察某产品的质量指标与影响产品质量的因素 (多个)之间的关系(多重多元回归分析法)
某一产品用两种不同的原料生产,产品的寿命有 无显著差异?某商业行业今年和去年的经营状况 有无显著差异?(多元正态的假设检验)
布的均值向量及协方差阵的估计和假设检验等问题。
5. 多元统计分析的理论基础
多元统计分析的理论基础包括多维随机向量 及多维正态随机向量,以及由此定义的各种多元统计 量,推导它们的分布并研究其性质,研究它们的抽样 分布理论。这些不仅是统计估计和假设检验的基础, 也是多元统计分析的理论基础。
问题
内容
方法
的ቤተ መጻሕፍቲ ባይዱ展。 40年代在心理学,教育,生物等方面有了不少的应用,但是有
序计算量大,使其发展受限,甚至停滞了很长时间。
50年代中期,随着电子计算机的发展,使得多元分析在很 多方面得到了广泛的应用。
我国自20世纪80年代在许多领域拉开了多元统计分析应用的 帷幕。随着计算机的广泛应用,及统计软件的普及,多元统计 的方法已被广泛应用于自然科学乃至社会科学的各个领域。