五章 多元分析基础1
应用多元统计分析课后习题答案高惠璇第五章部分习题解答
u (2) a (2)
1 89765
(32,33)
2205
1465 4.8897 89765
u (1) u (2)
当X (1)
20 20
时,
u(
X
(1)
)
1 89765
(32,33)
20 20
4.3390
因u( X (1) ) 4.3390 u* , 判X (1) G2.
当X (1)
15 20
解 : (a) (ad )2 (ad )(ad )
aSa
aSa
a( X
(1)
X
(2) )( X aSa
(1)
X
(2) )a
def
aBa aSa
1
其中1为S 1B的最大特征值,且仅当a 1对应的
特征向量时等号成立.
又S 1B ( X (1) X (2) )( X (1) X (2) )S 1与
判X G2 , 当W ( X ) 0, 试求错判概率P(2 |1)和P(1| 2).
解 : 记a 1 ( (1) (2) ),W ( X ) ( X )a是X的
线性函数,当X
G1时,W
(X
)
~
N1
(
1
,
2 1
),
且
21
第五章 判别分析
1
E(W ( X
))
( (1)
)a
1 2
( (1)
2
PU a PU b
(1) 2
(2) 1
(1) 1
(2) 2
.
.
(b) (a)
4
第五章 判别分析
5-2 设三个总体的分布分别为: G1为N(2,0.52), G2为
第01讲. 多元统计分析预备知识
胡平交大管院2008秋下1第一部分回顾与演进第一讲. 多元统计分析预备知识胡平交大管院2008秋下2主要内容第一讲. 多元统计分析预备知识•多元统计分析概述•多元数据的整理与描述•矩阵代数与随机向量•样本几何与随机抽样•离散数据的概率分布•多元正态分布•多元均值的推断和均值向量的比较一. 多元统计分析的概述概念:从包含许多变量的、同时测量值的数据中,集中获取信息的各种统计方法,称为多元分析。
多元方法的基本依据:多元正态分布的基本概率模型多元方法的应用1、数据简化或结构简化:在不损失有价值信息的情况下尽可能简单的将被研究的现象描述出来。
2、分类与分组:根据所测量的特征将一些类似的对象或变量分组。
3、变量间依赖性的研究4、预测:根据某些变量的观测值预测另一个或另一些变量的值。
5、假设的构造与检验一. 多元统计分析的概述胡平交大管院2008秋下5二.多元数据的整理与描述多元数据的基本结构初步概念:数据阵列:对研究对象(多元总体)的p 个特征(变量)进行记录,从而出现多元数据表示第k个变量在第j项(个体或实验单元)上或第j次试验中的观测值。
因此,p个变量的n 个观测值可以表示成:⎥⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎢⎣⎡⋯⋯np n n p p x x x x x x x x x 212222111211k j x 胡平交大管院2008秋下6描述统计量(1)样本均值设是第一个变量的n 个观测值,则这些测量值的算术平均数是如果这n 个测量值代表被观测的全部测量值集合的一个子集,则也称为第一个变量的样本均值。
12111,,n xx x ⋯⋯∑==nj j x n x 11111x二. 多元数据的整理与描述样本方差:对第k 个变量的n 个观测值定义为:为了表明方差在阵列中的位置,引入双下标记号:来表示由第个变量的测量值的方差,并有式子样本标准差:样本方差的平方根称为样本标准差。
∑=-=nj k jk k x x n s 122)(1iis i∑=-==n j k jk kk k x x n s s 122)(1pk ,,2,1⋯⋯=描述统计量(2)ii s 二. 多元数据的整理与描述样本协方差:度量第i 个变量和第k 个变量的n 对测量值线性结合由样本协方差给出:∑=--=nj k jk i ji ik x x x x n s 1))((1pk p i ,,2,1,,,2,1⋯⋯=⋯⋯=描述统计量(3)二.多元数据的整理与描述胡平交大管院2008秋下9样本相关系数:其中i=1,2,…,p , k=1,2,…,p注意:∑∑∑===----==nj k jknj i jinj k jk i ji kkiiik ik x xx xx x x x s s s r 12121)()())((kiik r r =描述统计量(4)二. 多元数据的整理与描述胡平交大管院2008秋下10样本相关系数性质:1、r 的值必定在-1与1之间。
多元分析简明讲义
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
φX (t) = E (exp(i
p
tα Xα ))
α=1
随机矩阵X = (xij )p×n 的特征函数是用pn维随机向量(x11 , . . . , xp1 , . . Байду номын сангаас , x1n , . . . , xpn ) 的特 征函数来定义的,即为 p n φX (T ) = E exp i tαβ xαβ = E exp iT r(T X )
x 1 . 其中x = . . xp
定 义 1 设Uα (α = 1, 2, . . . , n)i.i.d.N (0, 1),U = (U1 , U2 , . . . .Uq ). 设µ ∈ Rq ,Ap×q 常数矩 阵,则称X = AU + µ服从p元正态分布,或称X 为p维正态随机向量,记为X ∼ Np (µ, AA ). 简言之,由个相互独立的标准正态随机变量的一些线性组合所构成的随机向量的分布,称 其为多元正态分布. 一元统计中,X ∼ N (µ, σ 2 ),则X 的特征函数为 1 φ(t) = E (eitX ) = exp itµ − σ 2 t2 2 . 推广到多元(用到随机向量特征函数的定义及其性质)
多元分析
1
多元分析-资料
三、协方差分析
协方差分析(covariance analysis)是利 用线性回归方法消除混杂因素的影响后 所进行的方差分析。
例如,考虑药物对患者某个生化指
标的影响时,欲比较实验组和对照组中 该指标的变化均值是否有差异,就应消 除一些难以控制的混杂因素的影响,如 患者的病程长短、年龄大小等。
假设有三组变量X,Y,Z,其 中Y是因变量,Z是分类变量(Z=1, 2,…,k ),欲比较k 类中Y 的均 值是否有差异,如果Y和X存在线 性关系,则可通过协方差分析消 除X的影响。
因此,在作协方差分析前首
先要检验这种线性关系。
其基本步骤是:
(1)检验各类中Y和X是否存在线性关系; (2)(2) 检验各类中回归系数是否相同; (3)(3) 检验各类回归模型中截距是否相同; (4)(4) 检验以组内均值为新变量的线性回归模
型
(5) 是否成立,并比较回归系数是否和前 面第
(6) 二步中得到的相同; (7)(5) 检验总回归系数是否为0。理论上讲,
多因素分析
多因素分析(multivariate analysis)是多变量资料的统计分析 与单因素分析相比,它可以在错 综复杂的多因素中寻求事物内部
的规律性及相互之间的联系。
第一节 多元线性回归与相关
相关分析
相关分析是研究多个变量之 间线性关系的一种方法,各个变 量之间地位相同、相互依赖。
例15.1 现有20个家庭调查资料的 部 分 变 量 , 见 表 15.1 , 试 对 父 母 身高与儿子身高进行相关分析。
线性、独立、正态、等方差。
y ˆb 0b 1x1 b sxs
建立回归方程后,还需考虑:
第一,这一方程是否符合资料特点? 第二,各个自变量对应变量的影响是 否具有统计学意义?
应用多元统计分析习题解答_第五章(1)
第五章聚类分析5.1 判别分析和聚类分析有何区别?答:即根据一定的判别准则,判定一个样本归属于哪一类。
具体而言,设有n 个样本,对每个样本测得p 项指标〔变量的数据,已知每个样本属于k 个类别〔或总体中的某一类,通过找出一个最优的划分,使得不同类别的样本尽可能地区别开,并判别该样本属于哪个总体。
聚类分析是分析如何对样品〔或变量进行量化分类的问题。
在聚类之前,我们并不知道总体,而是通过一次次的聚类,使相近的样品〔或变量聚合形成总体。
通俗来讲,判别分析是在已知有多少类及是什么类的情况下进行分类,而聚类分析是在不知道类的情况下进行分类。
5.2 试述系统聚类的基本思想。
答:系统聚类的基本思想是:距离相近的样品〔或变量先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品〔或变量总能聚到合适的类中。
5.3 对样品和变量进行聚类分析时,所构造的统计量分别是什么?简要说明为什么这样构造? 答:对样品进行聚类分析时,用距离来测定样品之间的相似程度。
因为我们把n 个样本看作p 维空间的n 个点。
点之间的距离即可代表样品间的相似度。
常用的距离为 〔一闵可夫斯基距离:1/1()()pq qij ik jk k d q X X ==-∑q 取不同值,分为 〔1绝对距离〔1q = 〔2欧氏距离〔2q =〔3切比雪夫距离〔q =∞ 〔二马氏距离 〔三兰氏距离对变量的相似性,我们更多地要了解变量的变化趋势或变化方向,因此用相关性进行衡量。
将变量看作p 维空间的向量,一般用 〔一夹角余弦 〔二相关系数5.4 在进行系统聚类时,不同类间距离计算方法有何区别?选择距离公式应遵循哪些原则? 答:设d ij 表示样品X i 与X j 之间距离,用D ij 表示类G i 与G j 之间的距离。
〔1. 最短距离法 〔2最长距离法 〔3中间距离法 其中 〔4重心法 〔5类平均法 〔6可变类平均法 其中β是可变的且β <1〔7可变法 22221()2kr kp kq pq D D D D ββ-=++其中β是可变的且β <1 〔8离差平方和法2222(1)()p q kr kp kq pq r rn n D D D D n n ββ=-++通常选择距离公式应注意遵循以下的基本原则:〔1要考虑所选择的距离公式在实际应用中有明确的意义。
多元分析概述课件
皮尔逊在检验他老师戈尔登的“祖先遗传法则”和自然选择中
“淘汰”对器官的相关及变异的影响中,引入了复相关的概念
和方法。在讨论生物退化、反祖、遗传、随机交配等问题中,
展开了回归与相关的研究,并提出以卡方检验作为曲线拟合优
度的一种度量的思想。
9
农业实验学派的孟德尔和戈塞特同样是在尝试回答各自应用领 域中出现的新要求、新课题的过程中,发展了统计思想和统计 分析方法。孟德尔及其后继者贝特森等人创建的遗传试验手段, 比通过记录生命外部联系曲折反映事物内在本质的描述统计更 加深刻。他们运用推断的理论与实验的方法,通常只用小样本 来处理。戈塞特的T分布与小样本思想更是在由于“有些实验 不能多次地进行”,从而“必须根据极少数的事例(小样本) 来判断实验结果的正确性”的情况下产生的。今天,这些统计 思想和分析推断方法已经成为了科学家们不可缺少的基本研究 工具了。
多元回归、典型相关、主 成分分析、因子分析、相 应分析、多维标度法、可 视化分析
通过统计模型或最优准则,对 多元回归、判别分析、聚
未来进行预见或判断。
类分析、可视化分析
检验由多元总体参数表示的某 多元总体参数估计、假设
假设的提出及检验 种统计假设,能够证实某种假 检验 设条件的合理性。
多元统计分析课件第五章_聚类分析
止。如果某一步距离最小的元素不止一个,则对应ቤተ መጻሕፍቲ ባይዱ些
最小元素的类可以同时合并。
【例5.1】设有六个样品,每个只测量一个指标,分别是1, 2,5,7,9,10,试用最短距离法将它们分类。
(1)样品采用绝对值距离,计算样品间的距离阵D(0) ,见 表5.1
一、系统聚类的基本思想
系统聚类的基本思想是:距离相近的样品(或变量)先聚成 类,距离相远的后聚成类,过程一直进行下去,每个样品 (或变量)总能聚到合适的类中。系统聚类过程是:假设总 共有n个样品(或变量),第一步将每个样品(或变量)独 自聚成一类,共有n类;第二步根据所确定的样品(或变量) “距离”公式,把距离较近的两个样品(或变量)聚合为一 类,其它的样品(或变量)仍各自聚为一类,共聚成n 1类; 第三步将“距离”最近的两个类进一步聚成一类,共聚成n 2类;……,以上步骤一直进行下去,最后将所有的样品 (或变量)全聚成一类。为了直观地反映以上的系统聚类过 程,可以把整个分类系统画成一张谱系图。所以有时系统聚 类也称为谱系分析。除系统聚类法外,还有有序聚类法、动 态聚类法、图论聚类法、模糊聚类法等,限于篇幅,我们只 介绍系统聚类方法。
在生物、经济、社会、人口等领域的研究中,存在着大量量 化分类研究。例如:在生物学中,为了研究生物的演变,生 物学家需要根据各种生物不同的特征对生物进行分类。在经 济研究中,为了研究不同地区城镇居民生活中的收入和消费 情况,往往需要划分不同的类型去研究。在地质学中,为了 研究矿物勘探,需要根据各种矿石的化学和物理性质和所含 化学成分把它们归于不同的矿石类。在人口学研究中,需要 构造人口生育分类模式、人口死亡分类状况,以此来研究人 口的生育和死亡规律。
[统计学]多元统计分析(何晓群 中国人民大学)5第五章主成分分析
1 μ 2
则上述二元正态分布的密度函数有如下矩阵形式:
2019/1/20
中国人民大学六西格玛质量管理研究中心
16
目录 上页 下页 返回 结束
§5.2 主成分分析的几何意义
1 1 / 2 ( X μ )'Σ 1 ( X μ ) f ( X1, X 2 ) e 1/ 2 2 | Σ |
Y1 X 1 cos X 2 sin Y2 X 1 sin X 2 cos
2019/1/20
中国人民大学六西格玛质量管理研究中心
13
目录 上页 下页 返回 结束
§5.2 主成分分析的几何意义
其矩阵形式为:
Y1 cos Y2 sin sin X1 U X cos X 2
2012318中国人民大学六西格玛质量管理研究中心11目录上页下页返回结束52主成分分析的几何意义由第一节的介绍我们知道在处理涉及多个指标问题的时候为了提高分析的效率可以不直接对个指标构成的随机向量进行分析而是先对向量进行线性变换形成少数几个新的综合变量使得各综合变量之间相互独立且能解释原始变量尽可能多的信息这样在以损失很少部分信息为代价的前提下达到简化数据结构提高分析效率的目的
U 为旋转变换矩阵,由上式可知它是正交阵, 其中, 即满足
U' U1 ,
U 'U I
2019/1/20
中国人民大学六西格玛质量管理研究中心
14
目录 上页 下页 返回 结束
§5.2 主成分分析的几何意义
经过这样的旋转之后,N 个样品点在 Y1 轴上的离散程度最 大,变量 Y1代表了原始数据绝大部分信息,这样,有时在研 究实际问题时,即使不考虑变量 Y2 也无损大局。因此,经过 上述旋转变换就可以把原始数据的信息集中到 Y1 轴上,对数 据中包含的信息起到了浓缩的作用。进行主成分分析的目的 就是找出转换矩阵 U ,而进行主成分分析的作用与几何意义 也就很明了了。下面我们用遵从正态分布的变量进行分析, 以使主成分分析的几何意义更为明显。为方便,我们以二元 正态分布为例。对于多元正态总体的情况,有类似的结论。
《应用多元分析》第三版(第五章 判别分析)
§5.2 距离判别
❖ 一、两组距离判别 ❖ 二、多组距离判别
一、两组距离判别
❖ 设组π1和π2的均值分别为μ1和μ2,协差阵分别为Σ1和 Σ2(Σ1,Σ2>0) ,x是一个新样品(p维),现欲判断它 来自哪一组。
25
1.01
0.4
26
1.45
0.26
27
1.56
0.67
28
0.71
0.28
29
1.5
0.71
30
1.37
0.4
31
1.37
0.34
32
1.42 0.43
33
0.33
0.18
34
1.31
0.25
35
2.15
0.7
36
1.19
0.66
37
1.88
0.27
38
1.99
0.38
39
1.51
0.42
40
1.68
❖ 1. Σ1=Σ2=Σ时的判别 ❖ 2. Σ1≠Σ2时的判别
1. Σ1=Σ2=Σ时的判别
❖ 判别规则:
x x
1 2
, ,
若d 2 x,1 d 2 x, 2 若d 2 x,1 d 2 x, 2
❖
令W
x
a
x
μ
,其中
μ
1 2
μ1
μ2
,
a Σ 1 μ1 μ2 ,则上述判别规则可简化为
x x
1, 2,
若W x 0 若W x 0
❖ 称W(x)为两组距离判别的(线性)判别函数,称a为
多元统计分析-第一讲
2024/7/17
18
cxt
❖ 如果:我们想知道我国基础设施发展属于哪 一类型?
运用判别分析
依据:20个国家的分类结果
2024/7/17
19
cxt
❖ 3、变量间的相互联系
一是:分析一个或几个变量的变化是否依赖 另一些变量的变化。(回归分析)
多元线性回归分析,逐步回归分析
定性指标的相关分析,多对多的回归分析
11 159.1 48 72.5
12 164.2 46.5 73
2024/7/17
23
cxt
一元方差分析的结果
━━━━━━━━━━━━━━━━━━━━━━━━━
身高
体重
胸围
── ─────── ──────
──────
组别 平均值 标准差 平均值 标准差 平均值 标准差
─────────────────────────
❖ 多元统计分析优点: 分析问题更全面更透彻
❖ 能使我们对所研究的问题更全面, 更深刻的认识.帮 助我们透过现象看本质,发现事物之间内在的本质 规律。
2024/7/17
9
cxt
二、多元统计分析的内容和方法
❖ 1、简化数据结构(降维问题) 将具有错综复杂关系的多个变量综合成数量 较少且互不相关的变量,使研究问题得到简 化但损失的信息又不太多。
男 161.9 6.8
48.1 8.3
74.4 5.9
女 154.2 5.0
47.3 5.6
77.4 6.6
─────────────────────────
F值
8.7**
0.1
1.3
** P<0.01
❖ 从表可以看出,该校男、女生的身高差异有显著性意义,而体重、胸围
多元统计分析1-3章
第一章绪论§1.1 什么是多元统计分析在工业、农业、医学、气象、环境以及经济、管理等诸多领域中,常常需要同时观测多个指标。
例如,要衡量一个地区的经济发展,需要观测的指标有:总产值、利润、效益、劳动生产率、万元生产值能耗、固定资产、流动资金周转率、物价、信贷、税收等等;要了解一种岩石,需观测或化验的指标也很多,如:颜色、硬度、含碳量、含硫量等等;要了解一个国家经济发展的类型也需观测很多指标,如:人均国民收入,人均工农业产值、人均消费水平等等。
在医学诊断中,要判断某人是有病还是无病,也需要做多项指标的体检,如:血压、心脏脉搏跳动的次数、白血球、体温等等。
总之,在科研、生产和日常生活中,受多种指标共同作用和影响的现象是大量存在的,举不胜举。
上述指标,在数学上通常称为变量,由于每次观测的指标值是不能预先确定的,因此每个指标可用随机变量来表示。
如何同时对多个随机变量的观测数据进行有效的统计分析和研究呢?一种做法是把多个随机变量分开分析,一次处理一个去分析研究;另一种做法是同时进行分析研究。
显然前者做法有时是有效的,但一般来说,由于变量多,避免不了变量之间有相关性,如果分开处理不仅会丢失很多信息,往往也不容易取得好的研究结果。
而后一种做法通常可以用多元统计分析方法来解决,通过对多个随机变量观测数据的分析,来研究变量之间的相互关系以及揭示这些变量内在的变化规律,如果说一元统计分析是研究一个随机变量统计规律的学科,那么多元统计分析则是研究多个随机变量之间相互依赖关系以及内在统计规律性的一门统计学科,同时,利用多元分析中不同的方法还可以对研究对象进行分类(如指标分类或样品分类)和简化(如把相互依赖的变量变成独立的或降低复杂集合的维数等等)。
在当前科技和经济迅速发展的今天,在国民经济许多领域中特别对社会经济现象的分析,只停留在定性分析上往往是不够的。
为提高科学性、可靠性,通常需要定性与定量分析相结合。
实践证明,多元分析是实现做定量分析的有效工具。
多元统计分析知识点多元统计分析课件
多元统计分析(1)题目:多兀统计分析知识点研究生___________________________ 专业____________________________ 指导教师________________________完成日期2013年12月目录第一章绪论 (1)§.1什么是多元统计分析 (1)§.2多元统计分析能解决哪些实际问题 (2)§.3主要内容安排 (2)第二章多元正态分布 (2)弦.1基本概念 (2)弦.2多元正态分布的定义及基本性质 (8)1. (多元正态分布)定义 (9)2•多元正态变量的基本性质 (10)§2.3多元正态分布的参数估计X =(X1,X2^|,X p) (11)1•多元样本的概念及表示法 (12)2. 多元样本的数值特征 (12)3」和a 的最大似然估计及基本性质 (15)4.Wishart 分布 (17)第五章聚类分析 (18)§5.1什么是聚类分析 (18)§5.2距离和相似系数 (19)1 • Q—型聚类分析常用的距离和相似系数 (20)2. .......................................................................................................................................... R型聚类分析常用的距离和相似系数 (25)§5.3八种系统聚类方法 (26)1. 最短距离法 (27)2. 最长距离法 (30)3. 中间距离法 (32)4. 重心法 (35)5. 类平均法 (37)6. 可变类平均法 (38)7. 可变法 (38)8. 离差平方和法(Word方法) (38)第六章判别分析 (39)§5.1什么是判别分析 (39)§5.2距离判别法 (40)1、两个总体的距离判别法 (40)2•多总体的距离判别法 (45)§6.3费歇(Fisher)判别法 (46)1•不等协方差矩阵两总体Fisher判别法 (46)2•多总体费歇(Fisher)判别法 (51)§6.4贝叶斯(Bayes)判别法 (58)1•基本思想 (58)2•多元正态总体的Bayes判别法 (59)§6.5逐步判别法 (61)1. 基本思想 (61)2•引入和剔除变量所用的检验统计量 (62)3. .......................................................................................................................................... Bartlett 近似公式 (63)第一章绪论§ 1.1什么是多元统计分析在自然科学、社会科学以及经济领域中,常常需要同时观察多个指标。
多元统计分析第5章层次分析法
若取重量向量W= [W1,W2,… , Wn]T ,则有: AW=n•W W是判断矩阵A的特征向量,n是A的一个特征值。根据线性代数 知识可以证明,n是矩阵A的唯一非零的,也是最大的特征值。
上述事实告诉我们,如果有一组物体,需要知道它们的重量,而又 没有衡器,那么就可以通过两两比较它们的相互重量,得出每一对 物体重量比的判断,从而构成判断矩阵;然后通过求解判断矩阵的 最大特征值λ max和它所对应的特征向量,就可以得出这一组物体 的相对重量。
5.3 层次分析法的步骤
1 建立层次结构模型
将决策的目标、考虑的因素(决策准则)和决策 对象按它们之间的相互关系分为最高层、中间层 和最低层,绘出层次结构图。 最高层—目标层:决策的目的、要解决的问题。
中间层—准则层:考虑的因素、决策的准则。
最低层—方案层或措施层:决策时的备选方案。
n
归一化:
T
i
Wi W
T
W
i 1
n
i
(i 1,2,n)
则W W1,W2 ,,Wn 即为所求得特征向量
计算最大特征根
max
( AW ) i nWi i 1
n
( AW )i 表示向量AW的第i个分量
5.3 层次分析法的步骤
一致性检验
判断矩阵中的aij是根据资料数据、专家的意见和系统分析人 员的经验经过反复研究后确定。应用层次分析法保持判断思 维的一致性是非常重要的,只要矩阵中的aij满足三条关系式 (aii = 1;aji = 1/ aij;aij = aik/ ajk (i,j,k=1,2,….n) )时,就说 明判断矩阵具有完全的一致性。
多元统计分析讲义(第五章)
多元统计分析讲义(第五章)本页仅作为文档封面,使用时可以删除This document is for reference only-rar21year.MarchEquation Chapter 1 Section 1《多元统计分析》Multivariate Statistical Analysis主讲:统计学院许启发()统计学院应用统计学教研室School of Statistics2004年10月第五章因子分析【教学目的】1.让学生了解因子分析的背景、基本思想;2.掌握因子分析的基本原理与方法;3.掌握因子分析的操作步骤和基本过程;4.学会应用因子分析解决实际问题。
【教学重点】1.因子旋转与因子得分;2.因子分析与主成分分析的联系与区别。
§1 概述一、引言1.问题提出(研究背景)在上一章,已经介绍了一种简化数据结构的方法——主成分分析法。
其基本目的是从尽可能多地占有原始数据的总变差出发来构造少数变量的线性组合变量——综合变量。
本章来讨论另外一种简化数据结构的方法——因子分析,它不同于主成分分析,可以看成是其推广形式。
在经济学、人口学、社会学、心理学、教育学等领域中,有许多基本特征,例如:“态度”、“认识”、“爱好”、“能力”、“智力”等,实际上是不可直接观测的量。
但是这些基本特征常常对事物的结果起着决定性作用。
比如学生通过考试得到英语、高等数学、大学物理、计算机、统计学、多元统计、数理统计、经济学等课程的成绩。
把每门课的成绩看作一个变量,显然这些变量必定受到一些共同因素的影响,比如全面智力,或者细分一点,如逻辑思维能力,形象思维能力和记忆力等,都是影响这些课程成绩的公共因素。
另外,每门课程的成绩还可能受自己特点因素的影响,如英语的语言能力、大学物理的动手实验能力、高等数学的推理能力等。
2.因子分析的产生1904年Charles Spearman发表《对智力测验得分进行统计分析》一文,标志着因子分析方法的产生。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第五章多元分布基础前面所介绍的统计分析分法(除方差分析、回归分析),大多是适用于一个变量的总体,一般称为一元统计分析方法。
但在许多实际问题如在工农业生产(提高产品质量、降低成本、提高农作物产量及改进品种等),国民经济和科学研究领域(经济管理、金融、气象、地质、生物、医学、航天技术等)中,常常要处理多个变量的观测数据,即要研究多维随机变量的分布、数字特征及变量间的关系。
如果仍用一元统计方法分别对每一个变量进行分析,这样往往忽视了各方面之间存在的相关性,一般来说会丢失很多信息,分析的结果不能客观全面地反映情况.如果说一元统计分析是研究一个随机变量统计规律性的数学方法,那么多元统计分析则是研究多个随机变量之间相互依赖关系以及内在统计规律性的数学方法。
多元统计分析方法是以概率论、线性代数及一元统计方法为基础的数理统计学的一个分支。
随着计算机的发展,特别是统计软件的应用,多元统计分析方法才被广泛的应用到解决实际问题中,本身也得到了迅猛的发展。
5.1多元分布一、多元分布的概念 1. 分布函数定义5.1.1设)',,,(21p X X X =X 是一随机向量,它的(多元)分布函数是)(x F =),,,(21p x x x F =),,(11p p x x P ≤≤X X (5.1.1)式中,),,,('21p x x x x =p R ∈,并记成X ~),,,(21p x x x F多元分布函数的性质:Ⅰ),,,(21p x x x F 是每个变量x i (i =1,…, p )的非降右连续函数; Ⅱ1),,,(021≤≤p x x x F ;Ⅲ=-∞),,,(2p x x F ==-∞ ),,,(1p x x F ),,,(21-∞ x x F =0; Ⅳ1),,,(=∞∞∞ F 。
本章主要对连续型的多元分布进行讨论,离散型的的多元分布常用的有如:多项式分布、多元超几何分布。
2.两个常用的离散性多元分布(1)多项分布 (2)多元超几何分布3.多元分布密度函数定义5.1.2设X ~),,,(21p x x x F ,若存在一个非负的函数)(∙f ,使得p x x p p dt dt t t t f x x x F p121211),,,(),,,(⎰⎰∞-∞-=(5.1.2)对一切∈R P 成立,则称X (或)(x F )有分布密度)(∙f ,并称X 为连续型随机向量。
一个p 个变量的函数)(∙f 能作为R P中某个随机向量的分布密度,当且仅当4.边际分布二、多元变量的独立性定义5.1.3两个随机向量X 和Y 称为是相互独立的,若对一切y x ,成立。
若F ),(y x 为(X ,Y )的联合分布函数;)(x F X 和)(y F y 分别为X 和Y 的分布函数,则X 与Y 独立当且仅当F ),(y x = )(x F X )(y F y (5.1.3)若(X ,Y )有分布密度函数),(y x f ,用)(x f X 和)(y f Y 分别表示X 和Y 的分布密度,则X 和Y 独立当且仅当),(y x f =)(x f X )(y f Y (5.1.4)注意在上述定义中,X 和Y 的维数一般是不同的。
类似地,称k 个随机向量k X X X ,,,21 相互独立,若它们的联合分布等于各自分布的乘积。
由k X X X ,,,21 相互独立可以推知任何i X 与j X (i ≠j )独立,但是,若已知任何i X 与j X (i ≠j )独立,并不能推出k X X X ,,,21 相互独立。
三、随机向量的数字特征若矩阵Χ=)(X ij 的每个元素都是随机变量,则称Χ为随机矩阵,随机向量)',,,(21p X X X =X 可以看作只有一列的随机矩阵。
1. 数学期望(均值)q p ⨯阶随机矩阵Χ=)(X ij 的数学期望(均值)为=∈∀≥pR1)()( 0)( )(dx x f ii R x x f i p⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡==μμμμμμμμμpq p p qq pq p p q q ij E E E E E E E E E E E212222111211212222111211)()()()()()()()()())(()(X X X X X X X X X X X =μ(5.1.5) μ是一个 q p ⨯阶常数矩阵, 称为均值矩阵.当q=1时,便可以得到随机向量)',,,(21p X X X =X 的数学期望(均值).μ是一个p 维的向量,称为均值向量。
当A 、B 为常数矩阵时,由定义可立即推出如下性质:(1) )()(X X E E A A = (5.1.6) (2) B A B A )()(X X E E = (5.1.7) 证明(1)设A 为p m ⨯阶常数矩阵)(a ij)()(21212222111211112111121121212222111211X X E a a a a a a a a a a a a a a a E a a a a a a a a a E E p pq p p p p p j j mj p j j j p j j j p j j mj p j j j p j j j p pq p p p p ∙=⎪⎪⎪⎪⎪⎭⎫⎝⎛⎪⎪⎪⎪⎪⎭⎫⎝⎛=⎪⎪⎪⎪⎪⎪⎪⎪⎪⎭⎫⎝⎛=⎪⎪⎪⎪⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡⎪⎪⎪⎪⎪⎭⎫ ⎝⎛⎪⎪⎪⎪⎪⎭⎫⎝⎛=∑∑∑∑∑∑======A A μμμμμμX X X X X X (2)设B 为 n ⨯1阶常数矩阵)(b ij 只需证明B B )()(X X E E =即可μX =⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=P P E E E E μμμ 2121)( )()()(X X X()()BB ∙=⎪⎪⎪⎪⎪⎭⎫⎝⎛=⎪⎪⎪⎪⎪⎭⎫⎝⎛=⎪⎪⎪⎪⎪⎭⎫⎝⎛=⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=)()(212121222211121112122221112112121X X E b b b b b b b b b b b b b b b b b b b b b E b b b E E n p p n pp n n p n pp n n n pμμμμμμμμμμμμX X X X X X X X X X X X2. 协方差阵 设)',,,(21p X X X =X称它为p 维随机向量X 的自协方差阵,简称为X 的协方差阵。
称|COV (X ,X )|为X 的广义方差,它是协差阵的行列式之值。
随机向量X 和Y 的协差阵设)',,,(21p X X X =X 和)',,,(21q Y Y Y =Y 分别为p 维和q 维随机向量,它们之间的协方差阵定义为一个q p ⨯ 矩阵,其元素是),(Y X j i COV 即COV (X ,Y )=)),((Y X j i q p COV ⨯ i =1,…, p ;j =1,…,q (5.1.9)若COV (X ,Y )=0,称X 和Y 是不相关的。
协差阵的性质(1)随机向量X 的自协方差阵Σ是非负定的)8.1.5()())((),(/X X X X X X X V E E E COV =--==Σ)( )D( ),( ),( ),( )D( ),( ),( ),( )(D p 2122121211ij COV COV COV COV COV COV pp P P P P σ⨯=⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=X X X X X X X X X X X X X X X),( ),( ),( ),( ),( ),( ),( ),( ),(p 212221212111⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=q P P q q COV COV COV COV COV COV COV COV COV Y X Y X Y X Y X Y X Y X Y X Y X Y X(2)当A 为常数矩阵,b 为常数向量时,A )(A b A 'X X V )(=+V (5.1.10) (3)当A 、B 为常数矩阵时,COV (A X ,B Y )=A COV (X ,Y )B / (5.1.11) (4)设n k k k ,,,21 是n 个常数,n X X X ,,,21 是n 个独立的p 维随机向量,则)()(121X X V k ik V i ni i ni i ∑∑--=(5.1.12)例5.1.1设随机向量)',,,(21p X X X =X 的数学期望和协方差阵分别为 )'7,2,5(-=μ,∑=⎪⎪⎪⎭⎫⎝⎛--2532391214 令X X X Y 321142+-=,X X Y 322-=,X X X Y 321323-+= 求)',,(321Y Y Y =Y 的数学期望和协方差阵 解 令 =A ⎪⎪⎪⎭⎫⎝⎛---231110412,则⎪⎪⎪⎭⎫⎝⎛⎪⎪⎪⎭⎫ ⎝⎛---==x x x 321231110412X Y A⎪⎪⎪⎭⎫ ⎝⎛--=⎪⎪⎪⎭⎫ ⎝⎛-⎪⎪⎪⎭⎫⎝⎛---==15940725231110412)(X Y E E A⎪⎪⎪⎭⎫⎝⎛----=⎪⎪⎪⎭⎫⎝⎛---⎪⎪⎪⎭⎫ ⎝⎛--⎪⎪⎪⎭⎫ ⎝⎛---==2199125691401262561264772143111022532391214231110412)(('A A X V V Y)例5.1.2设n 个p 维随机向量n X X X ,,,21 相互独立,μX =)(i E ,Σ=)(X i V ,则∑==ni i n11X X 的数学期望为μX =)(E ,协方差阵为ΣnV 1)(=X3、相关矩阵设X 和Y 是两个随机变量,他们的相关系数为),(Y X ρρ=设)',,,(21p X X X =X 和)',,,(21q Y Y Y =Y 分别为p 维和q 维随机向量,它们之间的相关矩阵定义为),(Y X ρ = )),((Y X j i q p ρ⨯ (5.1.14)若0),(=Y X ρ,则表示X 和Y 不相关.特别 当X =Y 时, ),(X X ρ称为随机向量X 的相关矩阵,记作)(ρj i p p ⨯=R 1,),(==ρρρi i j i j i X X ,X 的相关矩)(ρj i p p ⨯=R 与协方差阵()ij σ∑=有如下 关系V V 11--∑=R (5.1.15) 其中 ),,,(12211σσσpp diag V =,ij ρ与ij σ有如下关系ij ρ=(5.1.16)5.2总体、样本与常用统计量总体:研究对象的全体,是一个服从p 维分布的随机向量)',,,(21p X X X =X 。