厦门大学《应用多元统计分析》第02章_多元正态分布的参数估计
厦门大学《应用多元统计分析》习题第02章 多元正态分布的参数估计
思考与练习2.1 试述多元联合分布和边缘分布之间的关系。
2.2 设随机向量12(,)X X ′=X 服从二元正态分布,写出其联合分布密度函数和1X 、2X 各自的边缘密度函数。
2.3 已知随机向量12(,)X X ′=X 的联合分布密度函数为:()()()()()()()()()121122222,d c x a b a x c x a x c f x x b a d c −−+−−−−−2⎡⎤⎣⎦=−−其中,。
求:12,a x b c x d ≤≤≤≤⑴ 随机变量1X 和2X 各自的边缘密度函数、均值与方差。
⑵ 随机变量1X 和2X 的协方差和相关系数。
⑶ 判断1X 和2X 是否相互独立。
2.4 设随机向量12(,,,)p X X X ′=X L 服从正态分布,已知其协差阵为对角阵,证明ΣX 的分量是相互独立的随机变量。
2.5 从某企业全部职工中随机抽取一个容量为6的样本,该样本中各职工的目前工资、受教育年限、初始工资和工作经验资料如下表所示: 职工编号目前工资 (美元)受教育年限(年)初始工资 (美元)工作经验(月)11 2 3 4 5 6 57,000 40,200 21,450 21,900 45,000 28,350 15 16 12 8 15 8 27,000 18,750 12,000 13,200 21,000 12,000 144 36 381 190 138 26设职工总体的以上变量服从多元正态分布,根据样本资料求出均值向量和协差阵的最大似然估计。
2.6 均值向量和协差阵的最大似然估计量具有哪些优良性质? 2.7 试证多元正态总体的样本均值向量(,)p N μΣ1~(,p N nX μΣ)。
2.8 试证多元正态总体的样本协差阵S 为(,)p N μΣΣ的无偏估计。
2.9 设()1x 、()2x 、…、()n x 是从多元正态总体中独立抽取的一个随机样本,试求样本协差阵的分布。
第2章多元正态分布的参数估计
第2章多元正态分布的参数估计多元正态分布是统计学中常用的一种概率分布模型,在实际应用中经常被用来描述多个变量之间的关系。
在参数估计的过程中,我们通常需要估计多元正态分布的均值向量和协方差矩阵。
本章将介绍多元正态分布的参数估计方法。
多元正态分布的均值向量和协方差矩阵分别用μ和Σ表示。
在参数估计的过程中,我们可以使用样本的均值向量和协方差矩阵来估计总体的均值向量和协方差矩阵。
首先,我们需要收集一个包含n个样本的数据集,其中每个样本有d 个变量。
我们将这个数据集表示为X=[x1, x2, ..., xn],其中xi是一个d维向量。
均值向量的估计可以通过计算样本向量的平均值来得到。
均值向量的估计公式为:μ̂ = (1/n) * Σxi其中,μ̂是均值向量的估计值。
协方差矩阵的估计可以通过计算样本向量之间的协方差来得到。
协方差矩阵的估计公式为:Σ̂ = (1/n) * Σ(xi - μ̂)(xi - μ̂)T其中,Σ̂是协方差矩阵的估计值。
这里需要注意的是,协方差矩阵是一个对称正定矩阵,因此需要对估计值进行修正,以保证估计出的协方差矩阵是对称正定的。
修正的常用方法有Ledoit-Wolf修正和修正。
在进行参数估计之后,我们还可以计算估计值的标准误差(standard error),以衡量估计值的可靠性。
在多元正态分布的参数估计中,均值向量估计值的标准误差为:SE(μ̂) = (√((2/n)(d(d+1)/2))) * (√(Σi î))协方差矩阵估计值的标准误差为:SE(Σ̂) = (√((1/n)(d(d+1)/2))) * (√(Σi î(Σj ĵ -Σi ĵ^2)))其中,Σi î表示协方差矩阵估计值的第i个对角元素,Σi ĵ表示协方差矩阵估计值的第i行第j列元素。
参数估计的过程中,还需要考虑到样本量的大小。
当样本量较大时,参数估计的精度会提高;而当样本量较小时,参数估计的精度会降低。
第二章 多元正态分布的参数估计
第二章多元正态分布的参数估计1.随机向量:将p个随机变量的整体称作p维随机向量,记为同时对p个指标(变量)进行了n次观测,这p个指标为,常用向量表示对同一个体观测的p个变量注:横看表示为第a个样品的观测值,记为竖看表示为对第j个变量的n次观测值,记为上表可用矩阵表示为(1)离散型随机向量:设是p维随机向量,若存在有限个或可列个p 维数向量,记,,满足,则X为离散型随机向量,为X的概率分布(2)连续型随机变量:设,若存在一个非负函数,使得对一切x均有,则X为连续型随机变量,为分布密度函数其中,应满足条件:i.ii.2.多元分布:设是p维随机向量,它的多元分布函数定义为,记为。
其中表示p维欧氏空间3.边缘(或边际)分布:设是p维随机向量,由它的q(<p)个分量组成的子向量的分布为X的边缘分布假定正好是X的前q个分量,其中p-q个分量为,则,相应的取值也分为了两部分。
当X的分布函数为时,的分布函数即边缘分布函数为;当X有分布密度时,则的边缘密度函数为注:相互独立——p个随机变量的联合分布等于各自的边缘分布的乘积4.随机向量的均值向量/数学期望:设,若存在且有限,则称为X的均值(向量)或数学期望,有时也把分别记为,即,容易得到均值(向量)有以下性质:其中,X和Y为随机向量,A和B为大小适合运算的常数矩阵5.随机变量的方差或协差阵:设,称为X的方差或协差阵,有时候把D(X)简记为,简记为,从而有随机变量X和Y的协差阵为当X=Y时,即为D(X)注:独立一定不相关,不相关不一定独立当A和B为常数矩阵时,协差阵有如下性质:注:对任何随机向量来说,其协差阵都是对称阵,大多情况下是正定的6.相关系数:若的协差阵存在,且每个分量的方差大于0,则称随机向量X的相关阵为,为的相关系数。
7.指标的标准化处理:,令,有,则即标准化数据的协差阵=原指标的相关阵8.多元正态分布:X服从p元正态分布,也称X为p维正态随机分布,简称9.多元样本的数字特征样本资料可以用矩阵表示为(1)样本均值向量:(2)样本离差阵:(3)样本协差阵:(4)样本相关阵:其中,10.①②③④11.的性质①②③12.维希特(Wishart)分布设且相互独立,则由组成的随机矩阵:的分布称为非中心Wishart分布,记为。
第二章多元正态分布的参数估计
就是剔除了 X2 Xk1, , X p 得(线性)影响之后,Xi和
Xj之间得协方差。
给定X2时Xi 和Xj得偏相关系数(partial correlation
coefficient)定义为: ij k1, , p
ij k1, , p
,
ii k1, , p jj k1, , p
其中 Σ11 2 ij k1, , p 。
μ12
μ1
Σ12
Σ
1 22
x2 μ2
Σ112
Σ11
Σ12
Σ
1 22
Σ
21
μ1·2和Σ11·2分别就是条件数学期望和条件协方差矩
阵,Σ11·2通常称为偏协方差矩阵。
这一性质表明,对于多元正态变量,其子向量得条件分布仍
就是(多元)正态得。
例5 设X~N3(μ, Σ),其中
1
16 4 2
μ
0 2
μ(1) μ(2)
11 Σ 21
31
12 22 32
13 23 33
Σ11
Σ
21
Σ12
22
则
X (1)
X1
X
2
~
N2 ( μ(1) ,
Σ11)
其中
μ (1)
1
2
Σ11
11 21
12
22
在此我们应该注意到,如果 X ( X1, X 2 , , X p ) 服从 p
aX
(0,1,
0)
X
2
X2
~
N (aμ, aΣa)
X3
1
aμ
(0,1,
0)
2
2
3
11 12 aΣa (0,1, 0) 21 22
第二章 多元正态分布及参数的估计
27
北大数学学院
第二章 多元正态分布及参数的估计
§2.2 多元正态分布的定义与基本性质—简单例子
y BxB
0 0 1
1 0 0
100 110
1 2 0
003 100
0 0 1
1 0 0
1 0 1
2 0 1
003 100
2
北大数学学院
第二章 多元正态分布及参数的估计
目录
§2.1 随机向量 §2.2 多元正态分布的定义与
基本性质
§2.3 条件分布和独立性 §2.4 随机矩阵的正态分布 §2.5 多元正态分布的参数估计
3
北大数学学院
第二章 多元正态分布及参数的估计
§2.1 随 机 向
本课程所讨论的是多变量总体.把 p个随机变量放在一起得
第二章 多元正态分布及参数的估计
§2.2 多元正态分布性质2的推论
例2.1.1
f (x1, x2
()X1,X212)的e联 12合( x12密 x22度) [1函数x为1 x2e
1 2
(
x12
x22
)
]
我们从后面将给出的正态随机向量的联合密
度函数的形式可知, (X1,X2)不是二元正态随机向 量.但通过计算边缘分布可得出:
本节有关随机向量的一些概念(联合分布, 边缘分布,条件分布,独立性;X的均值向量,X 的协差阵和相关阵,X与Y的协差阵)要求大家 自已复习.
三﹑ 均值向量和协方差阵的性质 (1) 设X,Y为随机向量,A,B为常数阵,则
E(AX)=A·E(X) E(AXB)=A·E(X)·B
6
多元正态分布的参数估计
多元正态分布的参数估计多元正态分布是一种常用的概率分布,描述多个随机变量之间的关系。
在实践中,我们经常需要从样本数据中估计多元正态分布的参数,以便进行进一步的分析和预测。
本文将介绍多元正态分布的参数估计方法,并讨论其理论基础和实际应用。
f(x) = (2π)^(-k/2) * ,Σ,^(-1/2) * exp(-0.5 * (x-μ)^T *Σ^(-1) * (x-μ))其中,x为k维向量,μ为k维均值向量,Σ为k×k维协方差矩阵,Σ,表示Σ的行列式。
1.基于矩估计基于矩估计是一种常用的参数估计方法,其思想是通过样本矩的估计值来估计分布的参数。
对于多元正态分布,可以使用样本均值和样本协方差矩阵作为分布的参数估计。
样本均值的估计值为:μ' = (1/n) * ∑xi样本协方差矩阵的估计值为:Σ' = (1/n) * ∑(xi-μ')(xi-μ')^T其中,n为样本容量。
基于矩估计的优点是计算简单且具有良好的渐进性质。
然而,它也存在一些缺点,例如对于小样本容量或存在异常值的情况,估计结果可能不准确。
2.基于极大似然估计基于极大似然估计是一种基于概率密度函数构造似然函数,通过最大化似然函数来估计分布参数。
对于多元正态分布,可以通过最大化样本观测值出现的联合概率密度函数的乘积来估计分布的参数。
似然函数为:L(μ, Σ) = ∏f(xi)对数似然函数为:l(μ, Σ) = logL(μ, Σ) = ∑logf(xi)通过对数似然函数l(μ,Σ)对μ和Σ分别求偏导,并令偏导数为0,可以得到极大似然估计的解析解。
基于极大似然估计的优点是可以利用样本数据中的所有信息来估计参数,因此具有较好的统计性能。
然而,由于求解复杂度较高,往往需要使用数值优化算法来获得参数估计的数值解。
总结起来,多元正态分布的参数估计可以通过基于矩估计或基于极大似然估计的方法进行。
基于矩估计适用于样本容量较大且符合正态分布的情况,计算简单但精度较低。
2多元正态分布及参数估计
定X (2) X ,, X f x (2) 0 r 1 p 2
的条件下,
f x | x
(1)
(2)
f 2 x (2)
12
f x
4、独立性
设 X 1 , X 2 , , X p 是 p 个随机变量, Xi的分布函数记为 Fi(xi)
(i=1,2,…,p); F ( x1 , x2 ,, x p ) 是 ( X 1 , X 2 ,, X p ) ' 的联合分布
C OV X , Y X D X D D Y Y C OV Y , X
21
第二章 多元正态分布及参数的估计
§2.1 随 机 向 量
三﹑ 协方差阵的性质 (1) 设X,Y为随机向量(矩阵) D(AX+b)=A· D(X)· A' COV(AX,BY)=A· COV(X,Y)· B'
17
2、协方差矩阵
协方差定义为
Cov X , Y E ( X E ( X ))(Y E (Y ))
ห้องสมุดไป่ตู้
若Cov(X,Y)=0,则称X和Y不相关。 两个独立的随机变量必然不相关,但两个不相关的 随机变量未必独立。 当X=Y时,协方差即为方差,也就是
Cov X , X Var X D ( X ) 和Y Y ,Y ,,Y X X 1 , X 2 ,, X p 1 2 q 的协方差矩
19
X和Y的协方差矩阵与Y和X的协差阵互为转置关系,即有 若COV(X,Y)=0,则称X和Y不相关。 两个独立的随机向量必然不相关,但两个不相关的随机向量未必独 立。 X=Y时的协差阵COV(X,X)称为X的协差阵,记作D(X),即
应用多元统计分析 第二章正态分布的参数估计答案
练习二 多元正态分布的参数估计2.1.试叙述多元联合分布和边际分布之间的关系。
解:多元联合分布讨论多个随机变量联合到一起的概率分布状况,12(,,)p X X X X '=的联合分布密度函数是一个p 维的函数,而边际分布讨论是12(,,)p X X X X '=的子向量的概率分布,其概率密度函数的维数小于p 。
2.2设二维随机向量12()X X '服从二元正态分布,写出其联合分布。
解:设12()X X '的均值向量为()12μμ'=μ,协方差矩阵为21122212σσσσ⎛⎫ ⎪⎝⎭,则其联合分布密度函数为1/21222112112222122121()exp ()()2f σσσσσσσσ--⎧⎫⎛⎫⎛⎫⎪⎪'=---⎨⎬ ⎪⎪⎝⎭⎝⎭⎪⎪⎩⎭x x μx μ。
2.3已知随机向量12()X X '的联合密度函数为121212222[()()()()2()()](,)()()d c x a b a x c x a x c f x x b a d c --+-----=-- 其中1a x b ≤≤,2c x d ≤≤。
求(1)随机变量1X 和2X 的边缘密度函数、均值和方差; (2)随机变量1X 和2X 的协方差和相关系数; (3)判断1X 和2X 是否相互独立。
(1)解:随机变量1X 和2X 的边缘密度函数、均值和方差;112121222[()()()()2()()]()()()d x cd c x a b a x c x a x c f x dx b a d c --+-----=--⎰12212222222()()2[()()2()()]()()()()dd c c d c x a x b a x c x a x c dx b a d c b a d c -------=+----⎰ 121222202()()2[()2()]()()()()dd c c d c x a x b a t x a t dt b a d c b a d c ------=+----⎰ 2212122222()()[()2()]1()()()()d cdc d c x a x b a t x a t b a d c b a d c b a------=+=----- 所以由于1X 服从均匀分布,则均值为2b a+,方差为()212b a -。
第二章多元正态分布的参数估计详解演示文稿
μ
0 2
,
Σ
4 2
4 1
41
试求给定X1+2X3时 X
2
X1
X
3
的条件分布。
第十九页,共63页。
§2.3 复相关系数和偏相关系数
一、复相关系数
二、偏相关系数
第二十页,共63页。
一、复相关系数 相关系数度量了一个随机变量x1与另一个随机变量x2之间 线性关系的强弱。
复相关系数度量了一个随机变量X1与一组随机变量X2, ⋯,Xp之间线性关系的强弱。 将X, Σ(>0)剖分如下:
第六页,共63页。
§2.2 多元正态分布的性质
(1)多元正态分布的特征函数是:
X
(t)
exp( it '
1 2
t 't
)
,
AA'.
(2)设X是一个p维随机向量,则X服从多元正态分布,当且
仅当它的任何线性函数 均a服X从一元正态分布。
➢ 性质(2)常可用来证明随机向量服从多元正态分布。
(3)设X~N p (μ, Σ),Y=CX+b其中C为r×p 常数矩阵,则
; 14 44
(iii)
X4 X1
~
N
3
4 1
44
,
14
41 11
1433。
X3
3 34 31 33
第十五页,共63页。
§2.2 多元正态分布的性质
(5)设X1,X2, ⋯,Xn相互独立,且Xi~N p (μi, Σi) ,i=1,2,⋯,n,则
1 x12 x22
f ( x1, x2 ) 2 e 2 (1 sin x1 sin x2 ) x1, x2 R
第二章 多元正态分布 《应用多元统计分析》 ppt课件
1
一、随机向量
在理论上,对多维随机向量的研究和对一维随机 变量的研究思路是类似的,通过分布及其特征进 行刻画。不同的是,可能要考虑变量之间的相关 关系。
在统计应用上,对多维随机向量的研究和对一维 随机变量的研究思路也是一样的,要通过样本资 料来推断总体。
19
二、多元正态分布的数字特征
若 X ~ Np μ, Σ ,则 E(X) μ,D(X) Σ ,即 μ 恰好是
多维随机向量 X的均值向量, Σ 恰好是多维随机 向量 X 的协差阵。其中,
1
μ
2
,
p
11 12
Σ
21
22
p1 p2
1p
2
p
pp
20
三、多元正态分布的参数估计
若 X 的联合分布密度为 f (x1, x2 , , xp ),则 X(1) 的边缘 密度函数为:
f (x1, x2 , , xq )
f (x1, x2 ,
, xq , xq1,
, xp )dtq1
dt,p (2.3)
多维随机向量的独立性。若 p个随机变量
X1, X 2 ,, X p的联合分布密度等于各自边缘分布的 乘积,则称 X1, X 2 ,, X p是互相独立的。
1
x)(x( )
x)
n
(x1 x1)2
1
1 n
n
(x1 x1)(x 2 x2 )
1
n
(x 2 x2 )2
1
n
x 2
1
n
x
p
1
n
( x 1
x1)(x p
xp
第2章多元正态分布参数估计
第2章多元正态分布参数估计多元正态分布是多元随机变量的一种常见模型。
在实际问题中,我们常常需要通过已有的数据对多元正态分布的参数进行估计,便于进行后续的统计分析和预测。
多元正态分布的参数估计主要包括均值向量和协方差矩阵的估计。
对于均值向量的估计,最简单的方法是直接计算样本均值。
假设我们有一个包含n个样本的数据集,其中每个样本有d个维度的观测值,我们可以将样本数据表示为一个n×d的矩阵X。
则样本均值向量的估计值μ可以通过以下公式得到:μ = (1/n) * Σxi其中,xi表示第i个样本观测值。
对于协方差矩阵的估计,最常用的方法是样本协方差矩阵的估计。
样本协方差矩阵S的估计值可以通过以下公式得到:S = (1/n) * Σ(xi - μ)(xi - μ)T其中,T表示矩阵的转置。
需要注意的是,样本协方差矩阵的估计是基于样本的二阶矩估计,因此在数据量较小的情况下,估计结果可能存在偏差。
为了减小估计结果的偏差,可以使用修正样本协方差矩阵的估计。
修正样本协方差矩阵的估计值可以通过以下公式得到:S = ((n-1)/n) * Σ(xi - μ)(xi - μ)T其中,n-1是修正系数。
除了样本协方差矩阵,也可以使用样本相关系数矩阵来估计多元正态分布的协方差矩阵。
样本相关系数矩阵R的估计值可以通过以下公式得到:rij = sij / (si * sj)其中,sij表示样本协方差矩阵的元素,si和sj分别表示样本标准差。
需要注意的是,当样本量较小或者存在样本相关系数为1的情况时,样本相关系数矩阵的估计结果可能不可靠,此时推荐使用样本协方差矩阵来估计。
在实际问题中,参数估计是多元正态分布分析的重要步骤。
通过对样本数据进行参数估计,我们可以对多元正态分布的均值和协方差矩阵有一个初步的认识,从而便于进行后续的模型建立、参数推断和预测。
同时,合理的参数估计方法也有助于提高分析结果的精度和可靠性。
总之,多元正态分布参数估计是一个对多元随机变量的观测数据进行统计分析的重要任务。
第二章_多元正态分布的参数估计要点
x
|ρ|越小,长轴越短 ,短轴越长,即椭圆越圆;
|ρ|=1时椭圆退化为一条线段;|ρ|=0时即为圆。
§2.2 多元正态分布的性质
(1)多元正态分布的特征函数是: 1 ' ' X ( t ) exp( it t t ) , AA' . 2 (2)设X是一个p维随机向量,则X服从多元正态分布,
性质(2)知,X1,X2, ⋯,Xn的联合分布必为多元正态 分布,于是命题“一元正态变量的联合分布必为多元 正态分布”成立,从而矛盾。
例 2 若 X ( X1 , X 2 , X3 ) ~ N3 ( μ, Σ ) 其中,
11 12 21 22 31 32 1 0 0 设 a (0,1,0) , A ,则 0 0 1 1 2 3
13 23 33
( 1)
X1 X ~ N (aμ, aΣa ) aX (0,1, 0) X 2 2 X3
其中
1 aμ (0,1, 0) 2 2 3 11 12 13 0 1 aΣa (0,1, 0) 22 23 22 21 0 32 33 31
( 2)
1 AX 0
其中
X1 0 0 X 1 AΣA ) X 2 X ~ N (Aμ , 0 1 X 3 3 1 0 0 1 2 0 1 3 3
1 exp 2 2 1
二元正态分布的密度曲面图
下图是当 , 0.75 时二元正态分布的钟形密
第二章多元正态分布的参数估计
第二章多元正态分布的参数估计多元正态分布是在多个随机变量之间存在相互依赖关系时使用的一种概率分布。
它在许多统计分析和机器学习领域中都有广泛的应用。
在实际应用中,我们通常需要使用样本数据对多元正态分布的参数进行估计。
多元正态分布由均值向量和协方差矩阵两个参数来描述。
均值向量表示各个随机变量的平均值,而协方差矩阵表示各个随机变量之间的协方差。
参数估计的目标就是通过样本数据来估计这两个参数。
首先,我们需要收集一个具有充分样本量的数据集。
对于一个具有n个样本的多元正态分布,我们可以将样本数据表示为一个n行d列的矩阵X,其中每一行是一个d维的样本向量。
其中n表示样本数量,d表示随机变量的个数。
接下来,我们可以根据样本数据来估计多元正态分布的均值向量和协方差矩阵。
1.均值向量的估计:多元正态分布的均值向量可以通过样本均值向量来估计。
样本均值向量的计算公式如下:μ = (1/n) * Σxi其中μ是估计得到的均值向量,xi表示样本矩阵X的第i行。
2.协方差矩阵的估计:多元正态分布的协方差矩阵可以通过样本协方差矩阵来估计。
Σ=(1/(n-1))*(X-μ)'*(X-μ)其中Σ是估计得到的协方差矩阵,X是样本矩阵,μ是估计得到的均值向量。
需要注意的是,在计算协方差矩阵时,我们使用的是样本协方差矩阵而不是总体协方差矩阵。
这是因为样本协方差矩阵能更好地反映样本数据的真实情况。
以上就是多元正态分布的参数估计方法。
通过样本数据,我们可以使用样本均值向量和样本协方差矩阵来估计多元正态分布的参数。
这些参数估计能为我们提供关于多元正态分布的统计属性和特征,进而用于进一步的分析和应用。
第二章 多元正态分布及参数的估计
第二章多元正态分布及参数的估计在多元统计分析中,多元正态分布占有相当重要的地位.这是因为许多实际问题涉及到的随机向量服从正态分布或近似服从正态分布;当样本量很大时,许多统计量的极限分布往往和正态分布有关;此外,对多元正态分布,理论与实践都比较成熟,已有一整套行之有效的统计推断方法.基于这些理由,我们在介绍多元统计分析的种种具体方法之前,首先介绍多元正态分布的定义、性质及多元正态分布中参数的估计问题.目录§2.1 随机向量§2.2 多元正态分布的定义与基本性质§2.3 条件分布和独立性§2.4 多元正态分布的参数估计§2.1 随机向量本课程所讨论的是多变量总体.把p个随机变量放在一起得X=(X1,X2,…,Xp)′为一个p维随机向量,如果同时对p维总体进行一次观测,得一个样品为p维数据.常把n个样品排成一个n×p矩阵,称为样本资料阵.⎪⎪⎪⎪⎭⎫⎝⎛'''=⎪⎪⎪⎪⎭⎫ ⎝⎛=)()2()1(212222111211n np n n p p X X X x x x x x x x x x X def=(X 1,X 2,…,X p )其中 X(i)( i =1,…,n)是来自p 维总体的一个样品.在多元统计分析中涉及到的都是随机向量,或是多个随机向量放在一起组成的随机矩阵.本节有关随机向量的一些概念(联合分布,边缘分布,条件分布,独立性;X 的均值向量,X 的协差阵和相关阵,X 与Y 的协差阵)要求大家自已复习.三﹑ 均值向量和协方差阵的性质 (1) 设X ,Y 为随机向量,A ,B 为常数阵,则E(AX )=A·E(X ),E(AXB )=A·E(X )·BD(AX)=A·D(X)·A' COV(AX,BY)=A·COV(X,Y)·B'(2) 若X,Y 相互独立,则COV(X,Y)=O;反之不成立. 若COV(X,Y)=O,我们称X 与Y 不相关.故有: 两随机向量若相互独立,则必不相关;两随机向量若不相关,则未必相互独立.(3) 随机向量X=(X1,X2,…,Xp)′的协差阵D(X)=∑是对称非负定阵.即 ∑=∑´ , α´ ∑α≥0 (α为任给的p 维常量).(4) Σ=L 2 ,其中L 为非负定阵.由于Σ≥0(非负定),利用线性代数中实对称阵的对角化定理,存在正交阵Γ,使LL pp•=Γ⎪⎪⎪⎭⎫⎝⎛Γ•Γ⎪⎪⎪⎭⎫⎝⎛Γ=∑'0'0011λλλλ.0,1≥'=Γ'⎪⎪⎪⎭⎫⎝⎛Γ=L L L OOL p故,其中λλ当矩阵Σ>0(正定)时,矩阵L 也称为Σ的平方根矩阵,记为21∑.当矩阵Σ>0(正定)时,必有p ×p 非退化矩阵A 使得 Σ=AA ′.1⎪⎪⎪⎭⎫⎝⎛Γ=pOOA λλ其中若Σ≥0(非负定),必有p ×q矩阵1A 使得Σ=11A A ′).(111p q OOA q≤⎪⎪⎪⎭⎫⎝⎛Γ=λλ其中这里记Γ=(Γ1 | Γ2) , Γ1为p ×q 列正交阵(p ≥ q ).并设:.0,,0),,,1(01===>+p q i q i λλλ§2.2 多元正态分布的定义在一元统计中,若U ~N(0,1),则U 的任意线性变换X=σU +μ~N(μ,2σ)。
2 多元正态分布的参数估计
第二章多元正态分布的参数估计实验目的:熟练应用计算机软件进行均值向量、协差阵的估计,提高计算机分析应用能力。
频数分析SPSS操作方法1. 选择菜单Analyze→Descriptive Statistics→Frequencies,打开Frequencies 对话框,如图2-1。
将欲进行频数分析的变量a1移入Variable列表框中。
Display frequency tables复选框询问是否输出频数分布表。
由于频数分析基本就是通过频数分布表来表现的,所以一般情况下都要选择这个选项。
图2-1 Frequencies对话框2. 单击Statistics按钮,调出Statistics子对话框,如图2-2,选择输出的描述性统计量。
该对话框包含以下选项:Percentile Values选项栏:输出各种百分位数。
该选项栏共有三个可选项。
其中,Quartiles输出四分位数;Cut points for n equal groups输出n分位数,n为用户定义的2-100之间的整数;Percentile可以有选择地输出百分位数,方法是在后面的输入框中输入2-100之间的整数,并点击Add按钮确认添加。
Central Tendency选项栏:输出各种集中趋势指标,包括算术平均数、中位数、众数和总和。
◆Dispersion选项栏:输出各种离散程度指标。
◆Distribution选项栏:输出峰度和偏度指标。
所以在本节中我们仅选择输出Descriptives命令的Options子对话框(图2-7)中所没有的分位数指标。
这里选择Quartiles,输出四分位数。
图2-2 Statistics子对话框2. 单击Charts按钮,打开Charts子对话框,设置生成的统计图,如图2-3。
对话框中有两个选项栏:◆Chart Type选项栏:设置生成统计图的类型。
共四个选项,None表示不生成任何统计图,Bar charts生成条形图,Pie charts生成饼图,Histograms生成直方图。
多元统计分析 课后部分习题答案 第二章
x1 y2 (2)第二次配方.由于 x2 y1 y2
14
第二章
2 1 2 2 2 1 2 1 2 2
多元正态分布及参数的估计
2 x x 2 x1 x2 22 x1 14 x2 65 y y 22 y2 14( y1 y2 ) 65 y 14 y1 49 y 8 y2 16 ( y1 7) ( y2 4)
1 1 2 2 f ( x1 , x2 ) exp (2 x1 x2 2 x1 x2 22 x1 14 x2 65) 2 2
试求X的均值和协方差阵. 解一:求边缘分布及Cov(X1,X2)=σ12
1 f1 ( x1 ) f (x1 , x2 )dx2 e 2
1 1 2 1 1 1 因ΣY CC 1 1 1 1 1 0 2 1 1 1 1 2 2(1 ) 1 1 0 2(1 ) 1 1
O 2(1 2 ) O 2(1 2 )
由定理2.3.1可知X(1) +X(2)和X(1) -X(2) 相 互独立.
7
第二章
(2) 因
(1) ( 2)
多元正态分布及参数的估计
(1) ( 2) 2(1 2 ) O X X Y (1) ( 2) ~ N 2 p (1) ( 2) , O 2(1 2 ) X X
4 1 1 E ( X ) , D( X ) 3 1 2
1 1 1 ( x )] 且f ( x1 , x2 ) exp[ ( x ) 2 2 故X=(X1,X2)′为二元正态分布.
第2章多元正态分布的参数估计
解: f ( x1 ) f ( x1 , x2 )d x2
=
0
e
(
x1
x2
)
d
x2
e x1 ,
0,
x1 0 其它
同理
f
(x2
)=ex2 0,
,
x2 0 其它
2019/9/5
26
(四)相互独立
定义2.5 若p个随机变量 X1,X2, ,Xp 的 联合分布等于各自的边缘分布的乘积,则
X
X(1),X(2)
X(1) X(2)
q pq
,
x (1)
相应的取值也可分为两部分
x
x
(
2
)
。
2019/9/5
21
p维随机向量:
xX
目 受 初 工 xx前教始作((12工育工经))资年资验限
57000 40200 21450
2019/9/5
14
(二)多元随机向量的分布
定义2.3 设 X(X1,X2, ,Xp)是 p维随机向量,
若它的全部概率集中在一个有穷或可数个点的集
合 D=x1,x2, 上 ,P(Xxk)pk(k1,2, )
且满足 p1p2 1,则称 X 为离散型随机向 量,称 P(Xxk)pk,(k1,2, ) 为 X 的概率分 布。
第二章 多元正态分布的参数估计
2019/9/5
1
第二章 多元正态分布的参数估计
第一节 基本概念 第二节 多元正态分布 第三节 多元正态分布的参数估计 第四节 多元正态分布的应用于计算机实现
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
( 2) )
−∞ −∞
∫∫
e − ( x1 + x2 ) dx1dx2 =
+∞ +∞
∫∫
0 0
e − ( x1 + x2 ) dx1dx2
=
=
+∞
∫
0
0 +∞
+∞ − ( x1 + x2 ) dx1 dx2 ∫ e 0
− x2
∫e
dx2 = − e
− x2 +∞ 0
=1
维随机向量, 定义 2.4 设 X = ( X 1 , X 2 ,L , X p )′ 是 p 维随机向量,称 由 它 的 q (< p ) 个 分 量 组 成 的 子 向 量 的边缘( 或边际) X (i ) = ( X i1 , X i2 ,L , X iq )′ 的分布为 X 的边缘( 或边际 ) 分布, 的分布称为联合分布。 分布 ,相对地把 X 的分布称为联合分布。通过变换 X 中 各分量的次序, 总可假定 X (1) 正好是 X 的前 q 个分量, 个分量, 各分量的次序, 其 余 p − q 个分量为 X
f ( x1 , x 2 , L , x p ) , 使 得 对 一 切 x = ( x1 , x2 , L, x p )′ ∈ R p 有
F ( x)∆F ( x1 , x2 ,L , x p ) =
x1
xp
−∞
∫L∫
f (t1 , t2 ,L , t p )dt1 L dt p (2.3) )
−∞
表 2.1 变量 序号 1 2
数据
X1
X2
L
Xp
X 11
X 12
L L
M
X1 p X2p
X 21
X 22
M
M
X n1
M
X n2
M
X np
n
L
X (α ) = ( X α 1 , X α 2 ,L , X α p )′ , α = 1, 2,L , n 个样品的观测值。 表示第 α 个样品的观测值。竖看表 2.1,第 j 列的元素 , X j = ( X 1 j , X 2 j ,L , X nj )′ , j = 1, 2,L , p
【例 2.1】 试证函数 】
e − ( x1 + x2 ) , x1 ≥ 0, x 2 ≥ 0 f ( x1 , x 2 ) = 其它 0, 密度函数。 为随机向量 X = ( X 1 , X 2 )′ 密度函数。
证:只要验证满足密度函数两个条件即可 ( 1)显然,当 x1 ≥ 0, x 2 ≥ 0 时有 f ( x1 , x 2 ) ≥ 0 )显然,
(2.1) )
简记为 X。 。 定义 2.1 将 p 个随机变量 X 1 , X 2 ,L , X p 的整体称为 p 维随 机向量, 机向量,记为 X = ( X 1 , X 2 ,L , X p )′ 。 在对随机向量的研究仍然限于讨论离散型和连续型两类随机 向量。 向量。
二、多元分布
先回顾一下一元统计中分布函数和密度函数的定义。 先回顾一下一元统计中分布函数和密度函数的定义。 是一个随机变量, 设 X 是一个随机变量,称 F ( x) = P ( X ≤ x ) 为 X 的概率分布 若 随 机 变 量 在 有 限 或 可 列 个 值 {x k } 上 取 值 , 记 函数或简称为分布函数, 函数或简称为分布函数,记为 X ~ F ( x ) 。
−∞ −∞
求边缘密度函数。 【例 2.2】对例 2.1 中的 X = ( X 1 , X 2 )′ 求边缘密度函数。 】 解:
f ( x1 ) =
+∞
−∞
∫ f (x , x
1
2
) dx 2
+∞ − ( x1 + x2 ) e dx2 = e − x1 , x1 ≥ 0 ∫ = 0 0, 其它
在实用中遇到的随机向量常常是服从正态分布或近似正态分 布,或虽本身不是正态分布,但它的样本均值近似于正态分 或虽本身不是正态分布, 布。因此现实世界中许多实际问题的解决办法都是以总体服 从正态分布或近似正态分布为前提的。在多元统计分析中, 从正态分布或近似正态分布为前提的。在多元统计分析中, 多元正态分布占有很重要地位, 多元正态分布占有很重要地位,本书所介绍的方法大都假定 数据来之多元正态分布。为此, 数据来之多元正态分布。为此,本章将要介绍多元正态分布 的定义和有关性质。 的定义和有关性质。 然而在实际问题中, 然而在实际问题中,多元正态分布中均值向量和协差阵通 常是未知的,一般的做法是由样本来估计。 常是未知的,一般的做法是由样本来估计。这是本章讨论的 重要内容之一, 重要内容之一,在此我们介绍最常见的最大似然估计法对参 数进行估计,并讨论其有关的性质。 数进行估计,并讨论其有关的性质。
为连续型随机变量, 则称 X 为连续型随机变量,称 f ( x1 , x 2 , L , x p ) 为分布密度函 数,简称为密度函数或分布密度。 简称为密度函数或分布密度。 一个 p 元函数 f ( x1 , x 2 , L , x p ) 能作为 R p 中某个随机向量的 密度函数的主要条件是: 密度函数的主要条件是: ( 1) f ( x1 , x 2 , L , x p ) ≥ 0 , ∀( x1 , x 2 ,L, x p )′ ∈ R ; )
第二章 多元正态分布的参数估计
第一节 第二节 第三节 第四节 第五节 引言 基本概念 多元正态分布 多元正态分布的参数估计 多元正态分布参数估计的 实例与计算机实现
第一节 引言
多元统计分析涉及到的都是随机向量或多个随机向量放在一 起组成的随机矩阵。例如在研究公司的运营情况时,要考虑 起组成的随机矩阵。例如在研究公司的运营情况时, 公司的获利能力、资金周转能力、 公司的获利能力、资金周转能力、竞争能力以及偿债能力等 财务指标;又如在研究国家财政收入时,税收收入、 财务指标;又如在研究国家财政收入时,税收收入、企业收 债务收入、国家能源交通重点建设基金收入、 入、债务收入、国家能源交通重点建设基金收入、基本建设 贷款归还收入、国家预算调节基金收入、 贷款归还收入、国家预算调节基金收入、其他收入等都是需 要同时考察的指标。显然,如果我们只研究一个指标或是将 要同时考察的指标。显然, 这些指标割裂开分别研究, 这些指标割裂开分别研究,是不能从整体上把握研究问题的 实质的,解决这些问题就需要多元统计分析方法。 实质的,解决这些问题就需要多元统计分析方法。为了更好 的探讨这些问题, 的探讨这些问题,本章我们首先论述有关随机向量的基本概 念和性质。 念和性质。
p
+∞
( 2) L )
−∞
∫ ∫ f (x , x
1 −∞
+∞
2
, L , x p )dx1 L dx p = 1
离散型随机向量的统计性质可由它的概率分布完全确定, 离散型随机向量的统计性质可由它的概率分布完全确定,连续 型随机向量的统计性质可由它的分布密度完全确定。 型随机向量的统计性质可由它的分布密度完全确定。
P ( X = xk ) = pk , (k = 1, 2,L) 且 ∑ p k = 1 ,则称 X 为离散
k
型随机变量, 型随机变量,称 P ( X = xk ) = pk ,( k = 1, 2,L) 为 X 的概率分 布。 设 X ~ F ( x) , 若存在一个非负函数 f (x) , 使得一切实数 x 有:
(Hale Waihona Puke )X ,则 X = (2) , X p −q
(1)
q
x (1) 相应的取值也可分为两部分 x = (2) 。 x
当 X 的分布函数是 F ( x1 , x2 ,L , xq ) 时, X (1) 的分布函数即边 缘分布函数为: 缘分布函数为:
F ( x1 , x2 ,L , xq ) = P ( X 1 ≤ x1 ,L , X q ≤ xq ) = P ( X 1 ≤ x1 ,L , X q ≤ xq , X q +1 ≤ ∞,L , X p ≤ ∞ ) = F ( x1 , x2 ,L , xq , ∞,L , ∞)
第二节 基本概念
一 随机向量
二 多元分布
三 随机向量的数字特征
一、随机向量
我们所讨论的是多个变量的总体,所研究的数据是同时 个 我们所讨论的是多个变量的总体,所研究的数据是同时p个 指标(变量),又进行了n次观测得到的 我们把这个p指标 ),又进行了 次观测得到的, 指标(变量),又进行了 次观测得到的,我们把这个 指标 表示为X 常用向量X 表示为 1 ,X2,…,Xp,常用向量 = (X1 , X2 , … , XP)' 表示对同一个体观测的p个变量 这里我们应该强调, 个变量。 表示对同一个体观测的 个变量。这里我们应该强调,在多 元统计分析中,仍然将所研究对象的全体称为总体, 元统计分析中,仍然将所研究对象的全体称为总体,它是由 许多(有限和无限)的个体构成的集合, 许多(有限和无限)的个体构成的集合,如果构成总体的个 体是具有p个需要观测指标的个体 我们称这样的总体为p维 个需要观测指标的个体, 体是具有 个需要观测指标的个体,我们称这样的总体为 维 总体( 元总体)。 总体(或p元总体)。上面的表示便于人们用数学方法去研 元总体)。上面的表示便于人们用数学方法去研 维总体的特性。 的概念, 究p维总体的特性。这里“维”(或“元”)的概念,表示 维总体的特性 这里“ 共有几个分量。若观测了n个个体 则可得到如表2.1的数据 个个体, 的数据, 共有几个分量。若观测了 个个体,则可得到如表 的数据, 称每一个个体的p个变量为一个样品 而全体n个样品组成一 个变量为一个样品, 称每一个个体的 个变量为一个样品,而全体 个样品组成一 个样本。 个样本。
(2.2) ) 记为 X ~ F ( x ) , 其中 x = ( x1 , x2 , L , x p )′ ∈ R , R 表