多元统计分析随机向量
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
ki2VXi
i1
i1
证明
n
n
n
V ki Xi cov( ki Xi , ki Xi )
i1
i1
i1
nn
kikj cov Xi , X j
i1 j1
n
n
由独立性可得, ki2 cov Xi , Xi ki2V (xi )
j1
i1
例3 设随机向量 X(X1,X2,X3)/的数学期望和协方差矩
V A X b A V X A
当p=1时,上述等式就是我们熟知的如下等式:
V a X b a 2 V X
(3)设A和B为常数矩阵,则
C o v A X ,B Y A C o v X , Y B
例2 Σ0X的各分量间存在线性关系(依概率1)。
协差阵的性质
(4)设 A 1 ,A 2 ,L ,A n 和 B 1 ,B 2 ,L ,B m 为常数矩阵,则
m
E Xi E Xi Yj E Yj
i1
i1 j1
j1
n
m
EXi E Xi
Yj E Yj
n
m
Cov Xi ,Yj
i1 j1
i1 j1
协差阵的性质
(5)设k1,k2, ⋯,kn是n个常数,X1,X2, ⋯,Xn是n个相互独 立的p维随机向量,则
V
n
n kiXi
f
x1 | x2
f2
x2
五、独立性
两个连续型随机向量的独立
fx ,y fX x g f Y y
n个连续型随机向量的独立
f x 1 , L ,x n f 1 x 1 L f n x n
在实际应用中,若随机向量之间的取值互不影响,则 认为它们之间是相互独立的。
§2.3 数字特征
一、数学期望(均值) 二、协方差矩阵 三、相关矩阵
20.81 20.06 20.81 20.68 20.58 20.43 21.52 20.22 20.8 21.04 21.05
⋮
400米 (秒)
46.84 44.84 46.82 45.04 45.91 45.21 48.3 45.68 46.2 47.3 46.1
⋮
800米 (分)
1.81 1.74 1.79 1.73 1.8 1.73 1.8 1.76 1.79 1.81 1.82
平方欧氏距离为:
d2x,yx1y12x2y22Lxpyp2
xyxy
一、欧氏距离
X X1,X2,L,Xp 到总体π的平方欧氏距离定义为:
d2X,XμXμ
X112 X2 22 L
2
Xp p
平均大小 EX112 EX2 22 K
2
E Xp p
等于 VX1
VX2 K VXp
不适合直接使用欧氏距离的例子
477
V
(Y
)
AV
(X
)A/
126 256
126 40 91
256
91 219
.
三、相关矩阵
随机变量X和Y的相关系数定义为:
X,Y CovX,Y VXVY
X ( X 1 , X 2 , L , X p ) 和 Y ( Y 1 , Y 2 , L , Y q ) 的相关阵定
义为:
X1,Y1
F x P X a
随机向量 X X1,X2,L,Xp 的分布函数:
F x 1 , x 2 , L , x p P X 1 x 1 , X 2 x 2 , L , X p x p
二、多元概率密度函数
一元的情形:
F (x )xftd t,
fx d F x
d x
多元的情形:
称协差阵)定义为:
Cov
X 1 ,Y1
Cov X1,Y2 L
Cov
X
,Y
Cov
X
2
,Y1
Cov X 2,Y2
L
M
M
Cov X p ,Y1 Cov X p ,Y2 L
Cov
X 1 ,Yq
Cov
X 2 ,Yq
M
Cov X p ,Yq
X1 E X1
E
M Y1 E Y1 ,L ,Yq E Yq
n
m nm
C o v A iX i, B jY j A iC o vX i,Y j B j
i 1
j 1
i 1j 1
n m n m
推论 C ov X i, Y j C ovX i,Y j
i 1 j 1
i 1j 1
证明
n
m
CovXi,Yj
i1
j1
n
n m
X,YX2,Y1
M
Xp,Y1
X1,Y2 L X2,Y2 L
M
Xp,Y2 L
X1,Yq
X2,Yq
M
Xp,Yq
若ρ(X,Y)=0,则表明X和Y不相关。
X=Y时的相关阵ρ(X,X)称为X的相关阵,记作R=(ρij),
这里ρij=ρ(Xi,Xj), ρii=1。即
1 12 L
一、欧氏距离
由于 E X i * 2 V X i * 1 ,i 1 ,2 , L ,p ,
故平方和 X 1 1 2 LX p p2 中各项的平均取值均
为1,从而各分量所起的平均作用都一样。 欧氏距离经变量的标准化之后能够消除各变量的
单位或方差差异的影响,但不能消除变量之间相关性 的影响,以致有时用欧氏距离显得不太合适。为此, 我们引入一个由印度著名统计学家马哈拉诺比斯 (Mahalanobis,1936年)提出的“马氏距离”的概念。
阵分别为
5 4 1 2
72和12
9 3
253
令y1=2x1−x2+4x3,y2=x2−x3,y3=x1+3x2−2x3,试求y=(y1,y2,y3)′的
数学期望和协方差矩阵。
2 1 4 X1
Y
0 1
1 3
1 2
X2 X3
AX
,
E (Y ) AE ( X ) (40, 9, 15)/ ,
F(x1,L,xp)
L x1
xp
f(t1,L,tp)dt1Ldtp
p f(x1,L,xp)x1LxpF(x1,L,xp)
多元概率密度函数f (x1, ⋯,xp) : (1)f(x1,L,xp)0, 对 一 切 实 数 x1,L,xp;
(2) L f(x1,L,xp)dx1Ldxp1。
三、边缘分布
设 X X1,L,Xp 是p维连续型的随机向量,在给
X 定2 X q 1 ,L ,X p,f2 x 2 0的条件下,
X1 X1,L,Xq 的条件密度定义为:
f
x 1,L,xq|xq 1,L,xp
f
f2
x 1,L,xp xq 1,L,xp
f x
或表达为:
一、数学期望(均值)
随机向量 X (X 1 ,X 2,L,X p)的数学期望
E X E X 1 ,E X 2 ,L ,E X p
记为μ=(μ1,μ2,⋯,μp)′。 随机矩阵X=(Xij)的数学期望
EX11
EX E Xij
EX21
M
E Xp1
EX12 L EX22 L
M
E Xp2 L
即 VX EXEXXEX
V X1
Covx1,x2 L
Cov
X2,
X1
Vx2
L
M
M
Cov Xp, X1 Cov xp, x2 L
Cov
X1, Xp
Cov
X2, Xp
M
V Xp
V(X)亦记作Σ=(σij),其中σij=Cov(Xi,Xj)。
协差阵Σ既包含了X各分量的方差,也包含了每两个分 量之间的协方差。显然,Σ是一个对称矩阵。
二、协方差矩阵
协方差定义为
C o v X , Y E X E X Y E Y
若Cov(X,Y)=0,则称X和Y不相关。 两个独立的随机变量必然不相关,但两个不相关的随机
变量未必独立。 当X=Y时,协方差即为方差,也就是
C o v X ,X V a rX
X X 1 ,X 2 ,L ,X p和 Y Y 1 ,Y 2 ,L ,Y q的协方差矩阵(简
E X1q
E X2q
M
E Xpq
随机矩阵X的数学期望的性质
(1)设a为常数,则 E(aX)=aE(X)
(2)设A,B,C为常数矩阵,则 E(AXB+C)=AE(X)B+C
特别地,对于随机向量X,有 E(AX)=AE(X)
(3)设X1,X2,⋯,Xn为n个同阶的随机矩阵,则 E(X1+X2+⋯+ Xn)=E(X1)+E(X2)+⋯+E(Xn)
R
21
M
1L M
p1 p 2 L
1p
2
p
M 1
R=(ρij)和Σ =(σij)之间有关系式:R=D−1ΣD−1
其中 D d ia g ( 1 1, 2 2,L , p p)。
R和Σ的相应元素之间的关系式为:
ij
ij ii jj
前述关系式即为:
1
11
0
R
M
0
起着决定性的作用,而变异性小的分量却几乎不起什么
作用。
在实际应用中,为了消除单位的影响和均等地对待每
一分量,我们常须先对各分量作标准化变换,然后再计
算X 欧i* 氏X 距i 离。i,i 1 ,L ,p , X *X 1 * ,L ,X * p
令
d i2 i X * , X * X * X 1 * 2 L X * p ,2则
⋮
马拉松 (分)
137.72 128.3 135.9 129.95 146.62 133.13 139.95 130.15 134.03 133.53 131.35
⋮
一、欧氏距离
向量的各分量如果单位不全相同,则上述欧氏距离一
般就没有意义。即使单位全相同,但如果各分量的变异
性差异很大,则变异性大的分量在欧氏距离的平方和中
0L
1 L
22
M 0L
0
0
1211
12 22
L L
1MM p1
M
p2
L
pp
1
12pp
11
0
M
pp
M 0
0L
1 L
22
M 0L
0
0
M
1
pp
标准化变换
在数据处理时,常常因各变量的单位不完全相同而需要对 每个变量作标准化变换,最常用的标准化变换是令
Xi*Xiiii , i1,2,L,p
记 X *(X 1 *,X 2 *,L,X * p), 于是
下面是各国家和地区男子径赛记录的数据(1984年):
国家和地区
100米 (秒)
阿根廷 澳大利亚 奥地利 比利时 百慕大 巴西 缅甸 加拿大 智利 中国 哥伦比亚
⋮
10.39 10.31 10.44 10.Leabharlann Baidu4 10.28 10.22 10.64 10.17 10.34 10.51 10.43
⋮
200米 (秒)
附2 随机向量
§2.1 一元分布 §2.2 多元分布 §2.3 数字特征 §2.4 欧氏距离和马氏距离 §2.5 随机向量的变换 §2.6 特征函数(不讲)
§2.2 多元分布
一、多元概率分布 二、多元概率密度函数 三、边缘分布 四、条件分布 五、独立性
一、多元概率分布
随机向量:元素为随机变量的向量。 随机矩阵:元素为随机变量的矩阵。 随机变量X的分布函数:
设X是p维随机向量,由它的q(<p) 个分量组成的 向量X(1)的分布称为X的关于X(1)的边缘分布。
不妨设 X1 X1,L,Xq ,则对连续型的分布,有
f 1 ( x 1 , L ,x q ) L f ( x 1 , L ,x p ) d x q 1 L d x p
四、条件分布
X p E X p
E X E X Y E Y
X和Y的协方差矩阵与Y和X的协方差矩阵互为转置关系,
即有 C ovX,Y C ovY,X
若Cov(X,Y)=0,则称X和Y不相关。两个独立的随机向量
必然不相关,但两个不相关的随机向量未必独立。
X=Y时的协差阵Cov(X,X)称为X的协方差矩阵,记作V(X),
⋮
1500米 (分)
3.7 3.57 3.6 3.6 3.75 3.66 3.85 3.63 3.71 3.73 3.74
⋮
5000米 (分)
14.04 13.28 13.26 13.22 14.68 13.62 14.45 13.55 13.61 13.9 13.49
⋮
10000米 (分)
29.36 27.66 27.72 27.45 30.55 28.62 30.28 28.09 29.3 29.13 27.88
例1 随机向量一分为二后,其协差阵分为四块:
X VX C ovX ,Y
V Y C ovY,X
VY
其中,对角线块为子向量的协差阵,非对角线块
为两个子向量之间的协差阵。熟悉这四块子矩阵的
含义很有益处。
协差阵的性质
(1)协差阵是非负定阵,即Σ≥0。 推论 若|Σ|≠0,则Σ>0。 (2)设A为常数矩阵,b为常数向量,则
E X * 0 , V X * R
即标准化后的协差阵正好是原始向量的相关阵。可见,相 关阵R也是一个非负定阵。
§2.4 欧氏距离和马氏距离
一、欧氏距离 二、马氏距离
一、欧氏距离
x x 1 ,x 2 ,L ,x p和 yy 1 ,y 2 ,L ,y p之间的欧氏距离为:
d x ,y x 1 y 1 2 x 2 y 2 2 L x p y p2