多元正态分布及检验

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

协方差分析
以前介绍的方差分析可用于两组或多组均数间的比较，其处理因素一般是可以控制的。方差分析要求各比较组除了所施加的处理因素不同外，其他对观察指标有影响得因素齐同或均衡，即要求控制对观察指标有影响的其它因素。在实际工作中，有时有些因素无法加以控制，或由于实验设计的疏忽、实验条件的限制等原因，造成对观察指标有影响的个别因素未加控制或难以控制。此时用方差分析不合适，应考虑用协方差分析。
x1i x2i
x1i n
n 1
x2i
12 21 /
11 22 r12
x1ix2i
x1i
x2i
n
x2
1i
x1i
2
n
x2 2i
x2i
2
n
协方差阵与逆阵
11 21
12
22
1
1
11
22
2 12
22
12
21
11
1122
2 12
11 22
N k m ni nj
Di2j
F
一组资料（单样本）
对于单变量且服从正态分布资料的样本与总体的比较，
变形
t = (X - m0) = n (X - m0)
S/ n
S
t2 = n(X - m0)S- 2 (X - m0)
当为多元资料时，此公式推广为HoTt2eling
T 2 = n(X - ) m0 ' S- (X - m0)
( ) ( ) T 2 = n1n2
n1 + n2
X1 -
X2
Sc- 1
X1 -
X2
其中 X1, X2为样本均数向量，S1, S2 为样本协方差阵， Sc 为合并样本协方差阵。
Sc =
n1 +
1 n2 -
2 轾臌(n1 -
1)S1 + (n2 -
1)S2
F = n1 + n2 - m - 1T 2
按方差分析的不同设计类型，相应地有不同的协方差分析，协变量也可是一个或多个。以下我们主要介绍最简单的协方差分析，完全随机设计且只有一个协变量的协方差分析。
基本思想：
是将线性回归与方差分析相结合的一种方法。将那些定量变量X（未加控制或难以控制的因素）对Y的影响看做协变量，建立应变量Y随协变量X变化的线性回归关系，并利用这种回归关系把X值化为相等后，再进行各组Y修正均数间比较地假设检验，其实质就是从Y的总离差平方和中扣除协变量X对Y的回归平方和，对残差平方和作进一步分解后在进行方差分析，以更好地评价各种处理的效应。
三种检验
(1)检验饲料A与初始体重x间是否存在交互作用。、因为若两者有交互作用，则意味着在x的不同取值下A对观察值的作用不同，即可能对x的某些取值,A1的效果最好，而对x的另一些取值，A2的效果最好，因而撇开x谈A的主效应无多大意义。相应的检验假设是A与x的交互效应为0。
三种检验
1 2 12
样本协方差阵与逆阵
S11 S21
S12
S22
1
1 S11S22
S122
S22 S12
S21
S11
二维正态分布密度函数可写成：
1
f (x, x)
2
11 22
1 2 12
exp
2
1
1 2 12
x1
1
11
2
x2
22
2
2
212
x1
1
11
x2
2
22
53
9
3.00
45
4
3.64
50
10
3.35
47
5
3.60
52
11
2.60
50
6
4.00
55
12
3.15
50
13
3.55
52
计算：
X1 = 轾犏犏臌531..6657 , X2 = 轾犏犏臌438..1557 , X1 - X2 = 轾犏犏臌30..1500
S1 = 轾犏犏臌00..124425
实例
为研究三种饲料(A1,A2,A3)对猪催肥效果，用每种饲料喂养8头猪，实验用猪的初始体重未控制。喂养一段时间后观察小猪的增重，所得资料如下表，试分析三种饲料对猪催肥效果是否相同。
三组小猪的初始体重与增重 (kg)
A1 x1 y1
15 85 13 83 11 65 12 76 12 80 16 91 14 84 17 90
多变量统计描述
均数向量与离差矩阵
均数向量与离差矩阵
协方差矩阵
相关矩阵
多元正态分布及检验
多元正态分布
在许多医学问题中，当作均值的假设检验时所依据的指标可能不止一个。例如，当比较两组风湿性与类风湿性关节炎患者的病情程度时，就不能仅只用一个指标，如采用血沉、抗“O”、白细胞计数三个指标，则数据呈下列格式：
这三个检验中，第一、第二个检验不属
于协方差分析范围，若已知因子A与协变量x无交互作用，则第一个检验可以不作，若已知x与y间有线性关系，则第二个检验也可不作，第三个检验真正属协方差分析范畴，是必不可少的。
(4)若三组均数差别有统计意义，则需进一步估计修正均数。所谓修正均数，是指若三组的协变量相等（即扣除协变量影响后），相应的y的均数。修正均数Y 的计算公式为：
0.245 4.267
, S2
=
轾犏犏臌00..029588
0.258 6.619
Sc =
1 n1 + n2 -
2 轾臌(n1 -
1)S1 + (n2 -
1)S2
= 1 创[5
6+ 7- 2
S1 + 6? S2 ]
1? 11
轾犏犏臌12..370703
= 轾犏犏臌00..215128
其中 X 为样本均数向量，S 为样本协方差阵，m0 总体均
数向量。
当
H0
成立时
n-
F=
(n -
m
1)m
T
2,
df1
=
m, df2 =
n-
m
例1：
如随机抽取某单位5名有冠心病的成年男性，测量其甘油三脂（mmol/L），总胆固醇（mmol/L），和高密度脂蛋白胆固醇（mmol/L）含量，已知某单位正常成年男性的甘油三脂、总胆固醇、和高密度脂蛋白胆固醇的均数是1.02 mmol/L、2.73 mmol/L和 2.04mmol/L。问该单位冠心病成年男性的血脂与正常成年男性有无差别？
= 5? (0.776, 0.780,
0.574)鬃轾犏犏犏犏犏臌134787...535109
47.59 182.86 134.32
38.30 134.32 103.60
骣 ççççççç桫- 000...775877064÷÷÷÷÷÷÷÷
= 295.743
F = n - m T 2 = 5- 3 ? 295.743
编号血沉（X1）抗“O”（X2）白细胞数（X3）
1
A
2
3
┇
N1
1
B
2
3
┇
N2
┅
┅
┅
┅
┅
┅
┅
┅
┅
┇
┇
┇
┅
┅
┅
┅
┅
┅
┅
┅
┅
┅
┅
┅
┇
┇
┇
┅
┅
┅
这三项指标都是测得值越高病情越重，如果采用 t检验法对每个指标作检验，则只有出现下列情况之一时，才能作出明确判断： 1．两组间三指标均有差异，且大小趋势一致。 2．两组间各指标均无差别，且P较大于0.05。
p xi p
称之为多元正态分布，简记为 N p,
下面以二维正态分布介绍
n
x1i
1 E X1
X1
i 1
n
n
x2i
2
EX2
X2
i 1
n
11 D X1 S11
x2 1i
2
x1i n
n 1
22 D X2 S22
x2 2i
2
x2i n
n 1
12 21 Corr X1, X 2 S21
样甘油本三脂号
X1 - 1.02
1 1.78 2 0.67 3 0.56 4 0.66 5 0.21
总胆固醇
X 2 - 2.73
0.83 0.96 0.83 1.12 0.16
高密度脂蛋白胆固醇
X3 - 2.04
-1.01 -0.84 -0.39 -1.03 -0.40
计算：
X - m0 = 骣 ççççççç桫- 000...7757876 犏犏犏臌- 000...302584
0.08 0.13 - 0.20
- 0.24 - 0.21
0.36
轾犏17.51 S- 1 = 犏犏47.59
犏犏臌38.30
47.59 182.86 134.32
38.30 134.32 103.60
T 2 = n(X - ) m0 ' S- (X - m0 )
多元正态性的判定
通常对多元正态分布的判断采用对边缘分布的判断，即：若对多元变量X而言它所有的一元分布都是正态分布的话，就认为X是多元正态分布，此时很少出现非正态的多元数据集。
多元正态均值检验
H0 : 1 2 L k
H1 : 至少存在，使 i j i j
统计量的构造
组间协方差阵：B
0.252 5.550
2.773 61.049
Sc- 1 = 轾犏犏臌- 09..432761
- 0.426 0.200
( ) ( ) T 2 = n1n2
n1 + n2
X1 -
X2
Sc- 1
X1 -
X2
= 42? (0.50
13
3.10)轾犏犏臌- 09..432761
-
0.426 0.200
图1: 两个二元正态分布
11 22 且 12 0
11 22 且 12 0.75
多元正态分布的性质
1．有限个多元正态的线性组合为多元正态分布。 2．一个多元正态分布的所有子集分布有一个多元正态分布。 3．零协方差意味着相应的随机变量是独立的。 4 ．分量的条件分布是正态分布。
A2 x2 y2
17 97 16 90 18 100 18 95 21 103 22 106 19 99 18 94
A3 x3 y3
22 89 24 91 20 83 23 95 25 100 27 102 30 105 32 110
协方差分析中称需比较的因素为因子称影响观察指标，需排除其影响的数量因素为协变量。
轾犏犏臌30..1500
= 9.50
F = n1 + n2 - m - 1T 2 = 10 ? 9.50
(n1 + n2 - 2)m
22
4.32, df1 = 2, df2 = 10
SAS计算程序：
proc glm; class gr; model y1 y2=gr; contrast 'gr1 vs gr2' gr 1 -1 0; contrast 'gr1 vs gr3' gr 1 0 -1; contrast 'gr2 vs gr3' gr 0 1 -1; anova h=gr; run;
(2)若A与x间无交互作用，则进一步检验初始体重x与增重y间是否存在线性关系。若不存在线性关系，则不能用协方差分析比较三组均数间的差别。因为协方差分析是利用协变量x与观察指标y间的线性回归扣除x对y的影响。相应的检验假设为x与y间的回归系数为0。
三种检验
(3)若x与y间存在线性关系，则进一步在扣除x对y影响的条件下，检验三组均数差别是否有显著性。相应的检验假设为三个总体均数相等。
k
n
X X
'
X X
1
组内协方差阵：E k
n
X
j
X
'
K
X
j
X
A
1 j1
1
总协方差阵：T k n
X
j
X
'
X
j
X
BE
1 j1
维尔克斯（Wilks）统计量（分布）
EE
T EB
1 0
两两比较的统计量
Di2j
Xi X j
E 1
'
Xi X j
(N k m 1)ninj
反之，如果出现下列情况之一，就难以得出
结论： 1．两组指标虽有显著差别，但趋势不一。或无显著差别，但P接近0.05。 2 ．两组间有些指标有显著差别，有些却无显著差别。
多元正态分布定义
P维正态分布定义：对随机变量 X=(X1,X2,…,XP) 的密度函数是
f (X )
2
1 X 1 X / 2 e p / 2 1/ 2
Yi yi bxi bx
其中：
Yi 为第i组的修正均数
yi 为第i组y的均数
xi 为第i组x的均数
(n1 + n2 - 2)m
df1 = m, df2 = n1 + n2 - m - 1
当n1, n2 较大时，F近似服从自由度为m的 c 2 分布。
例2：
编号
实验组
体重身长（kg） (cm)
编号
对照组
体重身长（kg） (cm)
1
3.05
50
7
3.20
50
2
4.10
50
8
3.00
46
3
3.50
(n - 1)m (5- 1)? 3
df1 = 3, df2 = 2
两组比较
对于单变量且服从正态分布资料的两样
本的比较变形
t = (X1 - X2)
n1 + n2 n1n2
Sc2
( ) ( ) t2 = n1n2
n1 + n2
X1 -
X2
Sc- 2
X1 -
X2
当为多元资料时，此公式推广为HotelingT 2