医学多元统计分析方法总结
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
������=1
欧氏(Euclidean)距离
������
1⁄ 2
������������������(2) = [∑(������������������ − ������������������)2]
������=1
切比雪夫(Chebychev)距离
明氏(Minkowski)距离
������������������(∞) = 1���≤���������������≤������������|������������������ − ������������������|
3. Hotelling ������2 的分布
T2
~
(n − 1)m n−m
Fm ,n− m
F= n − m (n − 1)m
T2
~
Fm ,n− m
多元成组 T 检验
1. 检验假设
H0
:
1 2
= A
1 2
B
或
H1
:
1 2
A
(2������) 2 |������|2
x1,x2 的协方差阵
=
11 21
12 22
逆矩阵
-1=
11
1 22 −
2 12
−
11 21
行列式
−
12 22
= 11 22
−
2 12
= 11 22 (1 −
������ − 1
������ → ������������,������−������−1
������ ≥ 1 g = 3
������ − ������ − 2 1 − ������
������
������
→ ������2������ ,2(������−������−2)
当变量数、总体数超过上述范围时,可以采用近似分布
������������������(������, ������) ������(������, ������) =
√������������������(������)������������������(������)
r11 r12 r13 1
0.8926 0.8020
R = r21 r22 r23 = 0.8926 1
1 2
wenku.baidu.comB
H0
:
1 2
A A
− −
1B 2B
=
00
2. 检验统计量
H1
:
1 2
A A
− −
1B 2B
0 0
T 2 = nAnB nA + nB
X A − X B V −1 X A − X B
二元正态相关变量的参考值范围
单变量正态分布参考值范围的确定
x− = u
( ) x −
2
2
=
2 (1)
双变量正态分布参考值范围的确定
1 1- 2
(x1
− 1
2 1
)2
−
2
(x1
−
1 )(x2
1 2
−
2 )
+
(x2
− 2 )2
2 2
=
g−1
������ → ������g−1,������−g
������ = 2 g ≥ 2
������ − g − 1 1 − ������
g−1
������
→ ������2(g−1),2(������−g−1)
������ ≥ 1 g = 2
������ − ������ − 1 1 − ������
���������2���������(������) = (������������ − ������������)′������−1(������������ − ������������)
2 多元正态分布
������(������) =
1
������
1 ������−12(������−������)′(������)-1(������−������)
多元配对 T 检验
两组个体,多个指标。 1. 检验假设
1
0
H0 : 2 = 0
3 0
2. 检验统计量
1
0
H1 : 2 0
3 0
T 2 = n X − 0 V −1 X − 0
ss11
502.9464
SS = ss21 ss22
= 553.9831 765.9168
ss31 ss32 ss33 354.5498 500.1249 388.5629
⚫ 方差-协方差矩阵(������或������)
v11
45.7224
2)
⚫ 二元正态分布的密度函数
f (x1, x2 ) = 2
1 11 22
(1
−
2
)
exp
−
1 2(1 −
2
)
x1
− 1 11
2
+
x2
− 2 22
2
−
2
x1
− 1 11
x2
− 2 22
=
������������������ √������������������ ������������������
==
������������������ ������ − 1
√������
������������������ −
1
������
������������������ −
1
=
���������2��������� √���������2��������� ������������2������
多元分析的精髓是对 SSCP 矩阵的分解
|������| ������ = |������ + ������|
⚫ ������ 统计量的精确分布
变量数(������)不多,总体数(g)不多时,可导出统计量的精确分布。
变量数 总体数 ������的分布
������ = 1 g ≥ 2
������ − g 1 − ������
m 元正态分布的性质
1. 每一个变量均服从正态分布。 2. 变量的线性组合服从正态分布。 3. ������元正态分布中的任意������(0 < ������ < ������)个变量服从������元正态分布。 4. ������元正态分布的条件分布仍服从正态分布。 5. 协方差为 0 的变量间相互独立。
1 绪论
多元分析常用统计量
⚫ 均向量(���̅���)
171.0 175.0
A
=
58.5
65.0
81.0 87.0
164.2
46.5
73.0
161.8667
X
=
7484..03873530
⚫ 离差阵(������������或������)
离均差平方和与离均差积和矩阵 deviation sum of squares and cross-products matrix DSSCP 矩阵 简称:离差阵,记作 SS 或 L
V=
1
SS=(nA − 1)VA + (nB − 1)VB
nA + nB − 2
nA + nB − 2
3. Hotelling ������2 的分布
T2
~
(nA + nB − 2)m nA + nB − m − 1
Fm
,nA
+
nB
−
m
−1
F= nA + nB − m − 1 T 2 (nA + nB − 2)m
������
������������������ (������)
=
1 ������
∑
������=1
|������������������ ������������������
− +
������������������ | ������������������
没有考虑变量间的相关。 马氏距离
方差矩阵就等于相关系数矩阵。
⚫ 离差和-离差积和-相关系数矩阵
⚫ 方差协方差-相关系数矩阵
距离和相似系数
⚫ 距离
每个样品可以看成 p 维空间中的一个点(p 等于指标数)。 绝对值距离
������
������������������(1) = ∑|������������������ − ������������������|
析因设计资料的多元方差分析
������������������×������ = ������������组间-������������������-������������������
������������误差=������������������-������������组间
|������������误差| ������ =
1
������
������
������������������(������) = (∑|������������������ − ������������������|������)
������=1
欧式距离、绝对值距离是明氏距离������ = 2和������ = 1时的特例。当������ → ∞时,明氏距离就是切比 雪夫距离。 兰氏(Lanberra)距离
V = v21 v22
= 50.3621 69.6288
v31
v32
v33
32.2318
45.4659
35.3239
简称协方差阵。
������������ ������ = ������ − 1
⚫ 相关系数矩阵(������)
������������������
2 (2)
( ) z12 − 2 z1z2 + z22 =
1- 2
2 (2)
相关系数>0,椭圆的长轴在过原点 45 度上 相关系数<0,椭圆的长轴在过原点 135 度上
3 均向量的统计推断
多元分析的必要性
1. 某些特征常常用多个相关的变量来描述 2. 一元分析的缺点 当变量较多时,重复进行一元分析会大大增加假阳性错误。 一元分析结果不一致时,难以得到一个综合结论。 忽略了变量间的相互关系。
|������������处理 + ������������误差|
������������������ =
|������������误差|
|������������������×������ + ������������误差|
4 多重线性回归
多重线性回归模型简介
⚫ 模型
���̂��� = ������0 + ������1������1 + ������2������2 + ⋯ + ������������������������ ������������ = ���̂��������� + ������������ = ������0 + ������1������1������ + ������2������2������ + ⋯ + ������������������������������ + ������������ ������0为截距,又称常数项,表示各自变量均为 0 时������的估计值。 ������������称为偏回归系数,简称回归系数,表示其他自变量不变时,������������每改变一个单位,������估计 值的变化量。 ���̂���称为������的估计值或预测值。 ������������为残差,表示不能由现有自变量决定的部分。
~
Fm,nA +nB −m−1
成组设计设计资料的多元方差分析
组内变异 W(三组的离差矩阵之和) ������ = ������������������ + ������������������ + ������������������
总变异 T(所有数据的离差阵) ������
组间变异 B ������ = ������ − ������
0.9168
r31 r32 r33 0.8020 0.9168 1
r11
1
R = r21 r22 = 0.8926 1
r31 r32 r33 0.8020 0.9168 1
⚫ 方差-协方差矩阵与相关系数矩阵间的关系 将原始数据的每一个变量进行标准化变换,均数为 0,方差为 1。变换后变量的方差-协
若������0成立,且������充分大时,Bartlett 给出了近似卡方分布
−
n
−
1
−
(m 2
+
g
)
ln
→
2 m(
g −1)
Rao 给出了近似 F 分布
F
=
1
− 1/s 1/ s
2' 1'
→
F1' ,2'
1' = mT
' 2
=
(T
+E
−
m
+ T 2
+ 1)
mT2 − 4 − mT − 2
m2 +T2 − 5
2
s=
m
2 2 T
−
4
m2 +T2 − 5
������������是处理的自由、������������是误差自由度 SAS 和 SPSS 软件中均采用 Rao 的方法。
随机区组资料的多元方差分析
=
SS E
SSE + SS处理
欧氏(Euclidean)距离
������
1⁄ 2
������������������(2) = [∑(������������������ − ������������������)2]
������=1
切比雪夫(Chebychev)距离
明氏(Minkowski)距离
������������������(∞) = 1���≤���������������≤������������|������������������ − ������������������|
3. Hotelling ������2 的分布
T2
~
(n − 1)m n−m
Fm ,n− m
F= n − m (n − 1)m
T2
~
Fm ,n− m
多元成组 T 检验
1. 检验假设
H0
:
1 2
= A
1 2
B
或
H1
:
1 2
A
(2������) 2 |������|2
x1,x2 的协方差阵
=
11 21
12 22
逆矩阵
-1=
11
1 22 −
2 12
−
11 21
行列式
−
12 22
= 11 22
−
2 12
= 11 22 (1 −
������ − 1
������ → ������������,������−������−1
������ ≥ 1 g = 3
������ − ������ − 2 1 − ������
������
������
→ ������2������ ,2(������−������−2)
当变量数、总体数超过上述范围时,可以采用近似分布
������������������(������, ������) ������(������, ������) =
√������������������(������)������������������(������)
r11 r12 r13 1
0.8926 0.8020
R = r21 r22 r23 = 0.8926 1
1 2
wenku.baidu.comB
H0
:
1 2
A A
− −
1B 2B
=
00
2. 检验统计量
H1
:
1 2
A A
− −
1B 2B
0 0
T 2 = nAnB nA + nB
X A − X B V −1 X A − X B
二元正态相关变量的参考值范围
单变量正态分布参考值范围的确定
x− = u
( ) x −
2
2
=
2 (1)
双变量正态分布参考值范围的确定
1 1- 2
(x1
− 1
2 1
)2
−
2
(x1
−
1 )(x2
1 2
−
2 )
+
(x2
− 2 )2
2 2
=
g−1
������ → ������g−1,������−g
������ = 2 g ≥ 2
������ − g − 1 1 − ������
g−1
������
→ ������2(g−1),2(������−g−1)
������ ≥ 1 g = 2
������ − ������ − 1 1 − ������
���������2���������(������) = (������������ − ������������)′������−1(������������ − ������������)
2 多元正态分布
������(������) =
1
������
1 ������−12(������−������)′(������)-1(������−������)
多元配对 T 检验
两组个体,多个指标。 1. 检验假设
1
0
H0 : 2 = 0
3 0
2. 检验统计量
1
0
H1 : 2 0
3 0
T 2 = n X − 0 V −1 X − 0
ss11
502.9464
SS = ss21 ss22
= 553.9831 765.9168
ss31 ss32 ss33 354.5498 500.1249 388.5629
⚫ 方差-协方差矩阵(������或������)
v11
45.7224
2)
⚫ 二元正态分布的密度函数
f (x1, x2 ) = 2
1 11 22
(1
−
2
)
exp
−
1 2(1 −
2
)
x1
− 1 11
2
+
x2
− 2 22
2
−
2
x1
− 1 11
x2
− 2 22
=
������������������ √������������������ ������������������
==
������������������ ������ − 1
√������
������������������ −
1
������
������������������ −
1
=
���������2��������� √���������2��������� ������������2������
多元分析的精髓是对 SSCP 矩阵的分解
|������| ������ = |������ + ������|
⚫ ������ 统计量的精确分布
变量数(������)不多,总体数(g)不多时,可导出统计量的精确分布。
变量数 总体数 ������的分布
������ = 1 g ≥ 2
������ − g 1 − ������
m 元正态分布的性质
1. 每一个变量均服从正态分布。 2. 变量的线性组合服从正态分布。 3. ������元正态分布中的任意������(0 < ������ < ������)个变量服从������元正态分布。 4. ������元正态分布的条件分布仍服从正态分布。 5. 协方差为 0 的变量间相互独立。
1 绪论
多元分析常用统计量
⚫ 均向量(���̅���)
171.0 175.0
A
=
58.5
65.0
81.0 87.0
164.2
46.5
73.0
161.8667
X
=
7484..03873530
⚫ 离差阵(������������或������)
离均差平方和与离均差积和矩阵 deviation sum of squares and cross-products matrix DSSCP 矩阵 简称:离差阵,记作 SS 或 L
V=
1
SS=(nA − 1)VA + (nB − 1)VB
nA + nB − 2
nA + nB − 2
3. Hotelling ������2 的分布
T2
~
(nA + nB − 2)m nA + nB − m − 1
Fm
,nA
+
nB
−
m
−1
F= nA + nB − m − 1 T 2 (nA + nB − 2)m
������
������������������ (������)
=
1 ������
∑
������=1
|������������������ ������������������
− +
������������������ | ������������������
没有考虑变量间的相关。 马氏距离
方差矩阵就等于相关系数矩阵。
⚫ 离差和-离差积和-相关系数矩阵
⚫ 方差协方差-相关系数矩阵
距离和相似系数
⚫ 距离
每个样品可以看成 p 维空间中的一个点(p 等于指标数)。 绝对值距离
������
������������������(1) = ∑|������������������ − ������������������|
析因设计资料的多元方差分析
������������������×������ = ������������组间-������������������-������������������
������������误差=������������������-������������组间
|������������误差| ������ =
1
������
������
������������������(������) = (∑|������������������ − ������������������|������)
������=1
欧式距离、绝对值距离是明氏距离������ = 2和������ = 1时的特例。当������ → ∞时,明氏距离就是切比 雪夫距离。 兰氏(Lanberra)距离
V = v21 v22
= 50.3621 69.6288
v31
v32
v33
32.2318
45.4659
35.3239
简称协方差阵。
������������ ������ = ������ − 1
⚫ 相关系数矩阵(������)
������������������
2 (2)
( ) z12 − 2 z1z2 + z22 =
1- 2
2 (2)
相关系数>0,椭圆的长轴在过原点 45 度上 相关系数<0,椭圆的长轴在过原点 135 度上
3 均向量的统计推断
多元分析的必要性
1. 某些特征常常用多个相关的变量来描述 2. 一元分析的缺点 当变量较多时,重复进行一元分析会大大增加假阳性错误。 一元分析结果不一致时,难以得到一个综合结论。 忽略了变量间的相互关系。
|������������处理 + ������������误差|
������������������ =
|������������误差|
|������������������×������ + ������������误差|
4 多重线性回归
多重线性回归模型简介
⚫ 模型
���̂��� = ������0 + ������1������1 + ������2������2 + ⋯ + ������������������������ ������������ = ���̂��������� + ������������ = ������0 + ������1������1������ + ������2������2������ + ⋯ + ������������������������������ + ������������ ������0为截距,又称常数项,表示各自变量均为 0 时������的估计值。 ������������称为偏回归系数,简称回归系数,表示其他自变量不变时,������������每改变一个单位,������估计 值的变化量。 ���̂���称为������的估计值或预测值。 ������������为残差,表示不能由现有自变量决定的部分。
~
Fm,nA +nB −m−1
成组设计设计资料的多元方差分析
组内变异 W(三组的离差矩阵之和) ������ = ������������������ + ������������������ + ������������������
总变异 T(所有数据的离差阵) ������
组间变异 B ������ = ������ − ������
0.9168
r31 r32 r33 0.8020 0.9168 1
r11
1
R = r21 r22 = 0.8926 1
r31 r32 r33 0.8020 0.9168 1
⚫ 方差-协方差矩阵与相关系数矩阵间的关系 将原始数据的每一个变量进行标准化变换,均数为 0,方差为 1。变换后变量的方差-协
若������0成立,且������充分大时,Bartlett 给出了近似卡方分布
−
n
−
1
−
(m 2
+
g
)
ln
→
2 m(
g −1)
Rao 给出了近似 F 分布
F
=
1
− 1/s 1/ s
2' 1'
→
F1' ,2'
1' = mT
' 2
=
(T
+E
−
m
+ T 2
+ 1)
mT2 − 4 − mT − 2
m2 +T2 − 5
2
s=
m
2 2 T
−
4
m2 +T2 − 5
������������是处理的自由、������������是误差自由度 SAS 和 SPSS 软件中均采用 Rao 的方法。
随机区组资料的多元方差分析
=
SS E
SSE + SS处理