多元统计分析--常用统计量及均向量的统计推断

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

设有某正态总体 N , 2 ,现有一大小为 n 的样 本, 其均数和标准差分别为 X 和 S。X 是总体均数 的 估计值。问此样本是否来自均数为 0 的总体?
H 0 : 0 ,检验水准为α
t
X 0 S n
t 服从于自由度为 n -1 的 t 分布。 t t ,n1 ,在α 水准拒绝 H 0 ; t t ,n1 ,在α水准上不拒绝 H 0 。 在 H 0 成立的条件下, t 2 F ,也可根据 F 分布作 出统计推断。此时,1 1, 2 n 1 。
比较不同地区儿童生长发育情况 不同种族正常人头发中微量元素的含量 不同组别的IgG,IgM,IgA,IgE 不同组别的CD2,CD3,CD4,CD8,CD4/CD8
关系
探索病因
校正混杂因素
调整基线
探讨巯基丁氨酸(homocysteine)与血压、冠心病 的关系,需调整年龄、性别、种族、已知的与冠 心病有关的其他因素。
X 3 74.3750
单变量时,对每个变量分别计算 X 和 S 2 。 多变量时,则计算每个变量的均数、方差以及 变量间的协方差和相关系数。
为了清晰表达多变量间的关系,常用矩阵 (matrix)表示。构成矩阵的每个数据称为元素 (element)。这里称为均向量、方差协方差矩阵。
1.1均向量(means vector)
预测:回归模型
分类:聚类分析与判别分析、回归模型 评价:主成分分析与因子分析
回归:多元线性回归、logisitic回归、Cox回归、Poisson回归
4 多元分析的主要内容 均向量的统计量推断
Hotelling T 2 multivariate analysis of variance (MANOVA)
其中: r r S S i k k i i k
S S S S i i k k
i 12 、 m , k 12 、m , ik
correlation coefficients matrix
r 1 0 . 8926 0 . 8020 11 r 12 r 13 R r 0 . 8926 1 0 . 9168 21 r 22 r 23 r r r 0 . 8020 0 . 9168 1 31 32 33
2 j i n
对角线两侧为变量间的协方差:
V V X X X X 1 , i n i k k i i j i k j k协方差为更一般的形式。
总体协方差阵
11 12 21 22 n1 n 2
身 高 (cm)
2.均向量的统计推断
多元T检验
多元配对设计均向量检验 多元成组设计两样本的均向量检验
多元方差分析
多元成组设计资料的分析 多元区组设计资料的分析 多元方差分析的正确应用
2.1多元T检验(Hotelling T 2检验)
(1) Student-t 检验的简单回顾 ① 检验一样本是否来自某已知总体
二元正态分布曲面(11=2,22=4,12=-0.75)
二元正态分布曲面(11=2,22=4,12=0.75)
医用多元统计分析方 法
二元正态分布曲面剖面(11=1,22=1/2,12=-0.75)
m元正态分布的性质
每一个变量均服从正态分布。
变量的线性组合服从正态分布。
r 1 11 R r 0 . 8926 1 21 r 22 r r r 0 . 8020 0 . 9168 1 3 1 3 2 3 3
如事先对每个变量做标准化变换,则变换 后变量的协差阵等于原变量的相关阵。
离差和-离差积和-相关系数矩阵
例1.1 调查某地16岁中学生12名,其身高、体重和胸围
资料见下表。
表 1.1 12 名 16 岁中学生身高、 体重和胸围测量资料 编号 1 2 3 4 5 6 7 8 9 10 11 12
X
身高(cm) x1 171.0 175.0 159.0 155.3 152.0 158.3 154.8 164.0 165.2 164.5 159.1 164.2
j 1
n
S S 与V的关系为:
SS S Sn 1 V 或 V n 1
1.4相关系数阵
X1与X2的相关系数为:
r r S S S S S S 1 2 2 1 1 2 1 1 2 2
5 5 35 0 27 6 50 . 8 9 2 6
变量本身的相关系数为1,因此:
多元统计分析
蒋 敏 卫生统计学教研室
多元分析常用统计量 与均向量的统计推断
为什么要学多元分析?
事物间的关系是错综复杂的,多元的; 研究本身是多因素的; 应用多元分析获取更丰富的信息; 提高论文的档次。
多元统计分析有哪些应用
比较 关系
预测
分类
评价
比较
比较
探索与预后有关的因素
影响黑色素瘤患者的生存时间的因素:年龄、性 别、病灶部位、浸润深度
预测
疾病预后的预测 是否会患某病的预测
哪些人更容易患糖尿病? 年龄、家族史、工作性质、 BMI、腰臀比等;
乳腺癌患者手术后的生存时间?年龄、家族史、并 发症、复发、化疗等; 法医鉴定中死亡时间的推算:根据尸体的直肠温度、 环境温度、停尸物的质地等。
多元线性回归(multivariate linear regression) 主成分分析(principal component analysis) 因子分析(factor analysis) 聚类分析(cluster analysis)
判别分析(discriminant analysis)
X1 161.8667
体重(kg) x2 58.5 65.0 38.0 45.0 35.0 44.5 44.5 51.0 55.0 46.0 48.0 46.5
X 2 48.0833
胸围(cm) x3 81.0 87.0 71.0 74.0 63.0 75.0 74.0 72.0 79.0 71.0 72.5 73.0
vij=vji,协方差阵是对角阵
v 4 5 . 7 2 2 4 1 1 V v v 5 0 . 3 6 2 1 6 9 . 6 2 8 8 1 2 2 2 3 2 . 2 3 1 8 4 5 . 4 6 5 9 3 5 . 3 2 3 9 v v v 1 3 2 3 3 3
j = 1 n
1 7 1 1 6 1 5 8 4 8 1 6 4 1 6 1 4 6 4 8 1 1 5 0 . 3 6 2 1
本例共三个协方差。 v13=v31=32.2318 v23=v32=45.4659
样本协方差阵
r r r 1 1 1 2 2 3 3
将各变量间的相关系数用矩阵形式排列, 称相关阵。记为R(See P.3)。
,X 一般地,n个观察对象有m个 X 1 2, , X m变 量,则有m×m维的样本相关阵:
1 r2 1 R rm 1 r1 2 1 r1 m 1
② 检验两样本是否来自同一总体
设两样本来自两个具有公共方差的总体 1 2 和

2 ,两样本有关指标分别为 n1, X1,S1 和 n2 , X 2 ,S2 。 2
H0 : 2 ,检验水准为α
X t
1
X2
S X1 X 2
502.9464 0.8926 0.8020 553.9831 765.9168 0.9168 354.5498 550.1249 388.5629
3 多元正态分布的性质
二元正态分布曲面(11=1,22=1,12=0)
二元正态分布曲面(11=1,22=1,12=0)
二元正态分布曲面(11=2,22=4,12=0.75)
分类
计算机辅助诊断系统 临床诊断
病毒鉴别
胸痛患者如何快速诊断(是否急性心肌缺血?) 对体形进行分类,制作服装 对口腔牙列进行分类,预制牙列
评价
综合评价
医院效益评价
卫生投入产出评价
健康状况评价
各种应用对应的多元统计分析方法 比较:多元方差分析
关系:回归模型
X m1
X m2
X 1n
X mn
X1
样本均向量为: 总体均向量为:
X X 1 X 2
X2
X m
Xm
1 2
m
1.2 方差、协方差矩阵
方差:变量自身的变异; 协方差:变量与另一变量的协同变异(即:一个 变量随另一个变量变化的关系)。 方差、协方差矩阵:将各指标的方差、协方差 用矩阵的形式排列,得方差-协方差矩阵 (variance-covariance matrix),简称协方差阵 (covariance matrix),用字母V表示。

1m 2m nm
1.3离均差平方和与离均差积和矩阵
将各变量的离均差平方和与离均差积和用 矩阵排列,该矩阵称为离差阵(SSCP)。用SS或 L表示。 2 n SSii Xij Xi
j 1
S S X X X X i k i j i k j k
v 4 5 . 7 2 2 45 0 . 3 6 2 13 2 . 2 3 1 8 1 1 v 1 2 v 1 3 V v v v 5 0 . 3 6 2 1 6 9 . 6 2 8 8 4 5 . 4 6 5 9 1 2 2 2 3 2 3 2 . 2 3 1 8 4 5 . 4 6 5 9 3 5 . 3 2 3 9 v v v 1 3 2 3 3 3
本课程的要求 上机做练习,分析实际资料
学会看文献,判断统计分析的应用是否正确
统计软件SAS,或Stata 考试:
平时作业与考勤 期末考试:闭卷
第一讲内容:
多元分析常用统计量 多元T 检验 多元方差分析
多元分析常用统计量
均向量
方差、协方差矩阵 离均差平方和与离均差积和矩阵 相关系数矩阵
一般地,如n个观察单位测量了m个变量, 则样本协差阵为维的对称阵。记为:
V11 V12 V V 21 22 V Vm1 Vm 2
V1 m Vmm
其中:对角线上为各变量的方差: , i 1 , 2 m V Xij Xi n1 ii
m 元正态分布中的任意 k (0<k<m)个变量服 从 k 元正态分布。
m元正态分布的条件分布仍服从正态分布。
协方差为0的变量间相互独立。
二元正态相关变量的参考值范围
体 重 (kg)
75 70 65 60 55 50 45 40 152 156 160 164 168 172 176 180
将各变量的均数用矩阵形式排列,称为均 向量。如本例均向量为三维列向量:
161 X 48 74 31
其转置向量为三维行向量:
X 1 6 1 4 87 4 13
更一般地:
观测对象 1 2 n
X1
X2
X 22 X 2n
Xm
X 11 X 21
X 12
本例:第1个变量方差为:
v X 14 5 . 7 2 2 4 X n 1 1 1 j 1
2 j 1 n
本例共三个方差: v22=69.6288 v33=35.3239
第1个变量与第2个变量的协方差为:
v v X X X X 1 n 2 1 1 2 1 j 1 2 j 2
相关文档
最新文档