多因素分析ppt
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
.366
.351
.204
-.271
.121
.638
.243
Standardized Coef ficients
Beta
.078 .309 -.339 .398
由上表得到如下多元线性回归方程:
t 2.101 .390 1.721 -2.229 2.623
Sig. .047 .701 .099 .036 .016
Y 0 1X1 2X2 m Xm e
β0为回归方程的常数项(constant),表示各自变量均为0时y的平 均值;
m为自变量的个数; β1、β2、βm为偏回归系数(Partial regression coefficient)
意义:如β1 表示在X2、X3 …… Xm固定条件下,X1 每增减 一个单位对Y 的效应(Y 增减β个单位)。 e为去除m个自变量对Y影响后的随机误差,称残差(residual)。
Yˆ 5.943 0.142X1 0.351X2 0.271X3 0.638X4 12
2、回归方程的假设检验——F检验
结果无显著性 1)表明所观察的自变量与应变量不存在线性回归关系; 2)也可能由于样本例数过少;
结果有显著性 表明至少有一个自变量与应变量之间存在线性回归关系。
H0:β1=β2=…=βm= 0 H1:β1、β2、…βm不等于0或不全等于0
多因素分析
1
概念 多因素分析是同时对观察对象的两个或两个以上
的变量进行分析。 常用的统计分析方法有:
多元线性回归、Logistic回归、COX比例风险回归 模型、因子分析、主成分分析,等。
2
多变量资料数据格式
例号 X1
X2
…
Xp
Y
1
X11
X12
…
X1p
Y1
2
X21
Xwenku.baidu.com2
…
X2p
Y2
┆
┆
┆
…
┆
┆
n
7
多元线性回归除具有直线回归的基本性质外,还具有 以下特点(用途):
(1)因素筛选:(因素分析) 例如影响高血压的诸多因素中: 1)哪些是主要因素? 2)各因素的作用大小?
(2)提高回归方程的估计精度 多元回归比只有一个自变量的简单直线回归更
能缩小应变量Y对其估计值的离差,在预测和统计 控制方面应用的效果更好。 (3)控制混杂因素
9
二、多元回归分析步骤 (1)用各变量的数据建立回归方程 (2)对总的方程进行假设检验 (3)当总的方程有显著性意义时,应对每个自变量的
偏回归系数再进行假设检验,若某个自变量的偏回归 系数无显著性,则应把该变量剔除,重新建立不包含 该变量的多元回归方程。
对新建立的多元回归方程及偏回归系数按上述程 序进行检验,直到余下的偏回归系数都具有统计意义 为止。最后得到最优方程。
Xn1
Xn2
…
Xnp
Yn
Y为定量变量——Linear Regression Y为二项分类变量——Binary Logistic Regression Y为多项分类变量——Multinomial Logistic Regression Y为有序分类变量——Ordinal Logistic Regression Y为生存时间与生存结局——Cox Regression
(mmol/L) X2 1.90 1.64 3.56
(μU/ml)
X3 4.53 7.32 6.95
红蛋白(%) X4 8.2 6.9 10.8
(mmol/L) Y
11.2 8.8 12.3
…
…
26
5.84
27
3.84
…
…
…
…
0.92
8.61
6.4
13.3
1.20
6.45
9.6
10.4
11
1、建立回归方程
Coef ficientsa
Model
1
(Constant)
总 胆 固 醇 x1
甘 油 三 脂 x2
胰 岛 素 x3
糖 化 血 红 蛋 白 x4
a. Dependent Variable: 血 糖 y
Unstandardized Coef ficients
B
Std. Error
5.943
2.829
.142
10
例15-1(P.262) 27名糖尿病人的血清总胆固醇、甘油三脂、 空腹胰岛素、糖化血红蛋白、空腹血糖的测量值列于表15-2中, 试建立血糖与其它几项指标关系的多元线性回归方程。
表15-2 27名糖尿病人的血糖及有关变量的测量结果
总胆固醇 甘油三脂 胰岛素
糖化血
血糖
序号i
1 2 3
(mmol/L) X1 5.68 3.79 6.02
减一个单位对Y 的效应(Y 增减 b 个单位)。
6
适用条件:
线性(linear)、独立性(independent)、正态性(normal)、 等方差(equal variance)——“LINE”。 线性——自变量与应变量的关系是线性的。用散点图判断。 独立性——任意两个观察值互相独立。常利用专业知识判断。 正态性——就自变量的任何一个线性组合,应变量y均服从正 态分布。即要求残差服从正态分布。常用残差图分析。 等方差——就自变量的任何一个线性组合,应变量y的方差均 相同。即要求残差的方差齐性。用散点图或残差图判断。
5
由样本估计而得的多元回归方程:
Yˆ b0 b1 X1 b2 X2 bm Xm
Yˆ 为y的估计值或预测值(predicted value); b0为回归方程的常数项(constant),表示各自变量均为0时y 的估计值;
b1、b2、bm为偏回归系数(Partial regression coefficient) 意义:如 b1 表示在X2、X3 …… Xm固定条件下,X1 每增
13
ANO VAb
Mo del
Sum of Square s
1
Re g re ssi o n
13 3.71 1
df Me an Square
4
33 .4 28
F
S i g.
8.278 .000a
Re si dua l
88 .8 41
22
4.03 8
To tal
22 2.55 2
26
a. P redict ors: (Const ant ), 总 胆 固醇 x1, 胰 岛 素x3, 糖 化 血红 蛋 白 x4, 甘 油 三脂 x2
3
第十五章 多元线性回归
(multiple linear regressoin) P.261
Y,X——直线回归 Y,X1,X2,…Xm——多元回归(多重回归)
例:欲研究血压受年龄、性别、体重、性格、 职业(体力劳动或脑力劳动)、饮食、吸烟、 血脂水平等因素的影响。
4
一、多元回归模型
多元回归方程的一般形式