第15-17章 多因素分析(统计学)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Sig. .012 .016 .017 .008
Y ˆ 6 .5 0 0 .4 0 X 0 2 0 2 .2X 8 3 0 7 .6X 6 4 3
注意:表中偏回归系数已变化。
精选完整ppt课件
16
对新建立的回归方程进行检验
ANOVbA
Model
Sum of Squares df Me an Square F Sig.
解释的比例。 0~1,越大越优。
特点:R2是随自变量的增加而增大。
因此,在相近的情况下,以包含的自变量少者为优。
2、R——复相关系数(multiple correlation coefficient)
表示m个自变量共同对应变量线性相关的密切程
度。0≤R≤1。即Y与 的Yˆ 相关系数。
精选完整ppt课件
精选完整ppt课件
7
精选完整ppt课件
8
多元线性回归除具有直线回归的基本性质外,还具有 以下特点(用途):
(1)因素筛选:(因素分析) 例如影响高血压的诸多因素中:
1)哪些是主要因素? 2)各因素的作用大小?
(2)提高回归方程的估计精度
多元回归比只有一个自变量的简单直线回归更 能缩小应变量Y对其估计值的离差,在预测和统计 控制方面应用的效果更好。
意义:如β1 表示在X2、X3 …… Xm固定条件下,X1 每增减 一个单位对Y 的效应(Y 增减β个单位)。 e为去除m个自变量对Y影响后的随机误差,称残差(residual)。
精选完整ppt课件
5
由样本估计而得的多元回归方程:
Y ˆ b 0 b 1 X 1 b 2 X 2 b m X m
4
一、多元回归模型
多元回归方程的一般形式
Y 0 1 X 1 2 X 2 m X m e
β0为回归方程的常数项(constant),表示各自变量均为0时y的平 均值;
m为自变量的个数; β1、β2、βm为偏回归系数(Partial regression coefficient)
1
Regre ssion 133.098
3
44.366 11.407 .000a
Res idual
89.454
23
3.889
Total
222.552
26
a.Predictors: (Constant), 胰 岛 素 x3, 甘 油 三 脂 x2, 糖 化 血 红 b.Dependent Variable: 血 糖 y
精选完整ppt课件
3
第十五章 多元线性回归
(multiple linear regressoin) P.261
Y,X——直线回归 Y,X1,X2,…Xm——多元回归(多重回归)
例:欲研究血压受年龄、性别、体重、性格、 职业(体力劳动或脑力劳动)、饮食、吸烟、 血脂水平等因素的影响。
精选完整ppt课件
.351
胰 岛 素 x3
-.271
糖 化 血 红 蛋 白 x4 .638
.204 .121 .243
.309 -.339 .398
1.721 -2.229 2.623
a.Dependent Variable: 血糖y
Sig. .047 .701 .099 .036 .016
将总胆固醇(X1) 剔除。 注意:通常每次只剔除关系最弱的一个因素。
检验结果有显著性意义。
精选完整ppt课件
17
对新方程的偏回归系数进行检验
Coe fficie nats
UnstandardizedStandardize d Coefficie nts Coefficie nts
Model
B Std. Error Beta
t
Sig.
1
(Co ns tant)
6.500 2.396
精选完整ppt课件
21
四、各自变量的评价
1、偏回归平方和
是指将某自变量xj从回归方程中剔除后所引起的 回归平方和的减少量——间接反应了自变量xj对应 变量的贡献大小。
各个自变量的偏回归平方和可以通过拟合包含 不同自变量的回归方程计算得到。
精选完整ppt课件
22
对例15-1作回归分析的部分中间结果
19
3、校正确定系数(adjusted R-square,R2a ) P.268
越大越优。 R2a不会随无意义的自变量增加而增大。 是衡量方程优劣的常用指标。 校正确定系数的计算:
R a 21(1R 2)n n p1 11M M 残 总S S
p 为方程中包含的自变量个数,p≤ m。
R2一定时, p ↑→ R2 a↓
素(X3)和糖化血红蛋白(X4)三个因素。
•最后获得回归方程为:
Y ˆ 6 .5 0 0 .4 0 X 0 2 0 2 .2X 8 3 0 7 .6X 6 4 3
精选完整ppt课件
18
三、回归方程的评价 1、确定系数(R2):
R 2 SS 回归 SS 总
意义:在y的总变异中,由x变量组建立的线性回归方程所能
Xp
Y
1
X11
X12

X1p
Y1
2
X21
X22

X2p
Y2






n
Xn1
Xn2

Xnp
Yn
Y为定量变量——Linear Regression Y为二项分类变量——Binary Logistic Regression Y为多项分类变量——Multinomial Logistic Regression Y为有序分类变量——Ordinal Logistic Regression Y为生存时间与生存结局——Cox Regression
对于同一资料,不同自变量的t值可以相互比较,t的绝对
值越大,或P越小,说明该自变量对Y所起的作用越大。
精选完整ppt课件
15
重新建立不包含提出因素的回归方程
Co e fficie nats
Unstandardized Standardized Coefficients Coefficients
Model
Yˆ 为y的估计值或预测值(predicted value); b0为回归方程的常数项(constant),表示各自变量均为0时y 的估计值;
b1、b2、bm为偏回归系数(Partial regression coefficient) 意义:如 b1 表示在X2、X3 …… Xm固定条件下,X1 每增
Coefficientas
Unstandardized Standardized Coefficients Coefficients
Model
1
(Constant)
B Std. Error 5.943 2.829
Beta
t 2.101
总 胆 固 醇 x1
.142
.366
.078
.390
甘 油 三 脂 x2
2.713 .012
甘 油三 脂 x2 .402
.154
.354 2.612 .016
糖 化血 红 蛋 白x.4663
.230
.413 2.880 .008
胰 岛素 x3
-.287
.112
-.360 -2.570 .017
a.Dependent Variable: 血糖 y
•检验结果均有意义,因此回归方程保留甘油三酯(X2)、胰岛
B Std. Error
1
(Cons ta nt)
6.500 2.396
甘 油 三 脂 x2 .402
.154
胰 岛 素 x3
-.287
.112
糖 化 血 红 蛋 白 .x6463
.230
Be ta
.354 -.360
.413
t 2.713 2.612 -2.570 2.880
a.Dependent Variable: 血 糖 y
糖化血
血糖
(mmol/L) X1 5.68 3.79 6.02 … 5.84 3.84
(mmol/L) X2 1.90 1.64 3.56 … 0.92 1.20
(μU/ml)
X3 4.53 7.32 6.95 … 8.61 6.45
红蛋白(%) X4 8.2 6.9 10.8 … 6.4 9.6
(mmol/L) Y
回归方程中包含的自变量
平方和
X1 、X2 、X3 、X4 X2 、X3 、X4 X1 、X3 、X4 X1 、X2 、X4 X1 、X2 、X3
SS回 133.711 133.098 121.748 113.647 105.917
SS残 88.841 89.454 100.804 108.905 116.635
总 胆 固 醇 x1
.142
.366
甘 油 三 脂 x2
.351
.204
ห้องสมุดไป่ตู้
胰 岛 素 x3
-.271
.121
糖 化 血 红 蛋 白 x4 .638
.243
Beta
.078 .309 -.339 .398
t 2.101
.390 1.721 -2.229 2.623
a.Dependent Variable: 血糖y
(3)控制混杂因素
精选完整ppt课件
9
二、多元回归分析步骤 (1)用各变量的数据建立回归方程
(2)对总的方程进行假设检验
(3)当总的方程有显著性意义时,应对每个自变量的 偏回归系数再进行假设检验,若某个自变量的偏回归 系数无显著性,则应把该变量剔除,重新建立不包含 该变量的多元回归方程。
对新建立的多元回归方程及偏回归系数按上述程 序进行检验,直到余下的偏回归系数都具有统计意义 为止。最后得到最优方程。
精选完整ppt课件
20
Model Summary
Model R
1
.775a
2
.773b
Std. Error of the R SquarA e djusted R SquareEsti mate
.601
.528
2.0095
.598
.546
1.9721
a.Predic tors: (Constant), 糖 化 血 红 蛋 白 x4, 甘 油 三 b.Predic tors: (Constant), 糖 化 血 红 蛋 白 x4, 甘 油 三
结果有显著性 表明至少有一个自变量与应变量之间存在线性回归关系。
H0:β1=β2=…=βm= 0 H1:β1、β2、…βm不等于0或不全等于0
精选完整ppt课件
13
ANOVbA
Mo de l
Sum o f SquaresdfMean Square F Sig.
1
Regressio n133.711
11.2 8.8 12.3 … 13.3 10.4
精选完整ppt课件
11
1、建立回归方程
Coefficientas
Unstandardized Standardized Coefficients Coefficients
Model
B Std. Error
1
(Constant)
5.943 2.829
多因素分析
温州医学院环境与公共卫生学院 叶晓蕾
精选完整ppt课件
1
概念 多因素分析是同时对观察对象的两个或两个以上
的变量进行分析。 常用的统计分析方法有:
多元线性回归、Logistic回归、COX比例风险回归 模型、因子分析、主成分分析,等。
精选完整ppt课件
2
多变量资料数据格式
例号 X1
X2

减一个单位对Y 的效应(Y 增减 b 个单位)。
精选完整ppt课件
6
适用条件:
线性(linear)、独立性(independent)、正态性(normal) 、等方差(equal variance)——“LINE”。 线性——自变量与应变量的关系是线性的。用散点图判断。 独立性——任意两个观察值互相独立。常利用专业知识判断。 正态性——就自变量的任何一个线性组合,应变量y均服从正 态分布。即要求残差服从正态分布。常用残差图分析。 等方差——就自变量的任何一个线性组合,应变量y的方差均 相同。即要求残差的方差齐性。用散点图或残差图判断。
精选完整ppt课件
10
例15-1(P.262) 27名糖尿病人的血清总胆固醇、甘油三脂、 空腹胰岛素、糖化血红蛋白、空腹血糖的测量值列于表15-2中 ,试建立血糖与其它几项指标关系的多元线性回归方程。
序号i
1 2 3 … 26 27
表15-2 27名糖尿病人的血糖及有关变量的测量结果
总胆固醇 甘油三脂 胰岛素
4 33.428 8.278 .000a
Residual 88.841 22
4. 038
Total
222.552 26
a.Predic tors: (Constant), 总 胆 固 醇 x1, 胰 岛 素 x3, 糖
b.Depe ndent Variable: 血 糖 y
精选完整ppt课件
14
3、各个偏回归系数的假设检验——t检验
由上表得到如下多元线性回归方程:
Sig. .047 .701 .099 .036 .016
Y ˆ 5 .9 0 4 .1X 3 1 4 0 .3 2 X 2 5 0 .2 1 X 3 7 0 .6 1 X 4 38
精选完整ppt课件
12
2、回归方程的假设检验——F检验
结果无显著性 1)表明所观察的自变量与应变量不存在线性回归关系; 2)也可能由于样本例数过少;
相关文档
最新文档