多元回归及逐步回归分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
lk1b1 + lk 2b 2 +
l kk b k = l ky
b0 = y − b1x1 − b2 x2 − − bk xk
Yˆ = −0.5657 + 0.0050 X1 + 0.0541X 2
三、多元回归方程的显著性检验:
1.整个方程的全局性检验:F 检验
H0: β1=β2=0 H1: β1,β2至少有一个不等于0
∑ l yy =
( yi − yi)2
∑ l iy =
( xi − xi )( y − y )
∑ l ij =
( xi − xi )( x j − x j )
l11 b 1 + l12 b 2 +
+ l1 k b k = l1 y
l 21 b 1 + l 22 b 2 +
+ l2kbk = l2 y
参数检验βi=0均无统计意义。
/ 回归系数估计值与专业背景不符 / 由专业知识可知某因素与因变量有明显的相
关关系,但作回归时的回归系数检验结果 P>α。
/在模型中增加一个变量或减少一个变量,引
起回归系数估计值有较大的变化。
应检查数据是否正确 样本的代表性 检查变量定义等问题 强影响点 要考虑自变量之间是否高度的线性相 关性或某个自变量可用其他自变量线 性表示。即:多重共线性问题
5、CP
逐步回归(stepwise regression)
y
x1、x2 、 x3 、…… xm
留在方程 无
方程内自变量 中选择对y作
用最小的xi
无 剔除
有 引入方程
xj
Xj是否统计
学意义 无
不进入
设对以下变量进行统计分析y——x1,x2, …xm a) y= x1; y= x1; … y= xmÎp1, p2, …pm 如果min(p1, p2, …pm)<α,则将pmin对应的变量引入方程。 b) 假设上一步引入第j个变量,第二步计算方程:
( 即p(j|1)≠pj),需对变量xj是否需要剔除进行统计学检验 c) 重复上述过程。
以书P142子8.1为例 a) sv=age;sv=ps;sv=pd;sv=as;sv=ad;sv=pr; Îpage, pps, ppd, pas, pad, ppr
min(page, pps, ppd, pas, pad, ppr)=ppd=0.0026<0.10 首先引入变量pd。
syˆ = sy•12…m x′gCxg
4、预测个体值的容许区间
( yˆ−tα (n−m−1)sy , yˆ+tα (n−m−1)sy )
sy = sy•12…m 1+ x′gCxg
五、多元回归方程的应用
yˆ = b0 + b1x1 + b2 x2 + ⋅ ⋅ ⋅ + bm xm
应用:解释和预报 1、通过对各自变量的偏回归系数和标准偏回归
yˆ = b0 + b1x1 + b2 x2 + ⋅ ⋅ ⋅ + bm xm
常数项 偏回归系数
bi (partial regression coefficient)– 当其它各自变量的作用被固定时,xi改变一 个单位时y平均改变的量。
各自变量与因变量之间不呈现线性关系
Yˆ = b0 + b1x1+b2 lg x2 + b3x32 令 z1 = x1, z2 = lg x2,z3= x32
决定系数的用途 可用于检验回归方程的显著性。
H0: ρ2=0
H1:
ρ2
≠0
F=
R2[(n − k
−1)/ k]
(1− R2 )
df1 = k, df2 = n − k −1
3、预测值均数的可信区间
yˆ
μ yˆ 的可信区间
( yˆ−tα(n −m s −1) yˆ , yˆ+tα (n−m−1)syˆ )
y= xj+x1; y= xj+x2; … ; y= xj+xm;共m-1个方程, Îp(1|j), p(2|j), …, p(m|j) 如果min(p(1|j), p(2|j), …, p(m|j))<α,则将pmin对应的变量引入方
程。设引入变量为x1。 此时,由于引入新变量,方程中原有变量xj的p值发生改变
b) 进一步计算方程: sv= pd+age; sv= pd+ps; sv= pd+as; sv= pd+ad; sv= pd+pr; 共5个方
程, Îp(age|pd), p(ps|pd), p(as|pd), p(ad|pd), p(pr|pd),
min(p(age|pd), p(ps|pd), p(as|pd), p(ad|pd), p(pr|pd))= p(age|pd) =0.0003<0.10, 将变量age引入方程。
两指标标准偏回归系数之间差异有无统计学意义 使用t检验
2、多元相关系数及决定系数
R--多元相关系数。它是y与 yˆ 之间的简单相关系
数,或y与自变量组合之间的相关系数
R2—决定系数。 R2 = U = ss回 lyy ss总
其取值范围为:0< R2 ≤1 Y的变异中被方程中的自变量的组合解释的比重。
2、衡量回归方程的标准
1、剩余标准差
建立多元回归方程,其精确性由剩余标准 差来表达。
S = Y.1,2…,L Q /(N − L −1)
2、决定系数
3、校正复相关系数:与用剩余标准差筛选
Ra2d出j =的1方−程n常−n是−p1一−1致(1的−。R2
)
=
1
−
MSr MST
4、AIC--反应了回归方程的拟和精度,其 值越小越好
/一个变量,从专业上看,本来就是由另外变 量派生出来的。
如人体的脉压差;
4水平的文化程度变量改变成4个二态变量 时,其中一个必是由另外3个派生出来的。
/当样本数(n)少于变量数时(m),m个变量
之间,必然自动地会产生出(m-n)个共线性变 量。
义。
H0:βj=0, H1:βj≠0,
x
的偏回归平方和
j
:
SSR(x j | x1, x j−1, x j+1 xp )
= SSR(x1, , xp ) − SSR(x1, x j−1, x j+1 xp )
Fj
=
SSR(x j | x1, SSE ( x1 ,
x j−1, x j+1 xp ) /1 , xp ) /(n − p −1)
系数来反映和比较各自变量对应变量的作用大 小。 2.确定自变量和应变量的数量关系。
3.确定各自变量xi取不同值时,应变量Y的正常 值范围和可信区间。
4.根据较易测得的自变量推算不易测算的应变 量。
5.回顾推断
六、偏相关系数
定义:当把x1, x2以外的其他变量对他们的 影响都扣除掉(或平衡掉)以后, x1, x2之间 的相关系数.
由检验结果可看出: 多元回归方程不能保证每个自变量都 有统计学意义
四、多元回归方程的分析
1、标准偏回归系数
bi′ = bi lii lyy
标准偏回归系数:用于评价各指标对y的作用大小
b1′ = 0.0050× 1957.95315 / 5.63362 = 0.0932 b2′ = 0.0541× 857.11793 / 5.63362 = 0.6673
yˆ =b0+b1z1+b2z2 + b3z3
二、拟和回归方程
例7.1 测得某地29名13岁男童身高(cm),体 重(kg)及肺活量(L),求由身高、体重推 算肺活量的回归方程。(P125)
yˆ = b0 + b1x1 + b2 x2
bi 的计算:最小二乘法
多元回归的计算
∑ l ii =
(x i− xi)2
此时,由于引入新变量age,方程中原有变量pd的p值发生改变( 即 p(pd|age)=0.0001≠ppd=0.0026),需对变量pd是否需要剔除进行统 计学检验。 p(pd|age)=0.0001<0.10。不能剔除。
c) 重复上述过程。
回归分析中常见的现象:
/ 整个模型参数检验有统计意义,但所有单个
rij,k =(rij − rik ⋅ rjk) (1− rik2)(1− rj2k )
Proc corr data=a; Var x1; With y; Partial x2; Run;
第八章逐步回归 (stepwise regression)
1、逐步回归的目的 最优方程:方程中的每个自变量都对 应变量有统计学意义。逐步回归保证 了拟和出的方程是局部最优方程。
多元回归及相关
上海交通大学医学院生物统计 宋艳艳
基本概念
定义: 是研究一个因变量(反应变量)和多个自变量组合
之间是否存在线性依存关系。
因变量:结果变量 自变量:原因变量
应用条件:
1、自变量和应变量之间的关系是线性关系。 2、各观测单位相互独立。 3、残差服从正态分布。 4、残差满足方差齐性。
yˆ = b0 +b1x
lyy =U+Q
总的离 回归 剩余 均差平 平方 平方 方和 和 和
Fra Baidu bibliotek
SS回归
F=
df回归 = MS回归
SS 剩余
MS剩余
df剩余
2. 对各偏回归系数的显著性检验
(1) t检验 H0:βJ=0 H1:βJ ≠ 0 t=bj/S(bj)
t的临界值 tα(n-k-1)
(2) F检验:xj的偏回归平方和是否有统计学意