多因素回归知识点总结
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
多因素回归知识点总结
一.哑变量
因变量:即结果变量、应变量、被预测变量
自变量:即协变量、解释变量、预测变量
哑变量:回归分析中有两组以上的分组情况。
若自变量是无序多分类变量,需要“哑变量化”处理。
方法是设置“分组数减1”个指示变量。
uy=u0+b1×g1+b2×g2+b3×g3+b4×g4
则学生组总体均数为u0+b4×g4
二.混杂因素控制
举例:是否服药(分现服药组、曾服药组、从未服药组)、年龄两个因素对血糖的影响
若只考察“是否服药”一个因素,哑变量化
uy=u0+b1×g1+b2×g2
则g1、g2的P值皆<0.05,说明血糖受“是否服药”影响
但发现3组人的年龄是不同的,因此必须排除年龄是否是混杂因素
考察“是否服药”和年龄两个因素
uy=u0+b1×g1+b2×g2+b3×X
发现g1、g2的P值皆>0.05,而X的P值<0.05,
说明3组血糖不同其实是由于年龄不同导致,“是否服药”反而是混杂因素
理论上,更严格的实验要求分析“是否用药”与年龄是否对血糖构成交互作用
三.影响因素的筛选
1.最优预测模型:
需满足以下三个条件:
①自变量个数一定时,残差的平方和最小
②进入回归模型的自变量都有统计学意义
③再增加任一自变量,会导致更多自变量失去统计意义
2.寻求最优预测模型方法:
①前进法:计算所有自变量的P值,从P值最大的开始,逐个纳入自变量,出现有P值>0.05则剔除新加自变量,直到有统计学意义的自变量全部进入回归模型。
缺点:后续变量的引入可能会使先进入方程的变量变得不重要
②前进逐步回归法:计算所有自变量的P值,从P值最大的开始,逐个纳入自变量,出现有P值>0.05则剔除无统计意义且P值最大的自变量,依次循环引入、剔除,直到回归模型中所有自变量都有统计学意义,且再增加任一自变量,会导致更多自变量失去统计意义
③后退法:纳入所有自变量,先剔除无统计学意义且P值最大的自变量,再次计算并依前标准剔除,直到模型中所有自变量都有统计学意义。
优点:考虑到了自变量的组合作用,选中的自变量数目一般会比前进法选中的多。
缺点:当自变量数目较多或有某些自变量高度相关时,可能得不出正确的结果
④后退逐步回归法:纳入所有自变量,先剔除无统计学意义且P值最大的自变量,再次计算并依前标准剔除,剔除后还要考察已剔除的自变量是否能回纳入回归模型,直到既没有自变量可以引入,也没有自变量要剔除为止
3.举例:有5个自变量X1~X5
4.决定系数R2
R2越接近1,说明拟合情况越好,R2=0.8说明因变量80%的变异是由自变量的变化引起的
R2=1-SS残差-SS总
R2随自变量个数的增加而增加,因此,在相近的情况下,以包含的自变量个数少者为优
校正R2a=1-MS残差-MS总
R2a不会随无意义的自变量增加而增大;R2一定时,P值越大,R2a越小
四.变量的交互作用
1.多个自变量之间可能有交互作用,如果自变量的一次项不足以解释Y的变异,有时还需考虑两个自变量的“额外效应”,又称“交互作用”
2.交互作用的回归方程:uy=u0+b1×X1+b2×X2+b3×X1×X2
3.是否引入交互作用主要根据研究背景知识,引入后需要进行统计检验
五.共线性问题
1.共线性:当自变量之间存在较强的相关关系时,称之为共线性。
会导致回归系数的估计值失真。
2.何时考虑存在自变量共线性:
①整个回归方程有统计学意义,但是每个自变量的均无统计学意义
②回归系数的符号与医学专业知识不一致
③参数估计的标准误变得很大,使t值变得很小,P值很大
3.判断方法:利用自变量间的相关系数阵。
若r >0.9,共线性可能性大
4.处理方法:根据专业知识去除比较次要的、缺失值较多、测量误差较大的共线性因子
六.多重线性回归、Logistic回归、Cox回归的比较
1.相同点:
①对自变量没有要求,可以是定性变量(计数变量,可包括有序、无序),也可以是定量变量
②自变量为定性变量时,分组多于两个时注意哑变量化
③若自变量之间有较强相关关系,则会出现“共线性”问题,使回归分析结果无法合理解释
④都可以用于控制混杂因素
2.不同点:
①样本含量:多重线性回归只需样本含量为自变量个数的5~10倍即可;logistic回归基于大样本假定,因此需要的样本含量需要为自变量个数的15~20倍;Cox回归亦需15~20倍
②多重线性回归的每一个入选影响因素都必须单独与因变量检验是否符合线性,若不符合线性,可检验满足什么关系(二次方、三次方……)
③回归系数b:多重线性回归中,自变量的回归系数的直接表示对因变量的影响强度,不同自变量的回归系数的比值是对因变量的影响强度比;logistic回归的OR值为e的b次方;Cox回归的HR(风险比,其实就是相对危险度RR)为e的b次方。