多重线性回归分析.

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

这些指标越接近于1,说明回归模型拟合越好。
2.哪些自变量对因变量有影响?(影响因素分析) 对回归模型的统计检验
n m 1 SSreg F m SSE
当P<0.05,则认为此回归模型有显著性。 对自变量的统计检验
t bi / se(bi )
当P<0.05,则认为此自变量对因变量有影响。
残差:实际测量值和预测值之间的差异
关于独立性:
所有的观测值是相互独立的。如果受试对象仅被随机 观测一次,那么一般都会满足独立性的假定。但是出 现下列情况时,观测值不是相互独立的:时间序列、 重复测量(某种药物使用后1个月两个月三个月的疗效)等情况。
SPSS软件在“Linear Regression:Statistics”对话 框中,提供了Durbin-Watson统计量d,以检验自相 关系数是否为0。当d值接近于2,则残差之间是不相 关的(此指标仅作参考。是否可使用多元分析主要依 据实验设计)。
模型拟和的优良性指标
R:复相关系数,反映了Y与M个自变量的总体相关系数;
R2:决定系数(R Square) R2c:调整决定系数(Adjusted R square ),是对决定系 数的修正,是更客观的指标。 (若要做预测分析的话,R值的要求
较高,应>0.75。0.6凑活,0.3.,0.4预测效果很差。若只是做影响因素分析的 话0.5之类都还好)
标准化偏回归系数:对自变量、因变量作标准化处理后计 算的回归系数。 偏相关系数:因变量与自变量均扣除其他自变量影响之后, 二者之间的相关系数。与简单相关系数(Pearson相关系数) 不同;例如:考察因变量Y与自变量X1 、X2的多元回归分 析,Y与X1的偏相关系数为扣除X2影响后的Y与X1的相关性。 Y与X1的简单相关系数为忽略X2影响后的Y与X1的相关性。 部分相关系数:自变量扣除其他自变量影响之后,因变量 与自变量之间的相关系数。与偏相关系数不同,部分相关 系数中因变量未扣除其他自变量的影响。
4.如何用自变量预测因变量?(预测分析) 当自变量取某个数值时,y的预测值为
0 0 ˆ0 b0 b1x10 b2 x2 y .... bm xm
Y的均数的95%置信区间 个体Y值的95%容许区间 预测分析时,(x10,x20…… xm0)应该在样本的自变 量取值范围内。
(二)多重回归分析的适用条件
数据文件regHale Waihona Puke sav(一)多重回归分析的任务
1.如何估计自变量与因变量之间的相互关系?(估计回归方程)
2.哪些自变量对因变量有影响?(影响因素分析) 3.哪一个自变量对因变量的影响更重要?(自变量的相对重要性 分析) 4.如何用自变量预测因变量?(预测分析)
(二)多重回归分析的适用条件
1.自变量与因变量之间存在线性关系 2.残差的正态性 3.残差的等方差性 4.剔除强影响点(突出点,outliers) 5.自变量之间不应存在共线性 6.独立性
多重线性回归分析
例:由于改革开放政策,深圳特区中外来人口大幅度增加, 为了考察特区中外来人口对本地经济发展的贡献,深圳特 区统计局收集了所属的宝安县在1987年末18个镇的人口 与工农业总产值数据(见数据文件reg.sav)。此处把工 农业总产值当作因变量(W),而把外地及本地人口数当 作两个自变量(Z1,Z2)。 (有关统计方法的原理及计算参见孙尚拱,《医学多变 量统计与统计软件》,北京医科大学出版社,2000)
估计模型中系数的方法:最小二乘方法(Least Square, LS),即残差平方和最小。
b1, b2….. bm称为偏回归系数(partial regression coefficient) :当固定其他变量时(扣除其他自变量的影响,即 Bm就是已经调整了其他影响因素后的回归系数,故名偏~ ),xm每增加一 个单位,y的增加值都是bm。
1.自变量与因变量之间存在线性关系 通过绘制y与每个自变量的偏相关散点图,可以判断y与 自变量之间是否存在线性关系。 2.残差的正态性 通过绘制标准化残差的直方图以及正态概率图(P-P图),可以 判断是否服从正态分布。此条件可以放宽,只要不是严重偏离正 态即可。 3.残差的等方差性 通过绘制标准化残差与预测值的散点图,若标准化残差在零 水平线上下波动,无明显的规律性,则可以判断满足等方差 的假定。
自变量的筛选 实际应用中,通常从专业知识出发,建立一个简约 (parsimonious)的回归模型,即用尽可能少的自变量拟 合模型。
常用方法(最常用的是2和3,1仍然是单变量思想。注意,选入标准0.05, 剔除标准宽些0.10)
1.前进法(Forward):逐步增加变量到模型中(由少到 多),对已经进入的变量不再剔除;SPSS中默认的选入自 变量的检验水准为0.05。 2.后退法(Backward):从模型中逐步剔除变量(由多到 少),对已经剔除的变量不再进入;SPSS中默认的剔除自 变量的检验水准为0.10。 3.逐步法(Stepwise):结合了前进法和后退法,变量边进 入边剔除。
3.哪一个自变量对因变量的影响更重要?(自变量的相对重要 性分析) 当自变量的量纲相同时,衡量自变量相对重要性的指标: 偏回归系数;若偏回归系数的绝对值越大,则相应自变 量对因变量的影响就越大。
当自变量的量纲不同时,衡量自变量相对重要性的指标:(偏回 归系数有量纲,以下指标无,故可用来衡量)
标准化偏回归系数(Standardized regression coefficient)、 偏相关系数(Partial Correlation)和部分相关系数(Part Correlation)。上述指标的绝对值越大,则相应自变量对因变 量的影响就越大。
为残差
(一)多重回归分析的任务
1.如何估计自变量与因变量之间的相互关系?(估计回归方程)
y b0 b1x1 b2 x2 .... bm xm
ˆ b0 b1x1 b2 x2 .... bm xm y
ˆ 为预测值(predicted value) 其中y为实测值, y
相关文档
最新文档