11章回归分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第8页/共55页
回归方程
残差序列的独立性分析
目的是分析残差序列是否存在后期值与前期值 相关的现象。如果存在相关现象,表示残差序 列中还存有一些规律性,回归方程没能较全面 地反映因变量的变化。
一般用D-W检验作残差序列的独立性分析。 D-W值=0:完全正自相关; D-W值=4:完 全负自相关;D-W值在0和2之间:正自相关; D-W值在2和4之间:负自相关。实际应用中, 接近2就可以认为残差序列具有独立性。
第5页/共55页
11.1 线性回归(Liner)
一元线性回归方程: y=a+bx a称为截距 b为回归直线的斜率 用R2判定系数判定一个线性回归直线的拟合
程度:用来说明用自变量解释因变量变异的 程度(所占比例)
第6页/共55页
回归方程
回归方程的显著性检验 目的:检验自变量与因变量之间的线性关系是否 显著,是否可用线性模型来表示. 检验方法: t检验 F检验(一元回归中,F检验与t检验一致, 两种检 验可以相互替代)
第13页/共55页
多元线性回归分析中的自变量筛选
自变量筛选的目的
多元回归分析引入多个自变量. 如果引入 的自变量个数较少,则不能很好的说明因 变量的变化;
但并非自变量引入越多越好.原因: 有些 自变量可能对因变量的解释没有贡献, 自变量间可能存在较强的线性关系,即:多 重共线性. 因而不能全部引入回归方程.
第14页/共55页
多元线性回归分析中的自变量ቤተ መጻሕፍቲ ባይዱ选
自变量筛选法 向前筛选法(forward),是自变量不断进入回归
方程的过程. 向后筛选法(backward),是自变量不断剔除出
回归方程的过程 逐步筛选法(stepwise),是“向前法”和“向
后法”的结合 多元线性回归一般采用逐步回归方法-Stepwise
第9页/共55页
奇异值(Casewise或Outliers)诊断
概念 奇异值指样本数据中远离均值的样本数据
点,会对回归方程的拟合产生较大偏差影响。 诊断标准
一般认为,如果某样本点对应的标准化残 差值超出了[-3,+3]的范围,就可以判定该 样本数据为奇异值。
第10页/共55页
线性回归方程的预测
点估计 y0 区间估计
在回归过程中包括:
Liner:线性回归 Curve Estimation:曲线估计 Binary Logistic: 二分变量逻辑回归
第4页/共55页
回归分析的过程
Multinomial Logistic:多分变量逻辑回归 Ordinal 序回归 Probit:概率单位回归 Nonlinear:非线性回归 Weight Estimation:加权估计 2-Stage Least squares:二段最小平方法 Optimal Scaling 最优编码回归
第12页/共55页
线性回归(Liner)
多元线性回归方程: y=b0+b1x1+b2x2+…+bnxn b0为常数项 b1、b2、…、bn称为y对应于x1、x2、…、
xn的偏回归系数 用Adjusted R2调整判定系数判定一个多元
线性回归方程的拟合程度:用来说明用自变 量解释因变量变异的程度(所占比例)
第16页/共55页
线性回归分析中的共线性检测
共线性带来的主要问题 主要是会给自变量的偏回归系数的估计带来困 难。偏回归系数的估计方差会随着自变量相关 性的增大而不断增大,从而使偏回归系数的置 信区间不断增大,偏回归系数假设检验的结果 不显著等。
第17页/共55页
第15页/共55页
逐步回归方法的基本思想
对全部的自变量x1,x2,...,xp,按它们对Y贡献的大小进行 比较,并通过F检验法,选择偏回归平方和显著的变量进 入回归方程,每一步只引入一个变量,同时建立一个回 归方程。当一个变量被引入后,对原已引入回归方程的 变量,逐个检验他们的偏回归平方和。如果由于引入新 的变量而使得已进入方程的变量变为不显著时,则及时 从回归方程中剔除。在引入了两个自变量以后,便开始 考虑是否有需要剔除的变量。只有当回归方程中的所有 自变量对Y都有显著影响而不需要剔除时,在考虑从未选 入方程的自变量中,挑选对Y有显著影响的新的变量进入 方程。不论引入还是剔除一个变量都称为一步。不断重 复这一过程,直至无法剔除已引入的变量,也无法再引 入新的自变量时,逐步回归过程结束。
第7页/共55页
回归方程
附:残差分析: • 残差序列的正态性分析
可以绘制标准化残差序列的带正态曲线的直方 图或累计概率图来分析;
• 残差序列的随机性分析 可以绘制残差序列和对应的预测值序列的散点 图。如果残差序列是随机的,那么残差序列 应与预测值序列无关,残差序列点将随机地 分布在经过零的一条直线上下;
回归分析的概念
寻求有关联(相关)的变量之间的关系 主要内容:
从一组样本数据出发,确定这些变量间的定 量关系式 对这些关系式的可信度进行各种统计检验 从影响某一变量的诸多变量中,判断哪些变 量的影响显著,哪些不显著 利用求得的关系式进行预测和控制
第1页/共55页
回归分析的模型
按是否线性分:线性回归模型和非线性回 归模型 按自变量个数分:简单的一元回归,多元 回归
95%的近似置信区间: [y02Sy,y0+2Sy]. x0为xi的均值时,预测区 间最小,精度最高.x0越远离均值,预测区 间越大,精度越低.
第11页/共55页
线性回归(Liner)
一元线性回归模型的确定:一般先做散点 图(Graphs ->Scatter->Simple),以便 进行简单地观测(如:Salary与 Salbegin的关系) 若散点图的趋势大概呈线性关系,可以 建立线性方程,若不呈线性分布,可建 立其它方程模型,并比较R2 (-->1)来 确定一种最佳方程式(曲线估计)
第2页/共55页
回归分析的模型
基本的步骤:利用SPSS得到模型关系式, 是否是我们所要的,要看回归方程的显著 性检验(F检验)和回归系数b的显著性检 验(T检验),还要看拟合程度R2 (相关系数 的平方,一元回归用R Square,多元回归 用Adjusted R Square)
第3页/共55页
回归分析的过程
相关文档
最新文档