实用回归分析ppt课件

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。


ei
ˆ
学生化残差
SREi ˆ
ei 1 hii
ZREi / SREi 3 观测数据判定为异常值
存在y的异常观测值,普通/标准化/学生化残差都不适用
11
5.3 异常值与强影响值
当数据中存在关于 y 的异常观察值时,异常值把回归线拉向 自己,使异常值本身的残差减少,而其余观察值的残差增大,这时 回归标准差ˆ 也会增大,因而用“3σ ”准则不能正确分辨出异常值。 解决这个问题的方法是改用删除残差。
12
5.3 异常值与强影响值
删除残差的构造思想是: 在计算第 i 个观察值的残差时,用删除掉这第 i 个观察值的 其余 n-1 个观察值拟合回归方程,计算出第 i 个观察值的删除 拟合值 yˆ (i) ,这个删除拟合值与第 i 个值无关,不受第 i 个值是否 为异常值的影响,第 i 个观察值的删除残差为:
可以证明:
e(i) yi yˆ(i)
e( i )

ei 1 hii
13
5.3 异常值与强影响值
第 i 个观察值的删除学生化残差,
SRE(i)

SREi

n n
p 1 p2

SREi2 n p
2
1
2
用 SP SS 软件可以直接计算出删除学生化残差 SRE(i)的数值, | SRE(i)|>3 的观测值即判定为异常值。
5.1 残差与残差图
一、残差概念与残差图
残差 ei yi yˆi yi ˆ0 ˆ1xi 误差项 i yi 0 1xi
残差ei是误差项i的估计值。
1
5.1 残差与残差图
一、残差概念与残差图
e
0
x
(a)
****一般认为,如果一个回归模型满足所给出的
基本假定,所有残差应在e=0附近随机变化,
20
5.3 异常值与强影响值
RES-残差e
DRE-删除残差
ZRE-标准化残差
SRE –学生化残差SREi
SDR –删除学生化残差SRE(i)
COO-库克距离Dii
LEV-中心化杠杆值chii
21
5.3 异常值与强影响值
22
5.3 异常值与强影响值
异常值原因
异常值消除方法
1.数据登记误差,存在抄写或录入 重新核实数据 的错误
0
6
5.2 残差的性质
一、残差的性质
性质2 var(ei ) (1 hii ) 2
其中, hii

1 n

(xi x)2 Lxx
称为杠杆值
靠近x附近的点相应的残差方 差较大,
远离x附近的点相应的残差方 差较小.
7
5.2 残差的性质
一、残差的性质 性质3. 残差满足约束条件:
n
ei 0
4
5.1 残差与残差图
一、残差概念与残差图
e
1 3 57 0
2 46 8
x
(d)
****蛛网现象(y具有自相关)
5
5.2 残差的性质
一、残差的性质 性质1 E (ei)=0
证明: E(ei ) E( yi ) E( yˆi )
(0 1xi ) E(ˆ0 ˆ1xi )
i 1 n
xiei 0
i 1
8
5.2 残差的性质
二、改进的残差
9
5.3 异常值与强影响值
异常值分为两种情况: 一种是关于因变量y异常; 另一种是关于自变量x异常。
10
5.3 异常值与强影响值
一、关于因变量y的异常值
在残差分析中,认为超过 3ˆ 的残差为异常值。
标准化残差
ZREi
2.数据测量误差 3.数据随机误差 4.缺少重要自变量 5.缺少观测数据
重新测量数据 删除或重新观测异常值数据 增加必要的自变量
增加观测数据,适当扩大自变 量取值范围
6.存在异方差
采用加权线性回归
7.模型选用错误,线性模型不适用 改用非线性回归模型
23
删除第19组数据
对本例的数据,通过核实认为不存在登记误差和测量误差。 删除第 19 组数据,用其余 30 组数据拟合回归方程,发现 第 12 组数据的删除学生化残差增加为 SRE(12)=3.125,仍然存在 异常值现象,因而认为异常值的原因不是由于数据的随机误差。 实际上本例数据存在异方差,应该采用加权最小二乘回归。
24
5.3 异常值与强影响值
四、异常值问题补充
学生化删除残差、杠杆值、Cook距离——识别异常值
采取的措施: 1. 不能简单的剔除,有时异常观测值是正确的,它说明回 归模型的失败,失败的原因可能是遗漏了一个重要变量,或 者选择了不正确的回归函数形式. 2.如果异常值数据时准确的,但是找不到对它合理的解释, 与剔除这个观测值相比,一个更稳健的方法是抑制它的影响. 3.最小绝对离差和法是一种稳健估计方法,它具有对异常值 和不合适模型不敏感性质.
(1
hii hii
)
2

17
5.3 异常值与强影响值
三、异常值实例分析
例5.1 做异常值的诊断分析。
分别计算 普通残差ei, 学生化残差SREi, 删除残差e(i), 删除学生化残差SRE(i), 杠杆值chii, 库克距离Di
18
5.3 异常值与强影响值
19
5.3 异常值与强影响值
1 n
p
ch
n
chii
i 1

nFra Baidu bibliotek
chii 2(3)ch
——判断为强影响点
16
5.3 异常值与强影响值
强影响点不一定是y的异常值点,不能单纯 根据杠杆值hii的大小判断强影响点是否异 常
利用Cook距离,来判断强影响点是否为y
的异常值点.
Di (
p
ei2
1)ˆ
2

并在变化幅度不大的一条带子内.
****如果残差都落在变化幅度不大一条带子内,
也就可以说明回归模型满足基本假设.
2
5.1 残差与残差图
一、残差概念与残差图
e
0
x
(b)
****y观测值的方差并非相同,随x增加而增加. 【消除异方差】
3
5.1 残差与残差图
一、残差概念与残差图
e
0
x (c)
****y与x之间并非线性关系. 可能y与x是曲线关系 可能y存在自相关
n i 1
hii

p+1 n
——判断为强影响点
15
5.3 异常值与强影响值
二、关于自变量x的异常值
SPSS 软件计算出的是中心化杠杆值 chii,也就是自变量中心化后 生成的帽子矩阵的主对角线元素,由参考文献[2]可知,
chii=hii-1/n
n
因此, chii =p,中心化杠杆值 chii 的平均值是 i 1
14
5.3 异常值与强影响值
二、关于自变量x的异常值
杠杆值
hii

1 n

(xi x )2 Lxx
var(ei ) (1 hii ) 2
回归的杠杆值hii也是表示自变量的第i次观测值与 自变量平均值之间距离的远近。
杠杆值大的样本点称为强影响点。
hii

2(3)h ,
其中h =
1 n
相关文档
最新文档