残差分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

chii=hii-1/n
n
因此, ch ii =p,中心化杠杆值 chii 的平均值是
i 1
ch
1 n
n

i 1
ch
ii

p n
异常值与强影响值
二、关于自变量x的异常值 虽然强影响点并不总是y的异常值点,不能单纯根据 杠杆值hii的大小判断强影响点是否异常,但是我们对强影
响点应该有足够的重视。为此引入库克距离,用来判断强
第5章 残差分析
一、残差概念与残差图
e
e
0
0
x
(a)
(b)
x
e
1 3 2 4 5 6 7 8
e
0
0
x
(c)
x
(d)
残差分析
一、残差概念与残差图
4 3 2 1 0 -1 -2 -3 -4 0 1 2 3 4 5 6 7
X
火灾损失数据残差图
残差分析
二、残差的性质
性质1 E (ei)=0
ˆ 证明: E ( e i ) E ( y i ) E ( y i ) ( 0 1 x i ) E ( ˆ 0 ˆ1 x i ) 0
残差分析
二、残差的性质
性质2
( xi x ) 1 var( e i ) 1 n L xx
2 2
(1 h ii )
2
其中
h ii
1 n

( xi x ) L xx
2
称为杠杆值
残差分析
二、残差的性质
性质3. 残差满足约束条件:
n

i 1 n
异常值与强影响值
二、关于自变量x的异常值
n
根据(3.22)式,tr(H)=
i1
h
ii
=p+1,则杠杆值 hii 的平均值为
p 1 n
h
1 n
n

i 1
h ii
一个杆值 hii 的如果大于 2 倍或 3 倍的 h 就认为是大的
异常值与强影响值
二、关于自变量x的异常值
SPSS 软件计算出的是中心化杠杆值 chii,也就是自变量中心化后 生成的帽子矩阵的主对角线元素,由参考文献[2]可知,
ei 0 xiei 0

i 1
残差分析
三、改进的残差 标准化残差
ZRE
i

ei
ˆ
ei
学生化残差
SRE
i

ˆ
1 h ii
异常值与强影响值
二、关于自变量x的异常值
在 D(ei)=(1-hii)σ 2 中,hii 是帽子矩阵中主对角线的第 i 个元素,它是调节 ei 方差 大小的杠杆,因而称 hii 为第 i 个观察值的杠杆值。类似于一元线性回归,多元线性 回归的杠杆值 hii 也是表示自变量的第 i 次观测值与自变量平均值之间距离的远近。 较大的杠杆值的残差偏小,这是因为大杠杆值的观测点远离样本中心,能够把回归 方程拉向自己,因而把杠杆值大的样本点称为强影响点。
二关于自变量x的异常值根据322式trhii的如果大于2就认为是大的二关于自变量x的异常值spss软件计算出的是中心化杠杆值chii也就是自变量中心化后生成的帽子矩阵的主对角线元素由参考文献2可知chiiii1n因此iichp中心化杠杆值chii的平均值是二关于自变量x的异常值虽然强影响点并不总是y的异常值点不能单纯根据杠杆值hii的大小判断强影响点是否异常但是我们对强影响点应该有足够的重视
影响点是否为y的异常值点。库克距离的计算公式为:
Di ei
2
( p 1 ) ˆ
2
h ii 2 (1 h ii )
异常值与强影响值
二、关于自变量x的异常值
库克距离反应了杠杆值 hii 与残差 ei 大小的一个综合效应。
对于库克距离,判断其大小的方法比较复杂,一个粗略的 标准是 当Di<0.5时,认为不是异常值点, 当Di>1时, 认为是异常值点。
应该采用加权最小二乘回归。权数为 Wi= x 2 2 . 5 。用 SPSS 软件计算
出加权最小二乘回归的有关变量值如下表所示:
异常值与强影响值
序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 x1 25 20 6 1001 525 825 120 28 7 532 75 40 187 122 74 x2 3547.79 896.34 750.32 2087.05 1639.31 3357.70 808.47 520.27 671.13 2863.32 1160.00 862.75 672.99 901.76 3546.18 y 553.96 208.55 3.10 2815.40 1052.12 3427.00 442.82 70.12 122.24 1400.00 464.00 7.50 224.18 538.94 2442.79 ei -890 20 -93 403 -343 715 126 45 62 -582 58 -199 -143 175 916 SREi -1.149 0.135 -0.795 1.175 -1.135 0.937 0.949 0.717 0.617 -0.926 0.281 -1.391 -1.611 1.137 1.173 e(i) -1165 23 -110 716 -429 841 139 74 76 -677 65 -223 -224 189 1179 SRE(i) -1.1658 0.1293 -0.7824 1.1963 -1.1498 0.9320 0.9448 0.7015 0.6008 -0.9199 0.2702 -1.4544 -1.7424 1.1528 1.1939 chii 0.2341 0.0604 0.0501 0.4294 0.1864 0.1471 0.0093 0.1339 0.0463 0.1366 0.0748 0.0324 0.2272 0.0112 0.2209 Di 0.1360 0.0009 0.0385 0.3581 0.1081 0.0515 0.0318 0.1115 0.0287 0.0466 0.0033 0.0765 0.4951 0.0360 0.1317
§5.3 异常值与强影响值
绝对值最大的学生化残差为SRE15=2.613,小于3。 绝对值最大的删除学生化残差为SRE(15)=3.810,因而根 据学生化残差诊断认为第15个数据为异常值。其中心化杠杆值 chii=0.339位于第3大,库克距离 Di=1.555位于第一大。由于
ch p n 2 15 0 . 13333
异常值与强影响值
三、异常值实例分析
例5.1以北京开发区的数据为例,做异常值的诊断分析。
分别计算普通残差ei,学生化残差SREi,删除残差e(i), 删除学生化残差SRE(i),杠杆值chii,库克距离Di,见表4.10
异常值与强影响值
序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 x1 25 20 6 1001 525 825 120 28 7 532 75 40 187 122 74 x2 3547.79 896.34 750.32 2087.05 1639.31 3357.70 808.47 520.27 671.13 2863.32 1160.00 862.75 672.99 901.76 3546.18 y 553.96 208.55 3.10 2815.40 1052.12 3427.00 442.82 70.12 122.24 1400.00 464.00 7.50 224.18 538.94 2442.79 ei -832 75 -34 127 -458 502 147 96 121 -697 95 -151 -145 195 958 SREi -2.340 0.167 -0.075 0.376 -1.034 1.305 0.326 0.218 0.271 -1.606 0.209 -0.336 -0.324 0.431 2.613 e(i) -1490 84 -38 253 -529 768 164 112 138 -837 104 -169 -164 216 1613 SRE(i) -3.038 0.160 -0.072 0.363 -1.037 1.348 0.313 0.209 0.261 -1.735 0.201 -0.323 -0.312 0.416 3.810 chii 0.375 0.043 0.054 0.432 0.068 0.280 0.036 0.070 0.060 0.100 0.021 0.040 0.052 0.029 0.339 Di 1.445 0.001 0.000 0.047 0.055 0.302 0.004 0.003 0.004 0.172 0.001 0.005 0.005 0.007 1.555
5.缺少观测数据
6.存在异方差
增加观测数据,适当扩大自变 量取值范围
采用加权线性回归
7.模型选用错误,线性模型不适用 改用非线性回归模型
异常值与强影响值
对本例的数据,通过核实认为不存在登记误差和测量误差。 删除第 15 组数据,用其余 14 组数据拟合回归方程,发现 第 6 组数据的删除学生化残差增加为 SRE(6)=4.418,仍然存在 异常值现象,因而认为异常值的原因不是由于数据的随机误差。 实际上,在本章第三节中已经诊断出本例数据存在异方差,
第 15 个数据 hii=0.339>2 h ,因而从杠杆值看第 15 个数据是 自变量的异常值,同时库克距离 D15=1.555>1,这样第 15 个数据为 异常值的原因是由自变量异常与因变量异常两个原因共同引起的。
异常值与强影响值
异常值原因 异常值消除方法 1.数据登记误差,存在抄写或录入 重新核实数据 的错误 2.数据测量误差 3.数据随机误差 4.缺少重要自变量 重新测量数据 删除或重新观测异常值数据 增加必要的自变量
异常值与强影响值
采用加权最小二乘回归后,删除学生化残差SRE(i)的绝 对值最大者为|SRE(13)|=1.7424,库克距离都在0.5至1.0之 间,说明数据没有异常值。
相关文档
最新文档