第四讲回归分析回归诊断.

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

标准的回归假定:
1,关于模型设定的假定 2,关于误差的假定 3,关于预测变量的假定
非随机的 其取值是误差取得的,但几乎不可能。测量误差将 影响到误差方差,相关系数,复相关系数及回归系数 的估计,其影响程度的大小取决于多个因素。 是线性无关的
4,关于观测的假定 所有观测是同样可靠性
数据的诊断 异常值 强影响点 假定是否满足 模型的诊断
看数据,一眼就能发现数据(5)其X3的 值突出的高。 然后再分析其背景
强影响点
数据集中的强影响点是指那些对统计量的 取值有非常大的影响力的点。在考虑强影 响点时,有几个基本问题需要考虑: 首先必须明确“是对哪个统计量的影响?” 例如,对线性回归模型所考虑的是对回归 系数的估计量的影响;不是对误差方差的 估计影响;或是对拟合优度统计量的影响 等等。分析目标不同,所考虑的影响亦有 所不同。
把异常点看成是那些与数据集的主体明显不协 调,使得研究者大感惊讶的数据点。这时,异 常点可解释为所假定的分布中的极端点,即落 在分布的单侧或双侧 分位点以外的点,而 通 常取很小的值(如:0.005 ),致使观察者对数 据中出现如此极端的点感到意外。 把异常点视为杂质点。它与数据集的主体不是 来自同一分布,是在绝大多数来自某一共同分 布的数据点中掺入的来自另一分布的少量“杂 质”
据变换等内容,异常点的识别是处理统计诊断的重要内容
之一,它进行的好坏通常影响到整个过程的诊断。
异常值有时一个,有时多个
异常点
在回归模型中,异常点是指对既定模型 偏离很大的数据点。但究竟偏离达到何 促程度才算是异常,这就必须对模型误 差项的分布有一定的假设(通常假定为 正态分布)。目前对异常点有以下两种 较为流行的看法:
异常点在统计诊断中的地位
异常点(outlier)是统计诊断中很重要的一个概念。统计 诊断(Statistical Diagnostics)就是对从实际问题中收集起
来的数据、提炼出来的模型以及由此出发所作的推断方法
的合理性进行深入而细致的分析,并通过一些诊断统计量 来检查数据、模型及推断方法中可能存在的毛病,进而提 出治疗方案,进行模型或者推断方法的改进。 统计诊断主要包括异常点识别、残差分析、影响分析和数
Oswegatchie Cohocton
农田覆盖率 Agr 26 29 54 2 3 19 16 40 28 26 6 3 2 6 22 4
21 40
森林覆盖率 Forest 63 57 26 84 27 61 60 43 62 60 84 81 89 82 70 75
56 49
工业及商业用 春夏秋冬各季度采 住宅地占土地 地占总面积百 集到的样本的平均 总面积百分比 分比 氮浓度mg/升 Rsdntial ComIndl Nitrogen 1.2 0.29 1.1 0.7 0.09 1.01 1.8 0.58 1.9 1.9 1.98 1 29.4 3.11 1.99 3.4 0.56 1.42 5.6 1.11 2.04 1.3 0.24 1.65 1.1 0.15 1.01 0.9 0.23 1.21 0.5 0.12 0.73 0.8 0.35 0.8 0.7 0.35 0.76 0.5 0.15 0.87 0.9 0.22 0.8 0.4 0.18 0.87
12 10 8 6 4 2 0 0 10
存在影响值的趋势 有影响的观 测值 不存在影响 值的趋势
Significan ce F 9.154231 0.000596
F
P-value
Lower 95%
Upper 95%
1.395543
0.3864 -0.93083 -0.21362
0.183169
0.704626 0.36668 0.83372
-0.90817
-0.02624 -0.04266 -0.07933
线性回归模型中的异常点分析
•6
异常点的识别与处理,是统计诊断中很重 要的一项内容。 异常点的出现会影响分析结果的可信度。 异常点的存在往往蕴涵着重要的信息。 在有些情况下,异常点的出现是因为有新 事物出现或者新情况发生,比如经济模型 中某种经济政策的出台等,都能表现出异 常,这通常是我们的研究兴趣所在。
通常对异常值的处理方法有两种。一种 是把异常点作为工作重点,目标就是发 现异常点并确定是否要作进一步的研究, 这样的异常点往往含有很重要的信息。 这时不仅要判断出异常点的存在与否, 还要确定异常点出现的位置以及影响大 小。这是统计诊断中一个重要内容,围 绕此类问题出现了大量的统计量检验方 法及影响分析研究。
残差
普通最小二乘法的残差: 学生化残差:
强影响点
强影响点和异常点是两个不同的概念, 它们之间既有联系也有区别。强影响点 可能同时又是异常点也可能不是;反之, 异常点可能同时又是强影响点也可能不 是。
已知20条河流流域的有关测量数据.
河流 River Olean Cassadaga Oatka Neversink Hackensack Wappinger Fishkill Honeoye Susquehanna Chenango East Canada Saranac Ausable Black Schoharie Raquette
异常点的成因与处理
为什么会出现异常点?对这个问题的回答大致可以 归结为以下三种情况:整体模型变化、局部模型变 化和自然变异。 在前两种情况下,异常点出现的多而且连续,往往 蕴涵着机制的变化、新事物的出现或者新局面的形 成,大量而且连续的异常点可以用新的模型来拟合。 对于整个数据集,实质上已经成为一个混合模型。 而第三种成因更为常见,偶尔的人为差错或者仪器 的故障都可以引起异常。 对于由不同的原因引起的异常点,它们的处理方法 是不同的。在进行统计诊断时,判断异常点的成因 是很重要的,是对异常点进行正确处理的先决条件。
在另外一些情况下,异常点的出现是由于 人为差错或者仪器的故障所引起的。 在我们需要根据样本对模型进行参数估计 或者根据模型对将来进行预测与控制的时 候,异常点的出现会对我们的工作产生很 强的影响,这样的结果是令人怀疑的。 因此,异常点的研究受到了广大研究者的 重视,自Bernoulli首次提出了异常点的概念, 接下来对异常点的概念、类型以及处理问 题的讨论一直没有停止过。
4.352596
0.037853 0.016726 0.06488
X 4
0.305028
0.163817
1.862007
0.08231
-0.04414
0.654195
回归统计 Multiple R R Square Adjusted R Square 标准误差 观测值 方差分析 df 回归分析 残差 总计 4 14 18 Coefficients 1.099471 0.010137 SS 3.077652 0.518811 3.596463 标准误差 0.911636 0.010984 MS 0.769413 0.037058 F 20.76242 0.925064 0.855744 0.814528 0.192504 19
其次,必须确定“度量影响的尺度是什么?”为 了定量地刻划影响的大小,迄今为止已提出多种 尺度,基于置信域的尺度,基于似然函数的尺度 等等。 在每一种类型中又可能有不同的统计量。每一种 度量都是着眼于某一方面的影响,并在某种具体 场合下较为有效。这一方面反映了度量影响问题 的复杂性,另一方面也说明了影响分析的研究在 统计诊断中是一个甚为活跃的议程。
通过简单回归和多元回归模型可以有了计 算结果。 这些结果能做推断,需要建立在一些概述 性统计量的基础之上,这些统计量由数据 来计算。而只有当标准的回归假定满足时, 所做的推断才有可能是合理的,有意义的。 而对假定的核定,可以用图形的方法,也 可以用严格的数值去检查。 数据也需要考虑 还有模型的设定
强影响点通常是数据集中更为重要的数 据点,它往往能提供比一般数据点更多 的信息,因此需引起特别注意。
பைடு நூலகம்
有影响的观测值 (图示)
12 10 8 6 4 2 0 0 10 20 30
x
y
40
存在一个有影响观测值的散点图
有影响的观测值 (图示)
12 10 8 6 4 2 0 0 10 20 30
x
y
40
-0.74244
-3.14698 4.448273
0.470098
0.007134 0.000551
尽管三个数据集只差一观测数据,但回 归结果有巨大差异 比如,看X3回归系数的T检验值,使用 全部数据时该检验是不显著的,剔除掉 数据4后,显著为正;可见,仅一个观测 就能导致根本不同的结论 数据(4)(5)称为强影响观测,因为 他们对回归的影响远强于其他观测。
df
回归分析 残差 总计
SS
MS
0.642462 0.070182 t Stat
Intercept
X 1 X 2 X 3
4 2.569846 15 1.052729 19 3.622575 Coefficien 标准误差 ts 1.722214 1.234082 0.005809 -0.01297 -0.00723 0.015034 0.013931 0.03383
Intercept X Variable 1
t Stat 1.206042 0.922873
P-value 0.247788 0.371705
X Variable 2
X Variable 3 X Variable 4
-0.00759
-0.12379 1.528956
0.010222
0.039337 0.343719
残差
在回归分析中,异常数据的发现或模型的检测、 标准假设的检测的一个简单而有效的方法是研 究残差图。 残差图能够指明哪个或哪些标准假定不成立。 更重要的是,残差分析可能引导我们发现数据 中的结构,也可能指出那些蕴涵在数据中的、 在只用一些概述性统计量分析时容易被疏漏的 信息。这些启发或线索可能帮助我们更好地理 解所研究的问题,或者找到更好的模型。 对残差进行图形分析往往是回归分析中最重要 的一部分工作。
对于由第三种成因引起的异常点,发现 之后可以进行删除,以免影响参数估计 等以后的工作效果。 另外一种方法就是对于异常点采取容忍 的态度,把整个数据集作为研究的基础, 对于一定比例的坏数据或者远离数据中 心的数据采取一定的容忍或适应政策
回归系数一般采用“最小二乘估计”(least squares estimator,LS estimator)求解,但是在应用中容易忽 视的问题是LS估计只有在数据满足相应条件的情况 下才会具有统计描述和推断的优良性质,如要求误 差服从正态分布、总体方差相同且相互独立等。 当实际数据没有近似满足这些假定时,就会出现一 些异常点(outliers)、杠杆点(leverage point)及影 响点(influential observations),使分析结果变得不可靠, 不能发现数据中的真实结构,从专业上难以解释结 果,甚至得到完全错误的结论。尤其是随着统计软 件的日渐普及,我们倾向于简单地将数据交给软件 来分析,而不注意具体方法的应用条件,尽管采用 了SAS、SPSS这些国际标准软件,但是输出结果有 时却与专业解释相悖。
0.5 1.1 0.13 0.13 0.66 1.25
研究者感兴趣的是,河流周边地区土地的利用程度对水污染 (平均氮浓度)有何影响
利用三个数据集合获得的回归系数和其T 检验统计量相差很大 1.用全部数据 2.剔除NEVERSINK数据(4) 3.提出HACKENSACK数据(5)
回归统计 Multiple R 0.842257 R Square 0.709398 Adjusted R 0.631904 Square 标准误差 0.264919 观测值 20 方差分析
存在一个有影响观测值的散点图
有影响的观测值 (图示)
12 10 8 6 4 2 0 0 10 20 30
x
y
40
存在一个有影响观测值的散点图
有影响的观测值 (图示)
12 10 8 6 4 2 0 0 10
存在影响值的趋势 有影响的观 测值
y
20
30
x 40
存在一个有影响观测值的散点图
有影响的观测值 (图示)
相关文档
最新文档