4.2 回归分析假定条件以及数据处理

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

有关多元(线性)回归分析(RA)的模型,在前文已经提到。其假定公式是:
y=α0+α1x1+α2x2+…+αnxn+ej=αixi+ej(i-j,0-n)
(1)
此公式表明:y 是 xi 的的线性函数(α0+α1x1+α2x2+…+αkxk)加上误差项 ej,数据应满
足以下条件才可以进行线性回归。
(1)自变量与因变量之间存在线性关系。 这可以通过绘制“散点图矩阵”进行考察因变量随各自变量值的变化情况。如果因变量 Yi 与某个自变量 Xi 之间呈现出曲线趋势,可尝试通过变量变换予以修正,常用的变量变 换方法有对数变换、倒数变换、平方根变换、平方根反正弦变换等。
态分布。因此,应用 Z 分数可识别异常值。我们建议将 Z 分数低于-3 或高于 3 的数据看成
是异常值。这些数据的准确性要复查,以决定它是否属于该数据集。
另有肖维勒准则法(Chauvenet)、狄克逊准则法(Dixon)、罗马诺夫斯基(t 检验)准
则法、格拉布斯准则法(Grubbs)等,本书中不做赘述。
最小值第一四分位数中位数第三四分位数与最大值来描述数据的一种方法它也可以粗略地看出数据是否具有对称性分布的分散程度等信息特别可以用于对几个样本的比较箱形图中最重要的是对相关统计点的计算相关统计点都可以通过百分位计算方法进行实现在识别异常值方面有一定的优越性
回归分析假定条件以及数据处理
1.回归分析的假定条件
实现,在识别异常值方面有一定的优越性;它的绘制依靠实际数据,不需要事先假定数据
服从特定的分布形式,没有对数据作任何限制性要求,它只是真实直观地表现数据形状的
本来面貌;另一方面,箱形图判断异常值的标准以四分位数和四分位距为基础,四分位数
具有一定的耐抗性,多达 25%的数据可以变得任意远而不会很大地扰动四分位数,所以异
从上图可以看出,在自变量为 1 时有两个编号分别为 9 和 45 的异常值,返回数据集, 即可找出异常值并考虑剔除。有缘学习更多+谓ygd3076考证资料或关注桃报:奉献教育 (店铺)
(1)误差项 ej 是一个期望值为 0 的随机变量,即 E(ej)=0,这意味着对于给定的 xi 值, y 的期望值为 E(y)=α0+α1x1+α2x2+…+αkxk。
(2)对自变量 x1,x2,…,xn 的所有值,ej 的方差 σ2 都相同。 (3)误差项 ej 是一个服从正态分布的随机变量,且相互独立,即 ej~N(0,σ2),独立 性意味着自变量 xi 的一组特定值所对应的与 xi 任意一组其他值所对应的不相关。正态性意 味着对于给定的 xi 的值,因变量 y 是一个服从正态分布的随机变量。 2 回归分析的数据处理 (1)统计检验。 在实际问题的研究中我们事先并不能断定因变量Y与自变量x1、x2、xp之间确有线性 关系,因而在进行回归参数的估计前我们用多元线性回归方程去拟合因变量与自变量之间的 关系,只是在一些定性分析的基础上所作的一种假设,因此当求出回归方程后还需要对回
(2)异常值(Outlier)的判断与剔除(Rejection)。 回归分析法在确定了数据符合正态分布以后,仍要对调查数据进行一定的处理,因为
调查数据不可避免地会产生部分异常值。所谓异常值,指样本中的个别值,其数值明显偏
离它(或他们)所属样本的其余观测值,也称异常数据,离群值。不加剔除地把异常值包括 进数据的计算分析过程中,对结果会带来不良影响。下面给出两个方法来剔除这些误差,
得到较为可靠的用于回归的数据。有缘学习更多+谓ygd3076考证资料或关注桃报:奉献教
育(店铺)
1)正态分布剔除法。 ①拉依达准则法(3σ)法则:是比较传统的判断方法,它以假定数据服从正态分布为前 提,给定一个置信概率,并确定一个置信限,凡超过此限的误差,就认为它不属于随机误 差范围,将其视为异常值剔除。具体的方法如下。 如果实验数据值的总体 x 是服从正态分布的,则
(2)各观测间相互独立。 任意两个观测残差的协方差为 0,也就是要求自变量间不存在多重共线性问题。对于 如何处理多重共线性问题,请参考《多元线性回归模型中多重共线性问题处理方法》。
由(1)可以看出,误差项反映了除 xi 与 y 的线性关系之外的随机因素对 y 的影响,这是 不能由 xi 与 y 之间的线性关系所解释的变异性。在此模型中,对误差项 ej 有三个基本假定:
4
2
26.12
32
5
1
23.88
33
6
1
23.63
34
7
1
21.61
35
8
1
22.49
36
9
1
41.52
37
10
2
20.60
38
11
1
23.88
39
12
1
24
40
13
2
24.28
41
14
2
25.06
42
15
2
29.54
43
16
2
26.12
44
17
1
22.86
45
18
2
26.12
46
19
1
26.26
47
20
2
20.94
48
21
1
20.20
49
22
2
19.05
50
23
1
19.53
51
24
2
23.84
52
25
2
23.66
53
26
1
21.72
54
27
1
25.47
55
28
2
27.76
56
②导入数据。
3
22.86
1
18.08
1
17.67
3
26.58
1
17.65
1
19.38
1
18.94
1
17.93
2
27.34
常值不能对这个标准施加影响,箱形图识别异常值的结果比较客观。
箱形图可以通过 excel、spss 等统计软件绘制,下面简要介绍 spss 软件绘制箱形图的步
骤。
①数据
序号
您家共有 健康指数 几辆小汽

序号
您家共有 健康指数 几辆小汽

1
1
18.68
29
1
21.60
2
1
18.82
30
3
1
20.90
31
归方程进行显著性检验检。检验的方法主要有:
1)拟合优度的检验计算R2即样本决定系数以检验回归方程对样本观测值的拟合程度; 2)F检验就是要看自变量x1、x2、xp从整体上对因变量Y是否有明显的影响; 3)T检验即回归系数的显著性检验,检验每一个自变量对因变量的作用是否显著,如果 不显著则应将该自变量从回归方程中剔除。
P( x 3 ) 0.003
式中,μ 与 σ 分别表示正态总体的数学期望和标准差。此时,在实验数据值中出现大
于 μ+3σ 或小于 μ-3σ 数据值的概率是很小的。因此,根据上式对于大于 μ+3σ 或小于 μ
-3σ 的实验数据值作为异常值,予以剔除。在这种情况下,异常值是指一组测定值中与平
均值的偏差超过两倍标准差的测定值。与平均值的偏差超过三倍标准差的测定值,称为高
2)箱形图剔除法。
箱线图(Boxplot),是利用数据中的五个统计量:最小值、第一四分位数、中位数、
第三四分位数与最大值来描述数据的一种方法,它也可以粗略地看出数据是否具有对称性,
分布的分散程度等信息,特别可以用于对几个样本的比较
箱形图中最重要的是对相关统计点的计算,相关统计点都可以通过百分位计算方法进行
度异常的异常值。在处理数据时,应剔除高度异常的异常值。异常值是否剔除,视具体情
况而定。
一般,在统计检验时,指定为检出异常值的显著性水平 α=0.05,称为检出水平;指定
为检出高度异常的异常值的显著性水平 α=0.01,称为舍弃水平,又称剔除水平(Reject
Level)。
②标准化数值(Z-score)法:可用来帮助识别异常值。Z 分数标准化后的数据服从正
1
23.34
2
28.38
1
20.28
1
22.34
1
27.68
1
17.99
1
38.97
1
19.83
1
19.96
2
22.58
2
24.77
1
21.48
1
22.99
1
23.11
1
23.24
1
27.78
1
20.70
1
25.26
③导入结果。
④分析。 ⑤参数设置。
依次单击“继续”和“确定”,输出结果如下:
如图,箱中粗线是中位数,箱子的高度是四分位差的距离,圆圈和小星星是异常值, 在后期的统计中可以剔除。
相关文档
最新文档