系统和数据分析Spearman等级相关分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第三十课 Spearman 等级相关分析
一、 秩相关的Spearman 等级相关分析
前面介绍了使用非参数方法比较总体的位置或刻度参数,我们同样也可以用非参数方法比较两总体之间的相关问题。

秩相关(rank correlation )又称等级相关,它是一种分析和等级间是否相关的方法。

适用于某些不能准确地测量指标值而只能以严重程度、名次先后、反应大小等定出的等级资料,也适用于某些不呈正态分布或难于判断分布的资料。

设和分别为和各自在变量X 和变量Y 中的秩,如果变量X 与变量Y 之间存在着正相关,那么X 与Y 应当是同时增加或减少,这种现象当然会反映在(,)相应的秩(,)上。

反之,若(,)具有同步性,那么(,)的变化也具有同步性。

因此:
∑∑==-==n i n
i i i i Q R d d 1
1
22
)(
(30.1)
具有较小的数值。

如果变量X 与变量Y 之间存在着负相关,那么X 与Y 中一个增加时,另一个在减小,具有较大的数值。

既然由(,)构成的样本相关系数反映了X 与Y 之间相关与否的信息,那么在参数相关系数的公式),(Y X r 中以和分别代替和,不是同样地反映了这种信息吗?基于这种想法,Charles Spearman 秩相关系数),(Q R r s 应运而生:
∑∑∑∑∑∑∑----
=
2
2)1
()1()1
)(1(),(i i i i i i
i i s Q n Q R n R Q n Q R n R Q R r (30.2)
),(Q R r s 与),(Y X r 形式上完全一致,但在),(Q R r s 中的秩,不管X 与Y 取值如何,总
是只取1到之间的数值,因此它不涉及X 与Y 总体其他的内在性质,例如,秩相关不需要总体具有有限两阶矩的要求。

由于:
2
)
1(211
1
+=
+++==∑∑==n n n Q R n
i i n i i 6
)
12)(1(212221
21
2++=
+++==∑∑==n n n n Q R
n
i i n
i i
因此,公式(30.2)可以化简为:
)
1(61)
1()(612
22
2
--
=---
=∑∑n n d n n Q R r i i i s (30.3)
显然在=时,秩相关系数达到最大值+1。

又因为:
i i i i i i i i
Q R n n n Q R Q R Q R
∑∑∑∑∑-++=
-+=-23
)
12)(1(2)(222

i
i
Q R ∑在每对+=1+n 时达到最小值,最小值求法为:
i i i i Q R Q R n ∑∑∑∑++=+2)
1(222
所以,最小的
i
i
Q R ∑为:
6
)
12)(1(2)1(2++-+n n n n n 最大的
2
)(∑-i i Q R 为:
3
)1()1(3)12)(1(222
-=+-++n n n n n n n
故秩相关系数的最小值为1-2=-1。

在原假设和不相关的情况为真时,即秩相关系数为0时,的期望值为0,样本的方差为
2
122--=n r s s r s
(30.4)
自由度为2-n 且分布关于零点对称。

当10时,的样本分布可以标准化为近似的t 分布:
)2(~12
2
102
2
---=---=
-=
n t r n r n r r s r t s
s
s s r r s s
s
μ (30.5)
例30.1某公司想要知道是否职工期望成为好的销售员而实际上就能有好的销售记录。

为了调查这个问题,公司的副总裁仔细地查看和评价了公司10个职工的初始面试摘要、学科成绩、推荐信等材料,最后副总裁根据他们成功的潜能给出了单独的等级评分。

二年后获得了实际的销售记录,得到了第二份等级评分,见表30.1中的第1到4列所示。

统计问题为是否职工的销售潜能与开始二年的实际销售成绩一致。

表30.1 职工的销售潜能与销售成绩的秩相关分析
职工编号
潜能等级
销售成绩
成绩等级
i i i Q R d -=
1 2 400 1 1 1 2 4 360 3 1 1 3 7 300 5 2 4 4 1 295 6 -5 25 5 6 280 7 -1 1 6 3 350 4 -1 1 7 10 200 10 0 0 8 9 260 8 1 1 9 8 220 9 -1 1 10
5
385
2
3
9 =∑2i
d
44
Spearman 秩相关系数),(Q R r s 的计算过程见表30.1中的第5到6列所示,最后计算结
果为
7333.0)
1100(10)
44(61)
1(6122=--
=--
=∑n n d r i s
表明潜能与成绩之间是较强的正相关,高的潜能趋向于好的成绩。

秩相关系数),(Q R r s 原假设为0的t 检验统计量为:
05.3)
7333.0(12
107333
.02
=--=t 查表自由度为8,t =3.05的双侧p =0.0158。

在0.05显著水平上,t 分布的上临界点为2.30,由
于3.05>2.30,因此,拒绝秩相关系数为0的原假设,接受潜能与成绩之间存在秩相关。

二、 Corr 相关过程
Corr 相关过程用于计算变量之间的相关系数,包括Pearson (皮尔逊)的乘积矩相关和加权乘积矩相关。

还能产生三个非参数的关联测量:Spearman 的秩相关,Kendall 的tau-b 和Hoeffding 的相关性度量D 。

该过程也可以计算偏相关等一些单变量的描述性统计量。

1. C orr 过程说明
proc corr 过程一般由下列语句控制:
proccorrdata=数据集<选项>;
var 变量列表; with 变量列表 ; partial 变量列表 ; weight 变量 ; freq 变量 ; By 变量列表 ; run ;
proc corr 语句调用corr 过程,且是唯一必需的语句。

如果只使用proc corr 这一条语句,过程计算输入数据集中所有数值变量之间的相关系数。

其余语句是供选择的。

2. p roc corr 语句的选项
● outp =数据集名——产生含有Pearson 相关系数的一个新数据集。

● outs =数据集名——产生含有Spearman 等级相关系数的一个新数据集。

● outk =数据集名——产生含有Kendall τb 相关系数的一个新数据集。

● outh =数据集名——产生含有Hoeffding D 统计量的一个新数据集。

● pearson ——要求计算通常的pearson 乘积矩相关系数,是缺省值。

● hoeffding ——要求计算并输出Hoeffding 的D 统计量。

● kendall ——要求计算并输出Kendall τb 相关系数。

● spearman ——要求计算并输出Spearman 等级相关系数。

● vardef =df |weight |wgt |wdf ——指定计算方差时的除数:df (自由度n –1),weight 或wgt (权重之和),n (观察数),wdf (权重之和-1)。

缺省值为df 。

●cov——计算协方差-方差矩阵。

●sscp——要求输出平方和与交叉积和。

●csscp——要求输出偏差平方和与交叉积和。

●best=数值——对每个变量输出指定个数的绝对值最大的相关系数。

●noprint——禁止所有打印输出。

●noprob——禁止输出同这些相关有联系的显著性概率。

●nosimple——对原始数据执行标准方差分析。

●rank——要求按绝对值从高到低的次序对每个变量输出相关系数。

●nocorr——抑制Pearson相关的计算及输出。

●nomiss——将带有某一变量缺失值的观测值从所有计算中除去。

●nosimple——不输出每个变量的简单描述性统计量。

3. v ar语句
该语句列出要计算相关系数的变量。

例如,var a b c;则计算a和b,a和c,b和c三对变量之间的相关系数。

4. w ith语句
为了得到变量间的特殊组合的相关系数,该语句和var语句联合使用。

用var语句列出的变量在输出相关阵的上方,而用with语句列出的变量竖在相关阵左边。

例如,var a b;with x y z;则生成x和a,y和a,z和a,x和b,y和b,z和b。

5. p artial语句
为了计算Pearson偏相关,Spearman偏秩相关,Kendall偏tau-b,用该语句给出偏出去(即固定)的变量名。

6. w eight语句
为了计算加权的乘积矩相关系数,用该语句给出权数变量名。

该语句仅用于Pearson相关。

7. f req语句
当规定freq语句时,输入数据集中的每个观察假定代表n个观察,其中n是该观察中freq 变量中的值。

观察的总数规定为freq变量值的和。

8. b y语句
使用by语句能够获得用by变量定义的分组观察的独立分析结果。

三、实例分析
例30.1的SAS程序如下:
data study.persons ;
input x y @@;
y=400-y;
cards;
2 400 4 360 7 300 1 295 6 280
3 350 10 200 9 260 8 220 5 385
;
proc corr data=study.persons spearman;
var x;
with y;
run;
程序说明:建立输入数据集persons ,要注意实际数据所表示的等级次序大小与SAS系
统中自动给出的等级次序大小的不同。

输入变量x,获得从1到10的数据,表示潜能等级从
最高到最低,而输入变量y,获得从最大销售额400到最小销售额220,转换销售成绩等级应
该是从高到低,即从1到10。

但在SAS系统中把销售成绩数值从小到大按等级值从1到10
给予。

因此,需要颠倒变量x或变量y中数值大小的次序,本程序用最大销售额400减去原
来的销售额实现次序颠倒,即语句y=400-y。

等级相关与一般参数相关一样仍然调用corr过
程,只需要在选择项中指定为何种等级相关,我们选择计算spearman秩相关系数。

var语句
列出要计算相关系数的第一个变量x,with语句必须要与var语句联合使用,列出的要计算相
关系数的第二变量y。

主要结果如表30.2所示。

表30.2 用corr过程进行多样本输出结果
Correlation Analysis
1 'WITH' Variables: Y
1 'VAR' Variables: X
Simple Statistics
Variable N Mean Std Dev Median Minimum Maximum Y 10 95.000000 67.905163 102.500000 0 200.000000 X 10 5.500000 3.027650 5.500000 1.000000 10.000000
Spearman Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 10
X
Y 0.73333
0.0158
结果说明:Spearman等级相关系数为0.73333,是一个比较大的正相关系数。

这个相关
系数为0的原假设检验结果是p=0.0158<0.05,因此,我们拒绝相关系数为0的原假设,接受
了这个0.73333等级相关系数。

结论为销售潜能的高低与销售成绩好坏之间存在明显的正相
关性。

第三十一课一元线性回归分析
回归分析是一种统计分析方法,它利用两个或两个以上变量之间的关系,由一个或几个
变量来预测另一个变量。

在SAS/STAT中有多个进行回归的过程,如REG、GLM等,REG过
程常用于进行一般线性回归模型分析。

四、回归模型
1. 基本概念
回归模型是一种正规工具,它表示统计关系中两个基本的内容:①用系统的形式表示因变量Y 随一个或几个自变量X 变化的趋势;②表现观察值围绕统计关系曲线的散布情况。

这两个特点是由下列假设决定的:
● 在与抽样过程相联系的观察值总体中,对应于每一个X 值,存在Y 的一个概率分布;这些概率分布的均值以一些系统的方式随X 变化。

● 图31.1是用透视的方法来显示回归曲线。

Y 对给定X 具有概率分布这一概念总是与统计关系中的经验分布形式上相对应;同样,描述概率分布的均值与X 之间关系的回归曲线,与统计关系中Y 系统地随X 变化的一般趋势相对应。

在回归模型中,X 称为“自变量”,Y 称为“因变量”;这只是传统的称法,并不表明在给定的情况下Y 因果地依赖于X ,无论统计关系多么密切,回归模型不一定是因果关系,在某些应用中,比如我们由温度表水银柱高度(自变量)来估计温度(因变量)时,自变量实际上依赖于因变量。

此外,回归模型的自变量可以多于一个。

2. 回归模型的构造
1) 自变量的选择
构造回归模型时必须考虑到易处理性,所以在有关的任何问题中,回归模型只能(或只应该)包括有限个自变量或预测变量。

2) 回归方程的函数形式
选择回归方程函数形式与选择自变量紧密相关。

有时有关理论可能指出适当的函数形式。

然而,通常我们预先并不能知道回归方程的函数形式,要在收集和分析数据后,才能确定函数形式。

我们经常使用线性和二次回归函数来作为未知性质回归方程的最初近似值。

图31.2(a)表示复杂回归函数可以由线性回归函数近似的情况,图31.2(b)表示复杂回归函数可以由两个线性回归函数分段近似的情况。

图31.1线性回归模型的图示
3) 模型的范围
在建立回归模型时,通常需要限制模型的自变量或因变量取值的区间范围,这个范围由调查设计和已掌握数据的情况决定。

4) 回归分析的运用
回归分析主要有3个目的:描述,控制和预测。

五、 未指定误差项分布的回归模型 1. 模型的正规表述
现在我们只限于一个自变量的基本回归模型,且回归函数是线性的,可表述如下:
t t t X Y εβα++=
(31.1)
其中,是第次观测或试验中因变量的取值,和是参数,为第次观测或试验中自变量的取值,是随机误差项,其基本假设应该满足三个条件:
● 均值E ()=0
● 方差2)(σε=t Var
● 协方差0),(=j i Cov εε,当i ≠ j 时。

即对所有的 i ≠ j ,与互不相关
模型(31.1)称为简单模型,参数是线性的,自变量也是线性的。

所谓“简单”,是因为它只有一个自变量,“参数线性”是指没有参数具有指数形式,或者被另一个参数相乘或相除,“自变量线性”是指这个自变量是一次的。

参数和自变量都是线性的模型称为一阶模型。

2. 模型的重要特点
y (a)y (b)
x x
图31.2 用线性回归函数近似复杂回归函数
第次观察中的观察值包括2部分:常数项t X βα+和随机项的和。

所以,是随机变量。

因为E ()=0,这样:
t t t t X E X Y E βαεβα+=++=)()(
(31.2)
其中,t X βα+是常数。

因此,当第次试验中取为时,相应的来自一个概率分布,其均值是:
t t X Y E βα+=)(
(31.3)
所以,模型(31.1)的回归函数是:
X Y E βα+=)(
(31.4)
这样对任何给定的,回归函数把水平与的概率分布均值联系起来。

在第次试验中,的观察值超过或低于回归函数值的部分为误差项部分。

假设误差项具有相同的方差,则相应的的方差为:
2)(σ=t Y Var
这是因为:
2)()()(σεεβα==++=t t t t Var X Var Y Var 。

无论自变量取值如何,模型(31.1)总是假设的概率分布具有相同的方差,且假设误差项互不相关。

因此,任何一次试验的结果对其他各次试验的误差项都没有影响,相应的与也互不相关。

总之,模型(31.1)的含义为:对所有水平的来说,因变量观察值都来自均值
t t X Y E βα+=)(、方差的概率分布。

此外,任何两个观察值与是互不相关的。

六、 最小二乘估计法 1. 观测数据图
设有一组T 期间内关于二变量和的样本观测值(,)(t =1,2,…,N ),在和之间存在着函数关系,如果将这些观测数据,在2维平面上用图来表示,只要数据至少有3个以上,那么所有的点大概不可能都在一条直线上。

以被认为在X 和Y 之间成立的未知回归直线:
Y =α+ βX
为中心,观测点总是适当地散布在其周围。

未知回归直线和各观测点的垂直方向的间隔就是上节引进的概率误差项。

由于α和β的数值未知,因此,不能准确地知道与各观测点对应的概率误差项的值。

大致来说,可以认为回归直线是从散布在平面上的各观测点的中央穿过的直线。

根据所给的观测数据来估计这条直线的位置(α和β的值),是我们需要解决的主要问题。

2. 误差二乘和的最小化
估计回归直线的方式(规则)有各种各样的考虑。

但是,对于确定α和β的值时,要使所
有的观测点和直线的“距离”从整体来说为最小这个一般的规则,大概无论谁也没有异议。

意见的分歧在于究竟要用什么尺度来衡量各观测点和回归直线的“距离”。

也就是说,即使都承认上述的一般规则,但由于按什么标准来测定“点和线的距离”的看法不同,推导出的估计方式也是多种多样的。

假定估计出的直线为:
X Y **βα+=
(31.5)
则同X =X t 对应的估计直线上的点是t x *
*
βα+。

观测点(x t ,y t )同估计直线垂直方向的间隔:
)(**t t t x y e βα+-=
(31.1.6)
叫做残差(residual )。

(这里将各观测点看作是已经观测完毕的一对已知数组,用小写字母来表示)。

应当注意的是误差项和残差的区别:误差项是未知回归直线同观测点的间隔,而残差是已知的估计直线同观测点的间隔。

为了便于讨论,我们暂且将测量点和直线之间距离的“评价函数”限定为残差的函数。

对照我们的常识,要求评价函数满足以下各条件:
1) 残差可能为正也可能为负,但不管是正的残差还是负的残差,只要其绝对值相等,用与直线的离差这一标准来衡量,就应当完全平等地评价。

2) 评价函数必须是各残差绝对值的非减函数。

把评价函数记为()N e e e V ,,,21 ,将以上两条件用数学方式表现,可得:
()()N N e e e V e e e V ,,,,,,2121 =
(31.7)
N t e V
t
,,2,1,0 =≥∂∂ (31.8)
同时,为了方便起见,除以上2个条件外,暂且再追加以下2个条件。

3) N 个观测点都具有同等资格。

即和(t ≠s )作为评价函数的变量应得到同样的对待。

这一条件同各期误差项的方差为一定值的假定有着密切的关系。

将条件(3)用数学方式表现,可得,对于(1,2,…,N )的任意重新排列),,,(21N i i i 有:
()
()
N i i e e e V e e e V N ,,,,,,21i 21 =
4) 我们已经假定时期不同的概率误差项相互之间不相关。

因此,评价函数中各的作用最好是相互无关的。

将这一叙述用数学方式表示,可得:
s t e e V
s
t ≠=∂∂∂,02
(31.9)
根据以上的讨论,备择的评价函数被限定在相当狭的范围内,作为满足资格的函数,例如可以考虑:
1,||1
≥=∑=k e V N
t k t
(31.10)
当k 为偶数时,绝对值的符号就失去意义。

残差是回归系数的估计值(*
*,βα)的函数。

因此,如果给定了观测数据(x t ,y t ),则可以把V 看作是以和为变量的二变量函数。

从而可以考虑确定能使V 为最小的和的值。

当然,使V 的值为最小的和的值要依存于N 个观测数据。

当k = 1时,评价函数式(31.10)是残差绝对值的总和。

就某种意义来说,这一评价函数在直观上也许是最容易理解的。

通过使它为最小来确定和的方式,叫做最小绝对离差估计法(least absolute deviation estimation method )。

当k =2时,评价函数是残差的平方和。

确定能使这一评价函数为最小的和的方式,便是最小二乘法(least squares method )。

令k = 2,将式(31.6)代入式(31.10),可得:
()
∑=--=N
t t
t x y V 1
2
**βα (31.11)
把样本观测值看作已知数,从而可以把V 当作和的函数来考虑,利用解决最大最小问题的方法,令V 对和的偏导数为零,可以推导出关于和的二元联立一次方程组为:
()
021
*
**
=---=∂∂∑=N
t t t x y V βαα (31.12)
()
021
***
=---=∂∂∑=N t t t t x y x V
βαβ (31.13)
这一联立方程叫做正规方程式,其解如下:
()()
()
∑∑==---=
N
t t
t N
t t
x x
y y x x
1
2
1

(31.14)
x y **βα-=
(31.15)
∑∑====N
t t N t t y N y x N x 1
11,1
(31.16)
在求解时,利用了下列恒等式:
()
2
11
2
1
2
1⎪⎭⎫ ⎝⎛-=-∑∑∑===N t t N
t t N
t t
x N x x x
因为,V 的驻点(使偏导数同时为0的和的值)只有唯一的一个,而且通过增大和的值,
可以使V 无限增大,所以正规方程的解的确给出了V 的最小值。

于是,可知最小二乘估计量是:
()()
()
∑∑==---=N
t t
t N
t t
x x
y y x x
1
2
1
ˆβ
(31.17)
x y βα
ˆˆ-= (31.18)
∑∑====N
t t N t t y N y x N x 1
11,1
(31.19)
3. 最小二乘估计量的平均值和方差
我们已经相当详细地论述了关于“估计量的优劣”问题的一般理论。

从18世纪由高斯
(Gauss )发明的所谓最小二乘法直到今天仍得到如此广泛的实际运用这一事实来看,最小二乘估计法理论应具有某些特别的优点。

如前所述,最小二乘法并不是“确定使T 个观测点与回归直线之间的距离就整体来说为最小的直线位置”的独一无二的方法,它只不过是多种方法中的一个罢了。

尽管如此,最小二乘法还能够绝对地凌驾于其他任何方法之上,一直被应用于现实数据的分析,这并不仅仅是由于计算简单,而且还有其他合适的理由——理论上的根据。

事实上,在计算技术有了非常大的进步的今天,计算简便已经不再具有那样大的价值了。

以下,我们首先来研究一下最小二乘估计量的性质。

将t t t X Y εβα++=代入估计量(31.17)和估计量(31.18),并作以下变形:
()()
∑∑==--+=N t t
N
t t
t
x x
x x
1
2
1
ˆεββ
(31.20)
()()t N t N t t t x x x x X N x y εαβα
∑∑==⎥⎥⎥⎥⎦
⎤⎢⎢⎢⎢⎣⎡---+=-=1121ˆˆ (31.21)
于是,和的期望值分别为:
()αα
=ˆE (31.22) ()
ββ
=ˆE (31.23)
从而很简单地证明了和分别是α和β的无偏估计量。

这样,最小二乘估计量顺利地通过了
第一道关卡。

既然已表明最小二乘估计量具有无偏性,那么下一个问题就是估计量的方差的大小。

我们暂且先根据方差的公式进行形式上的推导。

根据前面的假定:2
)(σε=t Var 和0),(=s t Cov εε,由定义得
()()
()∑=-=
-=N
t t x x E Var 12
2
2
ˆˆσβββ
(31.24)
按照同样的方法也可以推导出:
()()()⎥⎥⎥⎥⎦

⎢⎢⎢⎢⎣⎡-+=-=∑=N
t t x x x N E Var 12222
1ˆˆσααα
(31.25)
这里顺便再计算一下和的协方差:
()()()
()
∑=--=--=N
t t x x x E Cov 1
2
2
ˆˆˆ,ˆσββααβα
(31.26)
从式(31.25)和式(31.26)可知,估计量的方差与样本的大小大致成反比。

同时,解释变
量在较广的范围内分布得越散,估计量的方差就越小。

估计量的方差越小即意味着估计值的精度越高。

当()∑=∞
→∞=-N
t t
N x x 12
lim
时,和都是一致估计量。

七、 检验与预测
从最小二乘估计表达式(31.17)和(31.18)知,只要给出了N 组数据N i y x i i ,,2,1),,( =,总可将它们代入这两个表达式获得α和β的估计,从而写出回归方程。

但这个回归方程是否有意义呢?需要有个检验准则。

为作检验,首先要建立假设。

我们求回归方程的目的是要去反映随变化的一种统计规律,那么如果β=0,从式(31.4)可知,不管如何变化,不会随之而改变,在这种情况下求出的回归方程是无意义的。

所以,检验回归方程是否有意义的问题转化为检验下列假设是否为真:
0:0=βH
(31.27)
常用的方法有F 检验和t 检验方法。

1. F 检验
这一方法类似于第三章所介绍的方差分析的想法,也是从观察值的偏差平方和分解入手。

我们观察到的N y y y ,,,21 的差异可以用总偏差平方和表示:
1,)(21
-=-=∑=N df y y TSS T N
i i
(31.28)
造成这一差异的原因有如下两个方面:
一是由于假设0=β不真,从而对不同的值,随而变化。

我们可以用下列偏差平方和来表示由此引起的差异:
1,)ˆ(1
2=-=∑=R N
i i df y y
RSS (31.29)
称为回归平方和。

其中,)(ˆˆˆˆˆˆx x y x x y x y i
i i i -+=+-=+=ββββα。

所以,公式(31.29)又可以写成:
21
221
12)(ˆ)](ˆ[)ˆ(x x x x y y
RSS i N
i i
N
i i N
i i -=-=-=∑∑∑===ββ (31.30)
根据公式(31.24)可知,其期望值:
2
21
2
21
2
21
2)()()]ˆ()ˆ[()(ˆ)(σβ
βββ+-=-+=-⋅=∑∑∑===x x
x x Var E x x E RSS E i
N
i i
N
i i
N
i (31.31)
这便表明,RSS 中除了误差波动外,还反映了由于0≠β所引起的数据间的差异。

二是由其他一切随机因素引起的差异,它可以用残差平方和:
2,)ˆ(1
2-=-=∑=N df y
y ESS E N
i i i (31.31)
表示。

由于可以证明:
)2(~/22-N ESS χσ
(31.32)
于是有:
2)2()(σ-=N ESS E
(31.33)
所以,其自由度为2-N 。

利用公式
0)ˆ(,0)ˆ(=-=-∑∑i i i i i
x y y y
y
,从而有下列平方和分解式: RSS
ESS y y y y y y y
y y y TSS i i i i i i i +=-+-=-+-=-=∑∑∑∑2222)ˆ()ˆ()ˆˆ()(
(31.34)
由于在0=β为真时,RSS 与)2/(-N ESS 都是的无偏估计,因而采用F 统计量:
)2,1(~)2/()
2/(/1//2
2--=-=N F N ESS RSS
N ESS RSS F σσ (31.35)
来检验原假设0=β是否为真。

2. t 检验
由公式(31.24)和(31.25)知
))
(,(~ˆ2
2
∑-x x N i σββ
(31.36)
]))
(1[,(~ˆ2
2
2
∑-+x x x N N i σαα (31.37)
在原假设0=β为真时,
)1,0(~)(/
ˆ2
N x x
i
∑-σβ

但其中未知,常用)2/(ˆ2-=N ESS σ去代替,根据公式(31.32)和又与独立,从而在0=β时有:
)2(~)
2/()(/
ˆ)
(/ˆˆ2
2
2
---=
-=
∑∑N t N ESS
x x
x x
t i
i
σσβ
σ
β
(31.38)
实质上,对于一元回归方程t 检验与F 检验是等价的,因为只要将公式(31.30)中的RSS
代入到公式(31.35)中去,就不难发现F t =2。

我们同样可以得到原假设0=α为真时的t 统
计量:
)2(~)
2/()(//1ˆ)(//1ˆˆ2
2
22
2
---+=
-+=
∑∑N t N ESS
x x x N x x x N t i i σσα
σ
α
(31.39)
3. 利用回归方程作预测
当求得回归方程x y
βαˆˆˆ+=后,并经检验,方程是显著的,则可将该回归方程用于预测。

所谓预测是指当取某一个具体值时,对相应的取值所作的推断。

由模型知εβα++=00x y 是一个随机变量,要预测随机变量的取值是不可能的,只能预测其期望值)(0y E 。

根据前面公
式(31.24)、(31.25)和(31.26)可知,在0x x =处的回归值是0
0ˆˆˆx y βα+=,且: ))ˆ(),ˆ((~ˆ000y Var y E N y
(31.40)
其中:
00)ˆ(x y
E βα+= (31.41)
222
02
202220222
0)()(1)(2)()(1)ˆ(σσσσ⎥⎥⎦⎤⎢⎢⎣
⎡--+=---+⎥⎥⎦
⎤⎢⎢⎣⎡-+=∑∑∑∑x x x x N x x x x x x x x x x N y Var t t t t (31.42)
其中,未知,用)2/(ˆ2
-=N ESS σ去代替,设杠杆率∑--+=2
200)
()(1
x x x x N h t ,所以预测均值的预测区间为:
()
202/0202/0
ˆˆ,ˆˆ
σσ
ααh t y h t y +- (31.43)
其中,2/αt 的自由度为2-N 。

注意在SAS 系统model 语句中的clm 选项是按公式(31.43)来计算的。

然而在0x x =时,随机变量的取值与预测均值总会有一定的偏离,我们根据公式(31.43)
不难求出00ˆy
y -的均值)ˆ(00y y E -和方差)ˆ(00y y Var -,且它符合正态分布,故有: ))()(1
1,0(~ˆ222000σ⎥⎥⎦
⎤⎢⎢⎣⎡--++-∑x x x x N N y y t (31.44)
其中,未知,用)2/(ˆ2
-=N ESS σ
去代替,所以00ˆy y -的预测区间为: ()
202/00202/00
ˆ)1()ˆ(,ˆ)1()ˆ(σσααh t y y h t y
y
++-+-- (31.45)
其中,2/αt 的自由度为2-N 。

注意在SAS 系统model 语句中的cli 选项是按公式(31.44)来计算的。

从方差)ˆ(00y
y Var -表达式中我们可以看到,当取值离均值越近,预测精度就越好,当取值离均值越远,预测精度就越差,其预测区间两头呈喇叭状。

因此,我们要特别注意取值
应该在样本数据最小的和最大的之间,否则预测很不可靠。

八、 回归诊断
回归诊断主要用于检验关于回归假设是否成立,以及检验模型形式是否错误,否则我们通过最小二乘法求得的回归方程就缺乏理论依据。

这些检验主要探究的问题为:
● 残差是否为随机性、是否为正态性、是否不为异方差。

● 高度相关的自变量是否引起了共线性。

● 模型的函数形式是否错误或在模型中是否缺少重要的自变量。

● 样本数据中是否存在异常值。

1. 残差图分析
所谓残差图就是以残差t t t y
y e ˆ-=为纵坐标,某一个合适的自变量为横坐标的散点图。

残差中包含了许多有关数据和模型的信息,它是研究回归诊断最基本及最重要的统计量。


差图分析的基本思想是,在回归模型的假设中,我们总是假定误差项是独立的正态分布随机变量,且均值为零和方差相等为。

如果模型适合于观察到的数据,那么残差作为误差的无偏估计,应基本反映误差的假设习性。

即残差图应该在零点附近对称地密布,越远离零点的地方就疏散,则在形象上似有正态趋势,常认为模型与数据拟合得很好。

如图31.3所示,是残差的各种可能出现情况。

若残差图呈现如图31.3(a )所示的形式,残差是随机的且不表示出一定的趋势与形式,我们认为建立的回归模型应诊断为无甚大问题。

更进一步的诊断应该采用学生化残差鉴别是否正态性。

一个简单的思想就是,如果模型假设正确的话,残差就应该是误差的良好估计,
那么残差全体构成的直方图应当与正态曲线很相似。

我们可以求出估计残差的方差)ˆ(t Var ε
,且符合正态分布:
)2
)1(,0(~ˆ--N ESS
h N t t ε
(31.46)
那么学生化残差:
)1,0(~)
2/()1(ˆ)ˆ(ˆN N ESS h y y Var t t t t t ---=
ε
ε
(31.47)
则遵循标准正态分布。

在实际中,学生化残差常与配合作图,会有更好的直观判断效果。

若残差图呈现如图31.3(b )所示的形式,有一个对既定模型偏离很大的观察数据点,称为异常点。

如果怀疑异常点是由于记录数据中发生的错误或者在测量过程中采用了拙劣的技巧,我们理应从数据集中删除,重新回归模型。

但对异常点的处理须持谨慎态度,因为异常点的出现可能代表了相当重要的某些数据,它恰好成为我们探究某些事先不清楚或许是更为重要的因素的线索。

在SAS 系统的reg
回归过程中用来度量异常点影响大小的统计量是
图31.3 残差的主要几种类型
COOKD 统计量,计算方法请参阅SAS/STAT 软件使用手册。

若残差图呈现如图31.3(c )所示的形式,残差随的增大而增大。

如图31.3(d )所示的形式,残差随的增大而先增后减,则蕴含着残差乃至误差对于不同的观察值具有不同的方差变化,称为异方差。

在这种场合应该考虑在回归之前对数据或进行变换,实现方差稳定后再拟合回归模型。

原则上,当误差方差变化不太快时取变换
y ,当误差方差变化较快时取变
换y log 或y ln ,当误差方差变化很快时取变换y /1。

当然,还存在着不少其他变换,如著
名的Box-Cox 幂变换
λ
λ1
-y 。

若残差图呈现如图31.3(e )所示的形式,显示了模型本身具有非线性趋势,或者提示人们在模型中是否忽略了若干重要的变量。

如图31.3(f )所示的形式,显示了模型本身具有线性趋势。

同样表示了模型的错误选定。

2. 共线性
回归研究中很容易发生模型中两个或两个以上的自变量高度相关,从而引起最小二乘估计可能很不精确。

高度相关的自变量以及由它们所引起的估计问题合在一起称之为共线性(collinearity )问题。

为什么共线性会引起参数估计可能很不精确呢?主要原因是最小二乘法所利用的数据信息,如果存在共线性,就可能已经被其他的自变量说明了大部分,因此用剩余的少量数据估计参数,将产生估计参数的方差很大,置信区间也会很大,假设检验也使人缺乏信任感。

在实际中,最常见的问题是一些重要的自变量很可能由于在假设检验中t 值不显著而被不恰当地剔除了。

共线性诊断问题就是要找出哪些变量间存在共线性关系。

SAS 系统的reg 过程中提供了特征值法、条件指数collin 和方差膨胀因子vif ,请参阅SAS/STA T 软件使用手册。

3. 误差的独立性
在回归诊断中,有一个非常重要的回归模型假设需要诊断和检验,那就是回归模型中的误差项的独立性。

如果误差项不独立,那么我们对回归模型的许多处理,包括误差项估计、假设检验等都将没有推导依据。

由于残差是误差的合理估计,因此检验统计量通常是建立在残差的基础上。

检验误差独立性的最常用方法,是对残差的一阶自相关性进行Durbin-Watson 检验。

原假设:0H 误差项是相互独立的,备选假设:1H 误差项是相关的。

检验统计量为:
ESS e e DW N
t t t /)(2
21∑=--=
(31.48)
我们可以通过简单不等式证明:
ESS e e e e e N
t t N t t N t t
N t t t 44)(2)(01
22
21
2
22
2
1=≤+≤-≤∑∑∑∑==-==-
因此,DW 统计量应满足:
40<≤DW
(31.49)
如果DW 接近于0,表示残差中存在正自相关;如果DW 接近于4,表示残差中存在负自。

相关文档
最新文档