一元线性回归模型检验
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
如果Yi =Ŷi 即实际观测值落在样本回归线上,则拟合 最好。可认为,“离差”全部来自回归线,而与“残差” 无关。
对于所有样本点,则需考虑这些点与样本均值离 差的平方和,可以证明:
记:
总体平方和(Total Sum of Squares)
TSS yi2 (Yi Y )2
回归平方和(Explained Sum of Squares)
三、一元线性回归模型的统计检验
1、拟合优度检验 2、变量的显著性检验 3、方差分析
回归分析是要通过样本所估计的参数来代替总体的真实 参数,或者说是用样本回归线代替总体回归线。
尽管从统计性质上已知,如果有足够多的重复抽样,参 数的估计值的期望(均值)就等于其总体的参数真值,但 在一次抽样中,估计值不一定就等于该真值。
那么,在一次抽样中,参数的估计值与真值的差异有多 大,是否显著,这就需要进一步进行统计检验。
主要包括拟合优度检验、变量的显著性检验及方差分析。
1、拟合优度检验
拟合优度检验:对样本回归直线与样本观测值之间 拟合程度的检验。
度量拟合优度的指标:判定系数(可决系数)R2
问题:采用普通最小二乘估计方法,已经保证了模 型最好地拟合了样本观测值,为什么还要检验拟合程度?
ˆ0 ~ t(n 2)
ˆ 2
X
2 i
n
xi2
S ˆ0
在上述收入-消费支出例中,首先计算 2 的估计值
ˆ 2 ei2 yi2 ˆ12 xi2 4590020 0.7772 7425000 13402
n2
n2
10 2
于是 ˆ1 和 ˆ0 的标准差的估计值分别是:
Sˆ1 ˆ 2 xi2 13402 / 7425000 0.0018 0.0425
ESS yˆi2 (Yˆi Y )2
残差平方和(Residual Sum of Squares)
RSS ei2 (Yi Yˆi )2
TSS = ESS + RSS
➢ 可决系数R2 统计量
Y 的观测值围绕其均值的总离差(total variation) 可分解为两部分:一部分来自回归线(ESS),另一部 分则来自随机势力(RSS)。
SS
yˆi2 ei2 yi2
df
1 n-2 n-1
MSS
ˆ22 xi2
ei2 / n 2
考虑统计量
F ESS / df RSS / df
ˆ22 xi2
ei2 /(n 2)
则在原假设 H0 :2 0 成立的条件下,F 统计量服从自
由度为(1, n-2)的F 分布。
给定显著性水平,可得到临界值F(1, n-2),由样本 求出统计量F 的数值,通过
S ˆ1
(3) 给定显著性水平,查 t 分布表,得临界值 t / 2(n-2)
(4) 比较,判断
若 | t |> t /2(n-2),则拒绝H0 ,接受H1 ; 若 | t | t /2(n-2),则拒绝H1 ,接受H0 。
对于一元线性回归方程中的0 ,可构造如下t 统计量进行显
著性检验:
t
ˆ0 0
Sˆ0 ˆ 2
X
2 i
n
xi2 13402 53650000 /10 7425000 98.41
t 统计量的计算结果分别为:
t1 ˆ1 S ˆ1 0.777 0.0425 18.29
t0 ˆ0 S ˆ0 103 .17 98.41 1.048 给定显著性水平=0.05,查t 分布表得临界值:
在一元线性模型中,就是要判断X 是否对Y 具有显 著的线性性影响。这就需要进行变量的显著性检验。
变量的显著性检验所应用的方法是数理统计学中的 假设检验。计量经计学中,主要是针对变量的参数真值 是否为零来进行显著性检验的。
假设检验
就是事先对总体参数或总体分布形式作出一个假设, 然后利用样本信息来判断原假设是否合理,即判断样 本信息与原假设是否有显著差异,从而决定是否接受 或否定原假设。
ESS / RSS yˆi2 / ei2 ,
如果这个比值较大,则X的联合体对Y的解释程度高, 可认为总体存在线性关系,反之总体上可能不存在线性关 系。因此,可通过该比值的大小对总体线性关系进行推断。
考虑各项平方和及其相应的自由度,我们得到如下的 方差分析表:
一元线性回归模型的方差分析表
变异来源 来自回归 来自残差 来自总体
t 0.05/ 2( 8 ) = 2.306 | t1 | > 2.306,说明家庭可支配收入在95%的置信度下显 著,即是消费支出的主要解释变量; | t2 | < 2.306,表明在 95% 的置信度下,无法拒绝截距 项为零的假设。
3、方差分析(F 检验)
F 检验的思想来自于总离差平方和的分解式:
注:
a. R2 也称为样本可决系数(coefficient of determination)
或拟合优度;
b. 可决系数的取值范围为[0,1];
c. R2 越接近1,说明实际观测点离样本回归线越近, 拟合优度越高。
在实际计算可决系数时,在ˆ1 已经估计出后:
R 2
ˆ12
xi2
y
2 i
在例2.1.1的收入-消费支出例中,
,
由于真实的 2未知,在用它的无偏估计量 ˆ 2 ei2 /(n 2)
替代时,可构造如下的统计量
t
ˆ1 1
ˆ 2
xi2
ˆ1 1
S ˆ1
~ t(n 2)
。
检验步骤:
(1) 对总体参数提出假设
H0: 1 = 0 , H1:1 0
(2) 以原假设H0构造t 统计量,并由样本计算其值
t ˆ1
TSS =ESS + RSS
即
yi2 yˆi2 ei2 ˆ22 xi2 ei2 ,
它把总平方和TSS分解为两个构成部分:解释平方和 ESS与残差平方和RSS,对TSS的这些构成部分进行研究 就叫做从回归的观点做方差分析。
由于回归平方和 ESS yˆi2 是解释变量X的联合体
对被解释变量Y的线性作用的结果,考虑比值
R 2 ˆ12
xi2 (0.777)2 7425000 0.9766
yi2
4590020
注:可决系数是一个非负的统计量。它也是随着抽样 的不同而不同。为此,对可决系数的统计可靠性也应进行 检验,这将在第3章中进行。
2、变量的显著性检验
回归分析是要判断解释变量X 是否是被解释变量Y 的一个显著性的影响因素。
对参数进行了估计,还不能把全部样本观察值的变 化情况作为一个整体来全面反映。在多大程度上可以由 样本回归方程说明,需要构造一个统计量来反映样本回 归线对样本的拟合程度。
➢ 总离差平方和的分解
已知由一组样本观测值(Xi , Yi)(i=1,2…, n ) 得到如 下的样本回归直线:
Yˆi ˆ0 ˆ1 X i
而Y 的第i个观测值与样本均值的离差 yt (Yt Y ) 可分解为两部分之和
yi Yi Y (Yi Yˆi Baidu Nhomakorabea (Yˆi Y ) ei yˆi
yˆt (Yˆt Y ) 是样本回归拟合值与观测值的平均值 之差,可认为是由回归直线解释的部分,称为可解释偏 差或回归偏差;
et (Yt Yˆi )是实际观测值与回归拟合值之差,是回 归直线不能解释的部分,称为残差或随机偏差;
F F(1, n-2) 或 F F(1, n-2)
来拒绝或接受原假设H0,以判定原方程总体上的线性关 系是否显著成立。
▪ 假设检验采用的逻辑推理方法是反证法。 先假定原假设正确,然后根据样本信息,观察由此假设
而导致的结果是否合理,从而判断是否接受原假设。
▪ 判断结果合理与否,是基于“小概率事件不易发生” 这一原理的。
变量的显著性检验
对于一元线性回归方程中的 ˆ1,已经知道它服从正
态分布
ˆ1 ~ N (1,
2
) xi2
在给定样本中,TSS 不变,如果实际观测点离样本回 归线越近,则ESS 在TSS 中占的比重越大。
因此可以用ESS 在TSS 中所占的比例表示样本回归线 与样本观察值拟合的程度,即总离差中可以由样本回归方 程说明的比例。
定义:
回归平方和ESS
R 2=
=1-
Y 的总离差TSS
残差平方和RSS Y 的总离差TSS
对于所有样本点,则需考虑这些点与样本均值离 差的平方和,可以证明:
记:
总体平方和(Total Sum of Squares)
TSS yi2 (Yi Y )2
回归平方和(Explained Sum of Squares)
三、一元线性回归模型的统计检验
1、拟合优度检验 2、变量的显著性检验 3、方差分析
回归分析是要通过样本所估计的参数来代替总体的真实 参数,或者说是用样本回归线代替总体回归线。
尽管从统计性质上已知,如果有足够多的重复抽样,参 数的估计值的期望(均值)就等于其总体的参数真值,但 在一次抽样中,估计值不一定就等于该真值。
那么,在一次抽样中,参数的估计值与真值的差异有多 大,是否显著,这就需要进一步进行统计检验。
主要包括拟合优度检验、变量的显著性检验及方差分析。
1、拟合优度检验
拟合优度检验:对样本回归直线与样本观测值之间 拟合程度的检验。
度量拟合优度的指标:判定系数(可决系数)R2
问题:采用普通最小二乘估计方法,已经保证了模 型最好地拟合了样本观测值,为什么还要检验拟合程度?
ˆ0 ~ t(n 2)
ˆ 2
X
2 i
n
xi2
S ˆ0
在上述收入-消费支出例中,首先计算 2 的估计值
ˆ 2 ei2 yi2 ˆ12 xi2 4590020 0.7772 7425000 13402
n2
n2
10 2
于是 ˆ1 和 ˆ0 的标准差的估计值分别是:
Sˆ1 ˆ 2 xi2 13402 / 7425000 0.0018 0.0425
ESS yˆi2 (Yˆi Y )2
残差平方和(Residual Sum of Squares)
RSS ei2 (Yi Yˆi )2
TSS = ESS + RSS
➢ 可决系数R2 统计量
Y 的观测值围绕其均值的总离差(total variation) 可分解为两部分:一部分来自回归线(ESS),另一部 分则来自随机势力(RSS)。
SS
yˆi2 ei2 yi2
df
1 n-2 n-1
MSS
ˆ22 xi2
ei2 / n 2
考虑统计量
F ESS / df RSS / df
ˆ22 xi2
ei2 /(n 2)
则在原假设 H0 :2 0 成立的条件下,F 统计量服从自
由度为(1, n-2)的F 分布。
给定显著性水平,可得到临界值F(1, n-2),由样本 求出统计量F 的数值,通过
S ˆ1
(3) 给定显著性水平,查 t 分布表,得临界值 t / 2(n-2)
(4) 比较,判断
若 | t |> t /2(n-2),则拒绝H0 ,接受H1 ; 若 | t | t /2(n-2),则拒绝H1 ,接受H0 。
对于一元线性回归方程中的0 ,可构造如下t 统计量进行显
著性检验:
t
ˆ0 0
Sˆ0 ˆ 2
X
2 i
n
xi2 13402 53650000 /10 7425000 98.41
t 统计量的计算结果分别为:
t1 ˆ1 S ˆ1 0.777 0.0425 18.29
t0 ˆ0 S ˆ0 103 .17 98.41 1.048 给定显著性水平=0.05,查t 分布表得临界值:
在一元线性模型中,就是要判断X 是否对Y 具有显 著的线性性影响。这就需要进行变量的显著性检验。
变量的显著性检验所应用的方法是数理统计学中的 假设检验。计量经计学中,主要是针对变量的参数真值 是否为零来进行显著性检验的。
假设检验
就是事先对总体参数或总体分布形式作出一个假设, 然后利用样本信息来判断原假设是否合理,即判断样 本信息与原假设是否有显著差异,从而决定是否接受 或否定原假设。
ESS / RSS yˆi2 / ei2 ,
如果这个比值较大,则X的联合体对Y的解释程度高, 可认为总体存在线性关系,反之总体上可能不存在线性关 系。因此,可通过该比值的大小对总体线性关系进行推断。
考虑各项平方和及其相应的自由度,我们得到如下的 方差分析表:
一元线性回归模型的方差分析表
变异来源 来自回归 来自残差 来自总体
t 0.05/ 2( 8 ) = 2.306 | t1 | > 2.306,说明家庭可支配收入在95%的置信度下显 著,即是消费支出的主要解释变量; | t2 | < 2.306,表明在 95% 的置信度下,无法拒绝截距 项为零的假设。
3、方差分析(F 检验)
F 检验的思想来自于总离差平方和的分解式:
注:
a. R2 也称为样本可决系数(coefficient of determination)
或拟合优度;
b. 可决系数的取值范围为[0,1];
c. R2 越接近1,说明实际观测点离样本回归线越近, 拟合优度越高。
在实际计算可决系数时,在ˆ1 已经估计出后:
R 2
ˆ12
xi2
y
2 i
在例2.1.1的收入-消费支出例中,
,
由于真实的 2未知,在用它的无偏估计量 ˆ 2 ei2 /(n 2)
替代时,可构造如下的统计量
t
ˆ1 1
ˆ 2
xi2
ˆ1 1
S ˆ1
~ t(n 2)
。
检验步骤:
(1) 对总体参数提出假设
H0: 1 = 0 , H1:1 0
(2) 以原假设H0构造t 统计量,并由样本计算其值
t ˆ1
TSS =ESS + RSS
即
yi2 yˆi2 ei2 ˆ22 xi2 ei2 ,
它把总平方和TSS分解为两个构成部分:解释平方和 ESS与残差平方和RSS,对TSS的这些构成部分进行研究 就叫做从回归的观点做方差分析。
由于回归平方和 ESS yˆi2 是解释变量X的联合体
对被解释变量Y的线性作用的结果,考虑比值
R 2 ˆ12
xi2 (0.777)2 7425000 0.9766
yi2
4590020
注:可决系数是一个非负的统计量。它也是随着抽样 的不同而不同。为此,对可决系数的统计可靠性也应进行 检验,这将在第3章中进行。
2、变量的显著性检验
回归分析是要判断解释变量X 是否是被解释变量Y 的一个显著性的影响因素。
对参数进行了估计,还不能把全部样本观察值的变 化情况作为一个整体来全面反映。在多大程度上可以由 样本回归方程说明,需要构造一个统计量来反映样本回 归线对样本的拟合程度。
➢ 总离差平方和的分解
已知由一组样本观测值(Xi , Yi)(i=1,2…, n ) 得到如 下的样本回归直线:
Yˆi ˆ0 ˆ1 X i
而Y 的第i个观测值与样本均值的离差 yt (Yt Y ) 可分解为两部分之和
yi Yi Y (Yi Yˆi Baidu Nhomakorabea (Yˆi Y ) ei yˆi
yˆt (Yˆt Y ) 是样本回归拟合值与观测值的平均值 之差,可认为是由回归直线解释的部分,称为可解释偏 差或回归偏差;
et (Yt Yˆi )是实际观测值与回归拟合值之差,是回 归直线不能解释的部分,称为残差或随机偏差;
F F(1, n-2) 或 F F(1, n-2)
来拒绝或接受原假设H0,以判定原方程总体上的线性关 系是否显著成立。
▪ 假设检验采用的逻辑推理方法是反证法。 先假定原假设正确,然后根据样本信息,观察由此假设
而导致的结果是否合理,从而判断是否接受原假设。
▪ 判断结果合理与否,是基于“小概率事件不易发生” 这一原理的。
变量的显著性检验
对于一元线性回归方程中的 ˆ1,已经知道它服从正
态分布
ˆ1 ~ N (1,
2
) xi2
在给定样本中,TSS 不变,如果实际观测点离样本回 归线越近,则ESS 在TSS 中占的比重越大。
因此可以用ESS 在TSS 中所占的比例表示样本回归线 与样本观察值拟合的程度,即总离差中可以由样本回归方 程说明的比例。
定义:
回归平方和ESS
R 2=
=1-
Y 的总离差TSS
残差平方和RSS Y 的总离差TSS