5.2一元线性回归中的假设检验和预测
一元线性回归预测法
◆没有关系
7
对变量间统计依赖关系的考察主要是通过 相关分析(correlation analysis)或回归分 析(regression analysis)来完成的:
统计依赖关系
正相关 线性相关 不相关 相关系数:
负相关 1 XY 1
正相关 非线性相关 不相关
负相关
有因果关系 回归分析 无因果关系 相关分析
8
2.相关关系
◆ 相关关系的描述 相关关系最直观的描述方式——坐标图(散布图)
Y
•
••
•
• •
•
• •
•
X
9
◆相关关系的类型 ● 从涉及的变量数量看
简单相关 多重相关(复相关)
● 从变量相关关系的表现形式看
线性相关——散布图接近一条直线 非线性相关——散布图接近一条曲线
15
简单相关系数的检验
(1) 直接检验(查相关系数临界值表)
H0: = 0; H1: 0 用 xt 和 yt 的样本计算相关系数 r,以自由度 f = T - 2 查临界值表。检验规则是,
若 r > r (T-2) (临界值),则 xt 和 yt 相关; 若 r < r (T-2) (临界值),则 xt 和 yt 不相关。 (2) t 检验
2. 回归分析 变量性质:自变量与因变量的关系不对等。 分析方法:建立回归方程。 分析目的:变量之间的数量依存关系,并根据自变量
的数值变化去推测因变量数值变化。
22
相关分析和回归分析联系
相关分析与回归分析有密切的联系,都 是对变量之间相关关系的研究,二者可 以互相补充。 相关分析表明变量之间相关关系的性质 和程度,只有变量之间存在一定程度的 相关关系时,进行回归分析寻求相关的 具体数学形式才有实际意义。
5.2一元线性回归中的假设检验和预测
§5.2 一元线性回归中的假设检验和预测一元线性回归中的假设检验(1)假设检验的必要性①上一节推导出的回归系数的最小二乘估计(5.1-8)式,对Y x ,的任何一组数据),21(),(n ,,i y,x ii=均适用,即使Yx ,之间毫无关系。
如果这样,求得的回归直线方程就没有任何意义。
因此,求得回归直线后还需要检验Y x ,之间是否真的有统计线性相关关系——一元线性回归的模型检验。
②回归系数1β,β的最小二乘估计∧∧10β,β只是由Y x ,的n 对观测值),21(),(n ,,i y ,x ii =求得的,此估计值到底在什么程度上适于Y x ,之间的真正关系?因此,需对参数是否取为其估计值作假设检验——一元线性回归的参数检验。
(2)一元线性回归的模型检验为对Y x ,之间满足一元正态线性回归模型:⎩⎨⎧++=)(~210ζ0,N εx ββY ε)315(-.这一假设的合理性进行严格的检验,需要检验三点:①在x 的各取值点处,Y 都服从正态分布,期望值依赖于x ,且方差都相同;②在x 的各取值点处,Y 的期望是x的线性函数;③在x 的各取值点处,相应的Y 是相互独立的。
可见,进行完全的严格检验并不容易。
而引起线性回归不显著的原因主要有以下三点:①除变量x 外,还有其它重要变量影响Y 的取值,故当x 取定时,Y 不能服从正态分布;②Y x ,之间不是线性相关关系,而是某种非线性相关关系;③Y 的取值根本与x 的取值无关。
在上述情况之一出现时,若对Y x ,配以线性回归模型,均会有0β1=,即ε+=0βY . 因此,对线性回归模型显著性的检验可以简化处理为对0β:H 10=是否成立的检验。
方法如下:①作假设0β:H 0β:H 1110≠↔=②检验统计量及其分布由定理 5.1.3知:)2(~--∧∧n t L ζββxx *11 ,故当 0H 成立时有以此为检验统计量,且由Y x ,的一组观测值),21(),(n ,,i y ,x ii=可以求得T的观测值。
回归模型的参数估计与假设检验讲解
回归模型的参数估计与假设检验讲解回归模型是统计学中常用的一种分析方法,用于研究两个或多个变量之间的关系。
参数估计和假设检验是回归模型中重要的概念和方法,用于推断变量之间的关系是否显著。
在回归模型中,参数估计是利用样本数据来推断回归方程中的参数值,从而描述和预测变量之间的关系。
具体来说,对于简单线性回归模型,我们可以通过最小二乘法来估计回归方程的参数,即使得模型的误差平方和最小。
最小二乘法的计算方法可以简洁地表达为:$\min \sum{(y_i - (\beta_0 + \beta_1x_i))^2}$其中,$y_i$表示观测到的因变量的值,$x_i$表示观测到的自变量的值,$\beta_0$和$\beta_1$分别是截距和斜率的估计值。
通过求解这个最小化问题,我们可以得到最佳的参数估计。
而假设检验则是用来评估回归模型中参数估计的显著性。
在假设检验中,我们对参数的假设提出一个原假设和一个备择假设。
原假设通常是参数等于一个特定的值,而备择假设则是参数不等于该值。
假设检验的步骤包括计算检验统计量、确定临界值、进行推断。
常用的假设检验方法有t检验和F检验。
在简单线性回归模型中,假设检验通常用于评估斜率参数$\beta_1$的显著性。
例如,我们可以设定原假设为斜率等于零,备择假设为斜率不等于零。
然后,通过计算t统计量和查表得到拒绝或接受原假设的结论。
在多元回归模型中,假设检验可以用于评估各个自变量的显著性,或者评估整个模型的显著性。
对于自变量的显著性评估,常用的方法是利用t检验确定各个参数的置信区间,判断参数是否显著不为零。
对于整个模型的显著性评估,常用的方法是利用F检验检验回归方程的整体显著性,即检验自变量对因变量的解释程度是否显著。
除了参数估计和假设检验,回归模型还可以进行模型诊断和模型选择。
模型诊断用于检验回归模型的合理性和假设的满足情况,主要包括检验误差项的正态性、异方差性和自相关性等。
模型选择则是在多个可能的模型之间选择一个最佳的模型,常用的标准包括最小二乘法、最大似然法和贝叶斯信息准则。
线性回归模型的经典假定及检验修正
线性回归模型的经典假定及检验、修正一、线性回归模型的基本假定1、一元线性回归模型一元线性回归模型是最简单的计量经济学模型,在模型中只有一个解释变量,其一般形式是Y =β0+β1X 1+μ其中,Y 为被解释变量,X 为解释变量,β0与β1为待估参数,μ为随机干扰项。
回归分析的主要目的是要通过样本回归函数(模型)尽可能准确地估计总体回归函数(模型)。
为保证函数估计量具有良好的性质,通常对模型提出若干基本假设。
假设1:回归模型是正确设定的。
模型的正确设定主要包括两个方面的内容:(1)模型选择了正确的变量,即未遗漏重要变量,也不含无关变量;(2)模型选择了正确的函数形式,即当被解释变量与解释变量间呈现某种函数形式时,我们所设定的总体回归方程恰为该函数形式。
假设2:解释变量X 是确定性变量,而不是随机变量,在重复抽样中取固定值。
这里假定解释变量为非随机的,可以简化对参数估计性质的讨论。
假设3:解释变量X 在所抽取的样本中具有变异性,而且随着样本容量的无限增加,解释变量X 的样本方差趋于一个非零的有限常数,即∑(X i −X ̅)2n i=1n→Q,n →∞ 在以因果关系为基础的回归分析中,往往就是通过解释变量X 的变化来解释被解释变量Y 的变化的,因此,解释变量X 要有足够的变异性。
对其样本方差的极限为非零有限常数的假设,旨在排除时间序列数据出现持续上升或下降的变量作为解释变量,因为这类数据不仅使大样本统计推断变得无效,而且往往产生伪回归问题。
假设4:随机误差项μ具有给定X 条件下的零均值、同方差以及无序列相关性,即E(μi|X i)=0Var(μi|X i)=σ2Cov(μi,μj|X i,X j)=0, i≠j随机误差项μ的条件零均值假设意味着μ的期望不依赖于X的变化而变化,且总为常数零。
该假设表明μ与X不存在任何形式的相关性,因此该假设成立时也往往称X为外生性解释变量随机误差项μ的条件同方差假设意味着μ的方差不依赖于X的变化而变化,且总为常数σ2。
计量经济学5一元线性回归:假设检验和置信区间
Chapter 5Regression with a Single Regressor: Hypothesis Tests andConfidence Intervals 一元线性回归:假设检验和置信区间假设检验和置信区间概述 • 当知道 OLS 估计量的样本分布,就可以对β1 进行假设检 验,以及求取其置信区间。
本章内容将涉及以下问题: Also, we will cover some loose ends about regression: • 当 X 是二元回归变量情形 • 异方差(Heteroskedasticity)和同方差( homoskedasticity) • OLS 估计量的有效性 • t 统计量在假设检验中的应用2回顾z 根据样本数据了解总体回归线斜率的有关信息的步骤如 下:1. 界定关注研究对象。
2. 在一定假设为前提,得到估计量的样本分布。
3. 估计样本分布的离散程度,即计算出 OLS 估计量的标准误差(SE)。
4. 用估计量βˆ1得到点估计,结合标准误差进行假设检验和构造置信区间。
3研究对象:β1Yi = β0 + β1Xi + ui, i = 1,…, n β1 = ΔY/ΔX最小二乘假设:1. E(u|X = x) = 0.2. (Xi,Yi), i =1,…,n, 为 i.i.d.3. 不大可能存在异常值 (E(X4) < ∞, E(Y4) < ∞.βˆ1 的抽样分布为: 当上述最小二乘假设成立时,若 n 为大样本, βˆ1近似服从:βˆ1~N⎛ ⎜β1,⎝σ2 vnσ4 X⎞ ⎟,其中vi=(Xi–μX)ui⎠4关于某个回归系数的检验要根据样本数据检验一个关于斜率真值的假设,例如β1 = 0,步骤为: z 原假设对应双边备择假设为:H0: β1 = β1,0 ;. H1: β1 ≠ β1,0 原假设含义为假设总体斜率β1 的真值为某个具体值β1,0z 原假设对应单边备择假设为: H0: β1 = β1,0 ; H1: β1 < β1,05一般方法:计算 t 统计量,计算 p 值(或者与 N(0,1)的临界值 进行比较)• 一般形式:t=估计量 -假设值 估计量的标准误差• 对于检验 Y 的均值 :t = Y − μY ,0 sY / n• 对于检验 β1,t=βˆ1 − β1,0 SE ( βˆ1 ),其中 SE(βˆ1)为βˆ1的标准误差σ βˆ1 的估计值,是βˆ1抽样分布 的标准差。
5第五章 一元线性回归的假设检验
一、9个假定
1、零均值假定 2、同方差假定 3、无自相关假定 4、随机误差项和解释变量不相关假定 5、正态性假定 6、样本容量N>待估参数个数 7、解释变量 X值有变异性 8、无多重共线性假定 9、参数线性假定
1
注 : Var (Yi ) Var (b0 b1 X i i ) Var ( i ) 2
ˆ 证:Var (b1 ) Var (K i Y) i K i2Var Yi) 2 K i2 ( (
2
xi x xi2
2 i
)(
xi x
2 i
)
X
散点图
同方差假定
假定2:随机误差项方差相同
VAR ( i ) , 随机误差项的方差俱为
2
2
即与给定X相对应的Y值以相同方差分布在其条件 均值周围。 如果不满足这个假定,即为“异方差” 异方差的图示
异方差的图示
X=1000时,Y的 分布更靠拢均值。 即方差相对较小。
线 性 估 计 值
所 有 的 估 计 值
返回
1、线性性:参数估计量是被解释变量Yi的线性组合:
ˆ ˆ b1、b0都是Yi的线性函数
ˆ xi yi xi (Yi Y ) xiYi (xi ) Y xi Y b1 i 2 2 xi2 xi2 xi2 xi xi
第五章:一元线性回归模型的假 设检验
目录
第一节 经典线性回归模型的基本假定 第二节 OLS估计量的性质:高斯-马尔可夫 定理 第三节 一元线性回归模型的假设检验 第四节 预测 第五节 eviews软件入门和综合案例 考核要求和作业
一元线性回归假设检验与预测
第五章 双变量回归:区间估计与假设检验5.1 引言我们首先简要复习概率统计中关于假设检验的内容.1.假定随机变量X 有概率密度函数(PDF )θθ),,(x f 为分布参数。
从总体中抽取样本可得到参数估计为θˆ(如0.5,或1.2等),这是通过样本所得到的是参数的点估计,而真正的θ 一般是未知的,问题在于:估计量θˆ是否与总体真值或某个特定的或假设的*θ相等即*ˆθθ=,如假定*θ为总体真值,而样本是从总体中随机抽取,由此,接受*ˆθθ=就意味着我们的样本是来自于对应的总体,于是检验假设*θθ=,就是回答这一类问题。
用术语表示,对于原假设H 0:*θθ=,与之相对立的称为备选假设,记为H A :*θθ≠,显然,这种原假设和备选假设为简单的相等和不相等,称为复合(备)假设,因为拒绝原假设不能回答是*θθ>还是*θθ<,而类似于*θθ=对*θθ>称为简单假设。
于是对于所得到的估计量,我们以上的假设表述为H 0:*θθ= H A :*θθ≠ (5.1)要检验这种原对备选假设,必须使用样本信息,构造一个合适的统计量,并且原假设下这种统计量的抽样分布必须已知。
最后,为检验H 0对H A ,我们首先应所选定一个显著性水平,根据统计量的抽样分布而查对应的临界值表而得到相应的临界值,若所计算的统计量值小于这一临界值,或者说统计量值落入接受(原假设)域,则不拒绝H 0,否则拒绝H 0而倾向于接受备选假设H A 。
2.置信区间法。
思想: 对于样本X i , ,i =1,2,…,n , 来自于正态总体),(2σμN ,且相互独立, 构造一个基于样本信息的区间,使总体分布参数(以均值为例)以较大的可能性落入这一区间. 则这一区间为置信区间. 根据中心极限定理,有)/,(~2n N X σμ 置信区间构造的思想是,对于X 的正态分布,建立它的一个100(1-α)的置信区间,使这一区间包含了μ的置信水平(概率)为100(1-α)。
5第五章 一元线性回归的假设检验解析
ˆ)b E (b 1 1
ˆ) 证:E(b 1
ˆ )b E (b 0 0
ˆ) 证:E(b 0 ˆ X) E (Y b
1
x i 2 E (b0 b1 X i ui ) xi xi b1 2 E (ui ) xi b1 K i E (ui ) b1
某参数真值为 ,设和 为其无偏估计,对于任 意样本容量, 始终存在VAR( ) VAR( ),我们称比 有效, 如果在的一切无偏估计中, VAR( )有最小值,则称 为其有效估计
4、小结:最佳线性无偏估计量
最佳线性无偏估计量(BLUE):在所 有线性无偏估计量中,方差最小的估计量 评价点估计量是否优良的的标准 返回
零均值假定
假定1:随机误差项均值为零 随机误差项囊括了大量未包括进模型的各 种变量影响之和,他们相互抵消,对被解 释变量没有系统性影响 E(µ|Xi)=0,简写为E(µi)=0
随机误差项均值为零
Y X=1000
X=1100
X=900
具体的 支出水 平是围 绕其条 件均值 波动的, 这种波 动的 “均值 为0”
第二节 OLS估计量的性质:高斯-马 尔可夫定理 p37
一、高斯-马尔可夫定理
二、ols估计量的概率分布 返回
一、高斯-马尔可夫定理
在所有线性无偏估计量中,普通最小二乘 (OLS)估计量有最小方差
即OLS估计量是最佳线性无偏估计量 1、线性 2、无偏性 3、最小方差性 4、小结 5、例题 返回
高斯-马尔科夫理论所考虑的 各种估计值分类图
最 小 二 乘 估 计 值 | 方 差 最 小
线性无 偏估计 值
线 性 估 计 值
5.2一元线性回归中的假设检验和预测
§5.2 一元线性回归中的假设检验和预测一元线性回归中的假设检验(1)假设检验的必要性①上一节推导出的回归系数的最小二乘估计(5.1-8)式,对Y x ,的任何一组数据),21(),(n ,,i y ,x i i =均适用,即使Y x ,之间毫无关系。
如果这样,求得的回归直线方程就没有任何意义。
因此,求得回归直线后还需要检验Y x ,之间是否真的有统计线性相关关系——一元线性回归的模型检验。
②回归系数10β,β的最小二乘估计∧∧10β,β只是由Y x ,的n 对观测值),21(),(n ,,i y ,x i i =求得的,此估计值到底在什么程度上适于Y x ,之间的真正关系?因此,需对参数是否取为其估计值作假设检验——一元线性回归的参数检验。
(2)一元线性回归的模型检验为对Y x ,之间满足一元正态线性回归模型:⎩⎨⎧++=)(~210ζ0,N εx ββY ε )315(-.这一假设的合理性进行严格的检验,需要检验三点:①在x 的各取值点处,Y 都服从正态分布,期望值依赖于x ,且方差都相同;②在x 的各取值点处,Y 的期望是x 的线性函数;③在x 的各取值点处,相应的Y 是相互独立的。
可见,进行完全的严格检验并不容易。
而引起线性回归不显著的原因主要有以下三点:①除变量x 外,还有其它重要变量影响Y 的取值,故当x 取定时,Y 不能服从正态分布;②Y x ,之间不是线性相关关系,而是某种非线性相关关系;③Y 的取值根本与x 的取值无关。
在上述情况之一出现时,若对Y x ,配以线性回归模型,均会有0β1=,即ε+=0βY . 因此,对线性回归模型显著性的检验可以简化处理为对 0β:H 10=是否成立的检验。
方法如下:①作假设0β:H 0β:H 1110≠↔= ②检验统计量及其分布由定理 5.1.3知:)2(~--∧∧n t L ζββxx *11 ,故当 0H 成立时有)2(0-=∧∧n t ~L ζβT H xx *1以此为检验统计量,且由Y x ,的一组观测值),21(),(n ,,i y ,x i i =可以求得T的观测值。
第三讲 一元线性回归预测法
n Λ 2
Λ
2
偏离回归直线的程度。 S = ∑ y − y 称 回归平方和,反映了回归值 • Λ • yi (i = 1,2,..., n) 的离散程度。 • 从而有 ST = S余 + S回 • 要检验y与x之间是否存在线性相关关系,实际 上等价于检验假设
回 i= 1 i
H0 : b1 = 0
Λ
Λ
下面,来讨论 y0 的区间预测问题。 可以证明
y0 − y0
Λ
x0 − x 1 S 1+ + n lxx
(
)
2
~ t(n − 2)
其中, S = S余 /(n − 2)
即剩余标准差
• 容易得出
y0 置信度为 置信度为1-α的预测区间是 的预测区间是
:
•
Λ Λ y0 −δ ( x0 ), y0 + δ ( x0 )
xx
(二)相关系数检验法
可决系数:衡量自变量与因变量关系密切程度的指标。
其计算公式为: R2 =
2 ˆ y − y) =1− ∑( 2 2 2 y − y) ∑( x − x ) ∑( y − y) ∑(
∑( x − x )( y − y)
2
可见,可决系数取值于0与1之间,并取决于回归模型所解释的 y 方差的百分比。 0 1 相关系数 ∑( x − x )( y − y ) 其计算公式为: r = 2 2 ( x − x ) ∑( y − y ) ∑ 由公式可见,可决系数是相关系数的平方。
• 其中
tα / 2 (n − 2) 是自由度为(n-2)的 t分布的上方 α / 2 分位数
x0 − x 1 δ ( x0 ) = tα / 2 (n − 2)S 1+ + n lxx
计量经济学实验二-一元线性回归模型的估计、检验和预测
目录一、加载工作文件 (7)二、选择方程 (7)1.作散点图 (7)2.进行因果关系检验 (9)三、一元线性回归 (10)四、经济检验 (12)五、统计检验 (13)六、回归结果的报告 (15)七、得到解释变量的值 (15)八、预测应变量的值 (17)实验二一元线形回归模型的估计、检验和预测实验目的:掌握一元线性回归模型的估计、检验和预测方法。
实验要求:选择方程进行一元线性回归,进行经济、拟合优度、参数显著性和方程显著性等检验,预测解释变量和应变量。
实验原理:普通最小二乘法,拟合优度的判定系数R2检验和参数显著性t检验等,计量经济学预测原理。
实验步骤:已知广东省宏观经济部分数据如表2-1所示,要根据这些数据研究和分析广东省宏观经济,建立宏观计量经济模型,从而进行经济预测、经济分析和政策评价。
实验二~实验十二主要都是用这些数据来完成一系列工作。
表2-1 广东省宏观经济数据续上表续上表一、加载工作文件广东省宏观经济数据已经制成工作文件存在盘中,命名为GD01.WF1,进入EViews后选择File/Open打开GD01.WF1。
二、选择方程根据广东数据(GD01.WF1)选择收入法国国内生产总值(GDPS)、财政收入(CS)、财政支出(CZ)和社会消费品零售额(SLC),分别把①CS作为应变量,GDPS作为解释变量;②CZ作为应变量,CS作为解释变量;③SLC作为应变量,GDPS作为解释变量进行一元线性回归分析。
1.作散点图从三个散点图(图2-1~图2~3)可以看出,三对变量都呈现线性关系。
图2-1 图2-2图2-3 2.进行因果关系检验从三个因果关系检验可以看出,GDPS是CS的因;CS不是CZ 的因;GDPS不是SLC的因。
但根据理论CS是CZ的因,GDPS是SLC的因,可能是由于指标设置问题。
所以还是把CS作为应变量,GDPS作为解释变量;CZ作为应变量,CS作为解释变量;SLC作为应变量,GDPD作为解释变量进行一元线性回归分析。
一元线性回归分析的应用预测问题PPT课件
但是严格地说,这只是被解释变量预测期实际 值的一个估计值,而不是预测期的实际值。原因:
(1)参数估计量是不确定的,随样本而变;
(2)预测期随机干扰项0的影响。
• 所以,给定样本以外的解释变量的值X0,依 据样本回归方程得到的Ŷ0 仅仅是预测期条件 均值E(Y0)[注:简写符号,见教材P49 ]或个别 值Y0的实际值的一个点估计值,预测期E(Y0) 或Y0的实际值仅以某一个置信水平被以该估 计值为中心的一个区间所包含。
或
同元样)地,由于 (补充)
(533.05元, 814.62
S Yˆ0 Y0
ˆ 2 (1 1 ( X 0 X )2 )
n
xi2
13402
1
1 10
(1000 2150 7425000
)2
13402 1.2781 130 .88
所以,当X=1000时,总体单值Y0的95%的置信区间为:
Yˆi 103.172 0.777 X i
则当X0=1000时, Ŷ0 = –103.172+0.777×1000=673.84
而
Var(Yˆ0
)
ˆ
2
1 n
(
X
0
X xi2
)2
13402
1 10
(1000 2150)2 7425000
673.84 - 2.306130.88<Y0 <673.84 + 2.306130.88
或
(372.03元, 975.65元)
•对每个X值,求总体均值E(Y)的(1-)置信区间,然后将这些 区间的端点(置信限)分别连接起来,可以得到总体回归函数 的置信带(域)(confidence band) 。 •对每个X值,求总体单值Y的(1-)置信区间,然后将这些区 间的端点分别连接起来,可以得到总体单值的置信带(域) 。
一元线性回归预测法
回归直线的拟合优度不是很理想 。
(3)
R 2 (n 2) 0.4815 6 F 5056 F0.05 (1,6) 2 1 0.4815 1 R
所以拒绝原假设,认为所建立的线性回归 模型是显著的。
(4)
SE
2 y bˆ0 y bˆ1 xy
n2
22.9788 0.9 13.54 0.0134 803 .02 0.0734 6
2
~ F 1, n 2
Sb
SE
x x
检验规则:给定显著性水 , 若 F F 1, n 2 则回归系数显著。
6、德宾—沃森统计量(D—W)
检验
ui
之间是否存在自相关关系。
D W
i 2
n
i
i 1
2
2 i i 1
n
其中,
ˆi i yi y
因此,建立的一元线性回归方程为:
ˆ 0.898 0.0134x y
(2)
R2 ˆ 2 (x x)2 b 1 2 y n y
( y y)
2
0.01342 (28158 8 592 ) 0.4815 2 22.9788 8 1.69
要求:(1)拟合适当的回归方程; (2)判断拟合优度情况; (3)对模型进行显著性检验;(α =0.05) (4)当体重为75公斤时,求其身高平均值的95% 的置信区间。
解答: (1)n=8,经计算得:
x 472
2 x 28158
y 13.54
因此:
2 y 22.9788
相关系数与可决系数的主要区别:
• 相关系数测定变量之间的密切程度,可决系 数测定自变量对因变量的解释程度。相关系 数有正负,可决系数只有正号。 • 正相关系数意味着因变量与自变量以相同的 方向增减。
一元线性回归的估计、预测和检验
第一题一、实验目的(1)将数据输入并建立工作文件 (2)估计参数 (3)进行假设检验(4)进行点预测和区间预测 (5)对简单的问题进行分析二、实验要求(1) 掌握一元线性回归模型的估计方法 (2) 掌握一元线性回归模型的检验方法 (3) 掌握一元线性回归模型的预测方法三、实验原理普通最小二乘法四、实验内容1.A problem of interest to health officials (and others) is to determine the effects of smoking during pregnancy on infant health. One measure of infant health is birth weight; a birth rate that is too low can put an infant at risk for contracting various illnesses. Since factors other than cigarette smoking that affect birth weight are likely to be correlated with smoking, we should take those factors into account. For example, higher income generally results in access to better prenatal care, as well as better nutrition for the mother. An equation that recognizes this is012bwght cigs faminc βββμ=+++(i) What is the most likely sign for2β?(ii) Do you think cigs and faminc are likely to be correlated? Explain why the correlation might be positive or negative.(iii) Now estimate the equation with and without faminc, using the data in BWGHT.RAW. Report the results in equation form, including the sample size and R-squared. Discuss your results, focusing on whether adding faminc substantially changes the estimatedeffect of cigs on bwght.(i)估计2 的值为正数。
一元线性回归预测
2.1 一元线性回归预测回归预测在研究社会许多现象之间的定量关系方面有着十分广泛的应用,一元线性回归预测是最基本的、最简单的预测方法,是掌握其它回归预测方法的基础。
一、参数估计一元线性回归预测模型的数学表达式是一元线性议程:bx a y +=(2-1)式中:y ——预测对象,因变量或被解释变量;x ——影响因素,自变量或解释变量; b a ,——回归系数。
其含意表示事物y 主要受一个因素x 的影响,而且这种影响是呈线性关系的。
但是,事实上,自变量与因变更的关系并不完全是一条直线,而只是近似一条直线。
但是怎样的直线才能最好地反映了x 与y 的关系呢?就是说,是否有一种方法使所确定的回归系数a 、b 是最佳的呢?最常用的方法是最小二乘法。
即参数a 、b 的估计,一般采用最小二乘法。
对于预测对象y ,相关因素x ,可以收集到n 对数据:),(,),,(),,(),,(332221n n x y x y x y x y如果经回归分析得到回归预测模型如式2-1所示,则对于每一个相关因素x的值)2,1(n i x i =对应有一个y 的估计值i yˆ。
),,2,1(ˆn i bx a yi i =+= 则实际值i y 与估计值i y ˆ一般是不相等的,存在一个偏差,称为估计误差或残差,用i ε表示。
即),,2,1(ˆn i yy i i i =-=ε 或写成i i i bx a y --=ε最小二乘法是以误差平方和最小这一原理来估计b a ,系数,从而建立回归预测模型的。
设以Q 表示误差平方和,则有:212121)()ˆ(i i ni i i ni in i bx a y yy Q --=-==∑∑∑===ε (2-2)很显然,Q 是参数a 、b 的函数,当求Q 最小时,根据微分学中极值原理有:⎪⎪⎩⎪⎪⎨⎧=∂∂=∂∂00bQ aQ即)(21i i ni bx a y a Q ---=∂∂∑= ∑==-+=ni i i y bx a 10)(2(2-3))(21i i n i i bx a y x b Q---=∂∂∑= ∑==-+=ni i i i y bx a x 10)(2(2-4)求解上联立方程可得⎪⎪⎪⎩⎪⎪⎪⎨⎧-=⎪⎭⎫⎝⎛--=∑∑∑∑∑∑∑=======n i ni ii n i n i i i n i n i ni ii i i x n b y n a x x n y x y x n b 1112121111)62()52(--取 ∑==ni i x n x 11为x 的平均值,∑==ni i y n y 11为y 的平均值。
一元线性回归预测法
C o v ( u i , u j ) E [ u i E ( u i ) ] [ u j E ( u j ) ] E ( u iu j) 0 ( i j)
假定4:随机扰动 u i 与解释变量 X 不相关
C o v ( u i , X i ) E [ u i E ( u i ) ] [ X i E ( X i ) ] 0
32
(2)对随机扰动项 u 的假定
又称高斯假定、古典假定 假定1:零均值假定
在给定 X 的条件下 , u i 的条件期望为零
E(ui ) 0
假定2:同方差假定
在给定 X 的条件下,u i 的条件方差为某个常数 2
V a r ( u i) E [ u i E ( u i) ] 2 2
33
假定3:无自相关假定
● 从变量相关关系的表现形式看
线性相关——散布图接近一条直线 非线性相关——散布图接近一条曲线
● 从变量相关关系变化的方向看
正相关——变量同方向变化,同增同减 负相关——变量反方向变化,一增一减 不相关
10
800 Y
600
400
Y 2
200
1
0 0
3.0
10
20
30
完全相关
2.5
2.0
1.5
1.0
寻求一种规则和方法,使得到的SRF的参数 ˆ 1 和 ˆ 2 尽可能“接近”总体回归函数中的参数 1 和 2 。
这样的“规则和方法”有多种,最常用的是最小二 乘法
30
简单线性回归的基本假定
1. 为什么要作基本假定?
●模型中有随机扰动,估计的参数是随机变量, 只有对随机扰动的分布作出假定,才能确定 所估计参数的分布性质,也才可能进行假设 检验和区间估计
第3章 一元回归模型:假设检验
ui ~ N (0, )
2
回顾:正态分布由来
高尔顿钉板
回顾:正态分布由来
高尔顿钉板
回顾:正态分布的平均值和方差
第327页
第三章 一元回归模型:假设检验
3.1 古典线性回归模型的基本假定
第三章 一元回归模型:假设检验
3.1 古典线性回归模型的基本假定
第三章 一元回归模型:假设检验
问:随机误差项
答:使用残差项
se(b2 ) var(b2 )
u i 的方差 2 不知道怎么办?? ei 的方差来估计随机误差项的方差:
EViews 回归结果
第三章 一元回归模型:假设检验
3.3 OLS估计量的性质
高斯-马尔科夫定理:
如果满足古典线性回归模型的基本假定,则OLS 估计量是最优线性无偏估计量(Best Linear Unbiased Evaluation , BLUE)。
3.1 古典线性回归模型的基本假定
二、对随机误差项
u i 的假定:
5. 解释变量与随机误差项不相关。
cov(ui , X i ) 0
6. 随机误差项之间不相关(无自相关、无序列相关)。
cov(ui , u j ) 0
i j i, j 1, 2,..., n
回顾:变量间的相关性
相关系数
第三章 一元回归模型:假设检验
3.3 OLS估计量的性质
1. 线性: b1和b2是线性估计量,即它们是Y的线性函数:
b1 Y b2 X
x y ( X X )(Y Y ) b x (X X ) X Y nXY X nX
i i i i 2 2 i 2 i i i 2 i 2
一元线性回归:假设检验和置信区间
置信区间: (以1 为例)
ˆ ±1.96×SE( ˆ )} 1 的 95% 置信区间为 { 1 1 这是在 5%水平下不能被拒绝的1 取值集合 在所有样本中有 95%样本构造的 95% CI 包含了真实的1 取值.
15
5.3 X为二元变量时的回归
有时候回归变量是二元的(只取两个值)
2 ˆ
1 n 2 ˆi v n 2 i 1
1
1
1
这个公式看着令人有些讨厌,但: 事实上并没有看上去的那样复杂,其中分子估计的是 var(v), 分母估计的是 var(X). 为什么自由度调整为 n – 2? 因为有两个系数 (0 和 1)是 估计的. ˆ )是由回归软件计算的 SE(
1
首先纵观全局(和复习)
我们想利用样本数据(故存在抽样不确定性)了解总体回 归线的斜率. 要完成这个目的可以分以下四步: 1. 准确描述感兴趣的总体对象 2. 导出估计量的抽样分布 (这需要作某些假设) 3. 仅利用手头的样本信息估计抽样分布的方差 ( CLT 告 诉我们当 n 较大时我们想要了解的一切) ,即找出估计 量的标准误差 (SE) ˆ )得到点估计及其 SE, 假设检验和置信 4. 利用估计量 ( 1 区间.
18
置信区间、假设检验
总结: 当 Xi 为二元变量(0/1)时的回归
Yi = 0 + 1Xi + ui 0 = 当 X = 0 时 Y 的均值 0 + 1 = 当 X = 1 时 Y 的均值 1 =组均值之差, 即 X =1 的组均值- X = 0 的组均值 ˆ ) 的解释同前 SE(
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
§5.2 一元线性回归中的假设检验和预测一元线性回归中的假设检验(1)假设检验的必要性①上一节推导出的回归系数的最小二乘估计(5.1-8)式,对Y x ,的任何一组数据),21(),(n ,,i y ,x i i =均适用,即使Y x ,之间毫无关系。
如果这样,求得的回归直线方程就没有任何意义。
因此,求得回归直线后还需要检验Y x ,之间是否真的有统计线性相关关系——一元线性回归的模型检验。
②回归系数10β,β的最小二乘估计∧∧10β,β只是由Y x ,的n 对观测值),21(),(n ,,i y ,x i i =求得的,此估计值到底在什么程度上适于Y x ,之间的真正关系?因此,需对参数是否取为其估计值作假设检验——一元线性回归的参数检验。
(2)一元线性回归的模型检验为对Y x ,之间满足一元正态线性回归模型:⎩⎨⎧++=)(~210ζ0,N εx ββY ε )315(-.这一假设的合理性进行严格的检验,需要检验三点:①在x 的各取值点处,Y 都服从正态分布,期望值依赖于x ,且方差都相同;②在x 的各取值点处,Y 的期望是x 的线性函数;③在x 的各取值点处,相应的Y 是相互独立的。
可见,进行完全的严格检验并不容易。
而引起线性回归不显著的原因主要有以下三点:①除变量x 外,还有其它重要变量影响Y 的取值,故当x 取定时,Y 不能服从正态分布;②Y x ,之间不是线性相关关系,而是某种非线性相关关系;③Y 的取值根本与x 的取值无关。
在上述情况之一出现时,若对Y x ,配以线性回归模型,均会有0β1=,即ε+=0βY . 因此,对线性回归模型显著性的检验可以简化处理为对 0β:H 10=是否成立的检验。
方法如下:①作假设0β:H 0β:H 1110≠↔= ②检验统计量及其分布由定理 5.1.3知:)2(~--∧∧n t L ζββxx *11 ,故当 0H 成立时有)2(0-=∧∧n t ~L ζβT H xx *1以此为检验统计量,且由Y x ,的一组观测值),21(),(n ,,i y ,x i i =可以求得T的观测值。
注:)2,1(~222-==∧∧n F L ζβT F xx *1,在matlab 软件中采用的是F 检验。
③拒绝域给定显著水平α,该双边t 检验的拒绝域应取为)2(-≥n t T W: 2α.④做出判断当抽样结果使T 的观测值落入拒绝域时,拒绝0H ,认为0β1≠,因而线性回归显著;否则认为线性回归不显著。
(3)一元线性回归的参数检验①作假设10111010ββ:H ββ:H ≠↔= (10β为已知数)②检验统计量及其分布 由定理 5.1.3知:)2(~--∧∧n t L ζββxx *11 ,故当 0H 成立时有)2(~--=∧∧n t L ζββT xx *101以此为检验统计量,且由Y x ,的一组观测值),21(),(n ,,i y ,x i i =可以求得T 的观测值。
③拒绝域给定显著水平α,取该双边t 检验的拒绝域为)2(-≥n t T W: 2α.④做出判断当抽样结果使T 的观测值落入拒绝域时,拒绝0H ,认为101ββ≠;否则接受0H ,认为101ββ=.注:由定理 5.1.1②中∧0β的分布及由定理 5.1.2①中minQ 21σ的分布可以构造服从)(2n t -的另一统计量,对00010000β: β H β β:H ≠↔= 进行类似的假设检验。
一元线性回归中的预测回归分析的最终目的,是当x 取定时利用回归方程对Y 进行预测。
所谓对Y 的预测,即当0x x =时,求0Y 的点估计(预测值)和区间估计(预测区间)。
问题:在模型)315(-. 中令0x x =,则00100εx ββY ++=,且)0(~2ζ,N ε0.求0Y 的取值0y 估计值∧0y 和置信概率为α-1的置信区间。
(1)预测值的求法求出经验回归直线x ββy 10∧∧+=后,将0x x =代入,取0100x ββy ∧∧∧+=)125(-.实质上是取∧∧=)(00Y E y .(2)预测区间的求法①0y 的点估计0100x ββy ∧∧∧+=.②寻找枢轴量 (ⅰ) ∧-00y Y 的分布)()(010001000x ββεx ββy Y ∧∧∧+-++=-其中∧∧100ββε,,均服从正态分布,故它们的线性函数∧-00y Y 也服从正态分布。
再求∧-00y Y 的两个参数)(∧-00y Y E 和)(∧-00y Y D .0)()()(=+-++=-∧01001000x ββ0x ββy Y E又i x x =时, i Y Y =, ),21(n ,,i =, 且0Y 与n 21Y ,,Y ,Y 相互独立。
而⎪⎪⎪⎩⎪⎪⎪⎨⎧-=---==∧∧==∧∑∑x βY β)x (x )Y )(Y x (x L L β102n1i i i n1i i xx xy1(5.1-8’)其中∑==n1i iY n 1Y ,故0Y 与n 21,Y ,,Y Y 的线性函数0100x ββy ∧∧∧+=相互独立。
于是(由( ))(()( )( 5.1x x βY D ζ x ββD ζ y D DY y Y D 01201020000--++=++=+=-∧∧∧∧∧2xx20xx220221202ζL x x n 11 5.1.1L ζx x n ζζ 5.1.4βD x x )Y D ζ))(( )( )()((-++=-++=-++=∧)(由定理 )(由定理)))((( 2xx2000ζL x x n 11 0,N ~y Y -++-∴∧(ⅱ) 构造枢轴量由上式知)()(0,1~N ζL x x n 11y Y U xx2000-++-=∧由定理5.1.2知)(~*)2(1222222n n Q min--==∧χσσσχ又:U与2χ相互独立(由定理5.1.2知min Q 分别与∧∧10β,β相互独立,故与0x y 000∧∧∧+=ββ独立;min Q 是n21,Y ,,Y Y 的函数,故与0Y 独立, 从而2χ与U 相互独立),于是)()()()()(*2n ~t 2n /ζζ2n L x x n 11y Y 2n χU 22xx 20002----++-=-∧∧σ即:)( )()()(25.22n t ~L x x n 11ζx ββY T xx20*0100---+++-=∧∧∧以此为区间估计的枢轴量。
③求置信区间给定置信概率为α1-,有2)(n t -2α使α12n t T P 2α-=-<)}({由)(2n t T2α-<导出0y 的置信区间为()( )()((++-++-++--+∧∧∧∧∧x n 112n t x ββ,ζL x x n 112n t x ββ2α010*xx 202α010(3)对预测区间的分析考虑任一点x 处Y 的取值y 的预测区间:由(5.2-3)式知,若记∧-++-=*xx22αζL x x n 112n t x )()()(δ而x ββy 10∧∧∧+=,于是y 的置信下限)()(x δx ββx y 101-+=∧∧,置信上限)()(x δx ββx y 102++=∧∧,预测区间为))()((x δy ,x δy +-∧∧.其中① 预测区间长)(x 2δL =当x x =时最小;x 离x 越远,)(x 2δL =越大。
这说明回归分析比较适于在原有观测数据附近作内插预测;而不适于在离原有观测数据较远处作外推预测。
② 预测区间的中心为x ββy 10∧∧∧+=,即经验回归直线x ββy 10∧∧+=上x 处的纵坐标。
y xy y 10∧∧∧+=ββ点估计的)()(x δx ββx y 101-+=∧∧置信下限)()(2x δx ββx y 1++=∧∧置信上限)(x δ),(y x ∙)(x δ③当n 很大且--xx 较小时,2α2αu n t ≈-)2(,∧∧-≈-++-=*2α*xx 2αζu ζL x x n n t x 2)(11)2()(δ,则预测区间可简化为:)(∧∧∧∧∧∧++-+*2α10*2α10ζu x ββ,ζu x ββ,此时y 的置信上、下限在x 的临近,近似于直线。
例5.2.1(续例5.1.1) (3)检验线性回归的显著性(0.05α=);(4)求2.25x 0=(2岁3个月)时,平均体重0Y 的预测值和预测区间(0.95α1=-)。
解:(3)作假设0β:H 0β:H 1110≠↔= ,当 0H 成立时检验统计量41162052155700121....L ζβT xx *===∧∧临界值为18243)3()2(02502.t n t .α==-可见)2(2-≥n t T α,拒绝0H,认为0β1≠,因而x 与Y 之间线性回归显著。
(4) 2.25x 0=时,)(3512252012837100kg ....x ββy =⨯+=+=∧∧∧1052)52252(51118243)()2()(2.....ζL x x n 11n t x *xx 202α0⨯-++=-++-=∧δ0y 的置信下限8011)(.x δy y 001=-=∧,置信上限9012)(.x δy y 002=+=∧,预测区间为)90128011(.,..例 5.2.2 下表给出了过去20年间某城市新建住宅面积x (单位:万平米)和某家具公司的销售额Y (单位:万元)的统计数据:年1 2 3 4 5 6 7 8 9 10新建住宅面积x121 118 271 190 175 263 334 368 305 210销售额Y 的观测值y 360 260 440 400 360 500 580 560 505 480年11 12 13 14 15 16 17 18 19 20 新建住宅面积x380 270 218 342 173 370 215 205 339 283销售额Y 的观测值y 602 540 414 590 492 660 463 410 680 594若今年350=0x ,试预测0Y (050.α=)。
>> X=[121 118 271 190 175 263 334 368 305 210 380 270 218 342 173 370 215 205 339 283];>> Y=[360 260 440 400 360 500 580 560 505 480 602 540 414 590 492 660 463 410 680 594];>> plot(X,Y,'ro')>> y=192.0574+1.1745.*X; >> hold on>> plot(X,y,'b-')解:①20=n ,5257.x =,127757==2x xx nS L ,5494.y =,224089==2y yy nS L ,150055)549452575134836(20)(=⨯-=-=...y x xy n L xy ,于是回归系数⎪⎪⎩⎪⎪⎨⎧=-===∧∧∧0574********.x βy β.L L β10xx xy1 经验回归直线为x ..y 174510574192+=. 且4034784915005517451224089..L βL Q xy 1yy min =⨯-=-=∧55875122040347849*..Q 2n 1min =-=-=∧σ 88690224089127757150055.L L L r yyxx xy =⨯==②线性回归的显著性检验 作假设0β:H 0β:H 1110≠↔= ,当0H 成立时检验统计量1422812775755875117451...L ζβT xx *1===∧∧临界值为10092)18()2(0250.t n t .2α==-可见)2(2-≥n t T α,拒绝0H ,认为0β1≠,因而x 与Y之间线性回归显著,利用线性回归模型进行预测是合理的。