2简单线性回归模型
第二章(简单线性回归模型)2-4答案(最新整理)
i2 2一、判断题2.4 回归系数的区间估计和假设检验1. 如果零假设 H 0:B 2=0,在显著性水平 5%下不被拒绝,则认为 B 2 一定是 0。
(F )2. k 的置信度为(1 -)的置信区间指真实参数落入该区间的概率是(1 -)。
(F)3.假设检验为单侧检验还是双侧检验本质上取决于备择假设的形式。
(F )4.回归系数的显著性检验是用来检验解释变量对被解释变量有无显著解释能力的检验。
(T )二、单项选择题1. 对回归模型Y i = 0 + 1 X i + u i 进行检验时,通常假定u i 服从(C )。
A . N (0,2)B . t (n - 2)C . N (0,2)D . t (n )2. 用一组有 30 个观测值的样本估计模型Y i = 0 + 1 X i + u i ,在 0.05 的显著性水平下对1的显著性作t 检验,则1显著地不等于零的条件是其统计量t 大于( D )。
A . t 0.05 (30)B . t 0.025 (30))C . t 0.05 (28)D . t 0.025 (28)ˆ - 3. 回归模型Y =+ X + u 中,关于检验 H := 0 所用的统计量11, 下i1ii1列说法正确的是( D )。
A. 服从(2C .服从(2 n - 2) n - 1)B. 服从t (n - 1)D .服从t (n - 2)4. 用一组有 30 个观测值的样本估计模型 y t = b 0 + b 1x 1t + b 2x 2t + u t 后,在 0.05 的显著性水平上对b 1 的显著性作t 检验,则b 1 显著地不等于零的条件是其统计量t 大于等于( C ) A. t 0.05 (30) B. t 0.025 (28) C. t 0.025 (27) D. F 0.025 (1,28)三、简答题1. 当给定后,回归系数2的置信区间是什么样的? ⎡ ˆ ˆ ⎤答:总体方差已知时,置信区间为⎢2 - z ,2 + z ⎥ ;总体方差 未知 ⎢ ∑ x 2 ∑ x 2 ⎥ ⎣i i ⎦∑e2则使用ˆ 2=in - 2估计2:①样本容量充分大时,统计量仍服从正态,则置信区间为Var (ˆ ) 1∑ ix2 ∑ i x 2 ⎥ 22⎡ ˆ ˆ ˆ ˆ ⎤ ⎢2 - z ,2 + z ⎥ ;②样本容量较小时,统计量服从 t 分布,则置信区 ⎢ ∑ x 2 ∑ x 2 ⎥ ⎣i i ⎦⎡ 间为 ⎢ˆ2 - tˆ,ˆ2 + tˆ⎤ 。
伍德里奇《计量经济学导论》(第5版)笔记和课后习题详解-第2章 简单回归模型【圣才出品】
第2章简单回归模型2.1复习笔记一、简单回归模型的定义1.简单线性回归模型一个简单的方程是:01y x uββ=++假定方程在所关注的总体中成立,它便定义了一个简单线性回归模型。
因为它把两个变量x 和y 联系起来,所以又把它称为两变量或者双变量线性回归模型。
变量u 称为误差项或者干扰项,表示除x 之外其他影响y 的因素。
1β就是y 与x 的关系式中的斜率参数,表示在其他条件不变的情况下,x 变化一个单位y 平均变化。
0β被称为截距参数,在一般的模型中除非有很强的理论依据说明模型没有截距项,否则一般情况下都要带上截距项。
2.回归术语表2-1简单回归的术语3.零条件均值假定(1)零条件均值u 的平均值与x 值无关。
可以把它写作:()()|E u x E u =当方程成立时,就说u 的均值独立于x。
(2)零条件均值假定的意义①零条件均值假定给出1β的另一种非常有用的解释。
以x 为条件取期望值,并利用()|0E u x =,便得到:()01|E y x xββ=+方程表明,总体回归函数(PRF)()|E y x 是x 的一个线性函数,线性意味着x 变化一个单位,将使y 的期望值改变1β。
对任何给定的x 值,y 的分布都以()|E y x 为中心。
1β就是斜率参数。
②给定零条件均值假定()|0E u x =,把方程中的y 看成两个部分是比较有用的。
一部分是表示()|E y x 的01x ββ+,被称为y 的系统部分,即由x 解释的那一部分,另一个部分是被称为非系统部分的u,即不能由x 解释的那一部分。
二、普通最小二乘法的推导1.最小二乘估计值从总体中找一个样本。
令(){} 1 i i x y i n =,:,…,表示从总体中抽取的一个容量为n 的随机样本。
01i i iy x u ββ=++在总体中,u 与x 不相关。
因此有:()()()0cov 0E u x u E xu ===,和用可观测变量x 和y 以及未知参数0β和1β表示为:()010E y x ββ--=()010E x y x ββ--=⎡⎤⎣⎦得到()0111ˆˆ0ni ii y x n ββ=--=∑和()0111ˆˆ0ni i ii x y x n ββ=--=∑这两个方程可用来解出0ˆβ和1ˆβ01ˆˆy x ββ=+则01ˆˆy x ββ=-一旦得到斜率估计值1ˆβ,则有:()111ˆˆ0niiii x y y x x ββ=⎡⎤---=⎣⎦∑整理后便得到:()()111ˆnniii i i i x yy x x x β==-=-∑∑根据求和运算的基本性质,有:()()211n ni i i i i x x x x x ==-=-∑∑()()()11nniii i i i x yy x x y y==-=--∑∑因此,只要有()21nii x x =->∑估计的斜率就为:()()()1121ˆnii i ni i xx y yx x β==--=-∑∑所给出的估计值称为0β和1β的普通最小二乘(OLS)估计值。
第二章简单线性回归模型
4000
2037 2210 2325 2419 2522 2665 2799 2887 2913 3038 3167 3310 3510
2754
4500
2277 2388 2526 2681 2887 3050 3189 3353 3534 3710 3834
3039
5000 5500
2469 2924 2889 3338 3090 3650 3156 3802 3300 4087 3321 4298 3654 4312 3842 4413 4074 4165
Yi 与 E(Yi Xi )不应有偏差。若偏
差u i 存在,说明还有其他影响因素。
Xi
X
u i实际代表了排除在模型以外的所有因素对 Y 的影
响。 u i
◆性质 是其期望为 0 有一定分布的随机变量
重要性:随机扰动项的性质决定着计量经济分析结19
果的性质和计量经济方法的选择
引入随机扰动项 u i 的原因
特点:
●总体相关系数只反映总体两个变量 X 和 Y 的线性相关程度 ●对于特定的总体来说,X 和 Y 的数值是既定的,总体相关系
数 是客观存在的特定数值。
●总体的两个变量 X 和 Y的全部数值通常不可能直接观测,所
以总体相关系数一般是未知的。
7
X和Y的样本线性相关系数:
如果只知道 X 和 Y 的样本观测值,则X和Y的样本线性
计量经济学
第二章 一元线性回归模型
1
未来我国旅游需求将快速增长,根据中国政府所制定的 远景目标,到2020年,中国入境旅游人数将达到2.1亿人 次;国际旅游外汇收入580亿美元,国内旅游收入2500亿 美元。到2020年,中国旅游业总收入将超过3000亿美元, 相当于国内生产总值的8%至11%。
计量经济学第二章 简单线性回归模型公式
ˆ 1
x y x
i 2 i
i
E ( k ) k
^
方差
标准误差
Var ( 1 )
SE ( 1 )
^
^
xi
2
2
Var ( 0 ) 2
SE ( 0 )
^
^
n xi
Xi
2 2
2 2
x
2
i
OLS估计式是最佳线性无偏估计式。
X n x
18 16 14 12 10 8 6 4 2 0 50-60 70-80
35% 30% 25% 20%
`
15% 10% 5% 0% 90-100
计量经济学
第 二 章
简单线性回归模型
第二章小结
1、变量间的关系: 函数关系——相关关系。 相关系数——对变量间线性相关程度的度量。 2、现代意义的回归:一个被解释变量对若干个解释变量依存 关系的研究 回归的实质:由固定的解释变量去估计被解释变量的平均 值。 3、总体回归函数(PRF):将总体被解释变量Y的条件均值表 现为解释变量X的某种函数。 E (Yi X i ) 0 1 X i Y X u
i 0 1 i i
样本回归函数(SRF):将被解释变量Y的样本条件均值表 示为解释变量X的某种函数。
ˆ ˆ X e Yi 0 1 i i
ˆ ˆX ˆ Y i 0 1 i
2
总体回归函数与样本回归函数的区别与联系。
4、随机扰动项:被解释变量实际值与条件均值的偏差,代表排
除在模型以外的所有因素对Y的影响。
3
随机扰动与解释变量不相关假定: 正态性假定:
ui ~ N (0, 2 )
2简单线性回归模型
2.相关关系
◆ 相关关系的描述 相关关系最直观的描述方式——坐标图(散布图)
Y
X
8
◆相关关系的类型 ● 从涉及的变量数量看
简单相关 多重相关(复相关)
● 从变量相关关系的表现形式看
线性相关——散布图接近一条直线 非线性相关——散布图接近一条曲线
● 从变量相关关系变化的方向看
正相关 线性相关 统计依赖关系 不相关 相关系数: 有因果关系 无因果关系 回归分析 相关分析 负相关 1 XY 1 正相关 非线性相关 不相关 负相关
注意 ①不线性相关并不意味着不相关。 ②有相关关系并不意味着一定有因果关系。 ③回归分析/相关分析研究一个变量对另一个 (些)变量的统计依赖关系,但它们并不意 味着一定有因果关系。 ④相关分析对称地对待任何(两个)变量,两 个变量都被看作是随机的。回归分析对变量 的处理方法存在不对称性,即区分应变量 (被解释变量)和自变量(解释变量):前 者是随机变量,后者不是。
使用相关系数时应注意
● X 和 Y 都是相互对称的随机变量 ● 线性相关系数只反映变量间的线性相关程度,不 能说明非 线性相关关系 ● 样本相关系数是总体相关系数的样本估计值,由 于抽样波动,样本相关系数是个随机变量,其统 计显著性有待检验 ● 相关系数只能反映线性相关程度,不能确定因果 关系,不能说明相关关系具体接近哪条直线 计量经济学关心:变量间的因果关系及隐藏在随 机性后面的统计规律性,这有赖于回归分析方法
15
回归分析的基本概念
回归分析(regression analysis)是研究一个 变量关于另一个(些)变量的具体依赖关系 的计算方法和理论。 其目的在于通过后者的已知或设定值,去估 计和(或)预测前者的(总体)均值。
庞浩计量经济学第二章简单线性回归模型
最小二乘法的应用
在统计学和计量经济学中,最 小二乘法广泛应用于估计线性 回归模型,以探索解释变量与 被解释变量之间的关系。
通过最小二乘法,可以估计出 解释变量的系数,从而了解各 解释变量对被解释变量的影响 程度。
最小二乘法还可以用于时间序 列分析、预测和数据拟合等场 景。
最小二乘法的局限性
最小二乘法假设误差项是独立同分布 的,且服从正态分布,这在实际应用 中可能不成立。
最小二乘法无法处理多重共线性问题, 当解释变量之间存在高度相关关系时, 最小二乘法的估计结果可能不准确。
最小二乘法对异常值比较敏感,异常 值的存在可能导致参数估计的不稳定。
04
模型的评估与选择
R-squared
总结词
衡量模型拟合优度的指标
详细描述
R-squared,也称为确定系数,用于衡量模型对数据的拟合程度。它的值在0到1之间,越接近1表示模型拟合越 好。R-squared的计算公式为(SSreg/SStot)=(y-ybar)2 / (y-ybar)2 + (y-ybar)2,其中SSreg是回归平方和, SStot是总平方和,y是因变量,ybar是因变量的均值。
数据来源
本案例的数据来源于某大型电商 平台的销售数据,包括商品的销 售量、价格、评价等。
数据处理
对原始数据进行清洗和预处理, 包括处理缺失值、异常值和重复 值,对分类变量进行编码,对连 续变量进行必要的缩放和转换。
模型建立与评估
模型建立
基于处理后的数据,使用简单线性回 归模型进行建模,以商品销售量作为 因变量,价格和评价作为自变量。
线性回归模型是一种数学模型, 用于描述因变量与一个或多个 自变量之间的线性关系。它通 常表示为:Y = β0 + β1X1 + β2X2 + ... + ε
2简单线性回归模型
第二章
简单线性回归模型
学习要点
一、简单线性回归模型的设定 二、简单线性回归模型的基本假定 三、简单线性回归模型参数的估计方法 四、参数估计量的统计性质 五、拟合优度的度量 六、回归系数的区间估计和假设检验 七、回归模型预测 八、EViews应用
Yi
ui
X
ui Yi E(Yi X i ) Yi 1 2 X i
3、样本回归函数(SRF)
样本回归线: 对于X 的一定值,取得 Y 的样本观测值,可计算其条件均 值,样本观测值条件均值的轨迹称为样本回归线。 样本回归函数: 如果把应变量 Y的样本条件均值表示为解释变量 X 的某种 函数,这个函数称为样本回归函数(SRF)。
i
X)
2
1
(4)
wi X i
x x
Xi
x
Xi X
x (X X ) x
2 i i 2 i
X i2 XX i
2
x
xi2
2 i
1
◆
最小二乘估计量b的无偏估计量
(1)b1
i 1
n
n
xi
x
i 1
n
2 i
Yi
i 1
n
xi
2 x i i 1 n
2wn 1wn u n 1u n ) n 1 2 2 2 Var (b1 ) u wi u n 2 i 1 x i
Chapter 2 简单线性回归模型
2. 相关分析是对称(symmetric)对待 X 和 Y 不区分解释变量(自变量)和被解释变量(因变量) ,两个变量都是随机的 例:统计考试成绩和数学考试成绩相关系数
四、回归分析与因果关系 1. 回归分析研究一个变量对另一个变量统计上的依存关系,但是并不表明 两个变量之间有因果关系。
2. 因果关系的建立一定是来自于统计关系之外,最终应该来自于理论。 (所 以要有经济理论) 例:降水量与产量 统计上并没有否定以下回归关系的存在 降水量 = beta0 + beta1*产量 + error 但是直觉告诉我们产量并不能决定降水量,产量并不是降水量的原因。
Variance: var X ≡ E X
μ
E X
2
μ
Covariance: Cov X, Y ≡ E X
μ
Y
μ
E XY
E X E Y
3. 线性相关系数(correlation coefficient) 总体(population)相关系数 Corr X, Y Cov X, Y Var X Var Y
(2) 回归线: 对于每一个 X 的取值,都有 Y 的条件期望 E(Y|Xi)与之对应,代表这些 Y 的 条件期望的点的轨迹所形成的直线或曲线,称为回归线。
Y 的条件分布:当解释变量 X 取某固定值时(条件) ,Y 的值不确定,Y 的不同取值形成一定的分布,即 Y 的条件分布。
Y 的条件期望:对于 X 的每一个取值,对 Y 所形成的分布确定其期望或 均值,称为 Y 的条件期望或条件均值,E(Y|X)
3. 用 x 的变化解释 y 的变化要解决的三个问题 问题 1:因为两个变量之间的关系是非精确的关系(not exact relationship) , 如何让其它因素也影响 y? ε 代表影响 y 的其他因素
(完整版)第二章(简单线性回归模型)2-3答案
2.3拟合优度的度量一、判断题1.当()∑-2i y y 确定时,()∑-2iy y ˆ越小,表明模型的拟合优度越好。
(F ) 2.可以证明,可决系数高意味着每个回归系数都是可信任的。
(F ) 3.可决系数的大小不受到回归模型中所包含的解释变量个数的影响。
(F ) 4.任何两个计量经济模型的都是可以比较的。
(F )5.拟合优度的值越大,说明样本回归模型对数据的拟合程度越高。
( T )6.结构分析是高就足够了,作预测分析时仅要求可决系数高还不够。
( F )7.通过的高低可以进行显著性判断。
(F )8.是非随机变量。
(F )二、单项选择题1.已知某一直线回归方程的可决系数为0.64,则解释变量与被解释变量间的线性相关系数为( B )。
A .±0.64B .±0.8C .±0.4D .±0.32 2.可决系数的取值范围是( C )。
A .≤-1B .≥1C .0≤≤1D .-1≤≤1 3.下列说法中正确的是:( D )A 如果模型的2R 很高,我们可以认为此模型的质量较好B 如果模型的2R 较低,我们可以认为此模型的质量较差C 如果某一参数不能通过显著性检验,我们应该剔除该解释变量D 如果某一参数不能通过显著性检验,我们不应该随便剔除该解释变量三、多项选择题1.反映回归直线拟合优度的指标有( ACDE )。
A .相关系数B .回归系数C .样本可决系数D .回归方程的标准差E .剩余变差(或残差平方和)2.对于样本回归直线i 01i ˆˆˆY X ββ+=,回归变差可以表示为( ABCDE )。
A .22i i i i ˆY Y -Y Y ∑∑ (-) (-) B .221ii ˆX X β∑(-) C .22iiRY Y ∑(-) D .2iiˆY Y ∑(-) E .1iiiiˆX X Y Y β∑(-()-) 3.对于样本回归直线i 01iˆˆˆY X ββ+=,ˆσ为估计标准差,下列可决系数的算式中,正确的有( ABCDE )。
计量经济学 第二章 简单线性回归模型案例分析 PPT
3. 用P值检验 α=0.05 >> p=0.0000
表明,城镇居民人均总收入对城镇居民每百户计算机拥有量确 有显著影响。
4. 经济意义检验:
所估计的参数
,说明城镇
居民家庭人均总收入每增加1元,平均说来城变量选择:被解释变量选择能代表城乡所有居民消费的 “城镇居民家庭平均每百户计算机拥有量”(单位:台) ; 解释变量选择表现城镇居民收入水平的“城镇居民平均每 人全年家庭总收入”(单位:元) 研究范围:全国各省市2011年底的城镇居民家庭平均每 百户计算机拥有量和城镇居民平均每人全年家庭总收入数 据。
3、总体回归函数(PRF)是将总体被解释变量Y的条件 均值表现为解释变量X的某种函数。 样本回归函数(SRF)是将被解释变量Y的样本条件 均值表示为解释变量X的某种函数。 总体回归函数与样本回归函数的区别与联系。
4、随机扰动项是被解释变量实际值与条件均值的偏差, 代表排除在模型以外的所有因素对Y的影响。
Yt 12Xt ut
估计参数
假定模型中随机扰动满足基本假定,可用OLS法。 具体操作:使用EViews 软件,估计结果是:
用规范的形式将参数估计和检验的结果写为: Y ˆt11.95800.002873X t
(5.6228) (0.00024) t= (2.1267) (11.9826) R2 0.8320 F=143.5836 n=31
即是说:当地区城镇居民人均总收入达到25000元时,城镇居 民每百户计算机拥有量 平均值置信度95%的预测区间为 (80.6219,86.9473)台。
12
个别值区间预测:
第二章简单线性回归模型
取偏导数并令其为0,可得正规方程
( ei2 ) ˆ1
2
(Yi ˆ1 ˆ2 Xi ) 0
( ei2 ) ˆ2
2
(Yi ˆ1 ˆ2 Xi ) Xi 0
即
或整理得
Yi nˆ1 ˆ2 Xi
XiYi ˆ1
Xi ˆ2
X
2 i
ei 0 ei Xi 0
用克莱姆法则求解得以观测值表现的OLS估计量:
(说明:正态性假定并不影响对参数的点估计,所以有时不列
入基本假定,但这对确定所估计参数的分布性质是需要的。且
根据中心极限定理,当样本容量趋于无穷大时,u
的分布会趋
i
近于正态分布。所以正态性假定有合理性)
5
在对 u i的基本假定下 Y 的分布性质
由于
Yi 1 2 X i ui
其中的 1, 2和 X i是非随机的, u i 是随机变量,因此
在给定X的条件下,u i的条件
方差为某个常数 2
Y
E(Y Xi )
Var(ui X i ) E[ui E(ui X i )]2 2
Xi X
3
假定3:无自相关假定:
随机扰动项 u i的逐次值互不相关
Cov(ui ,u j ) E[ui E(ui )][u j E(u j )]
E(uiu j ) 0
但与扰动项u是不相关的。(从变量X角度看是外生的) 注意: 解释变量非随机在自然科学的实验研究中相对 容易满足,经济领域中变量的观测是被动不可控的, X非随机的假定并不一定都满足。
2
2.对随机扰动项u的假定
假定1:零均值假定:
u 在给定X的条件下, i 的条件期望为零
E(ui Xi ) 0
假定2:同方差假定:
庞浩计量经济学第二章 简单线性回归模型
18
100个家庭构成的总体 研究其消费支出与可支配收入之间的关系(单位:元)
每 月 家 庭 可 支 配 收 入 X 1500 2000 2500 962 1108 1329 1024 1201 1365 1121 1264 1410 1210 1310 1432 1259 1340 1520 1324 1400 1615 条件均值、条件期望, 1448 1650 指在月可支配收入为 1489 1712 Xi的条件下,各家庭 1538 1778 月消费支出的均值。 1600 1841 1702 1886 1900 2012 1000 820 888 932 960 3000 1632 1726 1786 1835 1885 1943 2037 2078 2179 2298 2316 2387 2498 2589 1150 1400 1650 1900 3500 1842 1874 1906 1068 2066 2185 2210 2289 2313 2398 2423 2453 2487 2586 2150 4000 2037 2110 2225 2319 2321 2365 2398 2487 2513 2538 2567 2610 2710 2400 4500 2275 2388 2426 2488 2587 2650 2789 2853 2934 3110 5000 2464 2589 2790 2856 2900 3021 3064 3142 3274 5500 2824 3038 3150 3201 3288 3399
6
案例——相关表
可支 配收 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500 入X (元)
消费 支出 932 Y (元)
第2章 简单回归模型
将总体矩条件应用于样本 • 从总体中随机抽取一个样本容量为n的随机 样本,用{(xi,yi): i=1, „,n} ,i表示单 个样本(observation)的编号,n是样本总 量。xi,yi表示第i个样本的相应的变量。 • 每一观测样本i均应满足: yi = b0 + b1xi + ui • 将前面所假定的总体矩条件(3)(4)应用于样 本中,这种方法称为矩估计法(method of moments).
一个重要问题
如果我们忽略包含于误差项u中的其他因素,能否 通过简单回归模型,得到x对于y的其他因素不变 情况下的影响(ceteris paribus effect of x on y)呢? 不能。 需要对u和x的关系作出假定,或者是说,假定x与 y的关系符合一定的条件,才能通过上述模型估计 x对于y的其他因素不变情况下的影响(ceteris paribus effect of x on y)。
选择参数值b0, b1, 使得样本的矩条件成立
• 与总体中的矩条件(3)(4)相对应,在样本中相 应的矩条件(sample counterparts)为:
(3' ) ( 4' ) n
1
y
n i 1 n i 1 i
i
ˆ b ˆ x 0 b 0 1 i
i
n
1
x y
ˆ b ˆ x 0 b 0 1 i
普通最小二乘法的推导
(a ) (b) (c) (d )
x y y bˆ x bˆ x 0
n i 1 n i i 1 1 i
x ( y
i 1 n i
i
ˆ (x x) 0 y) b 1 i
(完整版)第二章(简单线性回归模型)2-3答案
、判断题2 21. 当y y确定时,? y越小,表明模型的拟合优度越好。
(F)2. 可以证明,可决系数R2高意味着每个回归系数都是可信任的。
(F)3. 可决系数R2的大小不受到回归模型中所包含的解释变量个数的影响。
(F)4. 任何两个计量经济模型的R2都是可以比较的。
(F)5. 拟合优度R2的值越大,说明样本回归模型对数据的拟合程度越高。
(T)6. 结构分析是R2高就足够了,作预测分析时仅要求可决系数高还不够。
(F )7.通过R2的高低可以进行显著性判断。
(F)8.R2是非随机变量。
(F)二、单项选择题1. 已知某一直线回归方程的可决系数为0.64 , 则解释变量与被解释变量间的线性相关系数为(B )。
A.± 0.64B.± 0.8C.± 0.4D. ± 0.322. 可决系数R2的取值范围是(C)。
A.R2< -1B. R2> 1C.0< R2< 1D.—1 < R2< 13.下列说法中正确的是:(D )A如果模型的R2很高,我们可以认为此模型的质量较好B如果模型的R2较低,我们可以认为此模型的质量较差C如果某一参数不能通过显著性检验,我们应该剔除该解释变量D如果某一参数不能通过显著性检验,我们不应该随便剔除该解释变量三、多项选择题1. 反映回归直线拟合优度的指标有(ACDE )。
A. 相关系数 B .回归系数 C.样本可决系数D.回归方程的标准差E.剩余变差(或残差平方和)2•对于样本回归直线Y?= ?)?X j ,回归变差可以表示为(ABCDE )。
A. (丫厂Y i)2 - (Y i- Y?)2B . ?2(X i - X)2C. R2(Y i-Y i)2 D . (Y?i-Y)2E.? (X i-X(Y i—Y i)2.3拟合优度的度量3•对于样本回归直线丫j=乙F列可决系数的算式中,正确的有(ABCDE )。
第二章简单线性回归模型解析
ˆ ˆ X 左边 Y , 右边 1 2 ˆ Y - ˆ X , 得Y ˆ ˆX 由公式 1 2 1 2 ˆ ˆ X 经过点( X , Y ) ˆ 左边 右边, 所以样本回归线Y i 1 2 i
(Y - ˆ - ˆ X ) 0 [Y - (ˆ ˆ X )] 0 [Y - Yˆ ] 0 e 0
i 1 2 i i i 1 2 i i i二、几个常用的结果(你会证明吗?)
二、
(1)残差ei的均值为0,即∑ei =0 (2) 残差ei与Xi不相关,即∑ei Xi =0
英国人类学家、生物统 计学家,达尔文的表
弟
回归分析的基本概念
回归分析(regression analysis)是研究一个变量关于另一个 (些)变量的具体依赖关系,并用适当的数学模型去近似地表 达或估计变量之间的平均变化关系。 这里:前一个变量被称为被解释变量(Explained Variable) 或应变量(Dependent Variable),后一个(些)变量被称为解 释变量(Explanatory Variable)或自变量(Independent Variable)。 例如:分析居民收入与消费的关系。 这里收入是什么变量?消费是什么变量? 收入是解释变量或自变量,消费是被解释变量或因变量。
负相关 - 1 r XY 1 正相关
非线性相关 不相关
负相关
2、简单线性相关关系的度量
1.简单线性相关系数
2.相关系数的特点
第一章有复习 见课本第17-18页
3、回归分析
“回归”一词的历史渊源 “回归”一词最先由高尔顿(Galton)引入。他发现 虽然有一个趋势,父母高,儿女也高;父母矮,儿女 也矮,但给定父母的身高,儿女辈的平均身高趋向于 或回归到全体人口的平均身高。换言之,尽管父母双 亲都异常高或异常的矮,而儿女的身高则走向人口总 体平均水平。这就是高尔顿的普遍回归定律。(Law of universal regression)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Y f (X ) u (u为随机变量)
◆ 没有关系
2.相关关系
◆ 相关关系的描述
相关关系最直观的描述方式——坐标图(散布图)
◆相关关系的类型
Y
• •
• •• • •
• • •
从涉及的变量数量看:
简单相关、多重相关(复相关)
xi
n
E(ui ) 1
i1
xi2
i 1
说明b1是β1的无偏估计。
(2)b0 Y b1X
Eb0 E Y b1X E
Yi n
b1X
E
0
1
n
X
i
ui
b1 X
0
1X
n
E(ui )
X
E (b1 )
n0
n
1
X
n 1X
0 说明 b0是 0 的无偏估计量。
◆ 最小二乘估计量b的方差
n
(1) b1 1
xi
n
n
ui 1 wiui
i1
xi2
i 1
i 1
n
则: Var(b1 ) E(b1 1 )2 E( wiui )2
i 1
E(w1u1 w2u2 wnun )2
E(w12u12 w22u22 wn2un2 2w1w2u1u2 2w1w3u1u3
估计式为:
S
2 e
ei2 n2
称为回归标准误差,为随机扰动项u的方差的无偏估计,即
E
(S
2 e
)
2 u
方差最小性(有效性,最佳性)的证明在K元回归模型 分析中给出。
有关思考
◆由最小二乘法所得直线能够对这些数据点之间的关系 加以反映吗?
◆对数据点之间的关系或趋势反映到了何种程度? ◆在统计上如何验证所得一元回归模式的可靠程度。
E(b0 ) 0
E(b1) 1
Var(b0 ) ?
Var(b1) ?
3、方差最小性(Best) Var(bi ) Var(bi*)
4、b服从正态分布 b1 ~ N (1 , Var(b1))
b0 ~ N (0 , Var(b0 ))
❖ 点估计的方法有多种。但最小二乘法(高斯-马尔 科夫定理)保证:
ESS Yˆi Y 2
RSS Y iYˆi 2 ui2
TSS=Total Sum of Squares
ESS=Explained Sum of Squares RSS=Residual Sum of Squares
TSS度量Y自身的变异程度,ESS度量X对Y拟合值的变 异程度,RSS度量实际值与拟合值之间的差异程度。
n XY X Y
Cov(X ,Y )
[n X 2 ( X )2 ][n Y 2 ( Y )2 ] Var (X ) Var (Y )
◆ 简单相关系数用来测度两个变量之间是否存在线性相关 关系,其变化范围在 [-1,1] 之间。越接近于-1,负相关 程度越高;越接近1,正相关程度越高。
◆平方和的分解
TSS (Yi Y )2
(Yi Yˆi ) (Yˆi Yi ) 2
(Yi Yˆi )2 2 Yi Yˆi Yˆi Y (Yˆi Y )2
(Yi Yˆi )2 (Yˆi Y )2 2 (Yi Yˆi )(Yˆi Y )
RSS ESS 2 (Yi Yˆi )(Yˆi Y )
(2)个别值表现形式
E(Y Xi ) Yi
ui
•
对于一定的 X i ,Y 的各个别值 Yi 分布 在 E(Y Xi ) 的周围,若令各个 Yi 与条件
Xi X
均值 E(Y
Xi ) 的偏差为
ui ,
显然
u
是随机变量,则有
i
ui Yi E(Yi Xi ) Yi 1 2 Xi
3、样本回归函数(SRF)
◆ Y 的条件期望
对于X 的每一个取值,
Y
对 Y 所形成的分布确 定其期望或均值,称
为Y 的条件期望或条 件均值 E(Y Xi )
Xi
X
2.总体回归函数的表现形式
(1)条件均值表现形式
假如 Y 的条件均值 E(Y Xi ) 是解
Y
释变量 X 的线性函数,可表示为:
•
E(Yi Xi ) f (Xi ) 1 2 Xi
(Sample Regression Function, SRF)
实际的经济研究中总体回归函数通常是未知的,只能根 据经济理论和实践经验去设定。“计量”的目的就是寻求 样本回归函数作为总体回归函数的估计。
注意几个概念
◆ Y 的条件分布
当解释变量X取某固定值时(条件),Y 的值不确定,Y 的不同取值形成一定的分布,即 Y 的条件分布。
能说明相关关系具体接近哪条直线.
计量经济学关心:变量间的因果关系及隐藏在随机性后 面的统计规律性,这有赖于回归分析方法.
4.回归分析
◆ 回归的古典意义: 道尔顿遗传学的回归概念: 父母身高与子女
身高的关系。 ◆ 回归的现代意义:
一个因变量对若干解释变量依存关系的研究。
◆ 回归的目的(实质): 由固定的解释变量去估计因变量的平均值。
由最小二乘法得到的估计量是线性无偏的估计 量,而且是一个最好的估计量。即最小二乘估计量 (OLSE)具有BLUE性质。
❖ BLUE:Best Linear Unbias Estimator
◆最小二乘估计量b的线性性
令 xi X i X , yi Yi Y
wi
n
n
n
n XiYi Xi Yi
xi2
则:b1 wiYi
b0
(1 n
wi
X
)
Yi
w 的性质:
(1) wi 0
(2)
wi2
1 xi2
(3) wi xi 1
(4) wi X i 1
w 证明: (1)
0
i
wi
xi
xi2
(Xi (Xi
X X
) )2
0
XiX
2
wi 0
(2)
w2 i
1
XiX
2
2
第二章
简单线性回归模型
学习要点
一、简单线性回归模型的设定 二、简单线性回归模型的基本假定 三、简单线性回归模型参数的估计方法 四、参数估计量的统计性质 五、拟合优度的度量 六、回归系数的区间估计和假设检验 七、回归模型预测 八、EViews应用
一、一元线性回归模型
( 一)回归与相关关系
1. 经济变量间的相互关系
异方差
X
f (u) Y
X1 X2 X3
同方差
Yˆ 0 1X
X
(三)一元线性回归模型参数最小二乘估 计量(OLSE)的性质
一元线性 回归模型
样本估计 量的性质
Y 0 1X u
Y b0 b1X e
总体回归模型 样本回归模型
1 、估计量是线性的(Linear);
2、估计量是无偏的(Unbias)估计量(Estimator)
(Yi Yˆi )(Yˆi Y ) ui (Yˆi Y ) uiYˆi uiY uiYˆi Y ui 0 Y 0 0
TSS RSS ESS
◆ 平方和分解的意义
❖ TSS=ESS+RSS ❖ 被解释变量 Y 总的变动=
解释变量 X 对 Y 引起的变动 + 除 X 以外的因素引起的变动 ❖ 如果 X 引起的变动在 Y 的总变动中占很大比例,那么 X 很好地解释了 Y;否则,X 不能很好地说明 Y。
◆ 除过简单相关系数,还有偏相关系数、复相关系数来测 度变量间的相关关系,但是在含义上有差别。
使用相关系数时应注意
◆X 和Y 都是相互对称的随机变量; ◆线性相关系数只反映变量间的线性相关程度,不能说明
非线性相关关系; ◆样本相关系数是总体相关系数的样本估计值,因抽样
波动,样本相关系数为随机变量,其统计显著性有待检验; ◆相关系数只能反映线性相关程度,不能确定因果关系,不
(二)一元线性回归模型
1. 一元线性回归模型设定
一元线性总体回归模型: Y 0 1X u 一元线性总体回归函数:E(Y X ) 0 1X
(Population Regression Function, PRF)
一元线性样本回归模型:Y b0 b1X e
一元线性样本回归函数: E(Y X ) b0 b1X
◆ 拟合优度的定义:
TSS RSS ESS 1 RSS ESS
TSS TSS
R2 ESS 1 RSS
TSS
TSS
◆ 意义:拟合优度越大,自变量对因变量的解释程度越高, 自变量引起的变动占总变动的百分比高。观察点在回归 直线附近越密集。
xi2 xi2
1
◆ 最小二乘估计量b的无偏估计量
n
(1)b1
xi
n
n
Yi
xi
n
(0 1X i ui )
i1
xi2
i1
xi2
i 1
i 1
n
0
xi
n
n
1
xi
n
n
Xi
xi
n
n
ui 1
xi
n
ui
i1
xi2
i1
xi2
i1
xi2
பைடு நூலகம்
i1
xi2
i 1
i 1
i 1
i 1
则
n
E(b1) 1
(二)关于线性回归模型的基本假定
1、X是固定变量(若X随机,须 与u不相关)
拟合值与u不相关
2、u不存在 自相关