经典线性回归分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2.3 多元线性回归分析
三变量线性回归分析
Yi 1 2 X 2i 3 X 3i ui
偏回归系数
新概念
校正的判定系数
偏相关系数
原始数据(四组)
Y1 X1 8.04 10 6.95 8 7.58 13 8.81 9 8.33 11 9.96 14 7.24 6 4.26 4 10.84 12 4.82 7 5.68 5
ˆ ki yi kiui
(1 n
xki
)
yi
E(ˆ) E(ˆ )
最小方差性:
Var(ˆ )
2 u
xi2
V ar(ˆ )
2 u
n
xi2 xi2
最小方差性的几何解释
参数估计量的两个特点 斜率的方差与解释变量的关系。 截距的方差与样本容量的关系。
(3)检验
回归参数的t检验
检验:回归模型中是否存在线性关系?这种关系是显著的吗?
H0 : 0
H1 : 0
T
ˆ
Vˆ
( )
ˆ ~ t(n 2) Vˆ (ˆ )
经验规律
在实际应用中,显著水平通常取5%,在t分布表 中,当样本观察值的个数大于15时,t临界值大体保持 在2左右。由此我们得到一个十分简便的检验方法,t 绝对值大于2时,我们就可以得出系数是统计显著的结 论。
总样本 (46-63)
回归方程的显著性检验:检验连等式
思想:检验所有解释变量对被解释变量影响的显著性 因此,F检验实际上针对的是多元回归问题。
联合假设
H0 :
H1 :
F统计量
1 2 k 0
j不全为0, j 1,2,k
F
RSS / k
~ F (k, n k 1)
TSS /(n k 1)
数理统计的内在逻辑
样样 本本 均矩 值
点 估 计
区 间 估 计
置显 信著 区检 间验
样本
统计量 参数估计
特性
矩 估 计
OLS
估 计
似 然 估 计
分布
假设检验
总体
2.2 一元线性回归分析
一元线性回归模型(总体回归模型):
yi a xi ui
(i 1,2,n)
随机项的引入导致了被解释变量的随机性,由此引发了计量经济 学对模型的研究。
中国消费与收入的初步研究: 数据来源:2000年中国各地区消费和收入数据 Eviews//example1
计算与分析:EVIEWS
一元线性回归方程应用:时间序列
检验模型的结构稳定性:Chow检验
步骤1:全部样本进行回归。 步骤2:不同时期样本回归。 步骤3:构造统计量。 步骤4:假设检验。
S 4 /(n1 n2 2k ) F
Y2 X2 9.14 10 8.14 8 8.74 13 8.77 9 9.26 11 8.1 14 6.13 6 3.1 4 9.13 12 7.26 7 4.74 5
Y3 X3 7.46 10 6.77 8 12.74 13 7.11 9 7.81 11 8.84 14 6.08 6 5.39 4 8.15 12 6.42 7 5.73 5
对模型设定的假定
假定1:回归模型对参数而言是线性的。 假定2:回归模型是正确设定的。
(2)估计问题
最小二乘法:残差的平方和最小
n
min
2 i
i 1
正规方程:(简化形式)
i
i
xi
0 0
最小二乘估计量的表达式
ˆ y ˆx
ˆ
ˆ ~ N(,Var(ˆ))
ˆ ~ N ( ,Var(ˆ))
随机扰动项的估计
随机扰动项方差估计量
2 u
2 i
n2
yi2 ˆ xi yi
n2
结论:在正态性假定条件下,除了满足BLUE性质以外,
截距和斜率的OLS估计量服从正态分布,随机扰动项的方 差服从Chi-平方分布。
检验:回归模型中是否存在线性关系?这种关系是显著的吗?
H0 : 0
H1 : 0
经验规律
在实际应用中,显著水平通常取5%,在t分布表 中,当样本观察值的个数大于15时,t临界值大体保持 在2左右。由此我们得到一个十分简便的检验方法,t 绝对值大于2时,我们就可以得出系数是统计显著的结 论。
Prob.
C(1)
3.000909
1.125302 2.666758
C(2)
0.500000
0.117964 4.238590
R-squared 0.666242
Mean dependent var
0.0258 0.0022
7.500909
样本3:
Y3=C(1)+C(2)*X3
CoefficientStd. Error
Y4
12
10
8
6
4 2 4 6 8 10 12 14 16 X1
14 12 10
8 6 4
2 4 6 8 10 12 14 16 X3
10
8
6
4
2
2
4
6
8 10 12 14 16
X2
14
12
10
8
6
4
5
10
15
20
X4
最小二乘估计量的统计性质(BLUE性质) 高斯—马尔科夫定理
线性: 无偏性:
但是,如果t值接近2,这种经验判断的方法就不准确。
回归方程的显著性检验和拟合优度 (1)总离差平方和的分解:
TSS=RSS+ESS
(2)拟合优度(样本决定系数):
(3)回归方程的显著性检验:
方差分析表
离差名称
平方和 自由度 均方差 F 值
回归(解释变量)
剩余(随机因素)
综计
(4)一元线性回归方程应用:截面数据
Y4 X4 6.58 8 5.76 8 7.71 8 8.84 8 8.47 8 7.04 8 5.25 8 12.5 19 5.56 8 7.91 8 6.89 8
双变量回归
样本1:
Y1=C(1)+C(2)*X1
Coefficient
C(1)
3.000091
C(2)
0.500091
R-squared 0.666542
S5 / k
英国个人储蓄与收入(eviews//example3)
(5)极大似然估计方法介绍
似然函数的概念
设总体Y 的概率密度函数形式已知,含有参数 。
n
则总体Y 的样本Y1,Y2 Yn 的联合概率密度为 f ( yi ; ) , i 1
我们称其为似然函数:
n
L L( / y1, y2 yn ) = f ( yi ; ) i 1
t-Statistic
Prob.
C(1)
3.001727
1.123921
2.670763
C(2)
0.499909
0.117819
4.243028
R-squared 0.666707
Mean dependent var
样本4:
Y4=C(1)+C(2)*X4
CoefficientStd. Error t-Statistic
Std. Error
t-Statistic
1.124747 2.667348
0.117906 4.241455
Mean dependent var
Prob. 0.0257 0.0022
7.500909
样本2:
Y2=C(1)+C(2)*X2
Coefficient Std. Error t-Statistic
极大似然估计
设总体Y 含有未知参数 ,并且总体分布的形式已知,
y1 , y2 , yn 为Y
的一组观察值。若存在
的一个估计值ˆ
,
使得似然函数 L( / y1, y2 yn ) 在 时,
L( / y1, y2 yn ) max
则称ˆ 使 的一个极大似然估计值。
F值与判定系数之间的关系
F
R2 1 R2
nk k
1
1 n k 1 1 1 k
R2
方差分析表
离差名称
平方和 自由度 均方差 F 值
回归(解Biblioteka Baidu变量)
剩余(随机因素)
总计
(4)一元线性回归方程应用:截面数据
中国消费与收入的初步研究: 数据来源:2000年中国各地区消费和收入数据 Eviews//example1
总体回归方程:
E( yi ) a xi
样本回归直线:
yˆi aˆ ˆxi
(i 1,2,n)
(i 1,2,n)
(1)基本假定
对随机项(干扰项)的假定 假定1:零均值 假定2:同方差 假定3:无自相关
*假定4:服从正态分布
对解释变量的假定(或是对数据的假定) 假定1:非随机性 假定2:与随机项不相关 假定3:没有完全的线性关系 假定4:X要有变异性。
线性: 无偏性:
ˆ ki yi kiui
(1 n
xki
)
yi
E(ˆ) E(ˆ )
最小方差性:
Var(ˆ )
2 u
xi2
V ar(ˆ )
2 u
n
xi2 xi2
参数估计量的抽样分布
*假定4:扰动项服从正态分布 (1)正态分布仅涉及两个参数。 (2)正态分布的任意线性组合仍是正态分布。 (3)中心极限定理作保证。
统计量与抽样分布
样本平均数、样本方差、样本K阶原点距 样本K阶中心距
总体
统计量
样本
数理统计的核心
(2)几种重要的分布
正态分布与标准正态分布
2分布
t分布 F分布
定义 形状 各分布之间的关系
(3)几个重要的定理
定理1:样本均值 定理2:“样本方差” 定理3:“样本均值与方差” 定理4:“不同样本”
2 u
2 i
n2
yi2 ˆ xi yi
n2
结论:在正态性假定条件下,除了满足BLUE性质以外,
截距和斜率的OLS估计量服从正态分布,随机扰动项的方 差服从Chi-平方分布。
(3)检验
回归参数的t检验
T
ˆ
Vˆ
( )
ˆ ~ t(n 2) Vˆ (ˆ )
经典线性回归分析
结构框架
一元线性回归
经典线性 回归模型
多元线性回归
线性化模型的回归
基本假定 参数估计 显著性检验 基本假定 参数估计 显著性检验 多项式模型 双曲函数模型 对数线性模型
最小二乘 极大似然
应用
EVIEWS使用1
应用
2.1 数理统计概述
(1)基本概念
总体和样本
对总体和样本的描述 密度函数与分布函数(最完全) 随机变量的数字特征(综合指标) 矩:期望、方差、偏度、峰度
但是,如果t值接近2,这种经验判断的方法就不准确。
回归方程的显著性检验和拟合优度 (1)总离差平方和的分解:
TSS=RSS+ESS
(2)拟合优度(样本决定系数):
(3)回归方程的显著性检验:
F检验的基本思想
F检验的思路
1 无约束条件下的残差平方和 2 有约束条件下的残差平方和 3 统计量:相对约束成本
参数估计量的抽样分布
*假定4:扰动项服从正态分布 (1)正态分布仅涉及两个参数。 (2)正态分布的任意线性组合仍是正态分布。 (3)中心极限定理作保证。
ˆ ~ N(,Var(ˆ))
ˆ ~ N ( ,Var(ˆ))
随机扰动项的估计
随机扰动项方差估计量:通过可观测的变量估计
Prob.
C(1)
3.002455
1.124481 2.670080
C(2)
0.499727
0.117878 4.239372
R-squared 0.666324
Mean dependent var
0.0256 0.0022 7.500909
0.0256 0.0022
7.500000
Y1 Y3
Y2
结论:分布是样本和总体的连接点。
(总体和样本之间的联系在于它们具有相同的分布)
(4)统计推断
点估计与区间估计
点估计: 区间估计: 估计方法
假设检验
(1)基本概念:单一假设和复合假设,原假设和备择假设,两类错误 (2)方法 置信区间法 显著性检验法(一个检验统计量是显著的,其含义是拒绝原假设)
xi y i
x
2 i
x xi x y yi y
最小二乘估计量的性质
数值性质与统计性质
数值性质: OLS估计量纯粹是由可观测量(样本)表示的。 OLS估计量是点估计量。 回归直线通过样本均值。 残差的均值为零。
最小二乘估计量的统计性质(BLUE性质) 高斯—马尔科夫定理
计算与分析:EVIEWS
一元线性回归方程应用:时间序列
检验模型的结构稳定性:Chow检验
步骤1:全部样本进行回归。 步骤2:不同时期样本回归。 步骤3:构造统计量。 步骤4:假设检验。
S 4 /(n1 n2 2k ) F
S5 / k
英国个人储蓄与收入(eviews//example3)
计算结果:SAVE=C(1)+C(2)*INCOME