第三讲 多元线性回归模型检验及stata软件应用(1)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

p

F0
F 拒绝域
不能拒绝域
3.关于拟合优度检验与方程显著性检验的关系

R
2
RSS / (n k ) 1 TSS / (n 1) 与
2
ESS / ( k 1) F RSS / ( n k )
/ (k 1) R 或 F (1 R 2) / (n k
2
可推出
R
3. 调整的可决系数
在样本容量一定的情况下,增加解释变量必 定使得自由度减少,所以调整的思路是:将残差平 方和与总离差平方和分别除以各自的自由度,以 剔除变量个数对拟合优度的影响:
R
2
RSS / (n k ) 1 TSS / (n 1)
其中:n-k为残差平方和的自由度,n-1为总体平 方和的自由度。
由于
(Y
i
ˆ )(Y ˆ Y ) e (Y ˆ Y ) Y i i i
条件:模型必须有截距项
=0 所以有:
2 2 ˆ ˆ TSS (Yi Yi ) (Yi Y ) RSS ESS
有意思的是:
Y Y Y Yˆ Yˆ Y Y Y Y Yˆ Yˆ Y Y Y Y Yˆ Yˆ Y
Source Model Residual Total gr wk fe ar _cons
14 9465218.37 t -0.16 8.62 8.34 -2.63
Std. Err. .5062903 .5186371 .0834003 16648.64
置信区间
系数
标准差
T值
p值
Stata 操作 Stata 操作 命令行格式:最常用的方法
i i
)
(2) t检验统计量
若H0为真,则
t
(b i )
3. 判断
b S (bi)
i

t (n k )
给定显著性水平,可得到临界值t/2(n-k), 由样本求出统计量t的数值,通过 |t| t/2(n-k) 或 |t|t/2(n-k)
来拒绝或不能拒绝原假设H0,从而判定对应的解 释变量是否应包括在模型中。
k
对称区间,中心是bk,半径是
b t (b ) ( ) S bk
k k k
r S (b ) t (n k )
k k
p t(bk )
k

t

2
(n k ) 1

2
P b r
k k
bk r k 1

如何才能缩小置信区间?
•增大样本容量n,因为在同样的样本容量下,n越大,t分布表中的临界值越 小,同时,增大样本容量,还可使样本参数估计量的标准差减小;
1. 问题的提出 (1)区间
b
k k k
k
rk
误差 注意:不是先有区间,让 k 掉进去,而是先有 k ,再找个 区间把它罩住。
b r
(2)置信
k
bk r k
置信度=把握程度
比如,置信度=95%的意思是在100个 区间里,有95个区间包括 k 。
2. 的置信区间
i i i i i 2 2 2 i i i 2 2 i i i i
2
2. 可决系数
ESS RSS R 1 TSS TSS
2
该统计量越接近于1,模型的拟合优度越高。 问题:
在应用过程中发现,如果在模型中增加一个解 释变量, R2往往增大(?)
这就给人一个错觉:要使得模型拟合得好,只 要增加解释变量即可。 但是,现实情况往往是,由增加解释变量个 数引起的R2的增大与拟合好坏无关,R2需调整。
n 1 1 n k (k 1) F
)
二、变量的显著性检验(t检验) 方程的总体线性关系显著每个解释变量对被 解释变量的影响都是显著的 因此,必须对每个解释变量进行显著性检验, 以决定是否作为解释变量被保留在模型中。 这一检验是由对变量的 t 检验完成的。 1. 检验假设 H0:i=0 H1:i0
(i=1,2…k)
2. 检验统计量
当 已知时 用正态N 当 未知时 n 50 也可用正态N n很小 用t分布
2 2
(1) t 变量
b t (b ) ( ) S bi
i i i
其中 S (bi) S ( X X)
2 1 ii
1
X) b ~ N ( , ( X
p/2 / 2
p/2 / 2
0

如果p<,则 p/2< /2, t0
落入拒绝域, 应拒绝H0
-t/2
拒绝H0
t0 t / 2
拒绝H0
不能拒绝H0
当P 值小于等于给定显著性水平时,所研究的解释变量对被 解释变量的影响在该显著性水平下是显著的; 当P 值大于给定显著性水平时,所研究的解释变量对被解释 变量的影响在该显著性水平下是显著的。
•提高模型的拟合优度,因为样本参数估计量的标准差与残差平方和呈正比, 模型优度越高,残差平方和应越小。
( X X ) 的分母 •提高样本观测值的分散度,一般情况下,样本观测值越分散, 的
1
X X
的值越大,致使区间缩小。
回归平方和
残差平方和
总平方和
reg gr wk fe SS 121450643 11062414.3 132513057 Coef. -.0794269 4.469721 .6956167 -43740.32 ar df 3 11 MS 40483547.7 1005674.02
源自文库
F检验的思想来自于总离差平方和的分解式: TSS=ESS+RSS
ˆ i2 是解释变量 X 的联合体对被解 由于回归平方和 ESS y
释变量 Y 的线性作用的结果,考虑比值
ESS / RSS

ˆ i2 y
2 e i
如果这个比值较大,则X的联合体对Y的解释程度 高,可认为总体存在线性关系,反之总体上可能不存 在线性关系。 因此,可通过该比值的大小对总体线性关系进行推 断。

tabulate vid, gen(vdumy) Xi: reg y x1 x2 i.vid
变量的命名: 性别:gender 1=female, 0=male 不好 female 1=female, 0=male
产生变量

bysort hhid: gen order=_n
bysort hhid: gen number=_N _n:是产生排序的数列 _N:产生总数
R 1 (1 R
2
2
n 1 ) nk
3.3 统计推断
一、方程的显著性检验(F检验) 方程的显著性检验,旨在对模型中被解释变 量与解释变量之间的线性关系在总体上是否显著 成立作出推断。 1、检验假设
即检验模型
Y=1+2X2+ +kXk+

中的参数i是否显著不为0。 可提出如下原假设与备择假设: H0: 2=3= =k=0 H1: i不全为0
直接拷贝,粘贴到stata中
使用Stat
transfer把其它格式的数据转成 stata格式的数据 读入ASCII格式数据文件:比较麻烦
产生或改变变量
gen replace egen (对gen的扩展,与一些函数结合使用,如 mean, count, min, max 等) 产生虚拟变量
F值
Number of obs = 15 P值 F( 3, 11) = 40.26 R2 Prob > F = 0.0000 R-squared= 0.9165 调整的 Adj R-squared = 0.8938 R2 Root MSE= 1002.8 P>t 0.878 0.000 0.000 0.024 [95% Conf. -1.193764 3.328208 .5120539 -80383.72 Interval] 1.034911 5.611233 .8791796 -7096.921
2. 检验统计量
根据数理统计学中的知识,在原假设H0成立 的条件下,统计量
ESS / (k 1) ~ F ( k 1, n k ) F RSS / (n k )
服从自由度为(k-1 , n-k)的F分布 给定显著性水平,可得到临界值F(k-1,n-k),由 样本求出统计量F的数值,通过 F F(k-1,n-k) 或 FF(k-1,n-k)
来拒绝或不能拒绝原假设H0,以判定原方程总体上的 线性关系是否显著成立。
p 值检验法
为了方便起见,将F统计量的 值记为F0 计算 p=P{F> F0} 称为p 值(p-value ) 如果p> ,则p/2> /2, F0 落入不能拒绝域,不能拒绝H0, 如果p< ,落入拒绝域,应拒 绝 H 0。 准则: 当P 值小于显著性水平时, 方程在给定显著性水平下是 显著的 当P 值大于显著性水平时, 方程在给定显著性水平下是 不显著的。
xi: reg c y i.t
常见数据格式
格式:dta 文本格式:txt Excel格式:xls 其它格式:sas、spss、gauss等
Stata
读取数据
用use命令调入数据:dta格式数据
use “d:\stata\data\auto.dta”, clear
Excel格式数据的读取
**关于P值:以t统计量的观测值作为临界值,并计算该检 验的响应显著水平,这就是P值。
P值检验法(p-value test)
p 值的概念: 为了方便,将 t 统计量的值记为

t0
j
Se j


计算 称为p
p=P{|t|>t 0}
值(p-value )

通常的计量经济学软件都可自动计算出p 值
给数据或变量加注释
Label
data “Investment : cfliu 2006” label variable v1 " county “ label define 与 label values 是一起使用的。 而label variable 是单独使用的。 另外,比如 有个变量 gender 的值 为 0和1,1表示male 0 表示female。 你如果用table gender x1 ,会发现是按照 0 1来显示分类的。 你如果用了 .label define gendervalue 0 female 1 male .label values gender gendervalue 在执行table gender x1 ,则是按照female 和 male来分类的。 但 gender 还是原来的变量类型,如原来是数值型,现在还是。 虽然list sex 显示为female male,但仍然可以按照 0或1来操作.
use “d:\data\auto.dta”, clear /*打开数据库*/
regress y x1 x2 x3

菜单格式:
Stata8以后开始有菜单 选择菜单进行操作后,在命令栏里可以看到命令行
格式是如何写的。
Stata的主要功能
数据管理:data management 统计功能:statistics 作图功能:graphics 矩阵运算:matrix 程序设计:programming

数据管理
作图功能
统计功能
数据管理
数据读取 编辑数据 产生或改变变量:gen, egen, 保存数据库 数据集的重新组织:reshape 合并和添加数据:merge, append

Log using e:\panel Log close

Tabulate t, gen (tdummy)
第四章 多元线性回归模型检验
拟合优度检验 方程的显著性检验(总参数的F检验) 变量的显著性检验(单参数的t检验) 构造置信区间
3.2 拟合优度检验

可决系数与调整的可决系数
1. 总离差平方和的分解
观测值对均值的 分散程度、偏离程度 拟合值对均值的 分散程度、偏离程度 观测值对拟合值的
TSS (Yi Y ) 2 分散程度、偏离程度 ˆ ) (Y ˆ Y )) 2 ((Yi Y i i ˆ ) 2 2 (Y Y ˆ )(Y ˆ Y ) (Y ˆ Y )2 (Yi Y i i i i i
4. 两类错误 不拒 H0 拒 H0
H0 真 对 拒真 Ⅰ
H0 伪 取伪Ⅱ 对
Ⅰ:拒真。把不应该引入的变量引入模型,导致多列 无关变量,造成虽然参数估计值是无偏,但标准差会 大。 若不想犯第一类错误,则显著水平需要定得小点。 Ⅱ:取伪。把不该引入的变量引入模型 造成参数估计量有偏。 遗漏变量
三、参数的置信区间
相关文档
最新文档