第四章 多元回归统计
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第四章多元回归分析:推断
第四章多元回归分析:推断 为什么要做统计推断
确定估计量可能的分布情况
对估计量进行检验
找到置信区间
前提假定
假定MLR.6(正态性)
总体误差u 独立于解释变量,而且服从均值为零
和方差为的正态分布: 经典线性模型假定(CLM ):MLR.1-MLR.6
高斯-马尔科夫假定:MLR.1-MLR.5
k
x
x x ,,,21L 2σ2(0,)
u Normal σ∼
第四章多元回归分析:推断
误差项在回归模型周围满足正态分布,且分布的均值和方差不依赖于解释变量。
所以,误差项的正态性导致了因变量分布的正态性
第四章多元回归分析:推断
关于误差项正态分布的讨论
误差项中包含了许多影响因变量y而又不可观测因素
对单个不可观测因素而言,可以用中心极限定理断定其服从近似正态分布
同时,假定所有不可观测因素独立又可加总后服从正态分布同时假定所有不可观测因素独立又可加总后服从正态分布 而是否可以假定u满足正态分布是一个经验问题:
例如工资不满足正态分布因为工资不低于0
可以通过取对数让其更接近于正态分布
通常小样本不容易满足正态分布的性质
误差项的正态性导致了OLS估计量的正态抽样分布
第四章多元回归分析:推断
定理4.1 (正态抽样分布)
在CLM假定下,以自变量的样本值为条件,有
因此,
见第三章
标准化
第四章多元回归分析:推断 检验单个总体参数的假设:t 检验
定理4.2 标准化估计量的t 分布
(n-k-1)为回归的自由度;当自由度极大时,t 分布接近于标准正态分布 目标:利用小概率原则构造一个拒绝规则:小概率事件不可能发生,以此来检验(原)假设
原假设
含义:总体参数等于0;即当控制其他变量时,x j 对y 没有影响 注意:是检验总体参数,而不是样本的估计值ˆj
βj β
检验估计值与零是否相差很远
第四章多元回归分析:推断 对单侧备择假设的检验
检验原假设-备择假设- 构造一个统计量能够帮助判断是否拒绝原假设
1确定个显著性水平常用的是0:0
j H β=1:0
j H β>1.确定一个显著性水平:常用的是1%、5%和10%水平
2.根据选择的显著性水平和自由度(n-k-1)找出临界值c
3.确定拒绝法则:如果则在5%的水平上拒绝H 0并支持H 1
ˆj t
c β>例如:在自由度为
28的估计中,临界值为1.701,如果t-值大于1.701就拒绝原
假设
第四章多元回归分析:推断 例:工资方程
分析教育、工作经历和终身制对工资水平的影响
如何检验?
括号中为标准误
检验v.s..
第四章多元回归分析:推断 例:工资方程(续)
t-统计量
自由度
工作经历对工资的影响在1%(5%)的在统计上不同于05%和1%水平的临界值
第四章多元回归分析:推断 参数小于零的单侧备择假设
检验原假设-备择假设 当估计的参数足够小时(小于临界
值),拒绝原假设
首先选择一个概率其次根据自由
0:0
j H β=1:0
j H β< 首先选择个概率,其次根据自由度找出相应的临界值,再次与估计参数的t-统计量进行比较
本例中,选择5%的概率,自由度为28,临界值为-1.734。
阴影部分的t-统计量都要拒绝!
第四章多元回归分析:推断 例:学生成绩与学校规模
检验小规模学校会导致学生的成绩好一些
不能说:检验小规模学校是否会让学生成绩好一些数学成绩通过率平均教师年薪每千名学生拥有的教职工数学生人数
检验v.s..
薪
第四章多元回归分析:推断 例:学生成绩与学校规模(续)
能在5%水平拒绝原假设吗?不!
能在15%水平拒绝原假设吗?不!
5%水平的临界值
15%水平的临界值
第四章多元回归分析:推断
例学生成绩与学校规模(续)
另一种模型设定
检验v.s..
第四章多元回归分析:推断 例学生成绩与学校规模(续)
要拒绝原假设(学校规模对学生数学成绩没有影响)
如何解释系数?
当学校规模增加1%是,数学成绩降低0.0129
第四章多元回归分析:推断
双侧备择假设
检验原假设-
备择假设-
类似单侧备择假设检验的过程
当构建的t-统计量绝对值足够大时,
拒绝原假设,即t-统计量在左侧阴影范
拒绝原假设即t
围内
当显著性水平为5%时,应当选择显
著性水平为2.5%的临界值(如左图)
第四章
多元回归分析:推断 例大学生的GPA 的决定因素
缺课次数
努力程度高中时期的高中的GPA 对大学GPA 的作用在1%水平上显著
统计水平上不显著异于0
努力程度对GPA 没有显著影响缺课次数对GPA 的负向影响在1%水平上显著不
同于0GPA
第四章多元回归分析:推断
“统计上显著变量”的含义
在双侧检验上显著不同于零的变量称为统计上显著 大样本(自由度足够大)时,t-分布接近于正态分布,因此有常用的近似t检验临界值如下:
|t-统计量|>1.645: 在10%统计水平上显著
|t-统计量|>1.96: 在5%统计水平上显著
|t-统计量|>2.576 在1%统计水平上显著