第四讲 多元回归分析:推断
第四讲回归分析回归诊断.
![第四讲回归分析回归诊断.](https://img.taocdn.com/s3/m/1b0b3b34cfc789eb172dc82f.png)
看数据,一眼就能发现数据(5)其X3的 值突出的高。 然后再分析其背景
强影响点
数据集中的强影响点是指那些对统计量的 取值有非常大的影响力的点。在考虑强影 响点时,有几个基本问题需要考虑: 首先必须明确“是对哪个统计量的影响?” 例如,对线性回归模型所考虑的是对回归 系数的估计量的影响;不是对误差方差的 估计影响;或是对拟合优度统计量的影响 等等。分析目标不同,所考虑的影响亦有 所不同。
在另外一些情况下,异常点的出现是由于 人为差错或者仪器的故障所引起的。 在我们需要根据样本对模型进行参数估计 或者根据模型对将来进行预测与控制的时 候,异常点的出现会对我们的工作产生很 强的影响,这样的结果是令人怀疑的。 因此,异常点的研究受到了广大研究者的 重视,自Bernoulli首次提出了异常点的概念, 接下来对异常点的概念、类型以及处理问 题的讨论一直没有停止过。
其次,必须确定“度量影响的尺度是什么?”为 了定量地刻划影响的大小,迄今为止已提出多种 尺度,基于置信域的尺度,基于似然函数的尺度 等等。 在每一种类型中又可能有不同的统计量。每一种场合下较为有效。这一方面反映了度量影响问题 的复杂性,另一方面也说明了影响分析的研究在 统计诊断中是一个甚为活跃的议程。
对于由第三种成因引起的异常点,发现 之后可以进行删除,以免影响参数估计 等以后的工作效果。 另外一种方法就是对于异常点采取容忍 的态度,把整个数据集作为研究的基础, 对于一定比例的坏数据或者远离数据中 心的数据采取一定的容忍或适应政策
回归系数一般采用“最小二乘估计”(least squares estimator,LS estimator)求解,但是在应用中容易忽 视的问题是LS估计只有在数据满足相应条件的情况 下才会具有统计描述和推断的优良性质,如要求误 差服从正态分布、总体方差相同且相互独立等。 当实际数据没有近似满足这些假定时,就会出现一 些异常点(outliers)、杠杆点(leverage point)及影 响点(influential observations),使分析结果变得不可靠, 不能发现数据中的真实结构,从专业上难以解释结 果,甚至得到完全错误的结论。尤其是随着统计软 件的日渐普及,我们倾向于简单地将数据交给软件 来分析,而不注意具体方法的应用条件,尽管采用 了SAS、SPSS这些国际标准软件,但是输出结果有 时却与专业解释相悖。
计量经济学(多元回归分析推断)
![计量经济学(多元回归分析推断)](https://img.taocdn.com/s3/m/40db7b016c175f0e7cd13762.png)
系数显著性检验
目的是检验某个解释变量的系数βj是否为0,即 一旦对������1 , ������2 , ⋯ , ������������−1 , ������������+1 , ⋯ ������������ ,该解释变量是 否对因变量有显著影响(偏效应)。
原假设 H0: βj=0 备择假设 H1: βj≠0
图4-1
图4-2
– 双侧对立假设的P值= ������(|������| > |������|),其中T表示一个自 由度为n-k-1的t分布随机变量,而t表示该计量结果中检 验统计量的数值。这意味着在小于p值的显著性水平上, 我们不能拒绝原假设;在大于p值的显著性水平上,我 们可以拒绝原假设。
多元线性回归模型
推断
• 1.零条件均值假定(u的均值为零) ������(������������ )=������������ • 2.同方差假定:u的方差为������ 2 ������ 2 ������������������ ������������ = ������������������������ (1 − ������������ 2 )
11
例:柯布-道格拉斯生产函数 用美国1899-1922年制造业数据估计经过线性变换 的计量经济模型
log Y log A log K log L log v
得到如下结果(括号内数字为标准误差) :
ˆ 0.18 0.23 log K 0.81 log L log Y (0.43) (0.06) (0.15) R 2 0.96
– 通常利用对数变换可以得到更接近于正态的分布。 – 如果y仅取少数几个值,或仅取正值,则正态性假定明显不成立。 但相对于很大的样本容量来说,误差的非正态性不算严重的问题。
第四章多元回归分析:推断
![第四章多元回归分析:推断](https://img.taocdn.com/s3/m/a020fc0233687e21af45a9b1.png)
受教育年限与每小时工资 yˆ 0.0144 0.7241x
如果受教育年限的单位为月
yˆ 0.0144 (0.7241/12)(12x) 0.0144 0.0603z
如果受教育年限的单位为日 yˆ 0.0144 (0.7241/ 365)(365x) 0.0144 0.0020w
se(ˆ)=se(ˆ ˆ)= Var(ˆ) Var(ˆ)+2Cov(ˆ, ˆ)
能否直接将作为模型参数进行估计?
= + = -
原模型变换为:
ln Q=lnA+lnK+(-)lnL+u
即:
lnQ=lnA+ln(K/L)+lnL+u
若定义参数:
= +-1
原假设变为标准的显著性检验:
H0: =0
H0:j=0
H1: j0
相应的检验为双侧检验(two-tailed test) 单侧备择假设:
H0:j=0
或者
H1: j>0
H0:j=0
H1: j<0
相应的检验为单侧检验(one-tailed test)
➢ 双侧检验
若原假设成立:
j=0
tˆ j
ˆ j j se(ˆ j )
ˆ j se(ˆ
j
受约束模型,即认为原假设成立时的模型:
ln(salary)=0+1 years+2gamesyr+u
若原假设真的成立,即 3= 4= 5=,0 不受约束模 型和受约束模型的估计结果应该差异不大,两者的残差平 方和(SSR)应该比较接近
若 tˆj t/2(n k 1),拒绝H0,xj对y的影响是统计显著的。 若 tˆj t/2(n k 1),不能拒绝H0,xj对y的影响统计上不显著。
第4章 多元回归分析:推断
![第4章 多元回归分析:推断](https://img.taocdn.com/s3/m/e3eca9c48bd63186bcebbc2e.png)
ˆ ~ Normal[ ,Var ( ˆ )] j j j ˆ ) 在第 3 章[方程(3.51)]中给出。因此, 其中 Var ( j ˆ ) / sd ( ˆ ) ~ Normal(0,1) (可以写成 ˆ 给定附录 B 中正态分布随机变量的性质, 证明定理(4.1)并不困难。 每个 j j
log( wage) 0 1educ 2 exp er 3tenure u.
虚拟假设 H0: 2 =0 意味着,只要对教育程度和现职任期进行了解释,工作年数(exper)对小时工资就没有 影响。这是一个有经济意义的假设。如果它是正确的,那就意味着,一个人在现任职之前的工作经历并不 会影响工资。如果 2 >0,则以前的工作经历会提高生产力,并因此提高工资。 你可能记得,在统计学教程中,学过对正态总体的均值进行假设检验的入门知识。 (附录 C 复习了这部 分内容。 )在多元回归背景下检验(4.4)的过程与此十分类似。虽然困难的部分在于得到系数估计值、标准误 和临界值,但多数工作都可以由计量软件自动完成。我们的任务是,了解如何用回归结果来检验我们关心 的假设。 我们用来检验(4.4)(相对任何一个对立假设)的统计量被称为 j 的“所谓”t 统计量(tstatistic)或“所谓” t 比率(t ratio),并被定义为
为 nk1 的 t 分布,并没有加深多少我们的见识。本质上讲,对它的证明表明,(4.3)可写成标准正态随机变
ˆ ) / sd ( ˆ ) 与 ˆ / 的平方根之比。 ˆ / 量 ( 可以证明二者是独立的, 而且 (n k 1) j j j
2 2
2
2
2 ~ n k 1 。
那我们就必然假定了 MLR.3 和 MLR.5。 为了强调我们现在所做的假定比以前多, 我们将使用从假定 MLR.1 到假定 MLR.6 的全套假定。 就横截面回归中的应用而言,从假定 MLR.1 到假定 MLR.6 这六个假定被称为经典线性模型(CLM)假 定(classical linear model assumptions)。于是我们将这六个假定下的模型称为经典线性模型 (classical linear model)。最好认为 CLM 假定包括了所有的高斯-马尔科夫假定,再加上误差正态分布的假定。
计量经济学4 多元回归分析:推断
![计量经济学4 多元回归分析:推断](https://img.taocdn.com/s3/m/a906620ca6c30c2259019e22.png)
1.701
拒绝域
Example:小时工资方程
ˆ ) 0.284 0.092educ 0.0041exp er 0.022tenure log( wage (0.104) (0.007) n 526, R 0.316
2
(0.0017)
(0.003)
标准误
ˆ ? H0 : exp er 0 ? H 0 : 0.0041 0
4.2.3 双侧对立假设
H1 : j 0 (4.12)
当经济理论(或常识)没有很好的说明j的 符号时,这是一个恰当的对立假设。即便知 道j在对立假设中的符号,采取双侧检验也 是明智的——避免根据回归方程中参数估计 值来提出对立假设。
双尾检验的拒绝法则:
tˆ c
j
(4.13)
如果在5%的显著性水平上拒绝H0并支持H1,则称 xj是统计显著的,否则称xj是统计上不显著的。
随着t分布的自由度逐渐变大,t分布会 接近标准的正态分布——df大于120, 就可以使用标准正态分布的临界值。
例子:5%的显著性水平,df=n-k-1=28,临 界值c=1.701
面积 =0.05
0
在显著性水 平是1%时 统计上显著
在显著性水 平是5%时 统计上不显著
小结:t统计量检验显著性原理
如果H0成立, P{|t|>t /2}= {|t|>t /2}是小 概率事件,如果该事 件在一次抽样中就出 现,说明假设H0值得 怀疑,应当拒绝H0
/ 2
/ 2
0
-t/2
拒绝H0
是总体未知的特征, 而且永远不会确定的 知道它们。但可以做 出假设,然后通过统 计推断来检验假设
4.2.1 定理及概念
第四讲多元回归分析(共72张PPT)
![第四讲多元回归分析(共72张PPT)](https://img.taocdn.com/s3/m/7728c90253d380eb6294dd88d0d233d4b14e3f02.png)
引入或剔除变量的依据
• 依据是偏回归平方和 逐步回归分析是按照各自变量对因
变量作用显著程度大小来决定其是否引 入还是剔除。用于衡量各自变量对因变 量作用大小的量是它们对因变量的“贡 献”,即偏回归平方和。
逐步回归方程的矩阵变换计算法
计算量大,且由于某个因子的引入使变得不显著的其他因子仍然留在方程中。 “逐步引入法”(原理、局限性) 建立“最优”回归方程的方法 属于多元统计分析方法之一。 利用回归方程进行预测。 对回归方程、参数估计值进行显著性检验。 从一个因子开始,逐个引入回归方程,因子引入后概不剔除。 回归分析的研究思路和步骤 回归分析方法又称因素分析方法、经济计量模型方法。 利用回归方程进行预测。
回归模型的变量子集合的选择(回 归变量的选择)
第二节 逐步回归分析
• 逐步回归分析的原理 • 引入或剔除变量的依据 • 逐步回归方程的矩阵变换计算法 • 具体实例以及计算步骤 • 计算机软件应用举例
逐步回归分析的原理
“最优”回归方程的选择
所谓“最优”的含义:回归方程中包含所有对y影响比较显著 的变量,而不包括对y影响不显著的变量的回归方程。 必要性:用于预测、控制
经济计量学第四讲(2)多元回归分析:推断问题
![经济计量学第四讲(2)多元回归分析:推断问题](https://img.taocdn.com/s3/m/5969321f10a6f524ccbf858f.png)
F ( RSS
R
RSS
UR
UR
)/m
RSS
2 R
/( n k )
线 性 约 束 个 数
ˆ ( u
uˆ
2 UR
)/m
ˆ2 u UR /( n k )
无约束回归中的参数个数
东北财经大学数量经济系
第六节 比较两个回归:检验回归模型的结构稳定性
一、引例 二、邹检验的步骤
估计线性模型,得到Y的估计值Yf。
估计对数—线性模型,得到lnY的估计值lnf。
计算出Z1=(lnYf-lnf)。
做Y对诸X和Z1的回归。如果Z1的系数统
计显著,就拒绝零假设。 计算出Z2=( lnf的反对数- Yf ) 。 做Y对诸X和Z2的回归。如果Z2的系数统 计显著,就拒绝备择假设。 东北财经大学数量经济系
(一)基本思想
三变量回归的方差分析表
方差来源 来自回归(ESS) SS df
2 i
MSS
ˆ y
2
n3
2
ˆ2 yi
来自残差(RSS)
ˆ2 ui
ˆ2 u i /( n 3 )
总计(TSS)
y
2 i
n 1
u服从正态分 布和联合假设
相等 东北财经大学数量经济系
ESS>RSS
(一)基本思想
2 i
MSS
R ( yi )
2 2
R
2
( y )
2
k 1
y )
2 i
k 1
来自残差(RSS)
(1 R ) (
nk
n 1
(1 R )( y i )
四、多元回归分析:推断
![四、多元回归分析:推断](https://img.taocdn.com/s3/m/77784268561252d380eb6e91.png)
+ β 4 hrunsyr + β 5 rbisyr + u • 式中,salary为1993年总薪水;years为加入俱乐部 的年数;gamesyr为平均每年比赛的次数;bavg为 平均职业击球次数;hrunsyr为平均每年的本垒打次 数;rbisyr为每年的击球跑垒得分。
• 我们想检验的是:一旦控制了加入俱乐部的年数和 每年的比赛次数,度量球员表现的统计指标 (bavg,hrunsyr & rbisyr)对薪水有没有影响。零假设 可表示为: H 0 : β 3 = 0, β 4 = 0, β5 = 0 • 这里零假设称为多重约束,对多重约束进行的检验 称为多重假设检验(multiple hypotheses test)或联 合假设检验(joint hypotheses test)。相应的对立假 设为 H1 : H 0不正确
H0 : β j = a j
t=
• 相应的t统计量为
β j − aj
se( β j )
^
^
• 下面以两个例子来说明这种检验方法。
校园犯罪与注册人数
• 考虑大学校园内犯罪次数(crime)和学生注册人数的一个简 单模型
log(crime) = β 0 + β1 log(enroll ) + u
• 利用美国1992年97个大学和学院的数据,针对 β1 > 1 来检验 β1 = 1 。数据来源于联邦调查局的《统 一犯罪报告》。回归结果如下:
(0.104)
(0.007)
~
(0.0017)
(0.003)
R 2 = 0.316 • 针对exper对log(wage)的影响,考察下面三种检验: (1)H 0 : β exp er = 0, H1 : β exp er > 0 拒绝零假设;
多元统计分析第四章多元回归分析
![多元统计分析第四章多元回归分析](https://img.taocdn.com/s3/m/bb1a1039ec630b1c59eef8c75fbfc77da3699754.png)
多元统计分析第四章多元回归分析第4章多元回归分析简单说,回归分析是根据统计资料建⽴经验公式的统计⽅法。
例如统计若⼲焊接点数据,从⽽建⽴由焊接点直径预报焊点剪切强度的预报公式;⼜如统计若⼲棵松树的胸径与材积(可利⽤⽊材体积),建⽴由胸径预报材积公式,也⽤到回归分析⽅法。
当然回归分析不只是建⽴预报公式,还要对预报误差的⼤⼩,预报公式的合理性等问题讨论,有着⾮常丰富的内容。
回归分析可⽤于预测和控制,在⾃然科学,社会科学和应⽤技术中都有重要应⽤,它是统计学最重要的⼯具。
回归分析⽅法和理论从Gauss提出最⼩⼆乘法开始,⾄今已近200年,⽬前仍在蓬勃发展,例如在回归诊断、维度缩减、半参数回归、⾮参数回归、LOGISTIC 回归等⽅向不断有新的突破。
本章介绍参数回归分析模型及其参数估计、检验、模型选择等理论和有关计算⽅法。
参数回归分析主要分三类:线性回归、可以转化为线性回归的回归和⾮线性回归。
本章依次介绍这三类模型。
有关回归分析的⼀般理论可参见陈希儒(1984),⽅开泰(1988),Seber(1976),何晓群(1997),何晓群、刘⽂卿(2001)、Richard(2003)。
Robert(1999)和王吉利(2004)提供了许多有趣的应⽤例⼦。
4.1多元线性回归模型⾸先让我们看⼀个例⼦:x表⽰⽬标例4.1 对15个地区调查某种护肤霜销量得表4-1,其中y表⽰销量(打),1x表⽰⼈均可⽀配收⼊(美元)。
试建⽴由⽬标⼈⼝和⼈均可⽀配收⼊预⼈⼝数(千⼈),2测销量的公式。
表4-1 护肤霜销量数据这个问题中,每个地区销量受该地区⽬标⼈⼝数和⼈均可⽀配收⼊数影响,3个变量y 、1x 、2x 间存在密切关系。
但是它们的关系不是确定性关系⽽是相关关系。
常见的变量间关系分为两⼤类:确定性关系和相关关系。
确定性关系也称为函数关系。
具有确定性关系时,⾃变量完全确定因变量的值。
例如存款的年利率c 固定,那么存款数z 与总利息y 的关系就是确定性关系;z 知道后,y 就由y=cz 确定。
第四章 多元回归分析
![第四章 多元回归分析](https://img.taocdn.com/s3/m/6211f2bac77da26925c5b0d9.png)
F统计量(接上页)
• 要确定当我们的模型变为受约束时,SSR 的增加是否“足够大”,让我们有理由拒绝排 除条件(exclusions),我们需要知道我们 的F统计量的样本分布信息 • 可以证明,F ~ Fq,n-k-1,其中 q 被称为分子 自由度,n – k – 1 被称为分母自由度
F统计量(接上页)
f(F)
不能拒绝
如果F > c在α的 显著性水平上拒 绝 H0 α
c 拒绝
(1 − α) 0
F
F 统计量的 R2 形式
• 因为SSR可能大而难处理,有上面公式的替代 形式 • 我们利用恒等式SSR = SST(1 – R2) 把公式中 的 SSRu 和 SSRur 掉
F≡
(1 − R ) ( n − k − 1)
( SSRr − SSRur ) q , 其中: F≡ SSRur ( n − k − 1)
r表示受约束,ur表示不受约束
F统计量
• F 统计量总是正的,因为受约束模型的SSR 不可能比无约束模型的 SSR 小 • 事实上, F 统计量度量的是从无约束到受 约束模型, SSR 的相对增加量 • q = 约束的个数,或者 dfr – dfur • n – k – 1 = dfur
Eviews和P值,t 检验等
• 大多数计算机软件包(computer packages) 都会为你计算双边检验的P值。 • 如果你真的想做单边检验,那么把双边检 验的P值除以2 • Eviews提供 H0: βj = 0 的t 统计量, P值和 95%置信区间,分别列在标为 “t”, “P > |t|” 和 “[95% Conf. Interval]”列中
•
•
t 检验
定理2、在MLR1到MLR6的假设下,
3.多元分归分析2:推断
![3.多元分归分析2:推断](https://img.taocdn.com/s3/m/741a7baf1a37f111f1855b89.png)
5
t检验:单个估计参数的显著性
ˆ 2 代替s 2 ,因此 由于以 s ˆ b b j j tn k 1 ˆ b j
j
ˆ 2/s 2 服从卡方分布 s
tn k 1 服从标准正态分布
零假设: H0: bj=0
第j个解释变量没有解释作用 在控制了其他变量的情形下,第j个变量对被解释变量没 有解释作用
−������
������
′
������ ������′������
−������
−������
������
′ −������
(������������ − ������)
������ = ������ ������′������ ������的方差矩阵为, ������������������ ������ = σ ������′������
1 2 1 2 2 1 2 2 1 2 1 2 1 2 12 12 1 2
通常给出的回归结果并不包括s12,大多数的软件可以直接给 出检验结果 某些线性组合检验可以通过构造变量交叉乘积的方式来实现
Stata
reg y x1 x2 … xk test x1 = x2
14
例:
问题:选举花费对选举结果的影响 模型为:voteA = b0 + b1log(expendA) + b2log(expendB) + b3prtystrA + u H0: b1 = - b2或H0: q1 = b1 + b2 = 0 将b1 = q1 – b2代入并整理得到 voteA = b0 + q1log(expendA) + b2log(expendB expendA) + b3prtystrA + u 与模型完全一样,但可以直接得到b1 – b2 = q1的标准差 参数之间的任何现行约束都可以通过类似方式来检验 参数其他线性约束的检验
多元线性回归的推断
![多元线性回归的推断](https://img.taocdn.com/s3/m/8bd5f6409ec3d5bbfc0a7453.png)
2
ui
单个系数的检验
• t检验。 • 我们看下面一个统计量:
T
(ˆ j j ) se(ˆ j )
• 这个统计量服从 t(n k 1)
• 为什么?
• 现在
ˆj : N( j , var(ˆj ))
var(ˆ j
)
2
SSTj (1
R2j )
) 2 ( n u) 2 ) /(n k 1) i 1
2
n
X
2 i
服从n个自由度的
2
分
布。
i 1
补加定理
• 如果 1,2 独立,且都服从卡方分布,自
由度分别为n1和n2,那么 1 2 服从自
由度为n1+n2的卡方分布。
• 看我们的假定6,u服从标准正态分布。
• 那么 uˆi 也服从标准正态分布。但它是通过
计算得出来的,所以在自由度上会有所损失。
• 并且我们也看出来,受限制和不受限制的 自由度应该不同。
常用统计量的分布
• 定理1:设 X1,K , Xn 相互独立,Xi 服从正态分
布
N
(
i
,
2 i
)
,则它们的线性函
数
n
ai
X
i
(ai不会为零,) 也服从正态分布,且
i 1
n
n
E
aii D
a
2i
2 i
i 1
i 1
• 推论:设 (X1,K , Xn ) 是取自正态总体 N(, 2) 的
一个样本,则有:
:
F (n1, n2 )
相互独立,且i : 2(ni )
• 推论:设 X1,K , X n
Y1,K ,Yn
多元回归分析推断
![多元回归分析推断](https://img.taocdn.com/s3/m/d680bf7af5335a8102d220ce.png)
j
n ˆ ˆ b j b j wij u j rij SSR j i 1
计量经济学导论 刘愿
14
定理4.1推广:
ˆ ,b ˆ , ,b ˆ 的任何线性组合也都是正态分布的; 1. b 0 1 k ˆ 的任何一个子集也都有一个联合正态分布。 2.b j
P 拒绝H0 | =1-P 第II类错误|
计量经济学导论 刘愿
5
检验关于正态总体均值的假设
为了相对于一个对立假设而检验一个虚拟假设, 需要挑选一个检验统计量和一个临界值。 给定一个统计量,即可定义一个拒绝规则来决 定什么时候舍弃H0而选取H1.所有拒绝规则都 是拿一个检验统计量的值t来同一个临界值c做 比较作为依据的。 拒绝域:所有导致拒绝虚拟假设的t值的全体。
计量经济学导论 刘愿
6
检验来自一个 Normal , 2 总体的关于均值 的假设。
H0: 0
H1: 0 H1: 0 H1: 0
虚拟假设
单侧对立假设
双侧对立假设
计量经济学导论 刘愿
7
H1: 0
0 当样本均值 y “足够”地大于 时,我们便 应拒绝H0而接受H1。如何确定 已大到足以 y 在选定的显著水平上拒绝H0? 检验统计量t:在虚拟假设下,随机变量t有一 个tn-1分布。
计量经济学导论 刘愿
12
简单回归的同方差正态分布
y
f(y|x)
.
Normal distributions
. E(y|x) = b + b x
0 1
x1
x2
第4讲多元回归分析之推断
![第4讲多元回归分析之推断](https://img.taocdn.com/s3/m/cea72d9bdd88d0d233d46a5e.png)
为了进行检验,我们首先要构造
ˆ 的t统计量: b j
tb ˆ
j
ˆ b j
ˆ se b j
然后利用t统计量和拒绝条件来决定是否接受零假设H0
ˆ 相对0偏离了多少个估计 t统计量 t bˆ j 度量了估计值 b j ˆ 相同。 的标准离差。它的符号与 b j
值得注意的是我们检验的是关于总体参数的假设,而 不是关于来自某一特定样本的估计值的假设。
二、OLS估计量的样本分布
我们已经讨论了OLS估计量的期望和方差,但是为 了进行统计推断(statistical inference),我们仍希望 知道样本分布。 OLS估计量的样本分布依赖于对误差项分布的假设, 下面我们将给出相关的假设。
假设MLR.6 (正态性)(Normality)
我们已经知道当高斯——马尔科夫假设成立时,OLS 是最优线性无偏估计(BLUE)。 为了进行经典的假设检验(hypothesis testing),我们要 在Gauss-Markov假设之外增加另一假设。 假设MLR.6 (正态性):假设u与x1, x2,…, xk独立,且
j
t bˆ c ,则不能拒绝H0
时我们拒绝H0,若 t b ˆ
t bˆ c 时我 j
由于t分布是对称的,如果H0: bj = 0,相应的H1: bj < 0, 当
tbˆ c
j
j
c
,则不
能拒绝H0
单边替代假设 (One-Sided Alternatives) yi = b0 + b1xi1 + … + bkxik + ui
t检验: 单边替代假设 (t Test:One-Sided Alternatives)
第4章 多元回归分析:推断
![第4章 多元回归分析:推断](https://img.taocdn.com/s3/m/e1a7311aa76e58fafab00366.png)
p/2 / α/ 2
p/2 / α/ 2
0
如果p< 如果 α,则 p/2< α/2, t0 ,
落入拒绝域, 落入拒绝域, 应拒绝H0
-tα/2
拒绝H0 拒绝H0
t0 tα / 2
拒绝H0 拒绝H0
不能拒绝H0 不能拒绝H0
值小于等于给定显著性水平时, 当P 值小于等于给定显著性水平时,所研究的解释变量对被 解释变量的影响在该显著性水平下是显著的; 解释变量的影响在该显著性水平下是显著的; 值大于给定显著性水平时, 当P 值大于给定显著性水平时,所研究的解释变量对被解释 变量的影响在该显著性水平下是不显著的。 变量的影响在该显著性水平下是不显著的。
ε
中的参数β 是否显著不为0。 中的参数βi是否显著不为 。 可提出如下原假设与备择假设: H0: β2=β3= … =βk=0 β β H1: βi不全为 不全为0
F检验的思想来自于总离差平方和的分解式: 来自于总离差平方和的分解式: 来自于总离差平方和的分解式 TSS=ESS+RSS
ˆ 由于回归平方和 ESS = ∑ y i2 是解释变量 X 的联合体对被解
j j j
假设检验的一般步骤
一般可以将假设检验的步骤归纳为五个部分。 1.提出原假设和备择假设 原假设(Null Hypothesis)是指通过样本信息来推断正确与否的 命题,也称为零假设。 备择假设(Alternative Hypothesis)是指原假设对立的命题,是 原假设的替换假设。 2.选定适当的检验统计量 如同参数估计,假设检验同样是从抽样分布 抽样分布出发,借助样本统计 抽样分布 量进行的统计推断。在假设检验中的样本统计量称为检验统计量。 检验统计量(Test Statistic)是指根据样本数据计算得到的,对原 假设进行判断的样本统计量。
第4讲多元回归分析推断
![第4讲多元回归分析推断](https://img.taocdn.com/s3/m/97369666680203d8cf2f24c5.png)
n 408 R2 0.0541
H 0 : totcomp 0; H1 : totcomp 0, 0.05
0.00046 0 ttotcomp 0.0001 4.6 t0.05 (404) 1.645 可 以 拒 绝 原 假 设 , 即 认可 为 教 师 年 均 工 资 越 ,高 成 绩 越 高
t检验
p值(p value)/精确的显著性水平(exact level of significance)
一般地,统计软件会默认给出t检验中双尾检验的p值。
双尾检验的p值与单尾检验的p值的关系
对 于 相 同 的tc: 双 尾 检 验 的p值 根 据Prob{| t | tc (n k 1)} p确 定 。 则 对 于 单 尾 检 验 ,Prob{t tc (n k 1)} p/ 2, 或 者Prob{t tc (n k 1)} p/ 2。 因 此 , 单 尾 检 验 的p值 是 双 尾 检 验p值 的1/ 2。
0.91
t0.05 (404)
1.645
不 能 拒 绝 在 校 生 人 数数对学 成 绩 没 有 影 响 的假原设
t检验
例题4_2(课本p118,例4.2)
math10 2.274 0.00046totcomp 0.048staff 0.0002enroll
(6.113) (0.0001)
(0.040) (0.00022)
o 参看课本p127-128,例4.6、4.7
对于参数的一个线性约束的检验
广义的t检验:对于参数的一个线性约束的检验
o 例题:对生产的规模报酬特征的检验
对 于 柯 布- 道 格 拉 斯 生 产 函 数 :Y K 1 L2 eu,
即 :LnY 0 1LnK 2 LnL u H0 : 1 2 1, 即 生 产 的 规 模 报 酬 变 不 H1 : 1 2 1, 即 生 产 的 规 模 报 酬 增 递 令=1 2 1, 则 原 假 设 和 对 立 假 为 设 : H0 : 0;H1 : 0 原 模 型 为 :LnY 0 1(LnK LnL) LnL LnL u
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
H1 : 某一数值 H1 : 某一数值 H1 : <某一数值
双侧检验与单侧检验
1.
2.
备择假设没有特定的方向性 ,并含有符号 “ ”的假设检验,称为双侧检验或双尾检 验(two-tailed test) 备择假设具有特定的方向性 ,并含有符号 “ >” 或“ <” 的假设检验,称为单侧检验或单 尾检验(one-tailed test)
显著性水平
(significant level)
1.事先确定的用于拒绝原假设H0时所必须的证据 2.能够容忍的犯第Ⅰ类错误的最大概率(上限值)
3.原假设为真时,拒绝原假设的概率
抽样分布的拒绝域 常用的 值有0.01, 0.05, 0.10
4. 表示为 (alpha)
5. 由研究者事先确定
计量经济学导论
3
正常人的平均体温是37oC吗?
当问起健康的 成年人体温是 多少时,多数 人的回答是 37oC,这似乎 已经成了一种 共识。下面是 一个研究人员 测量的 50 个健 康成年人的体 温数据
37.1
36.9
36.9
37.1
36.4
36.9 37.6 36.1 37.1 37.0 36.6 36.1 36.7 36.8
36.6 36.7 37.1 36.2 36.7 37.2 37.1 37.2 37.0
36.2 37.3 36.6 36.3 36.9 36.4 37.0 36.3 37.0
36.7 36.9 36.5 37.5 37.0 36.6 36.6 37.1 36.1
36.9 36.4 36.7 36.9 37.1 37.3 36.9 36.7 37.0
和的关系
成反方向 变动
你能同时减少犯 两种错误的概率吗?
20
增大样本容量
第一类错误就是拒真错误,为了降低第一类错误的概率,就要尽 可能的做接受的推断,随之带来的就是可能把假的也当成真的接 受了,这就导致纳伪错误的增加,即增加第二类错误发生的概率。 样本容量固定的前提下,两类错误的概率不能同时减少。 为了同时减少两类错误的概率就得增加样本容量。
犯第I类错误的风险机会是由决策者事先指定的,通常取 为0.10,0.05或0.01。指定了α ,再加上事实上参数真值早已 固定这一前提,就相应地确定了β值。在样本容量一定时, 减少某一类错误的概率必然增大另一类错误的概率。在具体
的问题上,可以视两类错误的危害性,加以权衡,指定适当
的值。如欲同时减小两种风险,就只有增大样本容量。
双侧检验:I统计量I > 临界值,拒绝H0 左侧检验:统计量 < -临界值,拒绝H0 右侧检验:统计量 > 临界值,拒绝H0
用P 值决策
(P-value)
1.
如果原假设为真,所得到的样本结果会像实际 观测结果那么极端或更极端的概率
•
P值告诉我们:如果原假设是正确的话,我们得到 得到目前这个样本数据的可能性有多大,如果这 个可能性很小,就应该拒绝原假设
正常人的平均体温是37oC吗?
根据样本数据计算的平均值是 36.8oC ,标准差 为0.36oC 根据参数估计方法得到的健康成年人平均体温的 95%的置信区间为 (36.7 , 36.9) 。研究人员发现 这个区间内并没有包括37oC 因此提出“不应该再把 37oC 作为正常人体温的 一个有任何特定意义的概念” 我们应该放弃“正常人的平均体温是 37oC” 这个 共识吗?本章的内容就将提供一套标准统计程序 来检验这样的观点
Region of Rejection
置信水平
Region of Rejection
拒绝H0
拒绝H0
/2
1-
Region of Nonrejection
/2
临界值
2008年8月
H0
临界值
用统计量决策
(左侧检验 )
抽样分布
Region of Rejection
置信水平
拒绝H0
1-
Region of Nonrejection
提出假设
(结论与建议)
1.
原假设和备择假设是一个完备事件组,而且 相互对立
在一项假设检验中,原假设和备择假设必有一 个成立,而且只有一个成立
2.
先确定备择假设,再确定原假设
3.
4.
等号“=”总是放在原假设上
因研究目的不同,对同一问题可能提出不同 的假设(也可能得出不同的结论)
怎样做出决策?
两类错误与显著性水平
1.
2.
3.
研究者总是希望能做出正确的决策,但由于决策是建立 在样本信息的基础之上,而样本又是随机的,因而就有 可能犯错误 原假设和备择假设不能同时成立,决策的结果要么拒绝 H0,要么不拒绝H0。决策时总是希望当原假设正确时没 有拒绝它,当原假设不正确时拒绝它,但实际上很难保 证不犯错误 第Ⅰ类错误(错误)-“弃真错误”
H0 : = 某一数值 H0 : 某一数值 H0 : 某一数值
例如, H0 : 10cm
备择假设
(alternative hypothesis)
1.
2.
3.
4.
也称“研究假设”,研究者想收集证据予以支持的 假设,用H1或Ha表示 所表达的含义是总体参数发生了变化或变量之间 有某种关系 备择假设通常用于表达研究者自己倾向于支持的 看法,然后就是想办法收集证据拒绝原假设,以 支持备择假设 总是有符号 , 或
ቤተ መጻሕፍቲ ባይዱ
依据什么做出决策?
1.
2. 3.
若假设为H0:=500,H1:≠ 500。样本均值 为 495 ,拒绝 H0 吗?样本均值为 502 ,拒绝 H0 吗? 做出拒绝或不拒绝原假设的依据是什么? 传统上,做出决策所依据的是样本统计量,现 代检验中人们直接使用由统计量算出的犯第Ⅰ 类错误的概率,即所谓的 值
检验统计量
(test statistic)
1.
根据样本观测结果计算出对原假设和备择假设 做出决策某个样本统计量 对样本估计量的标准化结果
2.
原假设H0为真
点估计量的抽样分布
3. 标准化的检验统计量
点估计量 — 假设值 标准化检验统计量 点估计量的抽样标准差
用统计量决策
(双侧检验 )
抽样分布
多元回归分析:推断
y = 0 + 1x1 + 2x2 + . . . kxk + u
计量经济学导论
1
统计名言 ……正如一个法庭宣告某一判决 为“无罪(not guilty)”而不为“清白 (innocent)”,统计检验的结论也应 为“不拒绝”而不为“接受”。
——Jan Kmenta
一、假设检验的回归
2008年8月
提出假设
(例题分析)
【例】一种零件的生产标准是直径应为 10cm,为 对生产过程进行控制,质量监测人员定期对一台加 工机床检查,确定这台机床生产的零件是否符合标 准要求。如果零件的平均直径大于或小于 10cm, 则表明生产过程不正常,必须进行调整。试陈述用 来检验生产过程是否正常的原假设和被择假设
假设检验的基本原理
怎样提出假设?
什么是假设?
(hypothesis)
在参数检验中,对总体参数的具体数值所作
的陈述
就一个总体而言,总体参数包括总体均值、比例、 方差等 分析之前必需陈述
什么是假设检验?
(hypothesis test)
1.
2.
3.
先对总体的参数(或分布形式)提出某种假设,然 后利用样本信息判断假设是否成立的统计方法 有参数检验和非参数检验 逻辑上运用反证法,统计上依据小概率原理
3.
P值越小,你拒绝原假设的理由就越充分
多大的P 值合适?
要证明原假设不正确,P值要多小,才能令人 信服呢?
原假设的可信度又多高?如果H0所代表的假设 是人们多年来一直相信的,就需要很强的证据( 小的P值)才能说服他们 拒绝的结论是什么?如果拒绝H0而肯定H1 ,你 就需要有很强的证据显示要支持 H1。比如,H1 代表要花很多钱把产品包装改换成另一种包装 ,你就要有很强的证据显示新包装一定会增加 销售量(因为拒绝H0要花很高的成本)
提出假设
(例题分析)
【例】一家研究机构估计,某城市中家庭拥有汽 车的比例超过 30% 。为验证这一估计是否正确, 该研究机构随机抽取了一个样本进行检验。试陈 述用于检验的原假设与备择假设。 解:研究者想收集证据予以支持的假设是“该 城市中家庭拥有汽车的比例超过30%”。建立的 原假设和备择假设为 H0 : 30% H1 : 30%
/2
拒绝H0
1/2 P 值
/2
拒绝H0
1/2 P 值
临界值
计算出的样本统计量
2008年8月
0
临界值
Z
计算出的样本统计量
左侧检验的P 值
拒绝H0
1/2P 值
临界值
计算出的样本统计量
2008年8月
0
Z
右侧检验的P 值
拒绝H0
1/2P 值
0
临界值
Z
计算出的样本统计量
2008年8月
P值是关于数据的概率
2. 3.
被称为观察到的(或实测的)显著性水平 决策规则:若p值<, 拒绝 H0
在双尾检验中,
P值 P[| Z || X0
__
|] 2 P[ Z
X0
__
n
] 2 P[ Z