第5章 假设检验
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
X X
如何检验该假设呢?—也即是接受还是拒 绝该假设?
2011-2-22
计量经济学讲义
7
用假设检验的语言,类似u = 1 3的假设称为零
X
假设。通常用符号H 表示。因而,H : u = 1 3。
0 0
X
零假设通常与备择假设成对出现。用符号H 表示 备择假设,备择假设有以下几种形式:
1
H : u >13 ,称为单边备择假设。
2011-2-22
计量经济学讲义
3
得到总体参数的估计值只是统计推断的第一步。 接下来要判定估计值的“优度”。 因为估计值很可能不等于真实的参数值:如果有 两个或更多个随机样本,计算这些样本的均值X, 则得到的估计值很可能不相同。我们把不同样本 估计值的差异称为抽样误差。 那么,是否存在一个判定估计量优劣的标准呢?
计量经济学讲义
22
读者或许发现:前面讨论的置信系数( 1- a) 就是1减去“犯第一类错误的概率a”,因此, 95%的置信系数表示接受零假设犯第一类 错误的概率至多为5%。 简言之, 5%的置信水平与95%的置信系数 的意义相同。
2011-2-22
计量经济学讲义
23
2011-2-22
计量经济学讲义
1
X
H : u <13 ,也称为单边备择假设。
1
X
H : u ≠1 3,称为双边备择假设。
1
X
2011-2-22
计量经济学讲义
8
零假设和备择假设有不同的表述方式。 例如,零假设H :u ≥1 3 , 备择假设H :u < 1 3。
0 X 1 X
2011-2-22
计量经济学讲义
9
为了检验零假设(与备择假设),我们根据样 本数据(比如,根据表4 - 1得到的样本平均 P/E值11 . 5)以及统计理论建立判定规则来 判断样本信息是否支持零假设。 如果样本信息支持零假设,我们就不拒绝 H ,但如果不支持零假设,则拒绝H ,在 后一种情况下,我们接受备择假设,H 。
0 X
这是否意味着样本不是来自于均值为13的正态总 体呢?或许事实的确如此。 别忘了不等式(4 - 7)的置信区间的置信度仅为 95%而并非100%。如果真的如此,那么拒绝H : u = 13,就可能犯错误。在这种情况下,我们说 犯了第一类错误。也即弃真错误
0 X
2011-2-22
计量经济学讲义
wenku.baidu.com17
2011-2-22 计量经济学讲义 4
估计是统计推断的一个方面,假设检验则是统计推断的另 一方面。在假设检验中,我们可对某一参数的假定值进行 先验判断或预期。 比如说,以往的经验或专家的意见告诉我们1 758支股票 总体的平均P/E值为1 2,假定根据某一随机样本(样本容 量为5 0),计算出P/E的估计值为11。那么,11接近于假 设值1 2吗? 显然,两个数值并不相等。 但是这里有一个重要问题: 11与1 2显著不同吗?我们知 道由于抽样的差异很可能导致样本估计值与总体真实值不 同。“从统计上说”,或许11并不与1 2不同?在此情况 下,我们能够拒绝假设:真实平均P/E值为1 2。但是如何 作出判定呢?这就是假设检验的内容,我们将会详细讨论。
2011-2-22 计量经济学讲义 36
显著水平的选择与p值
2011-2-22
计量经济学讲义
37
显著水平的选择与p值
假设检验的古典方法的不足之处在于选择a 的任意性。虽然一般常用的a值有1%、5% 和1 0%,但是这些值并不是固定不变的。 前面指出,只有在检查犯第一类错误和第 二类错误后果的时候,才选择相应的a 。 在实践中,最好是用p值(即,概率值),p 值(p value)也称为统计量的精确置信水平。 它可定义为拒绝零假设的最低置信水平。
2011-2-22
计量经济学讲义
35
在显著检验方法中,我们不是对未知参数 规定一个似乎合理的区间值,而是通过零 假设给参数设定一个特殊值,再计算检验 统计量,比如t统计量,并求其抽样分布及 该统计量取这个特殊值的概率。 如果这个概率很低,比如说小于5%或1%, 我们则拒绝零假设,如果概率值大于所选 择的显著水平,则不拒绝零假设。
10.63≤ uX ≤12.36 (近似值) (4 - 7)
置信区间提供了在某一置信度下(比如95%)真实的uX取值 范围。因此,如果这个区间不包括零假设中的值,比如 uX =13,那么我们会拒绝零假设吗?答案是肯定的。我 们以95%的置信度拒绝该零假设。
2011-2-22 计量经济学讲义 13
从上面的讨论中,可以清楚地看到置信区 间与假设检验密切相关。 用假设检验的语言,不等式(4 - 7)描述的置 信区间称为接受区域(acceptance region), 接受区域以外的称为零假设的临界区域 (critical region)或拒绝区域(region of rejection)。接受区域的上界和下界称为临 界值(critical values)。
0 0
2011-2-22
计量经济学讲义
21
假设检验的标准或古典方法是:给定某一 水平的a,比如0 . 0 1或0 . 0 5,然后使检 验的功效最大,也即使b最小。这个求解过 程很复杂,有兴趣的同学可以参阅有关参 考书。 需要指出的是:在实际中,古典方法仅仅 给出了a值,而没有过多考虑b值。
2011-2-22
第5章 统计推断
估计与假设检验
2011-2-22
计量经济学讲义
1
总体是指我们所关注现象出现的可能结果的全体(例如, 纽约的人口)。样本是总体的一个子集(例如,曼哈顿的人 口)。更宽泛地说,统计推断研究的是总体与来自总体的 样本之间的关系。 我们通过一个具体的例子来说明统计推断的含义。纽约股 票交易市场( N Y S E)共有1 758支股票( 1 9 9 0年9月4 日)。假定某一天,我们从这1 758支股票中随机选取5 0 支,并计算这5 0支股票价格与收入比的平均值—即P/E比 值。(例如,一支股票的价格为5 0美元,估计年收益为5 美元,则P/E为1 0;也就是说,股票以1 0倍的年收益出 售。)
24
2011-2-22
计量经济学讲义
25
显著性检验
2011-2-22
计量经济学讲义
26
显著性检验
显著性检验(test of significance approach) 是一种两者择一的假设检验,但它却是完 备的。 显著性检验是一种较为简洁的假设检验方 法。 我们仍通过P/E一例说明这种检验方法的一 些基本要点。
0 X
简言之,如果参数值超过上临界值或低于下临界 值,那么就拒绝零假设。现在就会清楚为什么接 受区域的边界称为临界值。因为它们是接受或拒 绝零假设的分界线。
2011-2-22 计量经济学讲义 15
第一类错误和第二类错误:一个偏离
2011-2-22
计量经济学讲义
16
在P/E一例中,我们拒绝H :u = 13,因为样本均 值X= 11.5 看似与零假设不一致,
计量经济学讲义
12
置信区间法
根据表4 - 1提供的样本数据计算出样本均值为11 . 5。从 4 . 3节讨论中,我们知道样本均值服从均值为uX,方差为 o2/2的正态分布。但是由于真实的方差是未知的,所以用 样本方差来代替,在这种情况下,样本均值服从t分布, 见式( 4 - 3)。 根据t分布,我们得到uX的一个95%的置信区间: t 95%
2011-2-22 计量经济学讲义 38
我们用一个例子来说明。已知,当自由度为2 0时, 计算得到t值为3 . 5 5 2。根据附录A中t分布表, 求出得此t值的概率值( p值)为0 . 0 01(单边的)或 0 . 0 0 2(双边的)。也即在0 . 0 0 1(单边)或( 0 . 0 0 2双边)水平下,t值是统计显著的。 在零假设:真实的P/E值为1 3下,我们得到t值为 -3 . 5。 P(t<-3 . 5)=0.000 5 这就是t统计量的p值。
0
X
1
X
2011-2-22
计量经济学讲义
33
2011-2-22
计量经济学讲义
34
在实践中,是用置信区间法还是用显著性 检验法,主要是取决于个人的选择与习惯。 在置信区间方法中,我们对真实参数指定 一个似乎合理的区间值,并查明参数假设值 是落在该区间内还是落在区间外。 如果落在区间内,我们就不拒绝零假设, 但若落在区间外,则能够拒绝零假设。
2011-2-22 计量经济学讲义 32
单边检验(one-tail test)或双边检验(two-tail test) 在P/E一例中,H :u = 1 3,H :u < 1 3。 那么如何检验这个假设呢? 单边检验与前面讨论过的双边检验类似, 只是在单边检验中,仅仅需要决定统计量 单一的临界值,而不是两个临界值,
2011-2-22
计量经济学讲义
27
2011-2-22
计量经济学讲义
28
2011-2-22
计量经济学讲义
29
2011-2-22
计量经济学讲义
30
2011-2-22
计量经济学讲义
31
用显著性检验的语言,经常遇到下面两个术语: ( 1 ) 检验(统计量)是统计显著的。 ( 2 ) 检验(统计量)是统计不显著的。 当我们说检验是统计显著的,一般是指能够拒绝 零假设,即观察到的样本值与假设值不同的概率 非常小,小于(犯第一类错误的概率)。同样的, 当我们说检验是统计不显著的,是指不能拒绝零 假设。在此情况下,观察到的样本值与假设值不 同可能受抽样影响较大(即观察到的样本值与真实 值不同的概率大于)。 当拒绝零假设时,我们就说是统计显著的,当不 能拒绝零假设时,就说不是统计显著的。
2011-2-22
计量经济学讲义
19
解决这一问题的古典方法是假定在实际中 第一类错误比第二类错误更严重(由统计学 家Neyman和Pearson提出的)。 因此,先固定犯第一类错误的概率在一个 很低的水平上,比如说0 . 0 1或0 . 0 5,然 后在考虑如何减小犯第二类错误的概率。
2011-2-22
同样的原因,假定零假设H :u = 12,在这 种情况下,根据不等式( 4 - 7),我们应该 不拒绝这个零假设。
0 X
但是表4 - 1这个样本很可能不是来自均值 为12的正态总体。因而,我们会犯第二类 错误,也即取伪错误。
2011-2-22
计量经济学讲义
18
我们想尽可能减小这两种错误。但是,不 幸的是,对于任一给定样本,我们不可能 同时做到犯这两种错误的概率都很小。
0 0 1
2011-2-22
计量经济学讲义
10
如何建立判定规则呢?有两个互补的方法: ( 1)置信区间法( 2)显著性检验法。 我们将通过P/E一例来阐述这两种方法。这 里, H :u = 13
0 X
H :u ≠13 (双边假设)
1 X
2011-2-22
计量经济学讲义
11
置信区间法
2011-2-22
2011-2-22
计量经济学讲义
5
假设检验
假设就是“为了调查或讨论的目的,我们 认为某件事是正确的”( w e b s t e r’s) 或是“基于某种原因之上的假定,或为了 进一步调查而基于某些已知事实的一个出 发点。”(牛津英汉词典)
2011-2-22
计量经济学讲义
6
继前面的例子:假设真实的u 取某一特定 值,比如u =1 3。现在我们的任务就是去 “检验”这个假设。
2011-2-22 计量经济学讲义 14
用这种语言表述为:如果参数值在零假设下位于 接受区域内,则不拒绝零假设。但如果落在接受 区域以外(也即落在拒绝区域内),则拒绝零假设 在这个例子中,拒绝零假设H :u = 1 3,因为这 个值落在临界区域,它比接受区域的上界1 2 . 3 6大,也即这是一个小概率事件—不到2 . 5%。
2011-2-22 计量经济学讲义 2
在统计推断中,提出这样一个问题:根据50支股票的平 均P/E值,能否说这个P/E值就是总体的1 758支股票的平 均P/E值呢? 换句话说,如果令X表示一支股票的P/E值,X表示5 0支 股票的平均P/E值( ),我们能否得知总体的均值, E(X)呢? 统计推断的实质就是从样本值(X)归纳出总体值E(X)的过 程。 X就称为总体平均P/E[也即E(X)]的估计量,E(X)称为总体 参数
计量经济学讲义
20
犯第一类错误的概率通常用符号a表示,称 为显著水平, b犯第二类错误的概率用符 号表示。则: 第一类错误= a=犯弃真错误的概率 第二类错误= b=犯取伪错误的概率 不犯第二类错误的概率( 1- b);也就是说, 当H 为假时,拒绝H ,称为检验的功效 ( power of test)。
如何检验该假设呢?—也即是接受还是拒 绝该假设?
2011-2-22
计量经济学讲义
7
用假设检验的语言,类似u = 1 3的假设称为零
X
假设。通常用符号H 表示。因而,H : u = 1 3。
0 0
X
零假设通常与备择假设成对出现。用符号H 表示 备择假设,备择假设有以下几种形式:
1
H : u >13 ,称为单边备择假设。
2011-2-22
计量经济学讲义
3
得到总体参数的估计值只是统计推断的第一步。 接下来要判定估计值的“优度”。 因为估计值很可能不等于真实的参数值:如果有 两个或更多个随机样本,计算这些样本的均值X, 则得到的估计值很可能不相同。我们把不同样本 估计值的差异称为抽样误差。 那么,是否存在一个判定估计量优劣的标准呢?
计量经济学讲义
22
读者或许发现:前面讨论的置信系数( 1- a) 就是1减去“犯第一类错误的概率a”,因此, 95%的置信系数表示接受零假设犯第一类 错误的概率至多为5%。 简言之, 5%的置信水平与95%的置信系数 的意义相同。
2011-2-22
计量经济学讲义
23
2011-2-22
计量经济学讲义
1
X
H : u <13 ,也称为单边备择假设。
1
X
H : u ≠1 3,称为双边备择假设。
1
X
2011-2-22
计量经济学讲义
8
零假设和备择假设有不同的表述方式。 例如,零假设H :u ≥1 3 , 备择假设H :u < 1 3。
0 X 1 X
2011-2-22
计量经济学讲义
9
为了检验零假设(与备择假设),我们根据样 本数据(比如,根据表4 - 1得到的样本平均 P/E值11 . 5)以及统计理论建立判定规则来 判断样本信息是否支持零假设。 如果样本信息支持零假设,我们就不拒绝 H ,但如果不支持零假设,则拒绝H ,在 后一种情况下,我们接受备择假设,H 。
0 X
这是否意味着样本不是来自于均值为13的正态总 体呢?或许事实的确如此。 别忘了不等式(4 - 7)的置信区间的置信度仅为 95%而并非100%。如果真的如此,那么拒绝H : u = 13,就可能犯错误。在这种情况下,我们说 犯了第一类错误。也即弃真错误
0 X
2011-2-22
计量经济学讲义
wenku.baidu.com17
2011-2-22 计量经济学讲义 4
估计是统计推断的一个方面,假设检验则是统计推断的另 一方面。在假设检验中,我们可对某一参数的假定值进行 先验判断或预期。 比如说,以往的经验或专家的意见告诉我们1 758支股票 总体的平均P/E值为1 2,假定根据某一随机样本(样本容 量为5 0),计算出P/E的估计值为11。那么,11接近于假 设值1 2吗? 显然,两个数值并不相等。 但是这里有一个重要问题: 11与1 2显著不同吗?我们知 道由于抽样的差异很可能导致样本估计值与总体真实值不 同。“从统计上说”,或许11并不与1 2不同?在此情况 下,我们能够拒绝假设:真实平均P/E值为1 2。但是如何 作出判定呢?这就是假设检验的内容,我们将会详细讨论。
2011-2-22 计量经济学讲义 36
显著水平的选择与p值
2011-2-22
计量经济学讲义
37
显著水平的选择与p值
假设检验的古典方法的不足之处在于选择a 的任意性。虽然一般常用的a值有1%、5% 和1 0%,但是这些值并不是固定不变的。 前面指出,只有在检查犯第一类错误和第 二类错误后果的时候,才选择相应的a 。 在实践中,最好是用p值(即,概率值),p 值(p value)也称为统计量的精确置信水平。 它可定义为拒绝零假设的最低置信水平。
2011-2-22
计量经济学讲义
35
在显著检验方法中,我们不是对未知参数 规定一个似乎合理的区间值,而是通过零 假设给参数设定一个特殊值,再计算检验 统计量,比如t统计量,并求其抽样分布及 该统计量取这个特殊值的概率。 如果这个概率很低,比如说小于5%或1%, 我们则拒绝零假设,如果概率值大于所选 择的显著水平,则不拒绝零假设。
10.63≤ uX ≤12.36 (近似值) (4 - 7)
置信区间提供了在某一置信度下(比如95%)真实的uX取值 范围。因此,如果这个区间不包括零假设中的值,比如 uX =13,那么我们会拒绝零假设吗?答案是肯定的。我 们以95%的置信度拒绝该零假设。
2011-2-22 计量经济学讲义 13
从上面的讨论中,可以清楚地看到置信区 间与假设检验密切相关。 用假设检验的语言,不等式(4 - 7)描述的置 信区间称为接受区域(acceptance region), 接受区域以外的称为零假设的临界区域 (critical region)或拒绝区域(region of rejection)。接受区域的上界和下界称为临 界值(critical values)。
0 0
2011-2-22
计量经济学讲义
21
假设检验的标准或古典方法是:给定某一 水平的a,比如0 . 0 1或0 . 0 5,然后使检 验的功效最大,也即使b最小。这个求解过 程很复杂,有兴趣的同学可以参阅有关参 考书。 需要指出的是:在实际中,古典方法仅仅 给出了a值,而没有过多考虑b值。
2011-2-22
第5章 统计推断
估计与假设检验
2011-2-22
计量经济学讲义
1
总体是指我们所关注现象出现的可能结果的全体(例如, 纽约的人口)。样本是总体的一个子集(例如,曼哈顿的人 口)。更宽泛地说,统计推断研究的是总体与来自总体的 样本之间的关系。 我们通过一个具体的例子来说明统计推断的含义。纽约股 票交易市场( N Y S E)共有1 758支股票( 1 9 9 0年9月4 日)。假定某一天,我们从这1 758支股票中随机选取5 0 支,并计算这5 0支股票价格与收入比的平均值—即P/E比 值。(例如,一支股票的价格为5 0美元,估计年收益为5 美元,则P/E为1 0;也就是说,股票以1 0倍的年收益出 售。)
24
2011-2-22
计量经济学讲义
25
显著性检验
2011-2-22
计量经济学讲义
26
显著性检验
显著性检验(test of significance approach) 是一种两者择一的假设检验,但它却是完 备的。 显著性检验是一种较为简洁的假设检验方 法。 我们仍通过P/E一例说明这种检验方法的一 些基本要点。
0 X
简言之,如果参数值超过上临界值或低于下临界 值,那么就拒绝零假设。现在就会清楚为什么接 受区域的边界称为临界值。因为它们是接受或拒 绝零假设的分界线。
2011-2-22 计量经济学讲义 15
第一类错误和第二类错误:一个偏离
2011-2-22
计量经济学讲义
16
在P/E一例中,我们拒绝H :u = 13,因为样本均 值X= 11.5 看似与零假设不一致,
计量经济学讲义
12
置信区间法
根据表4 - 1提供的样本数据计算出样本均值为11 . 5。从 4 . 3节讨论中,我们知道样本均值服从均值为uX,方差为 o2/2的正态分布。但是由于真实的方差是未知的,所以用 样本方差来代替,在这种情况下,样本均值服从t分布, 见式( 4 - 3)。 根据t分布,我们得到uX的一个95%的置信区间: t 95%
2011-2-22 计量经济学讲义 38
我们用一个例子来说明。已知,当自由度为2 0时, 计算得到t值为3 . 5 5 2。根据附录A中t分布表, 求出得此t值的概率值( p值)为0 . 0 01(单边的)或 0 . 0 0 2(双边的)。也即在0 . 0 0 1(单边)或( 0 . 0 0 2双边)水平下,t值是统计显著的。 在零假设:真实的P/E值为1 3下,我们得到t值为 -3 . 5。 P(t<-3 . 5)=0.000 5 这就是t统计量的p值。
0
X
1
X
2011-2-22
计量经济学讲义
33
2011-2-22
计量经济学讲义
34
在实践中,是用置信区间法还是用显著性 检验法,主要是取决于个人的选择与习惯。 在置信区间方法中,我们对真实参数指定 一个似乎合理的区间值,并查明参数假设值 是落在该区间内还是落在区间外。 如果落在区间内,我们就不拒绝零假设, 但若落在区间外,则能够拒绝零假设。
2011-2-22 计量经济学讲义 32
单边检验(one-tail test)或双边检验(two-tail test) 在P/E一例中,H :u = 1 3,H :u < 1 3。 那么如何检验这个假设呢? 单边检验与前面讨论过的双边检验类似, 只是在单边检验中,仅仅需要决定统计量 单一的临界值,而不是两个临界值,
2011-2-22
计量经济学讲义
27
2011-2-22
计量经济学讲义
28
2011-2-22
计量经济学讲义
29
2011-2-22
计量经济学讲义
30
2011-2-22
计量经济学讲义
31
用显著性检验的语言,经常遇到下面两个术语: ( 1 ) 检验(统计量)是统计显著的。 ( 2 ) 检验(统计量)是统计不显著的。 当我们说检验是统计显著的,一般是指能够拒绝 零假设,即观察到的样本值与假设值不同的概率 非常小,小于(犯第一类错误的概率)。同样的, 当我们说检验是统计不显著的,是指不能拒绝零 假设。在此情况下,观察到的样本值与假设值不 同可能受抽样影响较大(即观察到的样本值与真实 值不同的概率大于)。 当拒绝零假设时,我们就说是统计显著的,当不 能拒绝零假设时,就说不是统计显著的。
2011-2-22
计量经济学讲义
19
解决这一问题的古典方法是假定在实际中 第一类错误比第二类错误更严重(由统计学 家Neyman和Pearson提出的)。 因此,先固定犯第一类错误的概率在一个 很低的水平上,比如说0 . 0 1或0 . 0 5,然 后在考虑如何减小犯第二类错误的概率。
2011-2-22
同样的原因,假定零假设H :u = 12,在这 种情况下,根据不等式( 4 - 7),我们应该 不拒绝这个零假设。
0 X
但是表4 - 1这个样本很可能不是来自均值 为12的正态总体。因而,我们会犯第二类 错误,也即取伪错误。
2011-2-22
计量经济学讲义
18
我们想尽可能减小这两种错误。但是,不 幸的是,对于任一给定样本,我们不可能 同时做到犯这两种错误的概率都很小。
0 0 1
2011-2-22
计量经济学讲义
10
如何建立判定规则呢?有两个互补的方法: ( 1)置信区间法( 2)显著性检验法。 我们将通过P/E一例来阐述这两种方法。这 里, H :u = 13
0 X
H :u ≠13 (双边假设)
1 X
2011-2-22
计量经济学讲义
11
置信区间法
2011-2-22
2011-2-22
计量经济学讲义
5
假设检验
假设就是“为了调查或讨论的目的,我们 认为某件事是正确的”( w e b s t e r’s) 或是“基于某种原因之上的假定,或为了 进一步调查而基于某些已知事实的一个出 发点。”(牛津英汉词典)
2011-2-22
计量经济学讲义
6
继前面的例子:假设真实的u 取某一特定 值,比如u =1 3。现在我们的任务就是去 “检验”这个假设。
2011-2-22 计量经济学讲义 14
用这种语言表述为:如果参数值在零假设下位于 接受区域内,则不拒绝零假设。但如果落在接受 区域以外(也即落在拒绝区域内),则拒绝零假设 在这个例子中,拒绝零假设H :u = 1 3,因为这 个值落在临界区域,它比接受区域的上界1 2 . 3 6大,也即这是一个小概率事件—不到2 . 5%。
2011-2-22 计量经济学讲义 2
在统计推断中,提出这样一个问题:根据50支股票的平 均P/E值,能否说这个P/E值就是总体的1 758支股票的平 均P/E值呢? 换句话说,如果令X表示一支股票的P/E值,X表示5 0支 股票的平均P/E值( ),我们能否得知总体的均值, E(X)呢? 统计推断的实质就是从样本值(X)归纳出总体值E(X)的过 程。 X就称为总体平均P/E[也即E(X)]的估计量,E(X)称为总体 参数
计量经济学讲义
20
犯第一类错误的概率通常用符号a表示,称 为显著水平, b犯第二类错误的概率用符 号表示。则: 第一类错误= a=犯弃真错误的概率 第二类错误= b=犯取伪错误的概率 不犯第二类错误的概率( 1- b);也就是说, 当H 为假时,拒绝H ,称为检验的功效 ( power of test)。