总体参数的假设检验.
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
六、总体参数的假设检验
• 如果一个人说他从来没有骂过人。 他能够证明吗? • 要证明他没有骂过人,他必须出 示他从小到大每一时刻的录音录 像,所有书写的东西等等,还要 证明这些物证是完全的、真实的、 没有间断的。这简直是不可能的。 • 即使他找到一些证人,比如他的 同学、家人和同事,那也只能够 证明在那些证人在场的某些片刻, 他没有被听到骂人。
• 在多数统计教科书中(除理 论探讨外)假设检验都是以 否定原假设为目标。 • 如否定不了,说明证据不足, 无法否定原假设。但不能说 明原假设正确。 • 就像一两次没有听过他骂人 还远不能证明他从来没有骂 过人。
1 假设检验的过程和逻辑
• 先要提出个原假设,比如某正态总体 的均值等于 5(m=5) 。这种原假设也称 为零假设(null hypothesis),记为H0。 • 与此同时必须提出备选假设(或称为备 择假设, alternative hypothesis) ,比 如总体均值大于5(m>5)。备选假设 记为H1或Ha。形式上,这个关于总体 均值的H0相对于H1的检验记为
• 在统计软件输出 p- 值的位置,有的用“ pvalue”,有的用significant的缩写“Sig”就 是这个道理。 • 根据数据产生的 p- 值来减少 a 的值以展示 结果的精确性总是没有害处的。 • 这好比一个身高 180 厘米的男生,可能愿 意被认为高于或等于 180 厘米,而不愿意 说他高于或等于 155 厘米,虽然这第二种 说法数学上没有丝毫错误。
a 并不一定越小越好,因为这很可能导致 不容易拒绝零假设,使得犯第二类错误的 概率增大。 • 当 p- 值小于或等于 a 时,就拒绝零假设。 所以, a 是所允许的犯第一类错误概率的 最大值。当 p- 值小于或等于 a 时,就说这 个检验是显著的。 • 无论统计学家用多大的 a 作为显著性水平 都不能脱离实际问题的背景。统计显著不 一定等价于实际显著。反过来也一样。
• 实际上,多数计算机软件仅仅给出 p-值, 而不给出a。这有很多方便之处。 • 比 如 a=0.05 , 而 假 定 所 得 到 的 p- 值 等 于 0.001。这时如果采用p-值作为新的显著性 水平,即新的 a=0.001 ,于是就可以说, 在显著性水平为0.001时,拒绝零假设。 • 这样,拒绝零假设时犯错误的概率实际只 是千分之一而不是旧的 a 所表明的百分之 五。在这个意义上,p-值又称为观测的显 著性水平(observed significant level)。
• • • • • • •
归纳起来,假设检验的逻辑步骤为: 1. 写出零假设和备选假设; 2. 确定检验统计量; 3. 确定显著性水平a; 4. 根据数据计算检验统计量的实现值; 5. 根据这个实现值计算p-值; 6. 进行判断:如果 p-值小于或等于 a ,就 拒绝零假设,这时犯(第一类)错误的概 率最多为a;如果p-值大于a,就不拒绝零 假设,因为证据不足。
• 零假设和备选假设哪一个正确,是确 定性的,没有概率可言。而可能犯错 误的是人。 • 涉及假设检验的犯错误的概率就是犯 第一类错误的概率和犯第二类错误的 概率。 • 负责任的态度是无论做出什么决策, 都应该给出该决策可能犯错误的概率。
• 到底p-值是多小时才能够拒绝零假设呢? 也就是说,需要有什么是小概率的标准。 • 这要看具体应用的需要。但在一般的统计 书和软件中,使用最多的标准是在零假设 下(或零假设正确时)根据样本所得的数 据来拒绝零假设的概率应小于 0.05,当然 也可能是0.01,0.005,0.001等等。 • 这种事先规定的概率称为显著性水平 (significant level),用字母a来表示。
• 也就是说把数据代入检验统计量 , 看其值是否落入零假设下的小概 率范畴; • 如果的确是小概率事件,那么就 有可能拒绝零假设,或者说“该 检验显著,” • 否则说“没有足够证据拒绝零假 设”,或者“该检验不显著。”
• 注意:在我们所涉及的wenku.baidu.com题中,零假 设和备选假设在假设检验中并不对称。 • 因检验统计量的分布是从零假设导出 的,因此,如果发生矛盾,就对零假 设不利了。 • 不发生矛盾也不能说明零假设没有问 题。
• 反过来,如果要证明这个人 骂过人很容易,只要有一次 被抓住就足够了。 • 看来,企图肯定什么事物很 难,而否定却要相对容易得 多。这就是假设检验背后的 哲学。 • 科学总往往是在否定中发展
• 在假设检验中,一般要设立 一个原假设(上面的“从来 没骂过人”就是一个例子); • 而设立该假设的动机主要是 企图利用人们掌握的反映现 实世界的数据来找出假设与 现实之间的矛盾,从而否定 这个假设。
H0 : m 5 H1 : m 5
• 备选假设应该按照实际世界所代表的 方向来确定,即它通常是被认为可能 比零假设更符合数据所代表的现实。 • 比如上面的 H1 为 m>5 ;这意味着,至 少样本均值应该大于5; • 至于是否显著,依检验结果而定。 • 检验结果显著 (significant) 意味着有理 由拒绝零假设。因此,假设检验也被 称为显著性检验(significant test)。
• 有了两个假设,就要根据数据来对它 们进行判断。 • 数据的代表是作为其函数的统计量; 它在检验中被称为检验统计量( test statistic)。 • 根据零假设 (不是备选假设!),可 得到该检验统计量的分布;再看这个 统计量的数据实现值( realization ) 属不属于小概率事件。
• 在零假设下,检验统计量取其实现值 及(沿着备选假设的方向)更加极端 值的概率称为p-值(p-value)。 • 如果得到很小的 p- 值,就意味着在零 假设下小概率事件发生了。 • 如果小概率事件发生,是相信零假设, 还是相信数据呢? • 当然多半是相信数据,拒绝零假设。
• 但小概率并不能说明不会发生,仅 仅发生的概率很小罢了。拒绝正确 零假设的错误常被称为第一类错误 (type I error)。 • 在备选假设正确时反而说零假设正 确的错误,称为第二类错误( type II error)。在本部分的假设检验问 题中,由于备选假设不是一个点, 所以无法算出犯第二类错误的概率。
• 如果一个人说他从来没有骂过人。 他能够证明吗? • 要证明他没有骂过人,他必须出 示他从小到大每一时刻的录音录 像,所有书写的东西等等,还要 证明这些物证是完全的、真实的、 没有间断的。这简直是不可能的。 • 即使他找到一些证人,比如他的 同学、家人和同事,那也只能够 证明在那些证人在场的某些片刻, 他没有被听到骂人。
• 在多数统计教科书中(除理 论探讨外)假设检验都是以 否定原假设为目标。 • 如否定不了,说明证据不足, 无法否定原假设。但不能说 明原假设正确。 • 就像一两次没有听过他骂人 还远不能证明他从来没有骂 过人。
1 假设检验的过程和逻辑
• 先要提出个原假设,比如某正态总体 的均值等于 5(m=5) 。这种原假设也称 为零假设(null hypothesis),记为H0。 • 与此同时必须提出备选假设(或称为备 择假设, alternative hypothesis) ,比 如总体均值大于5(m>5)。备选假设 记为H1或Ha。形式上,这个关于总体 均值的H0相对于H1的检验记为
• 在统计软件输出 p- 值的位置,有的用“ pvalue”,有的用significant的缩写“Sig”就 是这个道理。 • 根据数据产生的 p- 值来减少 a 的值以展示 结果的精确性总是没有害处的。 • 这好比一个身高 180 厘米的男生,可能愿 意被认为高于或等于 180 厘米,而不愿意 说他高于或等于 155 厘米,虽然这第二种 说法数学上没有丝毫错误。
a 并不一定越小越好,因为这很可能导致 不容易拒绝零假设,使得犯第二类错误的 概率增大。 • 当 p- 值小于或等于 a 时,就拒绝零假设。 所以, a 是所允许的犯第一类错误概率的 最大值。当 p- 值小于或等于 a 时,就说这 个检验是显著的。 • 无论统计学家用多大的 a 作为显著性水平 都不能脱离实际问题的背景。统计显著不 一定等价于实际显著。反过来也一样。
• 实际上,多数计算机软件仅仅给出 p-值, 而不给出a。这有很多方便之处。 • 比 如 a=0.05 , 而 假 定 所 得 到 的 p- 值 等 于 0.001。这时如果采用p-值作为新的显著性 水平,即新的 a=0.001 ,于是就可以说, 在显著性水平为0.001时,拒绝零假设。 • 这样,拒绝零假设时犯错误的概率实际只 是千分之一而不是旧的 a 所表明的百分之 五。在这个意义上,p-值又称为观测的显 著性水平(observed significant level)。
• • • • • • •
归纳起来,假设检验的逻辑步骤为: 1. 写出零假设和备选假设; 2. 确定检验统计量; 3. 确定显著性水平a; 4. 根据数据计算检验统计量的实现值; 5. 根据这个实现值计算p-值; 6. 进行判断:如果 p-值小于或等于 a ,就 拒绝零假设,这时犯(第一类)错误的概 率最多为a;如果p-值大于a,就不拒绝零 假设,因为证据不足。
• 零假设和备选假设哪一个正确,是确 定性的,没有概率可言。而可能犯错 误的是人。 • 涉及假设检验的犯错误的概率就是犯 第一类错误的概率和犯第二类错误的 概率。 • 负责任的态度是无论做出什么决策, 都应该给出该决策可能犯错误的概率。
• 到底p-值是多小时才能够拒绝零假设呢? 也就是说,需要有什么是小概率的标准。 • 这要看具体应用的需要。但在一般的统计 书和软件中,使用最多的标准是在零假设 下(或零假设正确时)根据样本所得的数 据来拒绝零假设的概率应小于 0.05,当然 也可能是0.01,0.005,0.001等等。 • 这种事先规定的概率称为显著性水平 (significant level),用字母a来表示。
• 也就是说把数据代入检验统计量 , 看其值是否落入零假设下的小概 率范畴; • 如果的确是小概率事件,那么就 有可能拒绝零假设,或者说“该 检验显著,” • 否则说“没有足够证据拒绝零假 设”,或者“该检验不显著。”
• 注意:在我们所涉及的wenku.baidu.com题中,零假 设和备选假设在假设检验中并不对称。 • 因检验统计量的分布是从零假设导出 的,因此,如果发生矛盾,就对零假 设不利了。 • 不发生矛盾也不能说明零假设没有问 题。
• 反过来,如果要证明这个人 骂过人很容易,只要有一次 被抓住就足够了。 • 看来,企图肯定什么事物很 难,而否定却要相对容易得 多。这就是假设检验背后的 哲学。 • 科学总往往是在否定中发展
• 在假设检验中,一般要设立 一个原假设(上面的“从来 没骂过人”就是一个例子); • 而设立该假设的动机主要是 企图利用人们掌握的反映现 实世界的数据来找出假设与 现实之间的矛盾,从而否定 这个假设。
H0 : m 5 H1 : m 5
• 备选假设应该按照实际世界所代表的 方向来确定,即它通常是被认为可能 比零假设更符合数据所代表的现实。 • 比如上面的 H1 为 m>5 ;这意味着,至 少样本均值应该大于5; • 至于是否显著,依检验结果而定。 • 检验结果显著 (significant) 意味着有理 由拒绝零假设。因此,假设检验也被 称为显著性检验(significant test)。
• 有了两个假设,就要根据数据来对它 们进行判断。 • 数据的代表是作为其函数的统计量; 它在检验中被称为检验统计量( test statistic)。 • 根据零假设 (不是备选假设!),可 得到该检验统计量的分布;再看这个 统计量的数据实现值( realization ) 属不属于小概率事件。
• 在零假设下,检验统计量取其实现值 及(沿着备选假设的方向)更加极端 值的概率称为p-值(p-value)。 • 如果得到很小的 p- 值,就意味着在零 假设下小概率事件发生了。 • 如果小概率事件发生,是相信零假设, 还是相信数据呢? • 当然多半是相信数据,拒绝零假设。
• 但小概率并不能说明不会发生,仅 仅发生的概率很小罢了。拒绝正确 零假设的错误常被称为第一类错误 (type I error)。 • 在备选假设正确时反而说零假设正 确的错误,称为第二类错误( type II error)。在本部分的假设检验问 题中,由于备选假设不是一个点, 所以无法算出犯第二类错误的概率。