统计推断原理和步骤.
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一、统计假设检验的基本思路
为了说明问题,我们举几个例子进行讨论
例1、随机抽取一批小鼠,随机分为两组,一组注
射催产素,一组作为对照(即不注射催产素),
半小时后检查这两组小鼠的血糖含量,得:注射
Hale Waihona Puke Baidu
催产素组为: x1
= 109.17
= 106.88
x2 对照组平均值为:
同时我们也发现,同一组内的小鼠其血糖含量也是 不同的 两组小鼠的平均血糖含量之间有个差:
a.我们不可能用总体来做试验,各方面的条件不许
可我们这样做,也没有必要这样做
b.我们只能用样本来做试验,且由于时间、经费、
人力等因素的限制,一般同一个试验只能做一次,
通过一次试验就希望能得到一个比较可靠的结果 c.试验结束以后,用什么来作为检验的对象?那就 是样本的平均值:
用样本的平均值来检验总体平均值
(无限总体,N
∞),因此不可能逐一调查清楚
另一方面,有时所要研究的总体目前并不存在,或
者只能说是虚拟存在(总体是虚的),无法进行
调查 作某一试验时更是如此
但不管是何种类型的总体,我们总是可以通过随机
抽样(抽样调查)的方法获得该总体的随机样本
通过统计推断来定性或定量地分析所研究总体的特
征值
统计推断就是用样本的特征值(统计量)在一定的
90d的小鼠中也有含N量低的(如0.93 0.94)
即:同一组内的小鼠其血浆含N量之间也是有差异
的
例3、某孵化场宣传说该场孵化的鸡苗成活率为
90%,我们能轻易相信吗?是否需要做一个试验?
如果试验结果是100羽苗鸡仅成活了88羽
(p=0.88),我们就能否定该场的宣传效果吗? 如果我们再做一次呢?我们能一直不断地做下去吗?
密切的关系
同时抽样的结果还告诉我们,样本统计量与总体相
应参数之间存在着一定的抽样误差 因此,用样本来推断总体的准确性与抽样误差的大 小有关,抽样误差的大小用标准误来衡量
标准误不仅反映了抽样误差的大小,而且反映了样
本统计量与总体相应参数间的差异程度
也反映了用某个样本统计量来估计总体参数的准确
程度
第三节 统计假设检验
统计推断包括:
统计假设检验(hypothesis test)
参数估计(parametric estimation)
这样两部分内容
统计假设检验又称显著性检验(significance test)
其原理和过程是:
对未知的或不完全知道的总体参数提出一些假设
( hypothesis
这些假设通常构成完全事件系),
第五章
统计推断原理和步骤
本章主要介绍统计推断的意义、原理, 统计推断与抽样分布的关系,统计推 断的思路和一般步骤,两尾检验和一 尾检验,统计推断可能犯的两类错误 及防止方法
生物统计学的一个重要任务是要知道所研究总体的
特征值(参数)
但是总体特征值一般难以知道:
一方面是由于总体很大,即N 大,有时是无限的
概率保证下推断相应总体的特征值(参数)
即:随机抽样 随机样本 (试验或调查) 总体特征值 (参数) 估计
概率 保证
随机样本特征值 (统计量)
计算
第一节 统计推断的意义和内容
所谓统计推断(statistical inference),就是根据统
计量的分布和概率理论,由样本统计量来推断总
体的参数
实际工作中,一次试验或一次调查所获得的数据资 料,通常是一个样本的结果,而我们真正需要知 道的是抽取样本的总体特征 即:统计分析的结论是针对总体参数而言的,因此, 统计推断是科研工作中一个十分重要的工具,对 试验设计也有很大的指导意义
x1 x2 106.88 109.17 2.29
那么我们是否可以认为这个差值就是由于催产素注
射与否的结果?显然仅凭这一差值 -2.29 是不能
说明问题的
例2、比较不同日龄(d)正常白化小鼠血浆含N量,
得如下一批数据:
日龄 x1
血浆含 N 量
35d( x2 )0.98 0.83 0.94 0.90 0.99 0.92 0.87 0.86 0.81 90d( )1.00 1.08 0.97 0.93 1.03 0.94 1.11 1.10
然后在某一基本假设的基础上,计算样本的统计
量,并分析这一统计量的分布规律
最后根据这一统计量作出在一定概率意义下应当接 受何种假设的结论
这里有一个定量转化为定性的过程:
经计算所得到的统计量一般是呈连续分布的(定
量),但最后的检验结论只有两种:接受何种假
设(定性)
即:存在一个临界值,统计量未达到临界值,应当
3、中心极限定理告诉我们:样本平均值 服从或近
似服从正态分布
x
x
上述三点,说明样本平均值 可以作为检验的对象
但是我们又不能仅凭样本平均值的大小就贸然下结
论,认为试验有效或试验无效
对这两组数据进行计算,得: 35d组小鼠的 x1 0.90
s1 0.063
90d组小鼠的 x 1.02 2
x1 x2 0.12
s2 0.071
发现两组小鼠的血浆含N量有差异:
那么我们能否仅凭这一差异就认为日龄的不同,其
血浆含N量就有差异呢?
35d的小鼠中也有含N量高的(如0.99 0.98 0.94)
接受一种假设
统计量超过临界值,应当接受另一种假设
参数估计包括两部分内容:
参数的点估计(point estimation)
参数的区间估计(interval estimation)
第二节 统计量的抽样分布与统计推断 的关系
前面已经讲过,由样本的统计量组成的总体分布
(抽样分布)其参数与原总体的相应参数有着很
用两个样本平均值的差异来检验相应两个总体平均
值的差异
用样本平均值作为检验对象的理由是:
1、我们已经证明了 xi x 2 为最小,这说明样本平 均值 x 与各变量 xi 的差异最小,因此 x 是样本资料 最好的代表 2、在抽样分布中,我们已经证明了样本平均值 x 是 总体平均值 的无偏估计量,即 x 的数学期望是
例4、试验某种治疗鸡白痢病的新药,将其与常规
药物相比较,对400羽鸡施用常规药物,康复了
340羽(康复率 p2 0.85
),相应的,对500羽鸡
),
p1 0.87 施用新药,有435羽康复了(康复率
我们是否就可以认为新药一定好于常规药物?
以上几个例题提醒我们,有以下几个问题是需要我
们加以注意的: