区间估计和假设检验
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
12
假设检验基本思想
例如:抛硬币,通常假设:
原假设H0:正反面出现的机会均等
备择假设H1:正反面出现机会不均等。
如果抛20次只有1次是正面的,你就有理由怀疑原来 假设“正反面出现的机会均等”是错的(因为H0为真 时出现这种情况的概率太小了,而 H1 为真时,出现 这种情况的概率较大)。
13
假设检验的基本步骤
区间估计和假设检验
赵耐青
复旦大学卫生统计教研室
内容
1 区间估计
2
假设检验
3
可信区间与假设检验的关系
4
STATA命令 2
统计推断
点值估计
参数估计 区间估计
统计推断
假设检验:均数间的比较 比例、率的比较 ……
3
点估计和区间估计 参数估计可以分为点估计和区间估计 点估计就是估计某个参数为某个数值(如样 本均数,样本率等) 由于随机抽样存在抽样误差,由于点估计 无法评价抽样误差的大小,而区间估计可 以在95%可信度的尺度上估计参数的范围, 范围越小,说明参数估计的抽样误差就越 小。
第 一 步 : 提 出 检 验 假 设 ( 又 称 无 效 假 设 ( 原 假 设 ) null
hypothesis, H0)和备择假设(alternative hypothesis, H1)。
H0:假设两总体均数相等,即样本与总体或样本与样本间的 差异是由抽样误差引起的。
H1:假设两总体均数不相等,即两样本与总体或样本与样本间 存在本质差异。
可信度的意义:在同一正态总体中随机抽 100个样本,每个样本可以计算一个95% 可信区间,平均有95个可信区间包含该总 体的总体均数。
7
(1-)100%可信区间及其意义
可信度1-越大,计算可信区间包含总体均数的 正确率就越高,但可信区间的宽度就越大,也就 是估计总体均数的精度就越差。 一般而言,95%可信区间是兼顾了正确性和估 计精度,对于特殊情况,可以计算90%可信区 间或99%可信区间。 对于随机抽样前而言,随机抽取一个样本量为n 的样本,计算95%可信区间,则该区间将包含 总体均数的概率为95%,不包含其总体均数的 概率为0.05,这是一个小概率事件,对于一次随 机抽样而言,一般是不会发生的,所以95%可 信区间一般被认为就是总体均数的范围。
8
假设检验(hypothesis testing)
样本均数与总体均数不等或两样本均数不等,有 两种可能: 由抽样误差所致 两者来自不同的总体
假设检验是用来判断样本与样本,样本与总体的差异 是由抽样误差引起还是本质差别造成的统计推断方法
9
假设检验问题
随机抽样
样本
总体 μ
X
=0?
即:抽样误差?
p值指:在由H0所规定的总体中做随机抽样时,获得 等于及大于(或等于及小于)现有统计量的概率
16
t检验对资料的要求
t检验的应用条件:
样本来自正态总体 两样本均数比较时还要求两个总体 方差相等
17
样本均数与总体均数比较
样本均数与总体均数比较的 t检验实际上是推断该 样本来自的总体均数 µ 与已知的某一总体均数 µ 0 (常为理论值或标准值) 有无差别。 在未知总体中进行抽样,用样本均数与已知总体 均数比较中,需要建立一个检验统计量,根据样 本是否属于已知总体,该检验统计量的分布也不 同,由此作出相应的统计推断。
预先设定的检验水准(size of test )α为0.05。 选择单双侧检验
14
假设检验的基本步骤
第二步:选定统计方法,计算出统计量的大小。
根据资料的类型和特点,可选用t检验,则计 算 t值
或其他检验方法:秩和检验和卡方检验等。
15
假设检验的基本步骤
第三步:根据 和统计量在原假设成立的分布情况 把统计量可能的取值范围分为拒绝范围和不拒绝范 围 根据统计量计算值位于拒绝范围内还是非拒绝范围 内进行统计推断,也可以根据统计量取值的大小及 其分布确定检验假设成立的可能性 P 的大小并判断 结果。
t0.05/2 S t0.05/2 S t0.05/2 t0.05/2 X S/ n n n t0.05/ 2 S t0.05/ 2 S X 总体均数的区间估计 X n n
这个区间称为总体均数的95%可信区间
5
X
总体均数的95%可信区间举例
例如:在某地区7岁男孩的人群中随机抽样,抽 取200人,测量其身高,得到样本均数为 121cm,样本标准差为5.4cm,估计该地区7 岁男孩人群的平均身高在什么范围内。
t0.05/ 2 S 1.972 5.3 X 121 n 200 121 0.753 (120.247,121.753)cm
6
(1-)100%可信区间及其意义 更一般而言,可以计算(1-) 100% 可信区间,称(1-)为可信度。
X
t / 2, n 1S n
不是抽样误差? 即:0?
总体
wk.baidu.com
μ
0
10
假设检验问题
样本均数不等的原因
总体1 1
样本1
随 机 抽
统计推断
抽样误差 即:1=2 ? 不是抽样误差
X1 X 2
样本2
总体2 2
样
即:12 ?
11
假设检验一般思想
小概率思想是指小概率事件( P<0.01 或 P<0.05 ) 在一次试验中基本上不会发生。 假设检验的反证法思想:先根据检验假设 H0 ,建 立适当的统计量,确定假设 H0 成立情况下服从某 个概率分布,定一个范围。 H0 成立时,统计量进 入这个范围,是一个小概率事件 (P0.05 或更小 ) , H0不成立时,统计量进入这个范围的概率较大。 如果实际的抽样样本统计量进入这个范围,对 H0 成立情况下是一个小概率事件,一般不会发生, 由此推断假设 H0 不成立。这就是小概率反证法思 想。
4
总体均数的区间估计
2 , X , , X 假定资料 X1 近似服从正态分布 N ( , )。 1 2 n 2 n 对于随机抽样而言,计算统计量
X t S/ n
t (n 1)分布 因此 Pr(| t | t0.05/ 2 ) 0.95
基于随机抽样而言和 | t | t0.05/ 2 成立的概率为0.95前提下
假设检验基本思想
例如:抛硬币,通常假设:
原假设H0:正反面出现的机会均等
备择假设H1:正反面出现机会不均等。
如果抛20次只有1次是正面的,你就有理由怀疑原来 假设“正反面出现的机会均等”是错的(因为H0为真 时出现这种情况的概率太小了,而 H1 为真时,出现 这种情况的概率较大)。
13
假设检验的基本步骤
区间估计和假设检验
赵耐青
复旦大学卫生统计教研室
内容
1 区间估计
2
假设检验
3
可信区间与假设检验的关系
4
STATA命令 2
统计推断
点值估计
参数估计 区间估计
统计推断
假设检验:均数间的比较 比例、率的比较 ……
3
点估计和区间估计 参数估计可以分为点估计和区间估计 点估计就是估计某个参数为某个数值(如样 本均数,样本率等) 由于随机抽样存在抽样误差,由于点估计 无法评价抽样误差的大小,而区间估计可 以在95%可信度的尺度上估计参数的范围, 范围越小,说明参数估计的抽样误差就越 小。
第 一 步 : 提 出 检 验 假 设 ( 又 称 无 效 假 设 ( 原 假 设 ) null
hypothesis, H0)和备择假设(alternative hypothesis, H1)。
H0:假设两总体均数相等,即样本与总体或样本与样本间的 差异是由抽样误差引起的。
H1:假设两总体均数不相等,即两样本与总体或样本与样本间 存在本质差异。
可信度的意义:在同一正态总体中随机抽 100个样本,每个样本可以计算一个95% 可信区间,平均有95个可信区间包含该总 体的总体均数。
7
(1-)100%可信区间及其意义
可信度1-越大,计算可信区间包含总体均数的 正确率就越高,但可信区间的宽度就越大,也就 是估计总体均数的精度就越差。 一般而言,95%可信区间是兼顾了正确性和估 计精度,对于特殊情况,可以计算90%可信区 间或99%可信区间。 对于随机抽样前而言,随机抽取一个样本量为n 的样本,计算95%可信区间,则该区间将包含 总体均数的概率为95%,不包含其总体均数的 概率为0.05,这是一个小概率事件,对于一次随 机抽样而言,一般是不会发生的,所以95%可 信区间一般被认为就是总体均数的范围。
8
假设检验(hypothesis testing)
样本均数与总体均数不等或两样本均数不等,有 两种可能: 由抽样误差所致 两者来自不同的总体
假设检验是用来判断样本与样本,样本与总体的差异 是由抽样误差引起还是本质差别造成的统计推断方法
9
假设检验问题
随机抽样
样本
总体 μ
X
=0?
即:抽样误差?
p值指:在由H0所规定的总体中做随机抽样时,获得 等于及大于(或等于及小于)现有统计量的概率
16
t检验对资料的要求
t检验的应用条件:
样本来自正态总体 两样本均数比较时还要求两个总体 方差相等
17
样本均数与总体均数比较
样本均数与总体均数比较的 t检验实际上是推断该 样本来自的总体均数 µ 与已知的某一总体均数 µ 0 (常为理论值或标准值) 有无差别。 在未知总体中进行抽样,用样本均数与已知总体 均数比较中,需要建立一个检验统计量,根据样 本是否属于已知总体,该检验统计量的分布也不 同,由此作出相应的统计推断。
预先设定的检验水准(size of test )α为0.05。 选择单双侧检验
14
假设检验的基本步骤
第二步:选定统计方法,计算出统计量的大小。
根据资料的类型和特点,可选用t检验,则计 算 t值
或其他检验方法:秩和检验和卡方检验等。
15
假设检验的基本步骤
第三步:根据 和统计量在原假设成立的分布情况 把统计量可能的取值范围分为拒绝范围和不拒绝范 围 根据统计量计算值位于拒绝范围内还是非拒绝范围 内进行统计推断,也可以根据统计量取值的大小及 其分布确定检验假设成立的可能性 P 的大小并判断 结果。
t0.05/2 S t0.05/2 S t0.05/2 t0.05/2 X S/ n n n t0.05/ 2 S t0.05/ 2 S X 总体均数的区间估计 X n n
这个区间称为总体均数的95%可信区间
5
X
总体均数的95%可信区间举例
例如:在某地区7岁男孩的人群中随机抽样,抽 取200人,测量其身高,得到样本均数为 121cm,样本标准差为5.4cm,估计该地区7 岁男孩人群的平均身高在什么范围内。
t0.05/ 2 S 1.972 5.3 X 121 n 200 121 0.753 (120.247,121.753)cm
6
(1-)100%可信区间及其意义 更一般而言,可以计算(1-) 100% 可信区间,称(1-)为可信度。
X
t / 2, n 1S n
不是抽样误差? 即:0?
总体
wk.baidu.com
μ
0
10
假设检验问题
样本均数不等的原因
总体1 1
样本1
随 机 抽
统计推断
抽样误差 即:1=2 ? 不是抽样误差
X1 X 2
样本2
总体2 2
样
即:12 ?
11
假设检验一般思想
小概率思想是指小概率事件( P<0.01 或 P<0.05 ) 在一次试验中基本上不会发生。 假设检验的反证法思想:先根据检验假设 H0 ,建 立适当的统计量,确定假设 H0 成立情况下服从某 个概率分布,定一个范围。 H0 成立时,统计量进 入这个范围,是一个小概率事件 (P0.05 或更小 ) , H0不成立时,统计量进入这个范围的概率较大。 如果实际的抽样样本统计量进入这个范围,对 H0 成立情况下是一个小概率事件,一般不会发生, 由此推断假设 H0 不成立。这就是小概率反证法思 想。
4
总体均数的区间估计
2 , X , , X 假定资料 X1 近似服从正态分布 N ( , )。 1 2 n 2 n 对于随机抽样而言,计算统计量
X t S/ n
t (n 1)分布 因此 Pr(| t | t0.05/ 2 ) 0.95
基于随机抽样而言和 | t | t0.05/ 2 成立的概率为0.95前提下