抽样误差和总体均数估计
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
n=30
12
例:住院患者出院天数分布 25 20 频数 15 10 5 0
0 510- 1520- 25- 30- 35- 4045- 50- 55- 60-
模拟3 模拟
母体分布 µ = 20
σ =16
样本均数分布 抽样例数n=30, , 抽样例数 共100个样本均 个样本均 数分布
0 5 10 15 20 25 30 35 40 45 50 55 60
nj
µ =167.7cm σ = 5.3cm
167.7
Leabharlann Baidu
7
例3-1:抽样结果 样本均数的抽样误差 :抽样结果—样本均数的抽样误差 x~ N(µ=167.7, σ2 =5.32) ~ ( , 样本号 1 2 3 4 99 100 n 10 10 10 10 样本均数 167.41 165.56 168.20 169.5
实践中的统计问题
例:某市行政官员想了解该市25000户家庭的 某市行政官员想了解该市 户家庭的 年平均收入。随机抽取该市900户家庭,得收 户家庭, 年平均收入。随机抽取该市 户家庭 入均数=32400$, $,S=1800$,问该市 $,问 入均数 $, $, 该市25000户 户 家庭收入的平均水平为多少 为多少? 家庭收入的平均水平为多少?
第二节 t分布 分布
用样本指标(均数 对总体参数做估计 用样本指标 均数)对总体参数做估计: 均数 对总体参数做估计: 统计推断的两个理论分布: 统计推断的两个理论分布: 标准正态分布 (u) ) t 分布
21
一 、 t分布的概念 分布的概念
1.标准正态分布 分布 标准正态分布(u分布 分布)
中心极限定理: 值总体为正态或抽样 值总体为正态或抽样n较大 中心极限定理 X值总体为正态或抽样 较大 (n≥60)时,则抽样的样本均数 x分布也为正 ) 并能通过u值转换为标准正态分布 值转换为标准正态分布, 态。并能通过 值转换为标准正态分布,即
19
例:两组患者Pco2值的比较 两组患者
组别 肺心病组 慢支肺气 肿组 n 12 10
X ±S
63.97 ± 20.28 43.90 ± 8.24
sx (SEM)
5.85 2.61
标准差与标准误的区别: 标准差与标准误的区别: 区别 标准差( ):反映一组数据, 个体变量(x)间 ):反映一组数据 标准差(S):反映一组数据 个体变量 间 的变异大小。 的变异大小。 标准误:反映是抽样例数为n时 标准误:反映是抽样例数为 时,样本均数的 抽样误差大小。 抽样误差大小 20
15
(二)均数抽样误差的估计
• 原理:若随机变量(x)的均数为 ,标准差为 原理:若随机变量( )的均数为µ, σ,则抽样的样本均数的均数为 ,样本均数的 ,则抽样的样本均数的均数为µ, 标准差为标准误(standard error of mean,SEM)。 , )。
σX =
σ
n
公式(3-1) 公式( )
17
例3.1:某地 岁男孩身高样本均数频数分布 :某地18岁男孩身高样本均数频数分布 (n=10)
频数(F) 样本均数 频数(F) X - µ 1631631 -4.2 1641642 -3.2 1651653 -2.2 16616621 -1.2 16716717 -0.2 16816824 0.8 16916919 1.8 1701708 2.8 1711714 3.8 1731731 4.8 100 合计
样本
≠
总体
感兴趣问题: 总体收入指标的平均水平? 感兴趣问题 总体收入指标的平均水平 统计问题称为: (µ)? 统计问题称为 参数估计 研究方法:在总体中做抽样研究 研究方法 在总体中做抽样研究
4
实例2 实例
某医院对40-50岁人群进行冠心病的调查, 岁人群进行冠心病的调查, 例: 某医院对 岁人群进行冠心病的调查 测得β脂蛋白 脂蛋白( 测得 脂蛋白(mg%)指标。 )指标。 男性: 男性:n=193 x = 397.59, s =104.3 女性: 女性:n=128 x = 357.89, s = 89.67 研究者感兴趣问题:该指标男性与女性(总体) 研究者感兴趣问题:该指标男性与女性(总体) β脂蛋白水平是否不同? 脂蛋白水平是否不同? 脂蛋白水平是否不同 即: µ1≠ µ2? 希望用样本信息回答总体的情况. 希望用样本信息回答总体的情况 感兴趣
第三章
总体均数的估计与假设检验
参数估计的理论基础
第二军医大学卫生统计学教研室 孟虹
1
第三章 内容
第一节 均数的抽样误差与标准误 第二节 t分布 分布 第三节 总体均数的估计 第四节 t检验 检验 第五节 假设检验的注意事项 第六节 正态性检验和两样本方差齐性检验
2
第一节 均数的抽样误差与标准误
抽样研究 在总体中随机抽取部分研究对象的变量 样本, 值 样本,通过对样本的研究称为抽样研 究。 抽样研究目的和意义: 抽样研究目的和意义: 用样本信息估计总体的信息, 用样本信息估计总体的信息,可节约时间 和成本。 和成本。 抽样研究:常得到样本指标与总体指标不同, 抽样研究:常得到样本指标与总体指标不同, 称为抽样误差。 称为抽样误差。 3
13
40 35 30 25 20 15 10 5 0
频率
均数的抽样分布和变异的规律
在同一总体做随机抽样, 在同一总体做随机抽样,样本均数分布规律如下 样本均数分布服从一定分布形态(模拟 )。 样本均数分布服从一定分布形态(模拟1)。 均数间的变异(抽样误差)小于(图中实线) 均数间的变异(抽样误差)小于(图中实线)原 总体(个体)间的变异(模拟2图中虚线 图中虚线) 总体(个体)间的变异(模拟 图中虚线) 。 样本均数的变异分布范围与抽样例数多少有关, 样本均数的变异分布范围与抽样例数多少有关, 即抽样误差大小与抽样例数有关(模拟2图 即抽样误差大小与抽样例数有关(模拟 图)。
6
抽样研究的抽样误差
模拟试验 例3-1 已知某市1999年18岁男生身高( 已知某市1999年18岁男生身高(x)服从µ 1999 岁男生身高 服从µ =167.7cm,σ =5.3cm的正态分布,从该 =167.7cm, =5.3cm的正态分布, 总体中随机抽样n=10的样本, n=10的样本 N(167.7, 5.32)总体中随机抽样n=10的样本,共 抽取100 100个样本 抽取100个样本。
X −µ u= σ/ n
N(µ,σx )
假定σ已 假定 已 知
转换u的意义:用标准正态分布表可得到任意 值 转换 的意义:用标准正态分布表可得到任意u值 的意义 曲线范围的概率分布。 曲线范围的概率分布。
22
某地18岁男孩身高的 个样本均数频数分布 某地 岁男孩身高的100个样本均数频数分布 岁男孩身高的 标准误的计算(n=10) 标准误的计算
X -µ
-0.29 -2.14 0.50 1.80
抽样误差
10
165.69
-2.01
8
(一)抽样误差的概念和分布 抽样变异与均数的抽样误差 从同一总体中随机抽取样本含量相等 的若干样本计算均数, 的若干样本计算均数,这些样本的均数 不一定恰好等于相应总体均数, 不一定恰好等于相应总体均数,称为抽 样变异。 样变异。 各样本均数间变异及他们与总体均 数之间的变异称为均数的抽样误差 数之间的变异称为均数的抽样误差 error)。 (sampling error)。 抽 误 = xi − µ 样 差
5
统计推断
概念:用样本的信息推断总体的信息, 概念:用样本的信息推断总体的信息,称 为统计推断。 为统计推断。 本章的重点 1. 从抽样理论上估计抽样指标(均数)与 从抽样理论上估计抽样指标(均数) 总体指标(均数) 抽样误差。 总体指标(均数)间 的 抽样误差。 2. 根据抽样理论,用样本信息估计总体参 根据抽样理论, 数。
均数标准误用来衡量抽样均数分布的变 或均数抽样误差的大小。 异,或均数抽样误差的大小。 或均数抽样误差的大小
16
的估计公式: 实际工作中均数标准误 σ x的估计公式:
SX S = n
公式( ) 公式(3-2)
SX
的概念:
说明抽样例数为n时 的抽样误差大小, 说明抽样例数为 时, X 的抽样误差大小,反 映样本均数估计总体均数的精确性指标。 映样本均数估计总体均数的精确性指标 影响标准误的大小因素: 抽样例数 抽样例数( ) 影响标准误的大小因素:1.抽样例数(n)的 多少, 值的个体变异( 多少,2. X值的个体变异(标准差)大小。 值的个体变异 标准差)大小。
µ=167.7,σ=5.3 ,
Σx x= =167.68 f
Σ(x − x)2 σx = =1.69 Σf
5.3 σX = = =1.67 n 10 18
σ
个随机样本均数的抽样误差(n=10) 表3-1 100个随机样本均数的抽样误差 个随机样本均数的抽样误差
样本号 i 1 167.41 2 165.56 3 168.20 4 166.67 5 164.89 6 166.36 … 100 165.69
5.3 σX = = =1.67 n 10
σ
X −µ u= σ/ n
23
2. t分布 分布
当抽样总体的σ未知或样本例数较小时( < 当抽样总体的σ未知或样本例数较小时(n< 样本例数较小时 60), 均数的抽样分布服从 分布。 分布。 ) 均数的抽样分布服从t分布 t分布的概念:在同一总体抽多个样本,其样 分布的概念:在同一总体抽多个样本, 分布的概念 本均数按公式t值做转换 值做转换, 值组成的分布为 本均数按公式 值做转换,由t值组成的分布为 t分布。 分布。 分布
100个样本均数的频数表 个样本均数的频数表 均数组段 F u 1631631 -2.81 1641642 1651653 16616621 16716717 16816824 16916919 1701708 1711714 1731731 Total 100
µ=167.7,σ=5.3 , Σx x= =167.68 f
µ=167.7,σ=5.3 ,
Σx x= =167.68 f
Σ(x − x) σx = =1.69 Σf
2
11
模拟2 抽样例数( ) 模拟 抽样例数(n)不同时均数抽样分布变异 个样本) (各自抽1000个样本) 各自抽 个样本
n=10 n=5
X抽自 N(µ=5, 抽自 ( , σ=0.52)的正态总体
9
抽样误差 抽样误差是随机变量,即是不确定的。 抽样误差是随机变量,即是不确定的。 随机变量 抽样误差的产生是由于观察变量(x)有 抽样误差的产生是由于观察变量( ) 和在总体中抽取部分对象而产生的。 变异和在总体中抽取部分对象而产生的 变异和在总体中抽取部分对象而产生的。 抽样误差大小与下列因素有关? 抽样误差大小与下列因素有关?
x
S 2.74 6.57 5.36 4.81 4.50 4.04 5.09
0.866 2.077 1.695 1.521 1.423 1.277 1.609
sx
5.3 σX = = =1.67 n 10
σ
统计中把在总体中做一次随机抽样计算的标准 误作为抽样例数为n的抽样误差估计值 的抽样误差估计值。 误作为抽样例数为 的抽样误差估计值。
14
均数抽样分布与总体分布的关系
数理统计证明: 中心极限定理) 数理统计证明: (中心极限定理) 母体为正态时, 母体为正态时,即x~N(µ,σ2),抽样 2 ( , ),抽样 σ 的样本均数分布也为正态,服从 的样本均数分布也为正态 服从 x − N(µ, ) n (模拟 例子) 模拟1例子 母体为偏态时,在抽样例数( ≥ ) 样本 母体为偏态时,在抽样例数(n≥60),样本 均数的分布趋近正态(模拟3)。 均数的分布趋近正态(模拟 )。
与抽样例数、变量值 的变异 的变异、 与抽样例数、变量值(x)的变异、变 量的分布(正态、偏态)的关系。 量的分布(正态、偏态)的关系。
10
(模拟 ) 抽样误差的分布 模拟1 模拟 某地18岁男孩身高样本均数频数分布 例3.1某地 岁男孩身高样本均数频数分布 某地 (n=10)
频数(F) 样本均数 频数(F) X - µ 1631631 -4.2 1641642 -3.2 1651653 -2.2 16616621 -1.2 16716717 -0.2 16816824 0.8 16916919 1.8 1701708 2.8 1711714 3.8 1731731 4.8 100 合计