均数的抽样误差和总体均数估计
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
标准差和标准误的区别
指标
标准差
(s)
意义 衡量变量值变异程度,s 越大表示变量值变异程度 越大,s越小表示变量值 变异程度越小
应用 描述正态分布(近似正 态分布)资料的频数分 布;医学参考值范围的 估计
标准误
( SX
样本均数的变异程度,表 总体均数区间估计;两 ) 示抽样误差的大小。标准 个或多个总体均数间比 误越大表示抽样误差越大, 较
案例
0 136.0g / L, n 25, X 121g / L, S 48.8g / L;
造成 X 0 的可能原因有二: ① 抽样误差造成的;
② 本质差异造成的。 假设检验目的——判断差别是由哪种原因造成的。
一种假设H0
炊事员血红蛋白总体均数
抽样误差
136.0g/L 另一种假设H1
( X t
S X , X t
2,
SX )
举例 已知样本含量为 10,均数 X 166.95 (cm),标准差
S 3.64 (cm),求其总体均数的 95%可信区间。
本题 n=10,按公式算得样本均数的标准误为
=n1=101=9,双尾 =0.05, 查附表 2 的 t 界值表得 t0.05 2,9 2.262 。 得 (166.95 2.262 1.1511) 即(164.35, 169.55)cm 故该地 18 岁男生身高均数的 95%可信区间 为(164.35, 169.55)cm。
f(t)
ν─>∞ (标准正态曲线) ν =5
ν =1
-5.0
-4.0
-3.0
-2.0
-1.0
0.0
1.0
2.0
3.0
4.0
5.0
t
图 不同自由度下的t 分布图
1.特征:
① 单峰分布,以 0 为中心,左右对称; ② 自由度ν 越小,则 t 值越分散,t 分布的峰部 越矮而尾部翘得越高; ③当ν 逼近, X 逼近 S X , t 分布逼近 z 分布, 故标准正态分布是 t 分布的特例。
样本均数的可靠性越小;标 准误越小表示抽样误差越小, 样本均数的可靠性越大
二、t 分布
(一)t分布概念
1.若某一随机变量 X 服从总体均数为μ 、总体标准差 为 的正态分布 N (, ) ,则可通过 z
2
X 变换( )将
2
一般正态分布转化为标准正态分布 N(0,1 ), 即 z 分布;
0.10 0.20 3.078 1.886 1.638 1.533 1.476 1.440 1.415 1.397 1.383 1.372 1.323 1.321 1.319 1.318 1.316
0.05 0.10 6.314 2.920 2.353 2.132 2.015 1.943 1.895 1.860 1.833 1.812 1.721 1.717 1.714 1.711 1.708
2.参数 (only one): 2 (only one): 2.参数 、 t界值表: 3. t 界值表:详见附表 2,可反映 t 分布曲下的面积 3. t 界值表:详见附表 2,可反映 t 分布曲下的面积 详见附表2,可反映t分布曲线下的面积。 单侧概率或单尾概率:用 t , 表示; 单侧概率或单尾概率:用 单侧概率或单尾概率:用 t , 表示; 表示;
从正态分布总体N(167.7, 5.32)随机抽样所得样本均数分布
样本均数分布具有如下特点:
① X ,各样本均数 X 未必等于总体均数; ② 各样本均数间存在差异; ③ 样本均数的分布为中间多,两边少,左右基本 对称。 ④ 样本均数的变异范围较之原变量的变异范围大 大缩小。 可算得这100个样本均数的均数为167.69cm、标准 差为1.69cm。
j
j
X
j
Sj
167.41, 2.74 165.56, 6.57
=167.7cm =5.3cm X1,X2,X3,Xi,
168.20, 5.36 ┆ nj=10 165.69, 5.09
100 个
2009年某市18岁男生身高N(167.7, 5.32)的抽样示意图
将此100个样本均数看成新变量值,则这100个 样本均数构成一新分布,绘制频数图
SX S n
( 7-28 )
当样本例数n一定时,标准误与标准差呈正比 当标准差一定时,标准误与样本含量n的平方 根呈反比。
通过增加样本含量n来降低抽样误差。
例子:
随机抽样调查 7 岁男孩 120 名,的身高 均数为120.88,标准差为5.23,则其标准误 是多少?
sx
s
0 . 48 n
/ n
标准正态分布
N(0,12)
X X t , v n 1 SX S n
Student t分布 自由度:n-1
(二)t 分布的图形与特征
t 分布只有一个参数,即自由度
t 分布是一簇曲线。当自由度ν 不同时,曲线 的形状不同。当ν 时,t 分布趋近于标准正
态分布,但当自由度ν 较小时,与标准正态分布差 异较大。
炊事员血红蛋白总体均数
X 121g/L
总体不同
138.0g/L
假定假如炊事员均数为136.0g/L,即
则
t X 0 S/ n
H 0 : d 136.0
,服从t 分布,绝大多数t应该分布在主要区域
根据 t 分布能够计算出有如此大差异的概率P ,如果
P 值很小,即计算出的t 值超出了给定的界限,则倾向于 拒绝H0,认为山区血红蛋白均数不是136.0g/L
3.64 SX 1.1511 (cm) 10
(2) 按z分布
已知:
za / 2
X
X
za / 2
未知但 n 较大:
za / 2
X za / 2 sX
举例
某地抽取正常成年人200名,测得其血清
胆固醇的均数为3.64 mmol/L,标准差为
三、参数估计
用样本统计量推断总体参数。 总体均数估计:用样本均数(和标准差)
推断总体均数。
1.点估计(point estimation):
用相应样本统计量直接作为其总体参数
的估计值。如用 X 估计μ、s估计 等。其方 法虽简单,但未考虑抽样误差的大小。
2.区间估计(interval estimation):
随机变量X
z
X
标准正态分布
N (,2)
z变换
N ( 0 ,1 2 )
2.若样本均数 X 服从总体均数为 μ 、 2 N ( , 总体标准差为 X 的正态分布 X ) , 则通 过同样方式的 z 变换( )也可将其转换为 X 标准正态分布 N(0, 12),即 z 分布。
X
3.实际工作中,由于 X未知,用 S X 代替,则
( X ) / S X 不再服从标准正态分布,而服从t 分
布。
X X t , n 1 SX S n
式中为自由度(degree of freedom, df)
均数 X
z
2
X
N ( , n)
按预先给定的概率 (1) 所确定的包含未知 总体参数的一个范围。 总体均数的区间估计:按预先给定的概率 (1)所确定的包含未知总体均数的一个范围。 如给定 =0.05, 该范围称为参数的 95% 可信区 间或置信区间; 如给定 =0.01, 该范围称为参数的 99% 可信区 间或置信区间。
均数的抽样误差和总体均数估计
统计推断的两部分内容:
1. 参数估计
包括:点估计与区间估计
2. 假设检验
参数估计
随机抽取部分观察单位
总体
样本
μ?
推断inference
X
一、抽样误差与标准误
若 某 市 2009 年 18 岁 男 生 身 高 服 从 均 数 μ =167.7cm、标准差 =5.3cm 的正态分布。对该总 体进行随机抽样,每次抽 10 人, ( n j =10) ,共抽得 100 个样本( g =100) ,计算得每个样本均数 X 及 标准差 S 。
计算总体均数可信区间
需考虑: (1)总体标准差是否已知, (2)样本含量n的大小 通常有两类方法: (1)t分布法 (2)z分布法
(1) 未知且n比较小:按t分布
t a / 2,
X t a / 2, SX
S X <X t
2,
X t
2,
2,
SX
双侧概率或双尾概率:用 表示。 双侧概率或双尾概率:用 t / 2, 表示。 双侧概率或双尾概率:用 t / 2, 表示。
-t
0
t
附表2
自由度
t 界值表
概 率,P 0.025 0.01 0.05 0.02 12.706 31.821 4.303 6.965 3.182 4.541 2.776 3.747 2.571 3.365 2.447 2.365 2.306 2.262 2.228 2.080 2.074 2.069 2.064 2.060 3.143 2.998 2.896 2.821 2.764 2.518 2.508 2.500 2.492 2.485 0.005 0.01 63.657 9.925 5.841 4.604 4.032 3.707 3.499 3.355 3.250 3.169 2.831 2.819 2.807 2.797 2.787 0.0025 0.001 0.005 0.002 127.321 318.309 14.089 22.327 7.453 10.215 5.598 7.173 4.773 5.893 4.317 4.029 3.833 3.690 3.581 3.135 3.119 3.104 3.091 3.078 5.208 4.785 4.501 4.297 4.144 3.527 3.505 3.485 3.467 3.450 0.0005 0.001 636.619 31.599 12.924 8.610 6.869 5.959 5.408 5.041 4.781 4.587 3.819 3.792 3.768 3.745 3.725
1 2 3 4 5 6 7 8 9 10 21 22 23 24 25
单侧 双侧
0.25 0.50 1.000 0.816 0.765 0.741 0.727 0.718 0.711 0.706 0.703 0.700 0.686 0.686 0.685 0.685 0.684
0.20 0.40 1.376 1.061 0.978 0.941 0.920 0.906 0.896 0.889 0.883 0.879 0.859 0.858 0.858 0.857 0.856
1.20mmol/L,估计该地正常成年人血清胆固
醇均数的95%可信区间。
本题 n=200>50,故可采用正态近似的方法计算可信区间。 今 X =3.64、s=1.20、n=200、 s x =0.0849, 取双尾 0.05 得 u0.05/ 2 1.96 。
3.64 1.96 0.0849 (3.47, 3.81)(mmol/L)
1、抽样误差: 由个体变异产生的、抽样造成的样本 统计量与总体参数的差别 原因:1)抽样 2)个体差异
2、标准误(standard error, SE)
表示样本统计量抽样误差大小的统计 指标。 标准误:说明抽样误差的大小,总体 计算公式
X
n
(7-27)
实质:样本均数的标准差
若用样本标准差s Hale Waihona Puke Baidu估计 ,
举例:
① 10,单 =0.05,t0.05,10 1.812 ,则有
P(t 1.812) 0.05 或 P(t 1.812) 0.05
② 10,双 =0.05,t0.05 / 2,10 2.228 ,则有
P ( t 2.228) P ( t 2.228) 0.05
故该地正常成年人血清胆固醇均数的双侧95% 可信区间为(3.47, 3.81)mmolL。
四、 假设检验的基本概念和步骤
(一) 假设检验的基本思想
例 大规模调查表明,健康成年男子血红蛋白的均 数为136.0g/L,今随机调查某单位食堂成年男性炊 事员25名,测得其血红蛋白均数121g/L,标准差 48.8g/L。 问题:根据资料推论食堂炊事员血红蛋白均数是 否与健康成年男子血红蛋白均数有无差别