第四章抽样误差与区间估计.ppt
统计学(抽样估计)
第四章第一节
二、抽样调查的特点
➢按随机原则抽取调查单位; ➢要抽取足够多的调查单位;
基本原则
➢可从数量上推断总体
基本目的及任务
➢要运用概率估计的方法
➢抽样调查中所产生的抽样误差可以事先计算
并加以控制。
科学性体现
3
第四章第一节
三、抽样调查的使用范围 ➢ 有些事情在测量或实验时有破坏性,不可能进行
1、用样本标准差替代总体标准差。大样本情况下,可 以直接用样本标准差S代表代表总体标准差;在小样
本的情况下,则采用样本修正标准差 S *来代替。
S* (xi x)2 n 1 S n n 1
2、用以前(近期)的总体标准差或同类地区的总体标 准差来代表所研究的标准差。若同时有多个可供参 考的数值时,应选择其中最大者。对于成数P,应选 最接近0.5的比率。
up
P(1 P)(重复) n
up
P(1 n
p)
(
N N
n 1
)或up
ux
σ 2 (N n)或 n N1
ux
σ 2 (1 n )(不重复) nN
P(1 P) (1 n )(不重复)
n
N
26
第四章第三节
注意:在上述公式中, 或 P(1 P)总体标准差,但
是实际中这两个数据却是未知的。计算抽样平均误 差时通常采用以下替代方法。
进行检验,来判断这种假设的真伪,以决定取舍
4
第四章第一节 四、抽样估计的一般步骤 1、设计抽样方案 2、抽取样本单位 3、搜集样本资料 4、整理样本资料 5、推断总体指标
5
第四章第二节 第二节 调样调查的基本概念及理论依据 一、全及总体和抽样总体(教材没有) ➢ 全及总体-简称总体(N):研究对象的全 体 (唯一确定) ✓ 变量总体 :各单位可用数量标志计量 A 有限总体:变量值有限 B 无限总体:变量值无限,分为可列或连续 ✓ 属性总体 :各单位用品质标志描述
区间估计ppt课件
极端值处理问题
剔除极端值
在数据分析前,对极端值进行识别和处理,如采用箱线图、Zscore等方法剔除异常值。
转换数据
对数据进行适当的转换,如对数转换、平方根转换等,使极端值的 影响减小。
使用稳健统计量
采用对极端值不敏感的稳健统计量进行区间估计,如中位数、截尾 均值等。
多重比较问题
控制比较次数
在实验设计和数据分析阶段,合理控制比较次数,避免不必要的 多重比较。
02
抽样分布与中心极限定理
抽样分布概念及类型
抽样分布概念
从总体中随机抽取一定数量的样本,统计量的分布称为抽样分布。
常见抽样分布类型
正态分布、t分布、F分布、卡方分布等。
中心极限定理内容及应用
中心极限定理内容
当样本量足够大时,无论总体分布如何,样本均值的分布将近似于正态分布。
中心极限定理应用
在统计学中,中心极限定理是推断统计的理论基础,常用于区间估计、假设检验 等。
构造方法
根据样本均值、标准差和样本量,结 合正态分布或t分布的性质,可以构造 出总体均值的置信区间。
比例p置信区间构建方法
二项分布与比例估计
01
当总体服从二项分布时,样本比例是总体比例的一个良好估计
量。
置信区间的构造
02
利用样本比例、样本量和二项分布的性质,可以构造出总体比
例的置信区间。
注意事项
03
配对样本t检验原理及应用
原理
配对样本t检验是通过比较同一组样本在不同条件下的均值差异来检验两个总体均值是否存在显著差 异的方法。其原假设为两个总体均值相等,备择假设为两个总体均值不等或大于/小于另一个总体均 值。
应用
配对样本t检验适用于前后测量、两种处理方法等配对设计的数据分析。例如,在医学领域,可以通过 配对样本t检验来比较同一种药物在不同剂量下的疗效差异;在教育领域,可以通过配对样本t检验来 比较同一种教学方法在不同班级中的教学效果差异。
抽样误差与假设检验(ppt 43页)
假设检验的基本思想—利用反证法的思想
利用小概率反证法思想,从问题的对立面(H0)出发间 接判断要解决的问题(H1)是否成立。然后在H0成立的条
件下计算检验统计量,最后获得P值来判断。当P小于或等 于预先规定的概率值α,就是小概率事件。根据小概率事件
的原理:小概率事件在一次抽样中发生的可能性很小,如果 他发生了,则有理由怀疑原假设H0,认为其对立面H1成立
判断观察对象的某
项指标正常与否
• 某地调查100人得收缩压均数为18.62kPa, 标准差为1.33kPa。试估计:
• 该地95%的人收缩压在什么范围? • 该地所有人收缩压的均数可能在什么范围?
假设检验的意义和步骤
(Hypothesis Test)
要求: 掌握:假设检验的基本思想和基本步
骤,样本均数与总体均数的比较,配对 资料的比较,两个样本均数的比较,假 设检验应注意的问题。
4 .7, 7 S0 .3, 8 n 140
下限: X - u /2 . S X 4 . 7 1 . 9 7 0 . 3 6 /1 8 4 . 7 ( 1 0 1 1 /L 2 0 ) 上限: X u / 2 . S X 4 . 7 1 . 9 7 0 . 3 6 /1 8 4 . 8 ( 1 0 3 1 / L 2 0 )
24
1.711 2.064 2.492 2.797
25
1.708 2.060 2.485 2.787
2①6 自由度1相.7同06时,2│.0t5│6值越2.4大79,概2率.77P9越小;
2②7 t值相同1.时70,3 t0.025/.20,2522= t02.0.2457,223=2.20.7747。1
第四章 抽样与抽样估计
(一)样本统计量的极限分布 1、如果总体服从正态分布,且均值和方差均为已知,即
Y ~ N (, 2 )
则可以证明不论样本量大小如何,样本均值都围绕总体 均值而服从正态分布,并且其抽样分布的方差等于总体方差 的n分之一,即 y ~ N (, 2 / n)
2、对于非正态总体,若均值μ 和σ 2有限,则根据中心极限 定理,当样本量n充分大时,样本均值仍然围绕着总体均值 而近似地服从正态分布,即
3、缺点: (1)若群内个单元有趋同性,效率将会降低; (2)通常无法预先知道总样本量,因为不知道群内有 多少单元; (3)方差估计比简单随机抽样更为复杂。
(四)分层抽样
1、定义:在抽样之前将总体分为同质的、互不重叠 的若干子总体,也称为层。然后在每一个层独立地随机 抽取样本。 分层抽样示意图:
2、优点:
抽取样本
总体 样本
推断总体
抽样调查中的总体是有限的。在抽样以前,必须根
据实际情况把总体划分成若干个互不重叠并且能组合成 总体的部分,每个部分称为一个抽样单元,不论总体是 否有限,总体中的抽样单元数一定是有限的,而且是已 知的,因此说抽样调查的总体总是有限的。 抽样调查中影响样本代表性的因素有以下几个方面: (1)总体标志值分布的离散程度。 (2)抽样单元数的多少(或称样本量的大小)。 (3)抽样方法。
通常将反映总体数量特征的综合指标称为总体参
数。常见的总体参数主要有:总体总和;总体均值;总
体比率;总体比例。 一般将反映样本数量特征的综合指标称之为统计
量。统计量是n元样本的一个实值函数,是一个随机变
量,统计量的一个具体取值即为统计值。主要的样本统 计量有:样本总和;样本均值;样本比率;样本比例。
第四章 抽样技术
• (五)多阶段抽样
– 含义:multistage sampling-----即先抽大的调 查单元,在大单元中抽小单元,再在小单元 中抽更小的单元。如:我国的城市职工家计 调查,采用三阶段抽样,先城市-基层单位调查户。
第四章 抽样技术
– 应用:在复杂、大规模的市场调查中。
• (六)抽样技术的选用原则
• (四)常用术语
– 1.总体(population)与样本(sample) – 2.总体指标和样本指标
• 总体指标-------反映总体数量特征的指标,有总 体平均数µ,总体比例P, 总体方差 σ 2
第四章 抽样技术
– 样本指标------又称样本估计量或统计量,用 以估计和推断相应总体指标的综合指标,有 样本平均数 x ,样本比例p ,样本方差S2。
第四章 抽样技术
• 成数------分总体成数与样本成数 • 含义------总体中具有某种特征的单位占全部单 位的比例,称总体成数(总体比例) • 如:产品的合格率,市场占有率等。 • 样本成数的抽样分布
– 当从总体中抽出一个容量为n的样本时,样本中具有 某种特征的单位数x服从二项分布,即有x~B(n, π),且 有E(x)=n π V(x)=n π(1- π). – 因而样本比例p=x/n也服从二项分布,且有: – E(p)=E(x/n)= π – V(p)=V(x/n)=1/n π(1- π)
第四章 抽样技术
第四章 抽样技术
第四章 抽样技术
本章要点
• 1.抽样调查的含义、特点与程序; • 2.随机抽样技术的类型及其各自的特点、 方法; • 3.非随机抽样技术的类型及其各自的特 点、方法; • 4.抽样误差的含义及其计算方法 。
第四章 抽样技术
均数的抽样误差PPT课件
第二个要素是“精确性”,常用可信区间的长度(CL,CU)来表示,当
然长度越小越好。精确性与变量的变异度大小、样本例数和1- 的取值 有关。当1- 的取值确定后,可信区间的长度受限于个体变异和样本含
量,个体变异越大区间越宽,样本越小区间越宽,反之区间越窄。
例:某年级学生总人数800人,通过计算其中50人 的医学统计学考试成绩来估计其总体均数。
抽样n=50, X =75.00。估计μ= ?。
①μ=75.00
可能性
②μ=70.00~80.00 可能性
③μ=65.00~85.00 可能性
24
二、t 检验
统计分析
统计描述
是用统 计指标、统计表 和统计图描述资 料的分析规律及 其数量特征。
统计推断
包括“总体 参数估计”和“ 假设检验”两个 内容。
本例自由度:ν-1=25-1=24; t0.05,24,经查表得t0.05,24 = 2.064 则
S X + t0.05,24 × X =73.6 + 2.064×6.5/ 25 = 76.3次/分
X
-
t0.05,24
×
S X
=
73.6
-
2.064×6.5/
25 = 70.9次/分
即该地区正常男子脉搏总体均数的95%可信区间为:
可能高,也可能低
双侧检验
肯定不会低(或高)
单侧检验
H1 : μ>μ0 μ<μ0 μ1 >μ2 μ1< μ2
33
17
2)小样本可信区间估计--t分布法:
x
总体均数95%可信区间估计计算公式:
X
t
0.05,
S X
总体均数99%可信区间估计计算公式:
第四章(整群抽样)
编辑版pppt
11
一、群规模相等简介
总体中的N个初级单元即群的大小(群内次级单元数) 都相等的情形。也就是,若总体有N个群时,每个群中 所包含的单元数为M相等时,则称群规模相等,在实际 问题中,只要群的规模接近时,也称为群规模相等。这 时,对群的抽取一般采用简单随机抽样(无放回)。
Vran ( y )
1 f S2 nM
编辑版pppt
21
因此,群大小相等的整群抽样的设计效应为:
deff V( y) Vran ( y )
1(M1)c
上面结果意味着:按同样的样本量(以次级单元计)
整群抽样的方差约为简单随机抽样的方差的 1(M1)c
倍。换句话说,为了获得同样的精度,整群抽样的样本
解:由前已算出样本群间方差
而群内方差为
sw2
1 n(M 1)
n i1
M
(yij yi )2
j1
sb2 1418.168
1 n
n i1
1M M 1 j1 (yij
yi )2
1 n
n i1
si2(见表最后一) 列
1 (27.192 17.982 43.522) 1431.68 12
编辑版pppt
n i1
M
( y ij y ) 2
j1
s
2 b
M n 1
n
(yi
i1
y )2
s
2 w
1 n(M 1)
n i1
M
( y ij y i ) 2
j1
14
三、总体均值的估计及性质
总体平均值 Y 的估计为:
第四章抽样误差与假设检验
分布的界值
t分布的界值
t分布界值示意图,表示阴影的面积
习题
一、名词解释
1.抽样误差 2.均数标准误 3.置信区间
习题
3.σ未知且n较小时,按t分布计算总 体均数的可信区间
双侧 1 可信区间为:
X t 2, SX
思考
总体均数可信区间与 参考值范围的区别和联系?
第三节 t 分布
X ~ N,(标,准正2 )态分布与U统计量
U X ~ N (0,1) n
实际研究中未知,用样本的标准差S作为
的一个近似值(估计值)代替,得到变换后的 统计量并记为
4.30
154.1-
94
9.40
13.70
154.7-
191
19.10
32.80
155.3-
255
25.50
58.30
155.9-
216
21.60
79.90
156.5-
116
11.60
91.50
157.1-
63
6.30
97.80
157.7-
20
2.00
99.80
158.3-158.9
2
0.20
100.00
注意区别:
SX
SX n
S 和S X
和 X
第二节 总体均数的估计
参数的估计
点估计:将样本统计量作为 总体参数的估计
区间估计:按预先给定的概率确定 一个包含未知总体参数的范围,称 为参数的可信区间或置信区间 (confidence interval,CI)
《抽样误差》课件
抽样误差的控制方法
1
增加样本容量
通过增加样本容量来减小随机误差,使样本更能代表整体总体。
2
提高调查质量
采用合适的调查方法和严格的调查流程,减小系统误差的发生。
3
优化抽样方案
选择合适的抽样方法和样本设计,以减小误差并提高整体调查质量。
案例分析
对比不同抽样方法的误差
通过对不同抽样方法的误差进行对比分析,选择最 适合的方法。
如何选择合适的抽样方法
根据调查的目的和样本特点,选择合适的抽样方法 以减小误差。
总结
1 抽样误差的重要性
2 如何有效地控制抽样误差
了解抽样误差的特点和影响,可以保证研究和调 查的有效性和可靠性。
通过增加样本容量、提高调查质量和优化抽样方 案,可以有效地控一些与抽样误差相关的经典论文,深入了解抽样误差理论和方法。
《抽样误差》PPT课件
抽样误差是研究和调查中不可避免的问题。本课程将介绍抽样误差的背景、 常见的抽样方法、误差类型以及控制方法,并通过案例分析进行进一步探讨。
概述
抽样误差的定义
抽样误差是由于从一个样本中得出结论,而这个样 本只是整体总体的一个子集,因此存在一定的误差。
抽样误差的产生原因
抽样误差的产生主要受样本选择方式、样本大小和 样本的代表性等因素的影响。
常见的抽样方法
1 简单随机抽样
2 分层抽样
从总体中随机选择样本,使每个个体都有相等的 概率被选中。
将总体分为几个层次,然后在每个层次内进行随 机抽样。
3 整群抽样
4 系统抽样
将总体分为若干个不相交的群体,然后从选择的 群体中抽取样本。
在总体中选择一个初始样本,然后按照一定的规 则选择后续的样本。
第4章抽样误差与假设检验ppt课件
治疗前后血清甘油三酯疗效的无效假设和备择假
设分别为
H : 0
0
d
H : 0
1
d
检验水准 是预先规定的拒绝域的概率值,实
际中一般取 0.05 。
[说明] :备择假设有双侧和单侧两种情况。双侧
检验指不论正方向还是负方向的误差,若显著地超出
检验水准则拒绝H0,H1
:
μ d
0即为双侧检验;单侧
检验指仅在出现正方向或负方向误差超出规定的水准
第一节 均数的抽样误差与标准误
一、均数的抽样误差
在医学研究中,绝大多数情况是由样本信息研 究总体。由于个体存在差异,因此通过样本推论 总体时会存在一定的误差,如样本X均数 往往不 等于总体 均数 ,这种由抽样造成的样本均数与总 体均数的差异称为抽样误差。对于抽样研究,抽 样误差不可避免。
二、抽样误差的分布
对上面问题可以作如下考虑:
治疗前后甘油三
酯的变化(差值)
d
样本
n 30 S 0.76 d 1.38 d
0? d
问题归纳: 样本疗效
药物作用 + 机遇
d 1.38
μ 0? d
问题:| d 0 | 究竟多大能够下“有效”的结论?
假定治疗前后血清甘油三酯检测结果的差值服从正态分
布,若 H : 0 则 t d 0 服从t 分布。
上限: X u/2.SX 4.77 1.96 0.38/ 140 4.83(1012 / L)
ቤተ መጻሕፍቲ ባይዱ
三、模拟实验
模拟抽样成年男子红细胞数。设定:
4.75, 0.39,n 140
产生100个随机样本,分别计算其95%的可信区间, 结果用图示的方法表示。从图可以看出:绝大多数 可信区间包含总体参数 4.75 ,只有6个可信区间 没有包含总体参数(用星号标记)。
数据的抽样误差与置信区间估计
数据的抽样误差与置信区间估计在统计学中,数据的抽样误差是指由于从总体中抽取样本,而使得样本估计值与总体真实值之间存在差异的问题。
为了解决这个问题,统计学家们引入了置信区间估计的概念,用于对总体参数进行估计,并给出一个具有一定置信水平的区间。
一、抽样误差的产生原因抽样误差是由于从总体中随机抽取样本导致的。
在理想情况下,如果我们能够对总体中每一个个体进行测量,那么得到的结果将是总体参数的准确值。
然而,由于时间、成本和其他限制因素的存在,我们通常只能从总体中选取一部分样本进行研究。
这样一来,样本的结果就可能与总体的真实情况存在差异,这就是抽样误差的产生原因。
二、置信区间估计的概念为了解决数据的抽样误差问题,统计学家们引入了置信区间估计的方法。
置信区间是对总体参数进行估计的一种方法,其中包含了总体参数的真实值可能位于其内的一定区间。
这个区间称为置信区间。
置信区间估计的核心思想是通过对样本数据的分析,构建一个区间,该区间有一定的置信水平包含了总体参数的真实值。
例如,我们可以说我们对于总体平均值有95%的置信水平,它位于构建的置信区间内。
置信水平通常使用95%或者99%。
三、置信区间估计的计算方法置信区间估计的计算方法主要有两种:参数估计法和非参数估计法。
参数估计法是在假设总体分布形式已知或者对其做出某种特定假设的前提下,通过对样本数据进行参数估计,建立置信区间。
常见的参数估计法有Z检验和T检验。
非参数估计法则是在对总体分布形式不做任何假设的情况下,通过样本数据的排序、秩次和分布特征等进行推断,建立置信区间。
四、置信区间估计的应用置信区间估计在实际应用中非常广泛。
它可以用于估计总体参数的范围,帮助我们对样本结果进行合理解释,并提供决策依据。
在市场调研中,我们可以利用置信区间估计来估计消费者对某个产品的满意度范围,并据此调整和改进产品。
在医学研究中,置信区间估计可以帮助我们估计某种药物的有效性,并进行相应的临床试验和改良。
第四章 抽样调查
p
p1 p
n
0.2 0.8 0.02 400
即:根据样本资料推断全部学生中戴眼镜的学 生所占的比重时,推断的平均误差为2%。
例: :
一批食品罐头共60000桶,随机抽查300桶,发 现有6桶不合格,求合格品率的抽样平均误差?
解: 已知 N 60000 n 300 n1 6
解:
x xf 12600 126件 f 100
s x x 2 f 4144 6.47件
f 1
99
x
s 2 1 n n N
6.472 1 100 0.614件
100 1000
x
通过例题可说明以下几点:
①样本平均数的平均数等于总体平均数。 ②抽样平均数的标准差仅为总体标准差的 1
n
③可通过调整样本单位数来控制抽样平均误差。
例:假定抽样单位数增加 2 倍、0.5倍时, 抽样平均误差怎样变化?
解:抽样单位数增加 2 倍,即为原来的 3 倍
则:
x
3n
1 0.577 3
二、抽样调查的特点
1、 是专门组织的一次性的非全面调查 2、 抽选样本单位遵循随机原则 3、 用样本指标数值去推断总体指标数值 (与重点调查的区别) 4、 抽样误差可计算并控制在一定范围内 (与典型调查的区别)
三、抽样调查的几个基本概念 (一) 全及总体和抽样总体
全及总体 指研究对象的全体。其单位数 (总体) 用N 表示。
即:当根据样本学生的平均体重估计全部学生的平均 体重时,抽样平均误差为1公斤。
例: 某厂生产一种新型灯泡共2000只,随机抽出 400只作耐用时间试验,测试结果平均使用寿 命为4800小时,样本标准差为300小时,求抽 样推断的平均误差?
抽样和抽样估计
2、同步,有1500人参加了企业培训,则 参加企业培训计划旳百分比为:P =1500/2500=0.60
上述总体均值、总体原则差、百分比均称为总体旳 参数
样本均值旳原则差可用来测度样本均值与总 体均值旳“距离”,即可用来计算可能旳误差, 它也被称为均值原则误(standard error of the mean)。
3、样本均值抽样分布旳实际应用
样本统计量旳估计值与其所要测度旳总体参数值之间旳 绝对差距,被称为抽样误差(sampling error)。
参数是总体旳数值特征 A parameter is a numerical characteristic of a population。
如:例3中旳中层干部平均年薪,年薪原则差及受培训人数 所占百分比均为该企业中层干部这一总体旳参数。
●抽样估计就是要经过样本而非总体来估计总体参数。
一、简朴随机抽样(Simple Random Sampling)
同步,因为n/N=30/2500=0.012<=0.05,所以样本 原则差为
又因为n·p=300.6=18, n(1-p)=30 0.4=12 所以,样本百分比服从如下正态分布:
p ~ N (0.6, 0.0892 )
四、点估计量旳性质:估计量优劣旳衡量 用样本统计量(sample statistics)能够作为其相 应旳总体旳点估计量(point estimator)。 但要估计总体旳某一指标,并非只能用一种样本 指标,而可能有多种指标可供选择,即对同一总体 参数,可能会有不同旳估计量。
抽样与区间估计
区间估计应用
利用抽样数据对总体参数进行区间估 计,给出参数估计的置信区间,以反 映参数的真实值可能落入的范围。
医学研究中临床试验数据处理方法
1 2
试验设计
在医学研究中,采用随机化、双盲等试验设计方 法,以减少偏倚和误差,提高试验结果的可靠性 。
数据收集与整理
按照试验方案要求收集数据,并进行整理、核对 和清洗,以确保数据的准确性和完整性。
3
统计分析
运用适当的统计方法对数据进行分析,包括描述 性统计、推断性统计等,以揭示试验组与对照组 之间的差异和联系。
质量控制中抽样检验方案设计
抽样方案制定
01
根据产品特性、生产批量、检验成本等因素,制定合适的抽样
方案,包括抽样方式、样本量、检验水平等。
检验方法选择
02
针对产品的关键质量特性,选择合适的检验方法,如感官检验
总体比例区间估计
• 总体比例区间估计:可以使用二项分布的正态近似进行区间估 计,置信区间为$(\hat{p}z{\alpha/2}\cdot\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}, \hat{p}+z{\alpha/2}\cdot\sqrt{\frac{\hat{p}(1\hat{p})}{n}})$,其中$\hat{p}$为样本比例。
、理化检验、微生物检验等。
不合格品处理
03
对于检验中发现的不合格品,按照相关规定进行处理,包括返
工、返修、降级、报废等。
金融风险评估中参数稳定性检验
风险模型构建
在金融风险评估中,构建合适的风险模型是关键步骤之一。根据历 史数据和风险因子,建立风险模型以预测未来风险。
参数估计与检验
利用历史数据对风险模型中的参数进行估计,并进行参数稳定性检 验。常用的检验方法包括单位根检验、协整检验等。
第四章抽样误差与区间估计
数理统计推出: 1.从正态总体N( , 2)中,随机抽取例数为n的样 本,样本均数X也服从正态分布;即使从偏态总体随机 抽样,当n足够大时,X也近似正态分布;
2.从均数为,标准差为的正态或偏态总体,抽取例数 为n的样本,样本均数X的总体均数也为,标准差用X 表示,则X可按下式计算:
X = n
X~ N( , 2)
总体均数可信区间(confidence interval)的计算: 1. 未知:按t分布。
由于P(-t /2, t t /2, )= 1- ,
-t /2, X- t /2, S/ n
S X- t /2, n
X + t /2, S n
2. 已知或未知但n足够大时:按u分布
双侧可信区间为:
(X u/2
n
)或 (X u/2
s n
)
均数的可信区间与参考值范围的区别:
1.意义不同
均数的可信区间的统计意义:
(1)按预先给定的概率,确定的包含总体均数的可能范围, 因此它用于估计总体均数。
(2)可信度要高,但精度不能下降。
参考值范围的统计意义:
“正常人”的解剖、生理、生化某项指标的波动范围,可 以用于判断观察对象的某项指标正常与否。
2.两者的计算公式有差别:可信区间用了标准误,参考值 范围用了标准差。
补充题 152例麻疹患儿病后血清抗体滴度倒数的分布如下,试 作总体几何均数的点值估计和95%区间估计。
152例麻疹患儿病后血清抗体滴度倒数的分布
滴度倒数 1 2 4 8 16 32 64 128 256 512 1024 合计
人 数 0 0 1 7 10 31 33 42 24 3
标准误(standard error, SE):样本统计量的标准差。 均数的标准误(SEM , X ) : 即样本均数的标准差。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Z X
Z变换
标准正态分布
N(0,12)
均数 X
N(, 2 n)
Z X n
标准正态分布
N(0,12)
Student t分布
t X X ,
S n SX
v n 1 自由度:n-1
2020-11-9
感谢你的观看
10
f(t)
ν─>∞(标准正态曲线)
ν=5
ν=1
f (t) ( 1) 2 (1 t 2 / )( 1) 2
0.1580
250
200
150
100
50
0 3.71 3.92 4.12 4.33 4.54 4.74 4.95 5.15 5.36 5.57 5.77 5.98 6.19
均数
n 30; SX 0.0920
感谢你的观看
频数
450 400 350 300 250 200 150 100
50 0 3.71 3.92 4.12 4.33 4.54 4.74 4.95 5.15 5.36 5.57 5.77 5.98 6.19 均数
第四章 抽样误差与区间估计
2020-11-9
感谢你的观看
1
第一节 均数的抽样误差与标准误
例如,从总体均数 =4.83×1012/L、标准差 =0.52×1012/L 的正态分布总体
N(4.83, 0.522)中,随机抽取 10 人为一个样本(n=10),并计算该样本的均数、标
准差。如此重复抽取 100 次( g =100),可得到 100 份样本,可得到 100 对均数
( 2)
-5.0
-4.0
-3.0
-2.0
-1.0
0.0
1.0
2.0
3.0
4.0
5.0
t
图4-2 不同自由度下的t 分布图
2020-11-9
感谢你的观看
11
t分布的特征
①以0为中心,左右对称的单峰分布;
②t分布曲线是一簇曲线,其形态变化与自
由度的大小有关。
自由度越小,则t值越分散,曲线越低平; 自由度逐渐增大时,t分布逐渐逼近Z分 布(标准正态分布);当趋于∞时,t分布即 为Z分布。
X 和标准差 S ,见表 4-1 所示。
正态总体
=4.83 =0.52
100份样本的均数和标准差
XS
1. 4.58, 0.38 2. 4.90, 0.45 3. 4.76, 0.49
┆
100 个
样 本 含 99. 4.87, 0.59 量 n =10 100. 4.79, 0.39
2020-11-9
感谢你的观看
2020年11月10
中心极限定理
central limit theorem
①即使从非正态总体中抽取样本,所得均数分布仍近似呈正态。 ②随着样本量的增大, 样本均数的变异范围也逐渐变窄。
感谢你的观看
2020年11月10
第二节 t 分布(t-distribution)
随机变量X N(,2)
感谢你的观看
2
将这100份样本的均数看成新变量值,按第二章 的频数分布方法,得到这100个样本均数得直方图 见图4-1。
30
25
20
频数
15
10
5
0 4.2~ 4.3~ 4.4~ 4.5~ 4.6~ 4.7~ 4.8~ 4.9~ 5.0~ 5.1~ 5.2~ 红细胞数(×1012/L)
图4-1 随机抽样所得100个样本均数的分布
10
6
3个抽样实验结果图示
频数
450
400 350
n 5; SX 0.2212
300
250
200
150
100
50
0 3.71 3.92 4.12 4.33 4.54 4.74 4.95 5.15 5.36 5.57 5.77 5.98 6.19
均数
频数
450
400 350 300
n 10; SX
② 10,双 =0.05,t 2, t0.05/ 2,10 2.228 ,则有
P(t 2.228) P(t 2.228) 0.05 t t 0.10/ 2,30 0.05,30
2020-11-9
感谢你的观看
13
t分布曲线下面积(附表2)
双侧t0.05/2,9=2.262 =单侧t0.025,9
单侧t0.05,9=1.833 双侧t0.01/2,9=3.250
=单侧t0.005,9 单侧t0.01,9=2.821 双侧t0.05/2,∞=1.96
=单侧t0.025,∞ 单侧t0.05,∞ =1.64
2020-11-9
感谢你的观看
14
第三节 总体均数的可信区间估计
总体均数的点估计(point estimation)与区间估计
2020年11月10
抽样实验小结
均数的均数围绕总体均数上下波动。 均数的标准差即标准误 X 与总体标
准差 相差一个常数的倍数,即 / n
样本均数的标准误(StandardX Error) =样本标准差/ 样本含量=S n
从正态总体N(,2)中抽取样本,获得
均数的分布仍近似呈正态分布N(,2/n) 。
0.52 10
0.1644 X
2020-11-9
感谢你的观看
4
标准误(standard error, SE)
即样本均数的标准差,可用于衡量抽样误
差的大小。
X
n
因通常σ未知,计算标准误采用下式:
SX
2020-11-9
S
n
感谢你的观看
通过增加样本
含量n来降低抽
样误差。
5
表4-1计算了100个样本的标准差S,由此可 计算每一样本的抽样误差大小。
2020-11-9
感谢你的观看
3
100个样本均数的抽样分布特点:
① 4.83 X 4.8276
② 100个样本均数中,各样本均数间存在差异, 但各样本均数在总体均数周围波动。
③样本均数的分布曲线为中间高,两边低, 左右对称,近似服从正态分布。
④Hale Waihona Puke 本均数的标准差明显变小:0.52
SX
0.1772
第1个样本S X 第2个样本S X 第3个样本S X
S 0.38 =0.120 n 10 S 0.45 =0.142 n 10 S 0.49 =0.155 n 10
第100个样本S X
S 0.39 =0.123 n 10
2020-11-9
0.52 0.1644
n X
感谢你的观看
2020-11-9
感谢你的观看
12
t 界值表
(P406,附表2)
问单侧t0.025,10 ?
✓ 举例:
f (t) ν=10的t分布图
t
1.812 -2.228
2.228
① 10,单 =0.05,t , t0.05,10 1.812 ,则有
P(t 1.812) 0.05 或 P(t 1.812) 0.05