第03章抽样误差
抽样误差——精选推荐
抽样误差、抽样平均误差与抽样极限误差一、基本概念抽样误差是指由于随机抽样的偶然因素使样本各单位的结构不足以代表总体各单位的结构,而引起抽样指标和全及指标之间的绝对离差。
因此,又称为随机误差,它不包括登记误差,也不包括系统性误差。
影响抽样误差的因素有:1、总体各单位标志值的差异程度;2、样本的单位数;3、抽样的方法;4、抽样调查的组织形式。
抽样误差又分为两种:1、抽样平均误差。
抽样平均误差是反映抽样误差一般水平的指标,它的实质含义是指抽样平均数(或成数)的标准差。
即它反映了抽样指标与总体指标的平均离差程度。
抽样平均误差的作用首先表现在它能够说明样本指标代表性的大小。
平均误差大,说明样本指标对总体指标的代表性低;反之,则高。
(记为μx 或μp )2、抽样极限误差。
抽样极限误差指在进行抽样估计时,根据研究对象的变异程度和分析任务的要求所确定的样本指标与总体指标之间可允许的最大误差范围(记为∆)。
二、计算公式(一)抽样平均误差1、样本平均数的平均误差以μx 表示样本平均数的平均误差,σ表示总体的标准差。
根据定义:即n x σμ=,(若为不重复抽样,则总体方差σ要用进行修正)它说明在重复抽样的条件下,抽样平均误差与总体标准差成正比,与样本容量的平方根成反比。
例1:有5个工人的日产量分别为(单位:件):6,8,10,12,14,用重复抽样的方法,从中随机抽取2个工人的日产量,用以代表这5个工人的总体水平。
则抽样平均误差为多少?解:根据题意可得:(件)总体标准差(件)抽样平均误差(件)注意:在计算抽样平均误差时,通常得不到总体标准差的数值,一般可以用样本标准差来代替总体标准差。
2、抽样成数的平均误差总体成数P 可以表现为总体是非标志的平均数。
即E(X)=P ,它的标准差。
根据样本平均误差和总体标准差的关系,可以得到样本成数的平均误差的计算公式。
(不重复抽样时要修正)注意:当总体成数未知时,可以用样本成数来代替。
第3章抽样误差陆
■样本均数的均数为 μ;
■样本均数的标准差为
。
PPT文档演模板
第3章抽样误差陆
中心极限定理
不同类型的总体分布,对于统计量分布有何影响?
q 正态分布总体 q 偏三角分布总体 q 均匀分布总体 q 指数F分布总体 q 双峰分布总体
PPT文档演模板
第3章抽样误差陆
中心极限定理
(二)从非正态(nonnormal)分布总体(均数为μ, 方差为σ)中随机抽样(每个样本的含量为n),可 得无限多个样本,每个样本计算样本均数,则 只要样本含量足够大(n>50),样本均数也近似服 从正态分布。
3.25。 n 从正态分布的总体中随机抽样,得到的样本其
2值大于等于20.48的概率为0.025,小于等于
3.25的概率亦为0.025。
n P(2≤3.25)+P(2≥20.48)=0.05
PPT文档演模板
第3章抽样误差陆
2分布的特征
n 2分布近似描述具有某种属性的实际频数Ai与
理论频数Ti之间的抽样误差
其次,当样本含量不变时,标准差大,标准误亦
系 越大,均数的标准误与标准差成正比。
•
PPT文档演模板
第3章抽样误差陆
4. t分布
t-distribution
抽样误差 中心极限定理 标准误 分布
PPT文档演模板
第3章抽样误差陆
•正态分布的标准化变化
若 X ~ N(μ,σ) , 则
。
因
,则
。
PPT文档演模板
PPT文档演模板
第3章抽样误差陆
PPT文档演模板
•Fraction
•1 •.9 •.8 •.7 •.6 •.5 •.4 •.3 •.2 •.1 •0
抽样误差及其测定
抽样设计
12
三、抽样平均误差
抽样平均误差是指所有样本抽样误差的平均数。它不是 一个简单的算术平均数,而是抽样平均数或抽样成数的 标准差,即可能出现的样本指标的平均离差。
抽样设计
13
ห้องสมุดไป่ตู้
由于抽样指标有平均指标和成数指标之分,抽样方法又 有重复抽样和不重复抽样两种,因此计算抽样平均误差 方法也有所差别,其计算公式为:
抽样设计
9
抽样误差的大小,主要受以下三个因素影响:
(1)被研究总体各个体标志值的变异程度。总体的方 差和均方差越大,抽样误差就越大;反之,则抽样误差 越小。
抽样设计
10
(2)抽取的调查个体数目。在其他条件不变的情况下, 抽样个体数越多,抽样误差就越小;反之,抽样误差就 越大。
抽样设计
11
(3)抽样调查技术。抽样误差也受抽样调查技术的影 响,一般说来,按照系统抽样和分层抽样方式抽样,由 于经过划类或排队,可以缩小差异程度,因而抽取相同 数目的样本,其抽样误差要比用简单随机抽样方式小些。
抽样设计
21
四、极限抽样误差
抽样平均误差可以用来测定抽样指标对 总体指标的可能离差。根据概率原理, 用一定的概率可以保证抽样误差不超过 某一给定范围,这个给定的范围叫做极 限抽样误差。
t
抽样设计
22
中心极限定理已证明,概率度t和概率P成函数关系,即 P=F(t),t每取一个值,都有一个惟一确定的P值与 之相对应。在实际工作中,为了使用的方便,将不同的 t值与其相应的概率P预先算好,编成概率表,供调查时 查用。
如果以前没有进行过这种调查,可在大规模调查前,组 织一次小规模的试点调查,以获得有关方差资料,并取 代总体资料。
抽样误差
抽样误差抽样误差是抽样区间估计中的一个重要的条件。
它是由于随机抽样的偶然因素使样本各单位的结构不足以代表总体各单位的结构,而引起抽样指标和全及指标之间的绝对离差,因此,又称为随机误差。
影响抽样误差的因素有:总体各单位标志值的差异程度;样本的单位数;抽样的方法;抽样调查的组织形式。
我们在进行总体参数的区间估计时,涉及到的抽样误差指标有以下几个:1.抽样平均误差抽样平均误差是反映抽样误差一般水平的指标,它的实质含义是指抽样平均数(或成数)的标准差。
即它反映了抽样指标与总体指标的平均离差程度。
抽样平均误差的作用首先表现在它能够说明样本指标代表性的大小。
平均误差大,说明样本指标对总体指标的代表性低;反之,说明样本指标对总体指标的代表性高。
抽样平均误差的计算:重复抽样: n x σμ= n p p p )1(-=μ不重复抽样: )1(2N n n x -=σμ)1()1(N n n p p p --=μ 2.抽样极限误差抽样极限误差是指用绝对值形式表示的样本指标与总体指标偏差的可允许的最大范围。
它表明被估计的总体指标有希望落在一个以样本指标为基础的可能范围。
它是由抽样指标变动可允许的上限或下限与总体指标之差的绝对值求得的。
由于总体平均数和总体成数是未知的,它要靠实测的抽样平均数成数来估计。
因而抽样极限误差的实际意义是希望总体平均数落在抽样平均数的范围内,总体成数落在抽样成数的范围内。
3.抽样误差的概率度基于理论上的要求,抽样极限误差需要用抽样平均误差x μ或p μ为标准单位来衡量。
即把极限误差 △x 或 △p 相应除以x μ或p μ,得出相对的误差程度t倍,t 称为抽样误差的概率度。
于是有:x x t μ=∆抽样平均误差反映了样本指标与总体指标误差的一般水平,抽样极限误差给出了由样本指标估计总体指标时的一个最大的误差范围,抽样误差的概率度则可以测定抽样估计的可靠程度。
社会调查方法03抽样一
不等概率抽样的后期统计一般要做特殊处理。
举例:20000户居民,按经济收入高低分类,高收 入居民4000户,占总体20%;中等收入12000户, 占总体60%;低收入户4000户,占总体20%,从 中抽取200户,进行购买力调查。
等比例分层抽样 高收入层样本数:200× 20%=40户 中收入层样本数:200× 60%=120户 低收入层样本数:200× 20%=40户
★ 划分 ●★ ■ 子群 ■▼■●● ★■ ▼▼ ★
★● ★● ▼★ ■ ■ ▼ ■ ★● ▼■
随机 抽样
★● ▼■
N
5000 R1 R2 R3 R4 48 …… R130 45 R98 R110
总体
确定分群 特征
53
R1
50
R4
58
R33
群(互不
重叠)
子群
53
48
52
50
47
n
样本
250
等距抽样与简单随机抽样相比,样本分布更为 均匀,抽样误差更小 注意: 等距抽样是以总体的随机排列为前提的, 如果总体的排列出现有规律的分布时,会使等距抽 样产生极大的误差,降低样本的代表性 等距抽样最适用于同质性较高的总体,当总体 内个体类别之间的数目悬殊过大时,样本的代表性 可能较差。在这种情况下应采用另一种分层抽样方 法。
直线等距抽样练习题:
某大学有12000名学生,欲了解 其生活态度,决定采用系统抽样的方法 从中抽查200名学生,用简单随机抽样 的方法抽出第一名学生序号为12,请计
算第十位,第十五位学生的序号是多少?
(二)循环等距抽样(k不为整数)
方法1. 1. 将总体N首尾相连, N K=——,取接近K的整数; 2. 随机起点r从1-N中随机抽取 n 方法2. 调整直线等距抽样 1. 将K的小数点后移,便为整数[K] 2. 确定整数的随机起点[r],从10-[K]中选 3. 确定非整数的随机起点r,即将[r]的小数点移回来 4. 从r开始,每隔K各单位抽取一个单位 5. 再将所有抽取的号码的小数点略去 特点:所有单位有相同的中选概率1/K
3.3抽样误差
职业教育市场营销专业 教学资源库建设项目
• 某工人某天生产电子元件30件,已知其方差为4,现从中抽取4件 产品进行质量检查。试计算本次抽样平均误差。
市场调查与分析
抽样平均误差
• 课堂练习2:计算平均误差。
职业教育市场营销专业 教学资源库建设项目
• 有5个工人的日产量分别为(单位:件):6,8,10,12,14,用 重复抽样的方法,从中随机抽取2个工人的日产量,用以代表这5 个工人的总体水平。计算抽样平均误差。
市场调查与分析
抽样极限误差
职业教育市场营销专业 教学资源库建设项目
• 抽样极限误差也叫允许误差,是指样本指标与总体指标之间抽样误差 的可能范围。或者,在一定的置信度下,抽样估计可以允许的误差范 围。
市场调查与分析
抽样极限误差
• 抽样平均数的极限误差
职业教育市场营销专业 教学资源库建设项目
x X X
1、 根据此前的调查结果进行抽样误差的计算
2、 进行总体区间的估计 3、 形成非抽样误差的控制方案
市场调查与分析
市场调查与分析
3.3.1抽样误差
3、抽样误差的计算 • 抽样平均误差
职业教育市场营销专业 教学资源库建设项目
• 抽样极限误差
市场调查与分析
抽样平均误差
职业教育市场营销专业 教学资源库建设项目
• 抽样平均误差是测定抽样误差的基本指标。它是随机抽样可变总体平 均数(抽样平均数的所有可能值)与全及平均数之间的离差的平方根。 • 这个指标反映抽样平均数的所有可能值对全及平均数的平均离散程度, 即反映误差平均值的大小。
• 课堂练习6:总体均值的区间估计
职业教育市场营销专业 教学资源库建设项目
• 对刚下线的1000个酒瓶重量进行检查。重复抽取100个酒瓶,样本 平均重量为100克,样本标准差为5克,试以95%的置信度估计这批 酒瓶重量的置信区间,并说明其含义是什么?
03第三章 简单随机抽样
首先,在理论上最符合随机原则.对此可有二 种理解:一种是总体中各个单位被抽中的机会 相等.设总体有N个单位,各单位被抽中的概 1 率均为 N.另一种是总体中各个样本被抽中的 概率相等.我们知道,一个总体N中可以抽取 许多个容量为n 的样本,通常情况下按组合形 n C N个样本,那么,在一次抽样中,某个样 式有 1 本被抽中的概率为C ,这个概率对每个可能的 样本都相等.简单随机抽样遵循这种等可能性 原则,为进行抽样估计,计算抽样误差,提供 了重要前提条件.
Y3 + Y4 2
可见,样本均值 y 是 Y 的一个无偏估计量,因为
1 Yi + Y j 1 3 4 E ( y ) = ∑∑ ( ) = ∑∑ (Yi + Y j ) 2 12 i =1 j i i =1 j i 6
3 4
而每个单元均可能在三个样本内出现,故
1 4 E ( y ) = ∑ 3Yi = Y 12 i =1
颜色 蓝 绿 红 白 黄 合计
人的编号 1 14 28 15 25 18 2 26 21 12 23 18 3 20 15 20 20 25 4 12 21 22 19 26
期望 数字 20 20 20 20 20 100
100 100 100 100
可见四个人都对颜色存在偏好,如第一个人偏爱绿色, 第二个人偏爱蓝色等.这种由于对颜色偏好所引起的偏估 类型,可称之为颜色偏误. 结论:随意抽样≠随机抽样
n N
其次,它是设计其他更复杂抽样形式的基础. 例如,设计分层抽样,将总体划分为若干层, 然后对各个层实施简单随机抽样.对一个非常 大的总体,需要分若干个阶段进行抽样.例如, 进行全国性抽样调查,第一阶段可以由全国抽 取若干个省份,第二阶段再由抽中的省份抽取 若干个县(市);第三阶段再由抽中的县(市)抽 取若干个乡(街道);第四阶段再由抽中的乡 (街道)抽取若干个村(居委会)等等.在这种多 阶段抽样中,每个阶段中抽取样本单位均可采 用简单随机抽样方法.
03第三章 简单随机抽样(SRS)
总体均值的比估计 总体总值的比估计 总体均值的回归估计
ˆ y RX ˆ YR R
ˆ ˆ ˆ YR RX NRX
ˆ Ylr y ( X x )
总体总值的回归估计
ˆ Ylr y ( X x) N y ( X x )
抽样可以是放回的,也可以是不放回的。如果 抽样比非常小,则放回抽样与不放回抽样实际 上是差不多的。一般情况下,不放回抽样的结 果更精确,实际操作也更方便些。在本课程中, 除非特别指明,抽样都是指不放回的。
简单随机抽样一般有抽签法和随机数法 两种实施方法。
7
简单随机抽样的抽样规则:
1)按随机原则取样,在取样时排除任何主 观因素选择抽样单元,避免任何先入为主 的倾向性,防止出现系统误差。 2)每个抽样单元被抽中的概率都是已知或 事先确定的,或者事先可以计算出来。 3)每个抽样单元的概率都相等,即简单随 机抽样属于一种等概率随机抽样。
所有概率抽样的出发点和理论基础都是简单随 机抽样。简单随机抽样是一种一步抽样法,它 保证样本量为n的每个可能的样本都有相同的 被抽中的概率p=n/N。 简单随机抽样有三个相互等价的定义:
4
定义1: 从总体的N个单元中,一次整批抽取n个单元 ,使任何一个单元被抽中的概率都相等,任何n个不同 单元组成的组合被抽中的概率也都相等,这种抽样称 为简单随机抽样。 定义2:从总体中的N个单元中,逐个不放回地抽取单 元,每次抽取到尚未入样的任何一个单元的概率都相 等,直到抽足n个单元为止,这样所得的n个单元组成 一个简单随机样本。 定义3:按照从总体的N个单元中抽取n个单元的所有 n n C N个样本,从C N 个样 可能不同的组合构造所有可能的 本随机抽取1个样本,使每个样本被抽到的概率都等于 n 1/C N ,这种抽样称为简单随机抽样
03 第三章 t检验2013
表3-1 对子号 1 2 3 4 5 6 7 8 合计
不同饲料组大白鼠肝中维生素A含量 ( m ol/ g ) 正常组 VE缺乏组 3.72 2.57 2.09 2.51 3.14 1.88 4.14 3.35 3.98 3.40 3.93 2.83 3.61 2.62 3.19 1.83 d 1.15 -0.42 1.26 0.79 0.58 1.10 0.99 1.36 6.81 d的平方 1.3225 0.1764 1.5876 0.6241 0.3364 1.2100 0.9801 1.8496 8.0867
X t / 2, S X
有样本计算的置信区间(3.13,3.41)kg,已知总体被 包含在置信区间内,可认为:该地农村新生儿出生体 重与该地新生儿平均出生体重相同。
置信区间法(单侧) μ0=3.36kg n=40 x =3.27kg s=0.44kg
X t , S X
有样本计算的置信区间(?)kg,已知总体被包含在 置信区间内,可认为:该地农村新生儿出生体重与该 地新生儿平均出生体重相同。
t
X 0 S n
例
已知某地新生儿出生体重均数为3.36kg。从 该地农村随机抽取 40 名新生儿,测得其平均体
重为3.27kg,标准差为0.44kg,
问该地农村新生儿出生体重是否与该地新 生儿平均出生体重不同?
双侧检验
(1)建立检验假设,确定检验水准
H0 : μ = 3.36 ,即 该地农村新生儿出生体重与该地
(1)建立检验假设,确定检验水准
H0:μ=3.36,即该地农村新生儿出生体重与
该地新生儿平均出生体重相同;
H1:μ≠3.36,即该地农村新生儿出生体重与
社会调查之抽样误差
重复抽样条件下:
样本平均数
x
2
的抽样平均误差
SE x =
σ
s = ≈ n n n
σ
重复抽样条件下:
样本比例p 的抽样平均误差
SE p =
P(1 − P) ≈ n
p (1 − p ) n
不重复抽样条件下:
样本平均数
x
抽样平均误差
SE x = ≈
2
σ
N −n σ ( )= n N −1 n
2
N −n N −1
〈例〉某校同学的身高为正态分布,平均值为170cm, 标准差为10cm。 问:(1)高于平均数1.5个标准差的同学身高是多少? (2)162cm身高的同学距离平均数有几个标准差? (3)95%的同学身高会在什么范围内?
解1:
解2:
解3:
(150.4~189.6)
五、样本规模
(一)影响样本规模的因素 1、抽样精度 2、总体标准差
中心极限定理
在一个含有N个元素且平均数为µ,标准差为σ的总体 中,抽取所有可能含有n个元素的样本。全部可能的样 本数目为m:
若用
,
,
… 来分别表示这m个 的分布将
样本的平均数,那么,样本平均数
是一个随n愈大而愈趋于具有平均数µ和标准差 的正态分布。
定理说明 当n足够大时(通常假定大于30),无论总体的 分布如何。其样本平均数所构成的分布都趋于 正态分布。
查概率表得 F ( Z ) = F (1.64 ) = 90 %
结论:
(1)点估计:估计该市居民空调机普及率 为80%,其误差不超过3.5的可靠程度为 90% (2)区间估计:在90%的概率保证程度下, 估计该市居民户空调机的普及率在 76.5%-83.5%之间
统计基础课件——抽样误差
(二)概率
一个随机试验有许多可能的事件,我们不 仅想知道它们有哪些可能的事件,而且还想知道 某些事件出现的可能性的大小,并希望将这一可 能性用数值描述出来。为了定量地描述随机事件, 人们引入了一个描述随机事件发生可能性大小的 统计数据——随机事件的概率。某一随机事件发 生的次数占所有随机事件发生次数的比率就是该 事件的概率。许多数学家、统计学家对概率及其 计算作出了巨大的贡献,提出了概率论的公理化 体系。概率论,就是研究随机事件规律性的科学。
表4-3 成数抽样误差计算表
使用寿命 元件质量 抽检数 比重(成数)
(小时)
(个) ( % )
900以下 不合格 1
900~950 不合格 2
950~1000 不合格 6
1000~1050 合格
35
1050~1100 合格
第二节 抽样误差
一、随机事件与概率 (一)随机事件 在相同条件下,每次试验可能出现也可能不出现的状态称为
随机事件。 例如,掷一对骰子,两颗骰子落下时总共有多少种状态呢? 白色骰子能够以6种状态中任何一种状态落下:
譬如当白色骰子显示 时,黑色骰子仍有6种状态落下:
这里,骰子落下所呈现的每种状态称为随机事件。
行实割实测,计算结果: x = 6千克,Sx = 0.1千克,试计算重复
抽样误差。
已知:n = 1000 ,Sx = 0.1;求:μx =?
解:μx =
= S 2 x n
= x2 0.12 = 0.01 =0.00316(千克)
n
1000 1000
(2)样本成数的抽样误差
样本成数抽样误差μp等于总体成数除以样本单位数的平方根x
X 2 N n
n N 1
抽样误差
抽样误差和抽样分布
Sampling Error and Sampling Distribution
Department of Epidemiology and Biostatistics
School of Public Health, Nanjing Medical University
主要内容
1.0 1.0
0.8
ν 1=5 ν 2=10
0.8
0.6
ν 1=1 ν 2=10
0.4
0.6
ν 1=10 ν 2=∞
0.4
0.2
0.2
ν 1=10 ν 2=1
0.0 0 1 2 3 4 5
0.0 0 1 2 3 4 5
F分布的应用
方差齐性检验 方差分析
n2 1 2 n1 1 s F 2 2 2 s2 2 s n1 1 n2 1 s2 2 n2 1 2
t界值表
单侧: P(t <=-tα,ν)= α或 P(t >=tα,ν)= α 双侧: -t P(t <=-tα,ν)+ P(t >=tα,ν)= α 即:P(-tα,ν<t <tα,ν)= 1-α [例] 查t界值表得t值表达式 t 0.05,10=2.228 (双侧) t 0.05,10=1.812 (单侧)
2=u12+ u22+……+ uv2
0.5
=1
0.4
f(2)
0.3
=2 =3
0.2
=4
=5
=6
0.1
0.0 0 2 4 6 8 10 12
2
χ2分布的作用
方差的抽样分布研究 样本分布与理论分布的拟合优度检验 率或构成比的比较
卫生统计学第八版李晓松第三章 数据的产生
第一节 数据的来源
(二)抽样调查数据与实验数据
2. 抽样调查数据
(1)抽样调查的基本思想就是对总体中的一部分,即样本进行了解进而得到总 体的信息。 (2)特点:观察者对被观察事物或现象在不进行任何干预的情况下所作的观察。
第五节 伦理问题
(一)知情同意与个人隐私
1. 知情同意 受试者在参与试验前需充分了解研究的性质和任何潜在风险。 2. 国际医学委员会建议使用下面的方法
(1)对在社区水平上进行的研究,需征得对此试验负责的卫生行政部门的知情同意。
(2)以医院为研究单位时,应当获得当地伦理审查委员会的同意。 (3)当研究单位是学校、工作场所或社区时,应征得有关负责人的同意;同时,尽 可能告知社区民众该试验的研究目的、预期收益和可能的不方便或危险,并告知不同 意的人如何免受干预措施的影响。
第二节 随机对照试验
(一)设计原则
3. 重复(repeat)
(1)每组只有一个试验对象,那么试验结果可能只依赖于具有这类潜在 特质的人被分到了哪个组,但是,如果试验对象足够多,这类人的效应就
能够被平均化,两组的区别就会减少。
(2)重复思想:运用足够多的样本来降低试验的随机误差。
第二节 随机对照试验
释数据收集或产生过程的核心思想。
第二节 随机对照试验
第二节 随机对照试验
(一)设计原则
1. 对照(control)
(1)案例:“胃冷冻法”治疗胃溃疡是否有效。
(2)安慰剂效应:由于心理效应所产生的虚假现象。
(3)对照思想:设置对照组以减少非处理因素对处理因素效应的影响。 (4)标准的对照试验:将试验对象随机分配到试验组和对照组,除了对试验
5-参数估计
单尾t0.05,10=1.812,按t分布的规律表明, 从正态分布总体中抽取样本含量为n=11 的样本,则由该样本计算的t值大于等于 1.812的概率为0.05,或者小于等于1.812的概率也为0.05,可表示为: P(t≤-1.812)=0.05或P(t≥1.812)=0.05
t分布规律的表达通式
点估计(point estimation)
点估计是直接用样本统计量作为总体参 数的估计值。 缺点:未考虑抽样误差的大小。
例:点估计某地区12岁男孩的总体平均身高。 甲随机抽取120名12岁男孩,测得平均身高为 142.67cm ; 乙也随机抽取120名12岁男孩,测得平均身高 为141.95cm 。 谁的结论更可信?
,…,也服
在实际工作中,总体标准误 x 往往是未 知的(尤其是在小样本的研究中),而 是用样本标准误 Sx 去估计的。这时,用 S x 代替 x 进行的变换就不再是u变换, 而变成了t变换:
X X t SX S/ n
v n 1
所得的 , , ,…, 就不再服从标准正态分布,而是服从自 由度为n-1的t分布(t-distribution)。
区间估计(interval estimation)
由于抽样误差的客观存在, 按一定的概率或可信度(1-)用一个区间 来估计总体参数的所在范围, 该范围称作可信度为1- 的可信区间 (confidence interval, CI),又称置信区 间。 这种参数估计方法就叫做区间估计。
可信度为1- 的可信区间的确切涵义
(二) 2分布的图形和特征
=1
0.5
f(2)
0.4 0.3 0.2 0.1 0.0
=2 =3
=4
=5
=6
电子商务专业《抽样误差》
二、抽样误差的影响因素
〔1〕抽样单位的数目 〔2〕总体被研究标志的变异程度 〔3〕抽样方法的选择 〔4〕抽样组织方式不同
第七页,共八页。
内容总结
一、抽样误差的概念。抽样误差又称为抽样随机误差,是在抽样调查中,由于样本对总体的代表性缺乏而引起的误差。样本量相同的所有样本抽样 误差的平均数。抽样平均误差,也称为统计量的标准误,即统计量的标准差,可以被用作衡量样本指标对总体指标代表性上下的尺度。〔三〕抽样平均 误差与抽样极限误差的关系。〔4〕抽样组织方式不同
第八页,共八页。
一、抽样误差的概念
抽样误差又称为抽样随机误差,是在抽样调查中,由于样本对总体的代表性缺乏而引起的误差。 抽样误差的表现形式: 抽样平均误差 抽样极限误差
第一页,共八页。
〔一〕抽样平均误差 样本量相同的所有样本抽样误差的平均数。
抽样平均误差,也称为统计量的标准误,即统计量的标准差,可以被用作衡 量样本指标对总体指标代表性上下的尺度。
EX
X
M
2
EP
பைடு நூலகம்
P
M
2
第二页,共八页。
抽样平均误差〔简单随机抽样〕
重复抽样
E X
n 不 重 复 抽 样
EP
(1 )
n
EX
2 (N n)
n N 1
EP
(1 n
)
(
N N
n 1
)
第三页,共八页。
〔二〕抽样极限误差 根据概率原理,用一定的概率可以保证抽样指标与总体指标的离差不超过某 一给定范围,这个给定的范围就叫作抽样极限误差,记为d ,公式表示为:
dX X dP P
第四页,共八页。
〔三〕抽样平均误差与抽样极限误差的关系
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
态分布。 每一自由度下的 t 分布曲线都有其自身分布规律,这个规律可见于 t 界值表(附表 2),
表中横标目为自由度,纵标目为概率 P,表中数据为相应的 t 界值,常记为 t,。 t 分布表明,从正态分布总体中随机抽取的样本,由样本计算的 t 值接近 0 的可能性较
大,远离 0 的可能性较小。t0.05,10=2.228,表明,从正态分布总体中抽取样本含量为 n=11 的样本,则由该样本计算的 t 值大于等于 2.228 的概率为 0.025,小于等于-2.228 的概率亦 为 0.025。可表示为:
3.2 抽样误差产生的条件
抽样误差产生的两个必备条件: (1) 抽样研究。抽样研究是产生抽样误差的必备条件之一。只有对总体中的部分个体 进行研究,才可能导致样本指标与总体指标的不一致,而且在从同一总体进行抽样的研究 中,样本含量越少的研究,理论上抽样误差必然越大。 (2) 个体变异。个体变异是产生抽样误差的另一必备条件。在医学科研领域,许多被 研究对象都存在着变异现象,如血压、疗效、药物反应等。在抽样方法和样本含量不变的 条件下,变异大的研究样本其抽样误差也大,反之则小。 以上是产生抽样误差的必备条件,缺一不可。若进行普查,则被研究对象的个体变异 将不会产生抽样误差;若个体间无变异,当然无需作抽样研究,也无抽样误差可言。
P(2≤3.25)+P(2≥20.48)=0.05 或:P(3.25<2<20.48)=1-0.05=0.95。
0.5 =1
0.4 f(2)
0.3
0.2
0.1
=2
=3
=4
=5
=6
0.0
0
2
4
6
8
10
12
2
图 3.3 2 分布曲线(自由度为 1~6)
3.6 F 分布
设从两个方差相等的正态分布 N(1,2)和 N(2,2)总体中随机抽取含量分别为 n1 和 n2
设从正态分布 N(,2)中随机抽取含量为 n 的样本,样本均数和标准差分别为 X 和 s, 且:
t X X
sX
sn
(3.3)
则 t 值服从自由度为 n-1 的 t 分布(t-distribution)。Gosset 于 1908 年在《Biometrika》(生物 统计)杂志第 6 卷第 1 期上发表了题为《The probable error of a mean》(平均数的概率误差) 的论文,当时用的是笔名“Student”,故 t 分布又称 Student t 分布。
由图可见,样本均数的分布不再显示原来的非正态分布之特征,且随着样本含量 n 的 增大,样本均数的分布很快接近正态分布,并显示均匀分布接近正态分布的速度快于偏态
分布,单峰分布快于双峰分布。因此,根据中心极限定理,即使对于总体的精确分布并不
清楚(这种情况在分析实际资料时较为常见),我们也可以利用这一特性对样本均数的抽样 误差进行各种分析。
1.00690.5486 1.00740.3945 0.99650.2472 0.99970.1560
1.00000.5477 1.00000.3873 1.00000.2450 1.00000.1549
表 3.1 中 12 个抽样分布的均数及标准误与理论值均非常接近。实际工作中,常用 X SE 表示某指标的均数及其抽样误差。同时,中心极限定理通过图 3.1 显示:从不同分 布类型的总体抽样时,达到样本均数趋向正态分布所需的最小样本含量之参考数。一般而 言,样本含量大于 10 时,其均数分布趋向正态的效果已经比较明显。
P(t≤-2.228)+P(t≥2.228)=0.05 或:P(-2.228<t<2.228)=1-0.05=0.95。
3.5 2 分布
设从正态分布 N(,2)中随机抽取含量为 n 的样本,样本均数和标准差分别为 X 和 s,
且:
2 (n 1)s2 2
(3.4)
则2 值服从自由度为 n-1 的2 分布(2-distribution),是小写希腊字母,读作 chi。可见,
(3) =1 时2 分布实际上是标准正态分布变量之平方。自由度为的2 分布实际上是
个标准正态分布变量之平方和。可表示为:
2=u12+ u22+……+ uv2
(3.6)
其中,ui 为标准正态变量。该性质说明,2 分布具有可加性。 (4) 每一自由度下的2 分布曲线都有其自身分布规律,这个规律可见于2 界值表(附
即:
s s
X
n
(3.2)
因为标准差 s 随样本含量的增加而趋于稳定,故增加样本含量可以降低抽样误差。 为了形象地展示中心极限定理,表 3.1 设计了 4 个非正态分布的总体,其中,总体 A
是偏三角分布,总体 B 是均匀分布,总体 C 是指数分布,总体 D 为双峰分布。分别从各 总体中抽取 10000 个样本含量为 n 的样本,计算每个样本的均数,并根据 10000 个样本均 数绘制频率分布图(图 3.1)。
3.3 均数的抽样误差及标准误
虽然均数的抽样误差可表现为样本均数与总体均数之差值,但由于总体均数往往是未
知的,故这个差值实际上是得不到的,只能估计。均数的抽样误差也可用多个样本均数间
的离散度表示,但由于对同一问题很少做多次同样的抽样研究,所以这个离散度一般也是
得不到的。那么,如何衡量抽样误差的大小,揭示抽样误差的规律呢?这就要应用数理统
0.50000.2041 0.50000.1443 0.50000.0913 0.50000.0577
0.99920.7065 1.00010.5041 1.00260.3154 0.99620.1985
1.00000.7071 1.00000.5000 1.00000.3162 1.00000.2000
2 分布说明,从正态分布的总体中随机抽样,所得样本的方差 s2 接近于总体方差2 的可能性大,远离总体方差的可能性小。即2 值接近其均数 n-1 的可能性大,远离 n-1 的 可能性小。自由度=10 时,20.025,10=20.48,20.975,10=3.25,说明,从正态分布的总体中 随机样本含量为 n=11 的样本,得到的2 值大于等于 20.48 的概率为 0.025,小于等于 3.25 的概率亦为 0.025。可表示为:
抽样误差有两种表现形式,其一是:样本统计量与总体参数间的差异,如样本均数与 总体均数间的差异;其二是:不同样本的统计量间的差异,如从同一总体中抽取含量相等 的两样本得到的两个样本均数之间的差异。
从理论上讲,若进行 K 次抽样,所得的 K 个样本统计量(例如 X )则很可能各不相同, 若将这些样本统计量编制成频率分布表或绘制成频率分布图,则可看出样本统计量的抽样 分布是有规律的。
计中的中心极限定理(central limit theorem)了。 中心极限定理的涵义:
(1) 从均数为、标准差为 的正态总体中独立、重复、随机抽取含量为 n 的样本, 样本均数的分布仍为正态分布,其均数为,标准差为 X 。
(2) 即使从非正态总体(均数为、标准差为 )中独立、重复、随机抽取含量为 n 的样 本,只要样本含量足够大(如 n≥50),样本均数也近似服从均数为、标准差为 的正态
X
分布。
X n
(3.1)
在统计理论上将样本统计量的标准差称为统计量的标准误(standard error,SE),用来衡 量抽样误差的大小。据此,样本均数的标准差 称为均数的标准误,简称标准误。由上
X
式可见,此标准误与个体变异 成正比,与样本含量 n 的平方根成反比。 实际工作中, 往往是未知的,一般可用样本标准差 s 代替 ,求得 X 的估计值 s X 。
的样本,样本均数和标准差分别为 X 1 、s1 和 X 2 和 s2,且:
F s12
X
总体分布 D n=2
x
n=4
x
n=10
x
n=25
x X 的抽样分布Fra bibliotek图 3.1 中心极限定理图示(b)
3.4 t 分布
中心极限定理表明,从任何总体中随机抽样,当样本含量较大时,其均数的抽样分布
将趋于正态分布。如果是从正态分布总体中抽样,英国统计学 W.S.Gosset (1908)导出了样 本均数的确切分布。
t 分布曲线可用图 3.2 表示。
f(t)
=∞(标准正态曲线)
=5
0.3
=1
0.2
0.1
-4 -3 -2 -1 0 1 2 3 4 t
图 3.2 自由度分别为 1、5、∞时的 t 分布
t 分布有以下的特征: (1) t 分布为一簇单峰分布曲线。 (2) t 分布以 0 为中心,左右对称。 (3) t 分布与自由度有关,自由度越小,t 分布的峰越低,而两侧尾部翘得越高;自 由度逐渐增大时,t 分布逐渐逼近标准正态分布;当自由度为无穷大时,t 分布就是标准正
理论值
均数标准误, X
1.33400.3357 1.33280.2355 1.33220.1493 1.33250.0937
1.33330.3333 1.33330.2357 1.33330.1491 1.33330.0943
0.49650.2042 0.50070.1454 0.50130.0919 0.50020.0576
本节描述了来自不同总体的样本均数之抽样误差和抽样分布规律。事实上,任何一个 样本统计量均有其抽样分布规律,如来自正态分布总体的样本方差服从2 分布;方差之比 服从 F 分布;相关系数作适当变换后近似服从正态分布;率的分布与样本含量 n 和率的大 小有关,在样本含量较小时服从二项分布,在 n 足够大时,近似服从正态分布;等。统计 量的抽样分布规律是进行统计推断的理论基础。
下面介绍从正态分布总体中随机抽样,均数和方差的有关抽样分布。
X