第五章 抽样推断
第五章 抽样推断Z
•
• 3、什么是抽样误差 • • • • • • • ※它就是指随机误差; 它就是指随机误差; ※它是一个随机变量(为什么); 它是一个随机变量(为什么); ※它是抽样推断中不可避免不可消除的误差; 它是抽样推断中不可避免不可消除的误差; ※它可以用数理统计方法进行计算和控制; 它可以用数理统计方法进行计算和控制; ※抽样误差的大小反映了样本代表性的高低。 抽样误差的大小反映了样本代表性的高低。 1、含义及意义: 含义及意义: 抽样平均误差实质就是所有可能出现的抽样平 抽样平均误差实质就是所有可能出现的抽样平 均数(抽样成数)的标准差。 均数(抽样成数)的标准差。它反映了抽样指标与 总体指标的平均离差程度。 总体指标的平均离差程度。
Q 一般情况下N比较大 N − 1 σ2 n ∴σ Η (1− ) n N x
N− n n Η 1− N− 1 N
18
二、抽样平均误差
样本成数的抽样平均误差
D重复抽样条件下:
σ =
p
p (1 − p)
n
D不重复抽样条件下:
σ = p
p (1− p ) N − n
n
(
N−1
) =
p (1 − P )
•
• •
n 抽样比例: 抽样比例: N
大样本:n≥30;小样本: 大样本:n≥30;小样本:n<30 重点理解:如果说对于一次抽样调查, 重点理解:如果说对于一次抽样调查,全及总体是唯一 确定的,那么抽样总体就不是这样,样本是不确定的, 确定的,那么抽样总体就不是这样,样本是不确定的,一个 全及总体可能抽出很多个样本总体, 全及总体可能抽出很多个样本总体,样本的个数和样本的容 量有关,也和抽样的方法有关。 量有关,也和抽样的方法有关。
统计学 第五章
第五章 抽样推断抽样推断定义:是一种非全面调查,是按随机原则,从总体中抽取一部分单位进行调查,并以其结果对总体某一数量特征作出估计和推断的一种统计方法。
(一) 总体和样本在抽样推断中面临两个不同的总体,即全及总体和样本总体,全及总体也叫母体,简称总体。
全及总体的单位数用N 表示全及总体⎪⎩⎪⎨⎧⎩⎨⎧属性总体有限总体无限总体变量总体样本总体又叫抽样总体、子样,简称样本,样本总体的单位数称样本容量,用n 表示。
(二) 参数和统计量参数亦称全及指标,由于全及总体是唯一确定的,故根据全及总体计算的参数也是个定值 对于属性总体,可以有如下参数,全及总体成数p ,全及总体标准差)(2p p σσ方差 属性总体标准差:()p p p-=1σ统计量即样本指标设样本总体有n 个变量:n x x x x ,...,,,321 则:样本平均数 nx x ∑=(三) 样本容量与样本个数样本容量是指一个样本所包含的单位数,用n 来表示,一般地,样本单位数达到或超过30个的样本称为大样本,而在30个以下称为小样本。
社会经济统计的抽样推断多属于大样本,而科学实验的抽样观察则多取小样本。
样本个数又称样本可能数目,是指从全及总体中可能抽取的样本的个数。
一个总体可能抽取多少样本,与样本容量大小有关,也与抽样的方法有关。
在样本容量确定之后,样本的可能数目便完全取决于抽样方法。
抽样误差是抽样调查自身所固有的,不可避免的误差,虽然不能消除这种误差,但有办法进行计算,并能对其加以控制。
抽样平均误差越大,表示样本的代表性越低;抽样平均误差越小,表示样本的代表性越高。
在重复简单随机抽样时,样本平均数的抽样分布有数学期望值E(a)=a(a代表全及总体平均数,即X)X⇔。
样本平均数的平均数=总体平均数抽样平均误差=抽样标准误差=样本平均数的标准差(它反映抽样平均数与总体平均数的平均误差程度)例题:某班组4个工人的月工资(N=4)分别是:1400元,1500元,1600元,1700元,现用重复简单随机抽样的方法从全及总体中抽选出容量大小为2的样本(n=2),求抽样平均误差?解:全及总体平均工资)(15501700160015001400元=+++=X全及总体标准差()4500002=-=∑NX Xσ抽样平均误差x μ=nnσσ=2=)(0569.792*450000元=例题:某班组4个工人的月工资(N=4)分别是:1400元,1500元,1600元,1700元,现用不重复简单随机抽样的方法从全部总体中抽选容量大小为2的样本(n=2),求抽样平均误差?解:全及总体平均工资)(155041700160015001400元=+++==∑NXX全及总体标准差()4500002=-=∑NX Xσx μ=⎪⎭⎫ ⎝⎛--∙12N n N n σ=)(55.6414244*250000元=--∙例题:某电子元件厂,生产某型号晶体管,按正常生产试验,产品中属于一级品的占70%,现在从10000件晶体管中,抽取100件进行抽查检验,求一级品率的抽样平均误差? 解:已知:P=0.7 , P(1-P)=0.21在重复抽样的情况下,抽样平均误差为:()np p p -=1μ=%58.410021.0=在不重复抽样的情况下,抽样平均误差为:()⎪⎭⎫⎝⎛-∙-=N n n p p p 11μ=%56.410000*********.0=⎪⎭⎫ ⎝⎛-∙参数估计()()⎪⎪⎩⎪⎪⎨⎧→-==+≤≤是概率度是置信度,极限误差)样本指标总体指标极限误差—(样本指标区间估计:求不高的情况准确程度与可靠程度要点估计:适用于推断的t t F t F P α1例题:已知某车间某产品的合格率在某个置信度下的估计区间是(85%,95%),还已知样本容量为100,求置信度?解:显然p p ∆-=85%,p p ∆+=95%,即p=90%,p ∆=5%p ∆=μ⋅t μpt ∆=⇒=()()67.1100%901%90%51=-∙=-∆np p p ()t F =0.9052即置信度为90.51% ★求置信度,只需要求出t影响抽样数目的因素⎪⎪⎪⎪⎩⎪⎪⎪⎪⎨⎧∆样本单位不重置抽样可以少抽些单位,抽样需要多抽一些样本、在同等条件下,重置单位,则反之值越大,则多抽些样本、概率度则反之单位,的值大可以少抽些样本)、允许误差(极限误差越多,则反之值越大,必要抽样数目、总体标准差4321t x σ例题:某城市组织职工家庭生活抽样调查,职工家庭平均每户每月收入的标准差为11.50元,要求把握程度为95.45%,允许误差为1元,问需抽选多少户? 解:()t F =0.95452=⇒t , 元元,150.11=∆=x σxt n 222∆=σ=()户529150.1142=∙。
第5章__抽样推断
抽样误差的影响因素
(1)总体各单位标志变异程度。 (2)样本容量的大小。 (3)抽样方法。 (4)抽样的组织形式。
四、抽样极限误差
含义:
抽样极限误差指在进行抽样估计时,根据研究对象的变 异程度和分析任务的要求所确定的样本指标与总体指标 之间可允许的最大误差范围。
计算方法:
它等于样本指标可允许变动的上限或下限与总体指标 之差的绝对值。
则:
x
n
10 1(公斤) 100
即:当根据样本学生的平均体重估计全部学生的平均 体重时,抽样平均误差为1公斤。
例题二解 已知: N 2000, n 400, x 4800, 300
则:
x
n
300 15(小时) 400
x
2 1 n
3002 1
400
13.42(小时)
n N
-20
400
-15
225
-5
25
0
0
-15
225
-10
100
0
0
5
25
-5
25
0
0
10
100
15
225
0
0
5
25
15
225
20
400
0
2000
样本平均数的平均数( x )
x
样本可能数目
960 16
60元
所以 (x) X
样抽样平均误差x
x (x)2
样本可能数目
2000 11.18元 16
四个工人工资分别为40、50、70、80元
抽样平均误差 x
n
15.81 11.18元 2
第5章抽样推断40页PPT
例 题二:
某厂生产一种新型灯泡共2000只,随机抽出400只 作耐用时间试验,测试结果平均使用寿命为4800小时, 样本标准差为300小时,求抽样推断的平均误差?
解: 则:
已知 N 20 ,n 0 4 00 ,x 0 48 , 0 3 000
x
n
3001(5小)时 400
x
2 1 n
则:样本合格率 pnn130060.98 n 300
p
p 1 p 0 .9 8 0 .0 20 .8( 0% 8 )
n
300
p
p1p1n
n N
0.980.021 300 0.80(6 %) 300 60000
4、抽样调查的组织形式。选择不同的抽样组织形式,也会有 不同的抽样误差。
抽样平均误差
抽样平均误差是抽样平均数或抽样成数的标准差。反映了抽 样平均数与总体平均数抽样,成数与总体成数的平均误差程度。
抽样平均数的 平均误差
x
抽样成数的 平均误差
p
重复抽样 2
nn
p(1 p) n
不重复抽样
2 (1 n )
总体平均数
X
Xf f
总体标准差
(X X)2 f f
总体成数
p N1 N
成数标准差 p P(1P)
将总体N个单位分成性质相反的两组,其中具有某特征
抽 样 与 抽 样 推断
(四)总体参数和样本统计量符号
总体指标符号 总体容量: N 总体平均数: X 总体成数: P 总体方差: 2 总体标准差: 样本指标符号 样本容量: n 样本平均数: x 样本成数: p 样本方差: S 2 样本标准差: S
第二节
抽样误差
一、抽样误差
(一)概念:抽样误差是指抽样估计值与被 估计总体的特征值之间的离差。即: 抽样误差(平均数)= 抽样误差(成 数) =
2)代表性误差:指在用样本数据进行推 断时所产生的随机误差。原因有: A. 抽取样本时没有遵循随机原则; B. 样本结构与总体结构的差异; C. 样本容量不足; 这类误差通常无法消除,但可以事先 控制或计算。
2. 根据是否带有倾向性,分为:
系统性误差(系统性登记误差、系统性代表误差) 非系统性误差(非系统性登记误差、非系统性代表误 差). 1)系统性误差:登记时有意识地虚报、瞒报以及在选 择代表性单位时有意识地选大或小造成的,带有明显 的系统偏高或偏低倾向; 2.非系统性误差:由于技术的原因或客观的偶然性造成 的,不带有倾向性。相比而言,系统性误差危害更大。
(二)抽样推断的特征
1.抽样估计是由部分推断总体的一种认识方法。 2.抽样估计建立在随机取样的基础上。 3.抽样估计运用的是不确定的概率估计方法。 4.抽样估计的误差可以事先计算并加以控制。
(三)抽样推断的应用范围:
1.对无限总体不可能进行全面调查 2.总体范围过大,或过于分散,很难或不 必要进行全面调查 3.对于具有破坏性的质量检验不能进行全 面调查 4.限于人力、物力、财力不便进行全面调 查 5.对全面调查统计资料的质量进行检查和 修正
xi
xi X
x
i
X
2
统计学05第五章抽样推断
(2)
计算 p
p1 p
n
(3) 根据 F Z 查表 Z
(4) 计算 Z
(5) 写出:P : p , p
2020/11/17
第五章 抽样推断
44
2.3 区间估计
【例5-5】某工厂要估计一批总数5 000件的产品的废品率,于是随机抽 出 400 件产品进行检测,发现有32 件废品。在置信度为 90% 的要求下, 试给出该批产品的废品率的区间估 计。
总体参数和样本统 x计 量x-x2 n
总体参数和样本统计量的计算公式
总体参数
X X1 X2 XN N
样本统计量
x x1 x2 xn n
P N1 N
p n1 n
X X X 2 N
S x x-x 2 n1
P P 1 P
p p 1 p
2020/11/17
2020/11/17
第五章 抽样推断
35
2.3 区间估计
2. 给定 , 已知 X , 总体平均数的估计:
步骤
内
容
(1) 抽样,计算 x 区间的中心
(2) 计算抽样平均误差: X n
(3) 计算 Z 查表F Z
(4) 根据 x 和 : X : x ,x
2020/11/17
参数估计要求:
1. 精确性—适当的极限误差范围; 2. 可靠性—估计结果正确的概率。
参数估计—点估计和区间估计。
2020/11/17
第五章 抽样推断
16
2.2 点估计
点估计就是根据总体参数与样本统计 量之间的内在联系,直接以样本统计量 作为相应总体参数的估计值,点估计又 称为定值估计。
常用的点估计量有:
22
统计学第5章抽样推断
任 何 抽 样 误 差 因 素 。 即 用 x直 接 代 表 X , 用 p 直 接 代 表 P。
例 在 全 部 产 品 中 , 抽 取 100件 进 行 仔 细 检 查 , 得 到 平 均 重 量 x1002克 , 合 格 率 p98% , 我 们 直 接 推 断 全 部 产 品 的 平 均 重 量 X 1002克 , 合 格 率 P 98% 。
(1)
2
n
(1 )
12 2 (1
100
) 1.19 (千克 )
x
n
N
100 10000
(2) 若以概率 95.45%(t 2)保证,该农场 10000 亩小麦的平均
亩产量的可能范围为:
X : x 400 2 1.19 x
X (: 397 .62 ,402.38 ) (3) 若以概率 99.73%(t 3)保证,该农场 10000 亩小麦的平均
在重复抽样情况下:
p (1 p )
p
n
在不重复抽样情况下:
p (1 p ) n
(1 )
p
n
N
例
某玻璃器皿厂某日生产15000只印花玻璃 杯,现按重复抽样方式从中抽取150只进行 质量检验,结果有147只合格,其余3只为不 合格品,试求这批印花玻璃杯合格率(成数) 的抽样平均误差。
N15000n150
二、区间估计
根据样本指标和抽样误差去推断全及 指标的可能范围,它能说清楚估计的准 确程度和把握程度。
总体平均数和总体成数的估计
X :(x x, x x)
1的概率保证下:x tx
P:(pp, pp)
1的概率保证下: p tp
统计学第五抽样推断
抽样推断的几个基本概念
常用的总体参数和统计量 :
抽样推断的几个基本概念
(三)样本容量和样本个数 1、样本容量:即一个样本中所包含的单 位数,一般用n表示。n≥30为大样本,n <30为小样本。 2、样本个数:是指在一个总体中所有可 能被抽取或可能构成的样本数目。 注意:在实际统计中我们只是抽取一个 样本,但进行抽样推断必须要考虑全部 的可能样本。
s x n n
2 ( x x ) s n 2 ( x x ) f f
抽样平均误差的计算
(三)影响抽样(平均)误差的因素 1、总体标志变异程度的大小(总体标准 差σ的大小),它与μ成正比例变化。 2、样本容量的大小,它与μ成反比例。 3、抽样方法的不同,重复抽样的μ总是 大于不重复抽样的μ。 4、抽样的组织形式,抽样的组织形式不 同,抽样误差也不同。
总体参数的区间估计
查正态概率双侧临界值表有:t=1.96
x
2
15 0.9487 n 15.8114
Δx= tμx=1.96×0.9487=1.86 则,65-1.86≤ X ≤65+1.86 即95%的估计区间为:63.14≤ X ≤66.86 计算结果说明有95%的把握认为总体平 均数介于63.14千克到66.86千克之间。
P( x X x t x ) F (t )
即:
P( x t x X x t x ) F (t )
(置信区间) (置信度)
总体参数的区间估计
(二)区间估计的方法及要素 2、总体成数的区间估计 P( p P p t p ) F (t )
(一)区间估计的概念
在统计分析中,我们常常用一个区间及 其出现的概率来估计总体参数。这种估 计总体参数的方法称为区间估计。 具体地说,区间估计是用估计量所构成 的区间来估计总体参数,并以一定的概 率保证总体参数将落在所估计的区间内。
第5章 抽样推断(完整版)(08经济国贸)
样本比例的抽样分布
比例
(proportion)
– – 不同性别的人与全部人数之比 合格品(或不合格品) 与全部产品总数之比
1. 总体(或样本)中具有某种属性的单位与全部单位 总数之比
STAT
2. 总体比例可表示为
3. 样本比例可表示为
4.
n0 p n 或
N0 N
N1 或 1 N
n1 1 p n
特点
又被称作重置抽样、有放回抽样 登记 特征 放回 总体 继续 抽取
同一总体单位有可能被重复抽中, 而且每次抽取都是独立进行
2、不重复抽样
又被称作不重置抽样、不放 回抽样 抽出 个体 登记 特征 继续 抽取
特点
同一总体中每个单位被抽中的机会并 不均等,在连续抽取时,每次抽取都 不是独立进行
是最为常用的抽样方法,用于无限总 体和许多有限总体样本单位的抽样。
抽样平均误差的计算公式
⒈ 样本平均数的抽样平均误差
重复抽样时:
STAT
x
2
n
n
不重复抽样时:
x
N n
2
n N 1
2
n 1 n N
抽样平均误差的计算公式 ⒉ 样本成数的抽样平均误差 重复抽样时:
STAT
p
P 1 P n
样本平均数的抽样分布
(例题分析)
STAT
【例】设一个总体,含有4个元素(个体) ,即总体单位 数N=4。4 个个体分别为x1=1,x2=2,x3=3,x4=4 。总 体的平均数、方差及分布如下 总体分布
.3
平均数和方差
X
x
i 1
统计学05第五章抽样推断
布来计算。
0
2019/11/22
第五章 抽样推断
40
2.3 区间估计
【例 5-4】 从某校学生中随机抽取 25人,调查到他们平均每天参加体育 锻炼的时间为25分钟,标准差为8分 钟。试以95%的置信水平估计该校学 生平均每天参加体育锻炼的时间。
2019/11/22
第五章 抽样推断
41
2.3 区间估计
Z~N ( 0, 1 )
Z
S
μ
ΔΔ
X X X
Z 0 Z
2019/11/22
第五章 抽样推断
31
2.3 区间估计
二 总体平均数的区间估计:
X : FZ 1
Δ
FZ , Z FZ Z
Δ
x
x x
2019/11/22
第五章 抽样推断
总体参数和样本统计量的计算公式
总体参数
样本统计量
X X1 X2 XN N
x x1 x2 xn n
P N1 N
p n1 n
X X X 2 N
S x x-x 2 n1
P P 1 P
p p 1 p
t X : x ,x
2019/11/22
第五章 抽样推断
39
2.3 区间估计
正态分布与 t 分布的比较
t 分布的应用
当 n 大,
N0, 1
S x自实由际 度 参数大估计中,当样本 t 分容布量大N 0于,13 0时,总体均值的
区t 间 0估 , σ 2计ν通 常还是用正态分
0.15
X : 4 0.45, 4 0.45 3.55, 4.45小时
《统计学原理》第5章:抽样推断
n
抽样推断的基本原理
统计推断的理论基础—样本的概率分布
按一定方法随机抽取样本时,所有可能样本的 特征值及其所对应的概率分布情况
学生 A B C D E F G 成绩 30 40 50 60 70 80 90
按随机原则考虑顺序重复抽样抽选出4名学生。
抽样推断的一般问题
样本可能数目
按照一定的抽样方法和组织方式,从总体N中抽取n个 单位构成样本,一共可以抽出的不同样本的数量,一般 用M表示.
考虑顺序的不重复抽样 考虑顺序的重复抽样
M N! (N n)!
M Nn
不考虑顺序的不重复抽样 不考虑顺序的重复抽样
M N! n!(N n)!
全及指标与样本指标
•根据全及总体中各单位的标志值或标志属性计算得 来,反映总体某种特征的指标 •根据样本总体中各单位的标志值或标志属性计算得 来的综合指标.
抽样推断的一般问题
抽样方法
•重复抽样和不重复抽样
•考虑顺序的抽样和不考虑顺序的抽样
抽样推断的一般问题
抽样方法—重复抽样
从总体N个单位中随机抽取一个容量为n的样本,每 次抽取一个单位,把结果登记后再放回到总体中,重新 参加下一次的抽取.
抽出个体
登记特征
放回总体
继续抽取
抽样推断的一般问题
抽样方法—不重复抽样
从总体N个单位中随机抽取一个容量为n的样本, 每次抽取一个单位,把结果登记后不再放回到 总体参加下一次的抽取.
抽出 个体
登记 特征
继续 抽取
抽样推断的一般问题
抽样方法—考虑顺序的抽样
从总体N个单位中抽取n个单位构成样本,不但考虑样本 各单位成分的不同,而且还要考虑样本各单位的中选顺 序.
5 应用统计学(教案)-抽样推断
4、抽样估计的一般步骤
设计抽样方案 抽取样本单位 收集样本资料
整理样本资料
推断总体指标
(1)抽样方案设计的基本准则
随机原则: 确保每个总体单位都有 被抽取的可能。 抽样误差最小: 控制和选择抽样数 目及抽样组织方式 费用最少: 在误差达到一定要求的 条件下,选择费用最少 的方案。
(2)抽样方案设计的主要内容 ① 编制抽样框 抽样框即总体单位的名单。 主要形式: 名单抽样框 区域抽样框 时间表抽样框 编制要求: 应包括全部总体单位 总体单位不应重复 应便于抽样的实施 应尽量利用资料,提高抽 样效果
第五章 抽样推断
基本概念
抽样误差
抽样估计 抽样组织方式
第一节 抽样估计的基本概念
一、抽样估计的意义和一般步骤 1、抽样估计的概念
抽样估计 按随机原则从总体中抽取一部 分单位进行调查,并以调查结 果对总体数量特征作出具有一 定可靠程度的估计与推断,从 而认识总体的一种统计方法。 也是一种收集资料的方法,所以也称为抽 样调查。
另外,分两个以上阶段完成抽取样本的多阶段抽 样,多在总体单位数量多分布广时采用。一般前阶段 采用分层或有关标志排队等距抽样;后阶段采用简单 随机或无关标志排队等距抽样。
④ 确定抽样数目 抽样数目: 即样本容量、样本单位数 大样本:n ≥ 30 小样本:n < 30 抽样数目的确定,与抽样误差、费 用及抽样组织方式有直接的关系。 误差小费用多时抽样数目多,误差 大费用少时抽样数目少;分层抽样除确 定整个样本容量外,还需确定子样本容 量;整群抽样需确定样本群数;多阶段 抽样需确定各阶段抽样数目。
| x - X |≤△ x (在一定概率下) 置信度、概率保证度、 可信度、把握程度,)与△x 是一对矛盾
管理统计学之抽样推断
2021/7/21
管理统计学讲义 游士兵
例5、某产品的耐用时间为1000小时,现 随机抽取10件新工艺条件下的产品作测 试,测得平均耐用时间为1077小时,标 准差为51.97小时,能否认为新工艺条 件下产生的产品明显不同于老产品?
2021/7/21
管理统计学讲义 游士兵
2021/7/21
管理统计学讲义 游士兵
(3)计算举例
例1:某企业生产一批产品20000件,今 随机抽样100件作耐用时间试验,结果 表明:每件样本的平均寿命为3600小 时,所抽样本的标准差为150小时,求 抽样误差。
2021/7/21
管理统计学讲义 游士兵
例2:随机抽取500名某国私人对外投资 者,发现对外投资额在5000万元以上 的人数有80人,求抽样误差。
2021/7/21
管理统计学讲义 游士兵
例3、某公司引进一自动包装线包装大米, 合同规定设计规格为每袋大米10公斤, 标准差为0.6公斤,生产调试后随机抽 取100袋大米平均重量为9.8公斤。问可 靠程度为95%下,该生产线的设计规格 是否符合要求?
2021/7/21
管理统计学讲义 游士兵
例4、取8台新型发动机进行测试,其结 果是使用柴油每公升的运转时间分别为 28、27、31、29、30、27、30、27分 钟。根据设计要求,平均每公升运转应 在30分钟以上。问根据实验结果,在 显著性水平为5%和总体标准差不明确 的条件下,能否说明这种发动机符合设 计要求?
例3:一批食品随机抽查50箱,发现一箱 不合格,求合格率的抽样误差。
2021/7/21
管理统计学讲义 游士兵
三、点估计和区间估计
1、点估计 点估计是直接用样本指标推断总体
指标的一种方法。 点估计的特点是只考虑了样本指标,
统计学5章
有数学期望值 E ( x ) = a a 代表全及总体平均数) (
设总体变量有 N 个:X1,X2,… , XN,则
样本容量为 n:x1 , x2 , … , xn , 则:
X1 X 2 X N X= N
x1 x2 xn x = n
∵ ∴ =
2 x
x1, x2,…, xn相互独立
1 n2 E x1 X
2
E x2 X
2
E xn X
2
2
E ( xi X )( x j X ) i j
=
1 n2 1 n2
E ( x X )2 E x X 1 2 E X X
对于属性总体来说则有如下对应样本指标: 设样本总体 n 个单位中有 n1 个单位具有某种属性, n0 个单位不具有某种属性,且n1 +n0 = n 。则:
n1 p n n0 n n1 q 1 p n n
样本标准差
s
p1 p
(二)参数和统计量
(三)样本容量与样本个数
样本容量是指一个样本所包含的单位数,用 n 来 表示。一般地讲,样本单位数达到或超过30个的样本 称为大样本,而在30个以下称为小样本。 样本个数又称样本可能数目,是指从全及总体中
二、抽样推断的几个基本概念
抽样推断的几个基本概念(见图5-1)。
图5-1 抽样推断的几个基本概念
(一) 总体和样本
在抽样推断中面临两个不同的总体,即 全及总体和样本总体(见图5-2)。
图5-2 全及总体和样本总体关系示意
(一) 总体和样本
第五章抽样推断ppt课件
在99.73%概率保证程度下,估计该厂全部灯泡平均耐用时间 在919~933.8小时之间。
⑵ p=0.4%
p1p0.00 0.4 990 6 .2% 8
p
n
500
概率保证程度为0.6827时,t=1
1 0.28 %
p
p
p 0 . 4 % 0 . 2 % 0 . 8 1 % p 2 0 . , 4 % 0 . 2 % 0 . 8 6 %
第五章 参数估计
本章学习目的与要求 第一节 抽样分布 第二节 抽样误差 第三节 抽样估计方法 第四节 抽样组织设计
下一页 前往本节首页
本章学习目的与要求
目的: 学习目的在于提供一套利用抽样资料来估计总体数量特征的方法。
要求: ⒈明确抽样调查的概念、特点、作用; ⒉了解抽样误差的影响要素; ⒊掌握抽样平均误差的计算方法; ⒋掌握抽样估计方法与样本容量确定的方法; ⒌了解类型抽样、等距抽样、整群抽样的含义、特点 与适用场所。
2.不反复抽样的条件下
抽样平 :x均 n X 2 ((N N 误 1 n )); 差 N 很 当大时 x 近 n X 2(1 似 N n) 为
式中,N为总体单位数;n为样本容量;σX2 为总体方差,普通情况下是未 知,可用样本方差替代 σx 2
成数的抽样平:均 p 误np2(差 (NN1n));当 N很大时近 p似 nP 2(1为 N n)
〔1〕估计值 〔2〕抽样误差范围 〔3〕概率保证程度
上一页 下一页 前往本节首页
〔二〕总体平均数(成数)的区间估计
表
xx X xx ,
达
或Xxx ,xx
式 其中,Δx tμx 为极限误差
pp P pp,
或P pp, pp
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第三节
抽样平均误差
抽样误差的概念和理解 抽样误差:来源于登记性误差和代表性误差 登记性误差 调查误差或工作误差,指在调查、编辑、编码、汇 总过程中由于观察、测量、登记、计算上的差错或被调 查者提供虚假资料而引起的误差。 这种误差的直接表现就是没有真实客观地搜集或记录 被调查单位的标志值或标志特征,从而使所计算的统计量 偏离其真实值。 登记性误差存在于所有的统计调查中,而且调查的范 围越大、调查单位越多,产生误差的可能性越大。 登记性误差与测量工具的精度、测量技术、调查人员 的责任心、被调查者的合作态度等密切相关。
特 点
只抽取部分单位;
用部分推断总体;
抽样遵循随机原则; 会产生抽样误差,但误差可以计算和控制。
统计误差
统计数字与实际数量之间的差别。 登记误差: 调查误差或工作误差,指在登记、汇总计算过程中 产生的误差。(可以避免的) 代表性误差: 用部分去推断总体产生的误差。(一般不可避免)
第二节
随机误差:偶然性误差 遵循了随机原则的原则,由偶然因素引起样本结构不能 完全代表总体结构而产生的误差。偶然误差不可避免,即 使没有登记误差和系统性误差,仍会存在误差。 虽然不 可避免,但可以估计和控制。偶然误差总和等于0。 全面调查不存在偶然误差。
▼随机误差可以分为实际误差和抽样平均误差 实际误差:样本指标与总体指标之间的差别,无法计算。 抽样平均误差:所有样本平均指标的标准差。可以计算。 登记性误差 抽样中的 总误差 代表性误差
例 某全及总体由1、2、3、4、5六个数字构成。 全及总体:1、2、3、4、5。假设样本容量为3,则从 全及总体中采用不考虑顺序不重复的简单随机抽样,可以 抽取出10个抽样总体,这样就有10个样本平均数. 1,2,3 1,3,4 1,4,5 2,3,4 2,4,5
x1
1,2,4
x2
1,2,5
x3
3,4,5
▼抽样平均误差计算总结
重复抽样
x
x
p
p
n
变量总体
不重复抽样
n
n 1 N
重复抽样 属性总体 不重复抽样
P(1 P) n P(1 P) n (1 ) n N
不重复抽样的抽样平均误差小于重复抽样的, 当抽样比远小于1时,两者非常接近。
通过样本推断总体指标时,总体标准差往往是未知的,此 时如果存在过去资料,则采用过去资料的最大标准差作为总体 标准差的估计值;如果没有过去资料,则采用样本标准差作为 总体标准差的估计值。 不重复抽样情况下,当总体单位总数未知时,则认为抽样 比大大小于1,而采用重复抽样的抽样平均误差的计算公式。
不考虑顺序的重复抽样
n n DN CN n 1
抽样调查的理论依据
大数定律:证明了抽样平均数(成数)趋近于总体平均 数(成数)的趋势。 1)独立同分布大数定律: 2)贝努力大数定律: 中心极限定律:证明了多个随机变量和的分布趋近于正 态分布。抽样平均数就是一种随机变量。
1)独立同分布中心极限定律:
属性总体:
n1 p n S p (1 p )
pq
n0 q n p q 1
n1 具有某种属性 , n0 不具有某种属性
▼抽样的目的就是通过观察样本的特征来推断总体的特征, 即用样本平均数用来推断总体平均数,而样本标准差作为总 体标准差估计值(当总体标准差未知)用来计算总体平均数 的估计区间(臵信区间)。
n N
▼抽样总体(样本)特征的描述
抽样总体(样本)特征也是通过均值和标准差来描述的。
不是确定的、唯一的,因此抽样指标也不是确定的、唯 一的,是样本变量的函数,是随机变量。
变量总体:
x
x
i 1
n
i
n
2 ( x x ) i i 1 n
S
n
S 2称为样本方差
对于分组资料采用加权的计算公式。(见第三章)
▼全及总体特征的描述 描述总体的特征一般采用均值和标准差。 ☆全及总体是确定的,唯一的,因此全及指标也是确定的, 唯一的。 变量总体: X X N
2 ( X X )
N
2为总体方差
N1 属性总体: P 1 Q N σ P(1 P) PQ
N0 Q N PQ 1
偏差:系统性误差
实际误差
随机误差:偶然误差 抽样平均误差
▼抽样平均误差的影响因素
主要受到三个因素影响:
全及总体标志变动程度σ2。总体标志值变动越大, 抽样平均误差越大,反之则越小。
抽样单位数(样本容量)的多少n。其他条件不变, 抽取的单位数越多,抽样平均误差越小,反之越大。 抽样组织的方式和抽样组织形式。
KL
P
KL
( x K X )( x L X )
1 ( x K X )( x L X ) N ( N 1) K L N 1
2
其中:
PKL
1 N ( N 1)
PKL 表示第i个被抽中单位取值 x K , 第 j个被 抽中单位值为 x L的概率。
K L
i j
由于重复抽样中,一个 被抽中的单位的可能性 不受其他 E ( x i X( ) x j X ) E ( xi X ) E ( x j X ) 0 (当i j时)
单位是否被抽中的影响 ,即各单位是互相独立 的,这样:
另外,E ( xi X ) 2 i2 2
2
因此,抽样平均误差为
x
2 N n
n ( ) n N (当抽样比n N 很小)
抽样比大大小于1时,不重复抽样的抽样平均误差与 重复抽样的很接近
属性全及总体的抽样平均误差公式推导:
具有某标志(取值1)的单位比重 不具有某标志(取值0)的单位比重 则属性总体的平均数
x4
1,3,5
x5
2,3,5
x6
x7
x8
x9
x10
抽样方法和样本可能数目
抽样方法
样本数目与样本容量有关,也与抽样方法有关,样本 容量既定,则样本数目取决于抽样的方法。
重复抽样
抽样方式不同
不重复抽样 样本要求不同 不考虑顺序抽样 以上结合为四种抽样方法:考虑顺序的重复抽样、考 虑顺序的不重复抽样、不考虑顺序的重复抽样和不考虑顺 序的不重复抽样。 考虑顺序抽样
x 变量总体抽样极限误差 p 属性总体抽样极限误差
总体标准差
基本概念
全及总体:所要认识对象的全体。 变量总体:数量标志; 一般以N表示全及总体的单位总数, X 表示全及 表示全及总体的标准差。 总体的平均数, 属性总体:品质标志; 具有某种属性的单位占总体单位总数的比重,称为 总体成数P,标准差也用σ表示。
1 2 n
其中
E (x
i j
X )( x j X )(共n(n - 1)个)
N
E ( xi X ) 2 Pj ( x j X ) 2
j 1
2 2 ( x X ) j j 1 N
1 N
Pj 表示第j个被抽中的单位值为 x j的概率。
i j
E ( x i X )( x j X )
x2
k
E ( x i X ) 2 ( E表示数学期望)
x1 x2 xn nX 2 E[ ] n n
( x1 X ) ( x2 X ) ( xn X ) 2 E[ ] n 1 2 [ E ( x1 X ) 2 E ( x 2 X ) 2 E ( x n X ) 2 n 2 E (x i X )( x j X )]
不同抽样方法的样本可能数目
考虑顺序的不重复抽样
n N
N! A N ( N 1) ( N n 1) ( N n)!
n N
不考虑顺序的不重复抽样
C
N ( N 1) ( N n 1) N! n! n!( N n)!
考虑顺序的重复抽样
n BN Nn
第六章
抽样调查
问题: 1、某研究人员想要了解杭州在校大学生每周的自习时间, 然而对于一个拥有几十万大学生的城市来说,他的调查经 费是远远不够的,那么这项调查还能进行吗?如果能进行, 他该怎么进行,并判断结论的可靠性呢?
2、某企业想调查消费者对它的产品的认知程度,如何进 行,并判断结论的可靠性呢?
抽样调查概述 基本概念及理论依据 抽样平均误差 抽样推断——均值的推断 抽样方案的设计 必要抽样单位数的确定
代表性误差 由于样本的分布结构与总体分布不一致所差生的误差。 这部分误差来源于抽样过程以及推断总体过程中(一般不 可避免)。 代表性误差又分为两种: 偏差:系统性误差 由非随机因素(违背随机原则)造成样本代表性不足而产 生的误差。表现为样本统计量数值系统性偏高或偏低。这种 误差也属于工作态度、水平、技术等的问题。应尽量避免。
2 x
所以:
1 2 2 2 2 [ 1 2 n ] n
n 2 n n
2 2
公式说明了,抽样平均误差仅为全及总体标准差的
1 。 n
不重复抽样下变量全及总体的抽样平均误差公式推导
x
2
1 2 n
i j
E (x
i 1 i j i
n
i
X)
2
N1 P N N0 Q 1 P N
Xf X f
1 P 0 Q P PQ
P
2 ( X X ) f
f
(1 P) 2 P (0 P) 2 Q PQ
PQ P(1 P)
根据前面推导的重复抽样和不重复抽样的公式,可得到 属性总体的抽样平均误差: 重复抽样: