第三章 简单随机抽样
Chap03简单随机抽样
N i j
(Yi
Y
)(Yj
Y
)
1 nN
1
n 1 N 1
N i 1
(Yi
Y
)2
n 1 N 1
N i 1
(Yi
Y
2 )
1 n
N N
n
1 N 1
N i 1
(Yi
Y
)2
1 f S2
n
证明Ⅱ:仍引进随机变量 ai :
N 1 n 1
N n
n N
ˆ
f
E(ai )
n N
f
(3.5)
借助 ai ,样本均值 y 可以表示成:
y
1 n
N i 1
aiYi
(3.6)
E( y) 1
n
N
E(ai )Yi
i 1
1 n
n N
N
Yi
i 1
Y
推论: Y 的简单估计量Yˆ Ny 也是无偏的,即: E(Ny ) Y
所有可能的样本求平均: E( y)
N 1 y n
N n
个样本中,包含特定单元
Yi
的样
本数为
N 1 n 1
,也有同样多样
本含有任何其他单元,因此
y 1
n
( y1
y2
yn )
1 n
N 1 n 1
数,则编号为这些随机数的 n 个单元组成一个简单随机样本。
随机数的产生可使用随机数骰子或随机数表。
图 3.1 随机数骰子 随机数骰子:标上 0~9 数字的正 20 面体(每个数字出现在两面)
应用抽样技术课后习题答案
=(0.0907,0.4433)
N1的95%的置信区间为: (159,776) 95%的置信区间为 (159, 的置信区间为:
(3)N=1750,n=30, (3)N=1750,n=30,n1=8, t=1.96, p=0.267, q=1q=1-0.267=0.733 由此可计算得: t 2q 1.962 × 0.733 n0 = 2 = =1054.64 r p 0.01× 0.267 n = n0/[1+(n0—1)/N] = 1054.64/[1+1053.64/1750]=658.2942 = 659 计算结果说明,至少应抽取一个样本量为659的简单随机 样本,才能满足95%置信度条件下相对误差不超过10%的精度 要求。
t=1.96 (2)易知,N=1750,n=30, n = 8 1 n 8 N − n 1750 − 30 1− f p= 1 = = 0.267 = = = 0.03389 n −1 (n −1)N 29 ×1750 n 30
pq = p(1 − p) = 0.267 × 0.733 = 0.1957
5.5 证明:由(5.6)得:
V ( yR ) ≈ 1− f n (Yi − RX i )2 ∑
i =1 N
N −n 2 令 Sd = V , Nn
2 d
N −1
=
N −n 2 Sd Nn
则n(NV + S ) = NS ,
2 d
S 2 NSd 从而n = = V 2 2 NV + Sd Sd 1+ NV
第五章 比率估计与回归估计
5.2 N=2000, n=36, 1-α=0.95, t=1.96, ˆ f = n/N=0.018, v(R) = 0.000015359, ˆ se(R) =0.00392 置信区间为[40.93%,42.47%]。 置信区间为[40.93%,42.47%]。
第三章抽样的原理及类型
五、抽样设计得原则
1、目得性原则 2、可行性原则 3、高效性原则
第三节 样本规模与抽样误差
一、 样本规模及其计算
1所、含定元义素:样得本多规少模。又确称定样样本本容规量模,就指是得每就一是项样具本体中 得社会调查所必须解决得问题之一。
不能少于100个元素
2、简单随机抽样中样本规模计算公式: a,推论总体平均数
4、 实际抽取样本
实际抽取样本得工作就就是在上述几个步 骤得基础上,严格按照所选定得抽样方法,从抽样 框中抽取一个个得抽样单位,构成样本。依据抽 样方法得不同,以及依据抽样框就是否可以事先 得到等因素,实际得抽样工作既可能在研究者到 达实地之前就完成,也可能需要到达实地后才能 完成。即既可能先抽好样本,再下去直接对预先 抽好得对象进行调查或研究;也可能一边抽取样 本一边就开始调查或研究。
继续保持安静
置信区间
指在一定得置信度下,样本统计值与总体 参数值之间得误差范围。反映得就是抽样得 精确性程度。
二、抽样得作用
向人们提供一种实现“由部分认识整 体”这一目标得途径和手段。
日常生活中得抽样
第二节 抽样得类型与抽样程序
一、抽样得类型 从大得方面看,各种抽样都可以归为概率
抽样与非概率抽样两大类,这就是两种有 着本质区别得抽样类型。
抽样
从组成某个整体得所有元素得集合中,按 一定得方式选择或抽取一部分元素得过程。
比如,从1000户家庭构成得总体中,按一定 得方式抽取一个由100户家庭构成得样本得 过程。
抽样单位
抽样单位就就是一次直接得抽样所使用得 基本单位。抽样单位与构成总体得元素有时 就是相同得,有时又就是不同得。
如从32万名大学生抽取1000大学生,单个 大学生既就是元素,又就是抽样单位;但就是,抽 取40个班级(假定正好就是1000名)时,抽样单位 与构成总体得元素就不一样了。
第三章-简单随机抽样
N!
考虑顺序可能的样本为 N n !
每个样本被抽中的概率为 ( N n)! N!
s2 1358.41, v( y) (1 f )s2 / n 37.6444, se( y) 6.1355
对该校大学生某月电信消费人均支出额的估计为 53.64元,在置信度95%下,临界值1.96,可以说以 95%的把握说明该校大学生该月的人均支出在 [53.64+(-)1.96*6.1355],即41.61~65.67元。
n 1
2n
正态近似产生的误差 主要与nP有关,特别 当nP比较小时,产生 的误差甚大,在95% 置信度下,P<0.5时正 态分布需要的最小nP 值与n值如下表。
P
nP
0.5
0.4
0.3
0.2
0.1
0.05
0
n
15
30
20
50
24
80
40 200
60 600
70 1400
80 无穷
试以95%的置信度估计上例大学生月电信消费超 过80元的人数及其比例。
N n S2 N n
nN
为调查某校大学生的电信消费水平,在全 校N=15230名学生用简单随机抽样抽取 n=36名学生,调查上月电信支出数据。试 以95%的置信度估计该校大学生该月电信 消费的平均支出额。
样本序号 消费元/月 样本序号 消费
样本序号 消费
1
45
13
初级1 -第三章简单随机抽样
n
n 1 N 1 n N
n 1 N 1
二、实施方法 • 抽签 制作N个同质的签,充分混合。从中一次抽出n个签, 或者先抽出一个签但不放回,再抽下一个签直到抽 满n个签为止。抽出的这n个签对应的单元入选样本, 这是不放回简单随机抽样;若从充分混合的N个签 中抽取一个,记录后放回,再抽取下一个,如此进 行,直到抽满n个为止,则是放回简单随机抽样。 抽签法的实施起来比较麻烦,尤其是当总体单元数 N较大时,所以该方法的使用场合为当总体单元数 N比较小,签的制作比较方便时。
第三章 简单随机抽样
第一节
基本问题
一、什么是简单随机抽样
从 N个单元的总体中抽取 n个单元组成的样本。总体单元数为 N,
样本量为 n。 若抽样是放回的,每次都是从 个总体单元中随机抽取1个单元,独 立重复抽取n次,得到 个单元组成的样本,叫做放回简单随机抽样。 若抽样是不放回的,每次都是从剩下的总体单元中随机抽取1个单 元,相继依次抽取n次,得到n个单元组成的样本,叫做不放回简单 随机抽样。
精度margin of error
对精度的要求通常以允许最大绝对误差
差限)或允许最大相对误差 (相对误差限)来表 示。
r
d(绝对误
d 1 P
P r 1
样本量足够大时,可用正态分布近似
ˆ tS ˆ d t V
2
第三章 基本概念
N n N 1
N n N
为 修正系数
2
为 S 修正系数
n f ,称抽样比, N
2
令
N n 1 f 有限总体调整系数 故, N 2
S V ( y ) (1 f ) n
第三章抽样设计PPT学习教案
1、含义 从总体中不加任何分组、排队,完全
按照随机原则抽取样本单位的抽样方法。 又称纯随机抽样、简单任意抽样。
抓阄 彩票第35页/共12 Nhomakorabea页(一)简单随机抽样
2、操作办法
(1)乱数表法 在乱数表中任意选定一行或一列的数字作为开始数,
接着可从上而下,或从左至右,或一定间隔(隔行或隔 列)顺序取数,凡编号范围内的数字号码即为被抽取的 样本个体号码。如果不是重复抽样,碰上重复数字应舍 掉直到抽足预定样本数目为止。 例如:有如下数字:13、45、65、36、22、24、31 、43、61、52、55、16、23、14、25。每隔两位取 一个数字,即可得到:65、24、61、16、25。
大样本与小样本
根据抽样调查中所抽选样本容量不同而划分的。 当样本数目大于30时,称为大样本;当样本数
目小于30时, 称为小样本。
第20页/共125页
3.抽样调查的几个基本概念
重复抽样与不重复抽样
重复抽样,又称回置抽样(有放回抽样),是一 种在总体中允许重复抽取样本单位的抽选方法。 抽样过程中总体个体数始终相同。
如:从某所大学全体学生中直接抽取200名学生作为样本—该校全体学生的 名单
从某一所大学所有班级中抽取3个班级作为样本—该校所有班级的名单
抽样单元,为了便于抽样,通常把总体划分为有限个互 不重迭又穷尽的部分,每个部分称为一个抽样单元。
第22页/共125页
4 .抽样调查的适用范围
①无法全面调查的情况,如全国性城市居民住房面积的调查。 ②不必要进行全面调查的情况,如产品质量的检测。 ③需要快速得到调查结果,如节令市场的状况调查。 ④在经费、人力、物力和时间有限的情况下开展的调查。 ⑤对全面调查进行验证。 ⑥对某种总体进行假设性检验,也常用抽样调查来检验判断这种假
03第三章 简单随机抽样(SRS)
总体均值的比估计 总体总值的比估计 总体均值的回归估计
ˆ y RX ˆ YR R
ˆ ˆ ˆ YR RX NRX
ˆ Ylr y ( X x )
总体总值的回归估计
ˆ Ylr y ( X x) N y ( X x )
抽样可以是放回的,也可以是不放回的。如果 抽样比非常小,则放回抽样与不放回抽样实际 上是差不多的。一般情况下,不放回抽样的结 果更精确,实际操作也更方便些。在本课程中, 除非特别指明,抽样都是指不放回的。
简单随机抽样一般有抽签法和随机数法 两种实施方法。
7
简单随机抽样的抽样规则:
1)按随机原则取样,在取样时排除任何主 观因素选择抽样单元,避免任何先入为主 的倾向性,防止出现系统误差。 2)每个抽样单元被抽中的概率都是已知或 事先确定的,或者事先可以计算出来。 3)每个抽样单元的概率都相等,即简单随 机抽样属于一种等概率随机抽样。
所有概率抽样的出发点和理论基础都是简单随 机抽样。简单随机抽样是一种一步抽样法,它 保证样本量为n的每个可能的样本都有相同的 被抽中的概率p=n/N。 简单随机抽样有三个相互等价的定义:
4
定义1: 从总体的N个单元中,一次整批抽取n个单元 ,使任何一个单元被抽中的概率都相等,任何n个不同 单元组成的组合被抽中的概率也都相等,这种抽样称 为简单随机抽样。 定义2:从总体中的N个单元中,逐个不放回地抽取单 元,每次抽取到尚未入样的任何一个单元的概率都相 等,直到抽足n个单元为止,这样所得的n个单元组成 一个简单随机样本。 定义3:按照从总体的N个单元中抽取n个单元的所有 n n C N个样本,从C N 个样 可能不同的组合构造所有可能的 本随机抽取1个样本,使每个样本被抽到的概率都等于 n 1/C N ,这种抽样称为简单随机抽样
第三章抽样和抽样分布
Probability Sample
• Probability Sample • A probability sample is a sample chosen
by chance. We must know what samples are possible and what chance, or probability, each possible sample has.
第三章抽样和抽样分布
统计应用
“抓阄”征兵计划
➢ 然而结果是,有73个较小的号码被分配给了前半
年的日子,同时有110个较小的号码被分配给了后 半年的日子。换句话说,如果你生于后半年的某 一天,那么,你因为被分配给一个较小号码而去 服兵役的机会要大于生于前半年的人
➢ 在这种情况下,两个数字之间只应该有随机误差,
convenience sampling chooses the individuals
easiest to reach. Here is an example
of convenience sampling.
Both voluntary response samples and
convenience samples produce samples that are almost guaranteed not to represent the entire
被分配的号码较大的人也许永远轮不上到军队服役
➢ 这种抓阄看起来对决定应该被征召入伍是一个相当不错
的方法。然而,在抓阄的第二天,当所有的日子和它们 对应的号码公布以后,统计学家们开始研究这些数据。 经过观察和计算,统计学家们发现了一些规律。例如, 我们本应期望应该有差不多一半的较小的号码(1到183) 被分配给前半年的日子,即从1月份到6月份;另外一半 较小的号码被分配给后半年的日子,从7月到12月份。 由于抓阄的随机性,前半年中可能不会分到正好一半较 小的号码,但是应当接近一半
第三章简单随机抽样(抽样调查理论与方法-北京商学院,
100,95,92,88,83,75,71,62,60,50
平均分为77.6。先从中任选3个为一组样本,其选法共有120种
每种选法都有概率1/120。以4组样本为例(100,95,92),(100,83,
50),(88,83,62),(62,60,50)它们的样本平均数分别为95.67,
77.67,77.67,57.33。 从抽样调查的角度来看,我们希望抽到第二或第三组样
(3.6)
N 1 n
Nn
对随机有放回抽样,由于各次抽取是相互独立的,由概率论 的知识可以求得,此时:
2
Var( y) n
1 S2 (或 (1 ) ) (3.7)
Nn
比较(3.6)式与(3.7)式,发现同样用样本平均数来估计总体平 均数,它们都是无偏估计,但随机无放回时的方差小于随机
有放回时的方差。 y 的方差表示新盒子的离散程度,也就是 表示了 y 取值范围的大小,方差小表明 y 取值远离中心Y 的 可能性较小,这样随机的一组样本得到 y 的实现值距Y 很近
相当小,此时(3.6)式告诉我们 y 的方差将随着 n 的减少而增 大,此时 1-f 在 1 附近,对Var( y)的影响不大。事实上,
抽取样本越少,抽样误差越大。
可见实际抽样调查中用 y 估计Y 所产生的随机误差,也 即 y 的方差,主要受到样本容量 n 的影响,因子1-f 的影响
几乎可以忽略。
当然,影响 y 的方差的另一个重要因素是 2或 S 2。设
通常取决于总体单元个数N,满足10m1 N 10m。记m个 骰子按约定颜色而确定的顺序读得随机数R0,若R0 N,则 此 R0即为一次合格的随机数;否则予以放弃,重新摇取,直
到取到n个合格的随机数为止。 ③利用计算机产生随机数:不少现成的统计软件都可提供此 类服务。但必须指出,这样产生的随机数一般不能保证其随 机性,称为“伪随机数”。因此,提倡前述方法产生随机数。
数理统计第3章 随机抽样与抽样分布
E ( X i ) = E ( X ) = µ , D( X i ) = D( X ) = σ 2 , i = 1,2,L , n
1 n 1 n 所以 E ( X ) = E ( ∑ X i ) = ∑ E ( X i ) = µ , n i =1 n i =1
1 1 . D ( X ) = D( ∑ X i ) = 2 ∑ D( X i ) = n n i =1 n i =1
11
它反映了总体 二、样本数字特征 均值的信息 它反映了总体 1 n 样本均值 X = ∑Xi 方差的信息 n i=1 1 n 1 n 2 2 2 2 样本方差 S = ∑( Xi − X) = n −1 ∑Xi − nX n −1 i=1 i =1
推导: 推导:
( Xi − X)2 = ∑( Xi2 − 2Xi X + X 2 ) ∑
因此, 应视为一组随机变量, 因此,抽样值 ( x1 , x2 ,L, xn ) 应视为一组随机变量,我们把 的一个样本 子样), 样本( ),其中 称为该样本的容量 容量。 它称为总体 X 的一个样本(或子样),其中 n 称为该样本的容量。
7
二、简单随机抽样
由于抽样的目的是为了对总体的分布进行统 计推断, 计推断,为了使抽取的样本能很好地反映总体的 信息,必须考虑抽样方法 信息,必须考虑抽样方法. 最常用的一种抽样方法叫作“ 最常用的一种抽样方法叫作“简单随机抽 它要求抽取的样本满足下面两点: 样”,它要求抽取的样本满足下面两点: 1. 代表性: X1,X2,…,Xn中每一个与所考察的总体 代表性: 有相同的分布. 有相同的分布 2. 独立性: X1,X2,…,Xn是相互独立的随机变量 独立性: 是相互独立的随机变量. 由简单随机抽样得到的样本称为简单随机样本 简单随机样本, 由简单随机抽样得到的样本称为简单随机样本, 今后如不加声明,均指简单随机样本。 今后如不加声明,均指简单随机样本。
抽样技术简单随机抽样
第一节 概述
一、简单随机抽样的概念
1. 简单随机抽样 也叫纯随机抽样,完全随机抽样。
简单随机抽样是直接从总体的N个 单位中完全随机的抽取n个单位,并使总 体中的每个单位都有同等被抽中概率的 抽样组织形式。
简单随机样本的图示
一、简单随机抽样的概念
2 有重复抽样和不重复抽样两种形 式。 3 严格意义上的简单随机抽样是指 逐个不放回的、即不放回抽样。
4.33 10.33 114.33 184.33 9.33 100.33 165.33 94.33 156 160.33 6.33 93 156.33 86.33 146.33 146.33 66.33 121.33 108.33 86.33 100.8
例:
一、简单估计及其无偏性 N Yi 1 总体均值 Y i 1 N
总体总量
Y N Y
2 简单估计: 用样本均值估计总体均值 总体均值的简单估计
1 ˆ Y y yi n i 1
n
总体总量的简单估计
N ˆ ˆ Y N Y N y yi n
3 样本均值是总体均值的无偏估计
E( y) Y
二、估计量的方差
1 总体方差:
1 (Yi Y ) 2 N 1 2 2 S ( Y Y ) i N 1
i 1 2 3 4 5 6 7 8 9 10 11 12
xi 7 4 5 2 0 4 6 6 15 0 8 6
yi 670 450 370 130 0 250 1230 900 1240 0 1450 540
i 13 14 15 16 17 18 19 20 21 22 23 24
xi 3 10 6 2 1 4 3 2 6 1 4 8
简单随机抽样与描述统计
简单随机抽样与描述统计简单随机抽样的概念简单随机抽样是一种常用的抽样方法,用于从总体中选取样本。
在简单随机抽样中,每个个体被选中的概率是相等的且相互独立的。
简单随机抽样的主要目的是通过样本对总体进行估计和推断。
简单随机抽样的步骤如下:1.定义总体:明确研究的总体是什么,例如某一国家的人口总体。
2.确定样本容量:确定需要多少个样本。
3.给每个个体分配一个编号:给总体中的个体编上号码。
4.随机选择样本:使用随机抽样方法,从总体中选择样本。
5.收集样本数据:对样本进行调查或者实验,收集所需的数据。
6.进行统计分析:使用描述统计方法对样本数据进行分析。
描述统计的概念描述统计是统计学的一个分支,主要用于对数据进行整理、总结和表达,以便更好地理解数据的特征和模式。
描述统计可以帮助我们对数据的中心趋势、离散程度和分布进行描述和分析。
描述统计主要包括以下几个指标:•均值:均值是一组数据的平均值,可以用来描述数据的中心。
•中位数:中位数是一组数据中的中间值,可以用来描述数据的集中程度。
•众数:众数是一组数据中出现最频繁的值,可以用来描述数据的分布模式。
•方差:方差是一组数据离均值的平方差的平均值,可以用来描述数据的离散程度。
•标准差:标准差是方差的平方根,可以用来描述数据的离散程度。
简单随机抽样与描述统计的应用简单随机抽样和描述统计在实际应用中扮演着重要的角色。
它们可以被广泛应用于各个领域,例如市场调研、民意调查、医学研究等。
在市场调研中,研究人员经常使用简单随机抽样方法来选取样本,然后使用描述统计方法对收集到的数据进行分析。
通过分析样本数据,可以了解产品或服务在目标市场中的消费者偏好和需求,进而制定市场营销策略。
在医学研究中,研究人员需要从大量的患者中选取一部分样本进行实验或观察。
使用简单随机抽样方法可以确保选取的样本具有代表性,然后使用描述统计方法对样本数据进行分析。
通过分析样本数据,可以得出关于某种疾病的患病率、症状表现等信息,进而指导医学实践和健康政策制定。
简单随机抽样
对于简单随机抽样,总体均值的估计量为:
yi ˆ Y y i 1 n
n
其中,n是样本量,yi是样本中第i个单元的值, 对应某特定样本的值即是估计值。也就是说,将样 本中所有yi的值加起来再除以样本量就得到了总体 平均数的估计值。
26
在简单随机抽样中,y 既是总体均值的一致 估计,也是总体均值 Y 的无偏估计。
29
ˆ 2 的 选 取 , 我 们通 常 使用 样 本 方 对 于估 计 量 S 2 n 差s 。 ( yi y ) 2 可以证明: 2 i
s
N i
n 1
是总体方差 S 2
2 ( y Y ) i
N 1
的无偏估计量。
30
三、其他估计量 当总体为正态分布时,用 Me(中位数)来估 计Y 。 可以证明:
第三章 简单随机抽样(SRS)
第一节 概述
第二节
第三节
估计量及其误差
样本量的确定
1
第一节
一、定义
概述
二、抽取方法
三、方法评估 四、两个试验
2
一、定义
所有概率抽样的出发点和理论基础都是简单 随机抽样。简单随机抽样是一种一步抽样法,它 保证样本量为n的每个可能的样本都有相同的被抽 中的概率p=n/N。
24
如果一个估计量对于所有可能样本计算的估 计值的平均数等于参数的真值,称这个估计量是 无偏的。 另一个所需要的估计量的性质是它的抽样分 布应与其平均数尽可能地靠拢。对这种性质的一 个度量指标是抽样方差。 我们通常希望估计量具有一些好的性质:其 中的一个性质就是估计量应是无偏的或近似无偏 的,另一个是抽样方差较小的估计量被认为是精 确的:抽样方差越小,估计的精度越高。
8社会研究方法之概率抽样方法
二、系统抽样
步骤
方法
特点
首先将总体中各 单位按一定顺序 排列,根据样本 容量要求确定抽 选间隔,然后随 机确定起点,每 隔一定的间隔抽 取一个单位的一 种抽样方式。是 纯随机抽样的变 种
先将总体从1~N 相继编号,并计算 抽样距离K=N/n。 式中N为总体单位 总数,n为样本容 量。然后在1~K中 抽一随机数k1,作 为样本的第一个单 位,接着取 k1+K,k1+2K…… ,直至抽够n个单 位为止
的情况。
9
想一想:
假设某地区有高中生2400人,初 中生10900人,小学生11000人。 此地区教育部门为了了解本地区中 小学生的近视情况及其形成原因, 要从本地区的中小学生中抽取1% 的学生进行调查。你认为应当怎样 抽取样本?能在14300人中任意取 143个吗?能将143个份额均分到 这三部分中吗?
当总体是由差异 明显的几部分 组成时,往往 选择分层抽样 的方法
7
三、分层抽样/类型抽样
想一想:如何把图示补充完整
分类
随机 抽样
总体
分层
样本
8
分层抽样的特点:
当一个总体内部分1 层明显时,能克服简单随机抽样和
等距抽样的缺点。
在不增加样本规模2的前提下降低抽样误差,提高抽样
精度。
有些研究不仅要了3解总体的情况,还要了解某些类别
(二)特点
按抽样元素的隶属关 系或层次关系,把抽 样分为几个阶段进行。
e.g.大学—院系—班级—学生
优点:不需要总体全 部名单,抽样较容易; 节约人力物力 缺点:每级抽样都会 有误差,故误差较大
15
例:假设某市共有2.4万名教师,分布在10个区200所 学校中,现抽取一个由1200名教师组成的样本,按照 三阶段抽样的方法,抽样方案有:
第三章随机抽样和抽样散布
第三章随机抽样和抽样散布在前两章的讨论中,咱们明白了随机现象常常通过随机变量及其概率散布和数字特点来描述,但是,在实际问题中,要准确明白概率散布和数字特点,有时是很困难的。
例如,咱们要以药丸的崩解时刻或药片的溶解速度为指标来考察某一批药品的质量。
假设把这批药品全数进行一下实验,其散布函数及其有关的数字特点都可求出。
可是,由于测定这些指标的实验,一样是破坏性的,报废了全数药品即便求出了有关指标也无心义。
还有一些查验指标,如蜜丸的重量、体积等,对它们的查验虽不是破坏性的,但要成批逐个查验,不管从人力仍是物力上都会受到条件限制。
事实上,人们老是通过对部份产品的实验结果作分析,推断出全数产品的情形。
这确实是数理统计研究的一个要紧问题。
本章先讨论样本和统计量等大体概念,然后讨论常见的几种抽样散布,为进一步讨论统计推断方式打下必要的理论基础。
§3-1 随机抽样整体与样本整体与样本是数理统计中两个要紧概念。
整体是指研究对象的全部,组成整体的每一个单元称为个体。
整体能够包括有限个个体,也能够包括无穷多个个体。
某个整体是有限的,但在个体相当多的情形下,往往把它作为无穷整体来对待。
在数理统计中,咱们不笼统地研究所关切的对象,只考察它的某一种数值指标,例如,考察某批中成药丸的质量时,能够考察崩解时刻、溶解速度、丸重等项指标。
那个地址,若是咱们只需注意药丸的重量,固然,每一丸都有一个确信的重量如:6g,,,,…。
咱们就把所有这些丸重数值当做丸重的整体;每一个丸重值确实是一个个体。
如此,丸重X事实上是一个随机变量,它的取值的全部是一个整体,每一个可能取值确实是它的个体。
由于随机变量是用其概率散布F(x)(或密度函数f x)来刻画,因此假设X具有散布函数F(X),那么称这一整体为具有散布函数F(X)的整()体。
为了研究整体,需在整体中抽取假设干个个体,这就得出样本的概念。
概念1在一个整体X中抽取n个个体X1,X2,…,X n,这n个个体称为整体X的一个容量为n的样本。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
23390 (2) y 649.722 36 1 n 2 2 s ( yi ny 2 ) 304803 n 1 i 1
ˆ Y y 649.722 1 f s s( y ) s 91.71 n n
Y 的置信度95%的近似置信区间为: s s y u10.05 / 2 n , y u10.05 / 2 n 469.97,829.47
N
n
N
N n 2 1 f 2 性质 2:对 s.r.s,V(y) S S nN n
证明:(对称论性论证法)由定义
n 1 V ( y ) E ( y Y ) 2 E ( yi Y ) 2 n i 1 n 1 2 E[ ( yi Y )]2 n i 1 n n 1 1 2 E[ ( yi Y ) 2 ] 2 E[ ( yi Y )( y j Y )] n n i 1 i j
s s y u10.05 / 2 n , y u10.05 / 2 n 379.43,449.13
例: 某专业杂志目前拥有8000家订户,从中按简单随机抽样 抽取了484户,这484户的年均收入为30500元,标准差为 7040元。试求该杂志订户的年均收入 的置信度为95%的 近似置信区间。
29892 ,31108
二、总体总和的估计:
ˆ Ny 总体总和Y Yi,则Y的简单估计为 Y
i 1
N
ˆ) Y 性质 1 :E (Y
2 N n 2 2 1 f ˆ 性质 2:对 s.r.s,V (Y ) V(Ny) N S N S2 nN n
2 1 f ˆ 性质3:v(Y) v(Ny) N s 2, n ˆ)是V(Y ˆ) 且v(Y V(Ny)的无偏估计。
解:
y 30500 s( y ) v( y ) 1 f s n 484 1 8000 7040 310 484
y u1 s(y),y u1 s(y) 2 2 即30500 1.96 310 , 30500 1.96 310
第三章 简单随机抽样
例:从某个总体抽取一个n=50的独立同分布样本,样本数据 如下: 567 601 665 732 366 937 462 619 279 287 690 520 502 312 452 562 557 574 350 875 834 203 593 980 172 287 753 259 276 876 692 371 887 641 399 442 927 442 918 11 178 416 405 210 58 797 746 153 644 476 (1)计算样本均值与样本方差; (2)若用 y 估计总体均值μ,按数理统计结果,是否无偏, 并写出它的方差表达式。 (3)根据上述样本数据,如何估计? (4)假定的分布是近似正态的,试分别给出总体均值μ的 置信度为95%的近似置信区间。
y t1 s(y),y t1 s(y) 简单随机抽样(或单纯随机抽样): 本书一般局限于不放回随机抽样 3.1.2 实施方法: 3.1.3 地位、作用: 是其他抽样方法基础
3.2 总体均值与总量的简单估计
一、总体均值的估计: 1.简单估计及其无偏性:
例:在某地区10000户家庭中,按简单随机抽样 抽取400户,调查一个月的伙食费(单位: 元)。经计算:
y
i 1
400
i
165712 , y 119110251 .39
i 1 2 i
400
(1)试估计该地区平均每户每月的伙食费,并 估计其标准差。(忽略f) (2)给出置信度为95%时该地区平均每户每月伙 食费的近似置信区间。
解:(1)y 165712 414.28
400 1 n 2 2 s ( yi ny 2 ) 126465 .58, s 355.62 n 1 i 1
ˆ Y y 414.28 1 f s s( y ) s 17.78 n n
(2) Y 的置信度95%的近似置信区间为:
(1)计算样本均值与样本方差;
y
y
i 1
n
i
n
,s
2
( y y)
i 1 i
n
2 n 1 ( yi2 ny 2 ) n 1 i 1
n 1
(2)若用 y 估计总体均值μ,按数理统计结果, 是否无偏,并写出它的方差表达式。
ˆ y, Y
V ( y)
2
n
(3)根据上述样本数据,如何估计?
2
n n 1 1 2 2 2 2 其中s (yi y) ( yi ny ) n 1 i 1 n 1 i 1
1 f 2 性质3:v(y) s 是V(y)的无偏估计。 n
4.区间估计:
ˆ~ ˆ)) 当n很大时, N ( , V ( ˆ ~ 1 ) N(0, ˆ) V( ˆ 则P( u )=1- 1- /2 ˆ) V( ˆ) ˆ) 因此,d u1 / 2 V( u1 / 2S(
例:为调查某城镇成年居民的服装消费水平,在全 体N=5443个成年人中,用简单随机抽样抽得一 个n=36的样本。对每个抽中的成年人调查上一 年中购买的件数与支出金额,数据见cha3.xls 。 试估计该城镇居民成衣平均消费水平。(忽略f) (置信度为95%) 试估计该城镇居民成衣消费总额。(忽略f)
y
i 1
n
i
n
n
y
2
s2
1 n ( y y ) pq i n 1 i 1 n 1
3.3.2 估计量及其性质: 性质1.p为P的简单估计,且为无偏估计,即E(p)=P。 性质2. 1 f N
V ( p)
n
N 1
PQ
性质3.
1 f 2 1 f n v( p) s pq为V(p)的无偏估计 n n n 1
N n E[ ( yi Y ) 2 ] [ (Yi Y ) 2 ] N i 1 i 1
n
n(n 1) E[ ( y i Y )( y j Y )] (Yi Y )(Y j Y ) N ( N 1) i j i j
1 n 1 2 V ( y ) 2 E[ ( yi Y ) ] 2 E[ ( yi Y )( y j Y )] n i 1 n i j 1 n N 1 n(n 1) 2 2 (Yi Y ) 2 (Yi Y )(Y j Y ) n N i 1 n N ( N 1) i j
Y的置信度为 1 的近似置信区间为: 1 f 1 f s),N(y u s) N(y u1 1 n n 2 2
3.3 总体比例(成数)的简单估计
3.3.1总体: 总体 {Y1,Y2 ,YN }
征时 1,总体单元具有某种特 其中Yi 0,否则 (Yi的总和) 征的单元数) Yi A(总体中具有所考虑特
解:(1)
n 198 1 x 5.5, s 2 ( xi2 nx 2 ) 15.8 36 n 1 i 1
ˆ x 5.5 X 1 f 2 s s( x ) s 0.66 n n
X的置信度95%的近似置信区间为: s s , x u10.05 / 2 x u10.05 / 2 n n 即5.5 1.96 0.66,5.5 1.96 0.66 即[ 4.21件,6.79件]
1 n1 N C N 1 Yi N y 1 n i 1 E( y) n Yi Y n CN CN N i 1
证明:(对称性论证法)
1 n y yi n i 1
1 1 n E ( y ) E ( yi ) Yi n i 1 n N i 1 1 Yi Y N i 1
性质:E(s 2) 2,
s2 v( y ) n
(4)假定的分布是近似正态的,试分别给出总体 均值μ的置信度为95%的近似置信区间。
设y1,y 2, ..., yn是独立同分布样本, 假定y是近似正态分布 ,则 y y ~ t (n 1),即 ~ t (n 1) 2 s(y) s /n
Y 的置信度为 1 的近似置信区间为: 1 f 1 f s,y u y u1 1 n n 2 2 s
简单估计及其无偏性:
ˆ Y y
性质 1 :E ( y ) Y
证明:(定义法)
y E( y)
n CN
1 1 n1 N y ( y1 yn ) CN 1 Yi n n i 1
在没有其他总体信息的 条件下, 1 n 1 用y yi 估计Y n i 1 N
Y
i 1
N
i
这种估计即是简单估计
性质 1 :E ( y ) Y
2.估计量的方差: 一般定义,有限总体的方差为:
N n 2 1 f 2 性质 2:对 s.r.s,V(y) S S nN n
说明:总体方差
N 1 2 2 2 E (Yi Y ) (Yi Y ) N i 1
但为了使大多数情形下公式表达更简练,定义总体方差为:
N 1 N 2 2 2 S (Yi Y ) N 1 i 1 N 1
3.估计量的方差估计:
性质:E(s ) S
2
n N 由对称论证法 E[ ( yi Y ) ] (Yi Y ) 2 n( N 1) S 2 N i 1 N i 1
2
1 f 2 N n 2 E( y Y ) S S n nN
2
2 1 n ( N 1 ) N n S 2 2 2 2 E(s ) S n S n ( N 1 ) ( N n ) S n 1 N nN N (n 1)