第1部分抽样设计课件
抽样设计1-抽样计划、总体跟样本
例:伊拉克政策让布什支持率坠入谷底
总 体 : 全 体 美 国 人 , 美 国 人 口 约 24951.1 万 , 总 体 中 有 24951.1万个个体; 样本:1004人,样本容量为1004。
“误差率在3%之内”的精确含意是,“误差率在3%之内的 可能性为95%”。随机调查1004人(样本容量)就是根据这 个精度要求而计算出来的。
好样本和坏样本
在调查中,即使选择对象的确是随机的,最理想的情况所 得到的样本也只代表那些愿意回答问题人的观点所组成的 总体,没有回答问题的人的观点永远不会被这种调查的样 本所代表。
心理研究表明,低收入和高收入的人倾向于不回答问卷, 因此中等收入的人在回答者中的比例过高。为此现代调查 机构更喜欢采用亲自询问来代替邮寄问卷。
竞选人
F.Roosevelt ndon W.Lemke
党派
民主党 共和党 小党
得票率
60.8% 31.5% --
调查结果是: Roosevelt的得票率为54 %,当选为总统!
《文学文摘》失败的主要原因是:他们按照电话簿发放 问卷,而当时安装了电话的都是比较富有的人,因此,他 们所调查的结果仅代表了比较富有的人的意见,样本缺乏 代表性。
《文学摘要》杂志调查的一千万人中只有二百四十万人回 答了问卷,不回答者可能非常有别于回答者,这二百四十万人 代表不了被邮寄问卷的一千万人。
譬如, 1936 年《文学摘要》杂志的一次专门的调查,给 在芝加哥的选民每三人寄去一张问卷。约20%的被调查者作了 回答,其中支持兰登的超过半数。但是在选举中,兰登在芝加 哥的得票率只有三分之一。所以当出现高不回答率时,谨防不 回答偏性。
但研究的前提是:我们首先应保证样本是好的!
在实践中,得到随机样本不容易。很多搞调查的人就采取简单的办法, 这就产生了各种各样的样本,也就有了好样本和坏样本之分。
抽样设计培训课件
。样本偏差属于非抽样误差。
二、抽样程序
• 1、定义总体 • 2、识别抽样框 • 3、确定抽样方法和样本容量 • 4、执行抽样计划
定义总体
• 定义总体单元:个人、家庭、公司 案例:油田地质资料服务
• 设定总体边界:地域因素、人口统计因素、使用情况。 例如:18岁以上,在过去三个月里至少喝过一次白酒,长久
t X ~ t(n 1)
Sn
3. 总体均值 在1-置信水平下的置信区间为
X t 2
S n
t 分布
分布是类似正态分布的一种对称分布,它通常要比正 态分布平坦和分散。一个特定的分布依赖于称之为 自由度的参数。随着自由度的增大,分布也逐渐趋 于正态分布
标准正态分布
标准正态分布
t (df = 13)
1. 容量相同的所有可能样本的样本比例的概率分 布
2. 当样本容量很大时,样本比例的抽样分布可用 正态分布近似
3. 一种理论概率分布 4. 推断总体总体比例的理论基础
样本比例的抽样分布
(数学期望与方差)
1. 样本比例的数学期望
E(P)
2.
样本比例的方差
– 重复抽样
2 P
(1 )
n
E ( P)[1 n
抽样设计
抽样设计
• 第一节 抽样概述 • 第二节 抽样方法 • 第三节 样本容量的确定
第一节 抽样概述
• 一、总体、个体和样本 • 二、抽样程序
一、总体、个体和样本
(概念要点)
总体(Population):调查研究的事物或现象的全体 个体(Item unit):组成总体的每个元素 样本(Sample):从总体中所抽取的部分个体 样本容量(Sample size):样本中所含个体的数量 抽样误差(Sampling error):样本统计量与总体参数之差,受样本
抽样PPT优选课件
2020/10/18
12
谢谢您的聆听与观看
THANK YOU FOR YOUR GUIDANCE.
生病的次数 1-2次 3-6次
7次以上
人数 4 5 1
(1)你同意他们的做法吗?说说你的理由.
(2)为了了解我市老年人的健康状况,你认为应当怎样收集数
据?与同伴交流.
2020/10/18
6
(3)小华利用派出所的户籍网随机调查了该地区10% 的老年人,发现他们一年平均生病3次左右你认为他的 调查方式如何?
3.下列叙述正确的是( B )
A. 大样本一定能保证调查结论正确 B. 抽样调查时,既要关注样本的大小,又要关注样本的代表性 C. 大样本调查一定比小样本调查准确 D. 所有调查都应该采用普查,而不应该采用抽样调查
2020/10/18
9
4.为了估计湖里有多少条鱼,我们从湖里捕上100条做上标记, 然后放回湖里,经过一段时间待带标记的鱼完全混合于鱼群 中后,第二次捕得200条,发现其中带标记的鱼25条,通过这种
象小华这种随机调查的方式是收集数据常用的方法
议一议: 抽样调查时应注意什么?
答:抽样调查时要注意样本的代表性和广泛性.即被调查的 对象不得太少,被调查对象应是随意抽取的,调查数据应 是真实的。
抽样调查的可行性:
1.抽样调查只考查总体的一部分,因此它的优点是 调查范围小,节省时间、人力、物力和财力;
2.但其调查结果往往不如普查得到的结果准确.
第1部分 第一章 § 1 从普查到抽样
[例3]
某校高中学生有3 000人,校医务室想对全校
高中学生的身高情况作一次调查,为了不影响正常的教学 活动,准备抽取50名学生作为调查对象,校医务室若从高 一年级中选出50名学生的身高来估计全校高中学生的身高, 你认为这样的调查结果可靠吗? [思路点拨] 看抽样调查的个体是否具有代表性,若
有代表性,则结论可靠,否则不可靠.
[一点通]
要弄明白概念的实质,并注意样本与样本容量的不同,其
中样本容量为数目,无单位.
返回
1.为了了解某产品促销广告中所称中奖率的真实性,某
人买了100件该商品,调查其中奖率.在这个调查中, 样本是 A.某产品 B.某人买的100件商品 ( )
C.某产品促销广告中所称的中奖率
D.100件商品的中奖率 解析:因为调查对象是某产品促销广告中所称的中奖率, 故这个调查中,样本是某人所买的100件商品的中奖率. 答案:D 返回
当调查的对象很少时,普查无疑是一项非
常好的调查方式.当调查的对象很多时,普查的工作量就
很大,要耗费大量的人力、物力与财力,并且组织工作繁
重、时间长.另外,有些考察活动具有破坏性.更值得注 意的是,在很多情况下,普查工作难以实现.因此,在通 常情况下,总是通过抽样调查来代替普查.
返回
3.下列调查中,采用了“抽样调查”方式的是
c.市区内每个外来务工人员都要统计到位,但时间与资
金投入都比较大. 返回
问题1:如果你是方案的决定者,你将选择哪一方案? 提示:c. 问题2:这样做的好处是什么? 提示:所得数据全面、系统、准确.
返回
1.普查的定义
普查是指一个国家或一个地区专门组织的一次性大规 全面调查 模的
国力. 2.普查的优点 (1)所取得的资料更加 全面、系统 ; ,目的是为了详细地了解某项重要的国情、
简单随机抽样(1)+课件——2022-2023学年高一下学期数学人教A版(2019)必修第二册
问题:放回摸球有什么不足吗?你还有其他的方法吗?
在有放回地摸球中,同一个小球有可能被摸中多次,极端情况是 每次摸到同一个小球,而被重复的小球只能提供同一个小球颜色 信息。这样的抽样结果误差较大。
我们可以采用不放回摸球,即从袋中随机摸出一个球后不再放 回袋中,每次摸球都在余下的球中随机摸取,这样就可以避免 同一个小球被重复摸中。 特别地,当样本量n=1000时,不放回摸球已经把袋中的所有球 取出,这就完全了解了袋中红球的比例,而有放回摸球一般还 不能对袋中红球的比例做出准确的判断。
(3) 重复上述过程,直到抽足样本所需要的人数; (4) 如果生成的随机数有重复,即同一编号被多次抽到,可以剔除重复的 编号并重新产生随机数,直到产生的不同编号个数等于样本所需要的人数.
读数获取样本号码
①在随机数表中任选一个数作为起始数;(选起始数)
②从选定的数开始依次向右(或向左、向上、向下)读,将 编号范围内的数取出,编号范围外的数去掉,直到取满样本 容量的样本.(抽取样本)
问题1 一家家具厂要为树人中学高一年级制作课桌椅,他们事先想了解全 体高一年级学生的平均身高,以便设定可调节课桌椅的标准高度. 已知树 人中学高一年级有712名学生,如果要通过简单随机抽样的方法调查高一年 级学生的平均身高,应该怎么抽取样本?
树人中学全部高一年级的学生构成调查的总体, 每一位学生是个体, 学生的身高是调查的变量.
汽车只有少数富人拥有).通过分析收回的调查表,显示兰顿非常受欢迎,于是此杂志预测兰顿 将在选举中获胜.
实际上选举结果正好相反,最后罗斯福在选举中获胜,其数据如下:
候选人
预测结果﹪
选举结果﹪
罗斯福
ห้องสมุดไป่ตู้
43
62
第1部分 第一章 § 2 2.1 简单随机抽样
0,1,…,19.
第二步,将号码分别写在一张纸条上,揉成团,制成 号签. 返回
第三步,将得到的号签放入一个不透明的袋子中,并 充分搅匀. 第四步,从袋子中逐个抽取5个号签,并记录上面的 编号. 第五步,所得号码对应的5架钢琴就是要抽取的对象. [一点通] 利用抽签法抽取样本时应注意以下问题: (1)编号时,如果已有编号(如学号、标号等)可不必重新 编号.(例如该题中这20架钢琴事先有号可不编号)
(2)读数时,编号为两位,两位读取,编号为三位,
则三位读取,如果出现重号,则跳过,接着读取.
(3)当题目所给的编号位数不一致时,不便于直接从
随机数表中读取,这时需要对号码作适当的调整使新编
号位数相同.
返回
5.从10个篮球中任取一个,检查其质量,用随机数法抽取 样本,则应编号为 A.1,2,3,4,5,6,7,8,9,10 B.-5,-4,-3,-2,-1,0,1,2,3,4 C.10,20,30,40,50,60,70,80,90,100 ( )
返回
2.实施步)准备“ 抽签 ”的工具,实施“ 抽签 ”; (3)对样本中每一个个体进行测量或调查.
返回
为了检验某种产品的质量,决定从120件产品中抽取10
件进行检验.检查人员先将120件产品标号为 001,002,003,…,120.然后从随机数表中的某一行、某一列 按某一方向读取,凡不在001~120中的数跳过去不读,前面 已经读过的数也跳过去不读,按照此规则直到取足样本为
返回
某班班长为了从班内50人中选出一人参加春季游园活动, 他将全班同学进行编号,然后将编号置于某一纸箱,搅匀后, 请学习委员从中任意抽出一个,确定出参加游园的人选.
问题1:班长的做法公平吗?
分层抽样PPT课件(1)
分层抽样法的应用
某学校有在编人员 160 人,其中行政人员 16
人,教师 112 人,后勤人员 32 人,教育部门为了 了解学校机构的改革意见, 要从中抽取一个容量为 20 的样本,试确定用何种方法抽取,并写出抽样 过程.
分析 样. 总体由差异明显的几部分组成, 故采用分层抽
解 因为本题样本总体分成三类:行政人员、教师、 后勤人员, 符合分层抽样的特点, 故选用分层抽样方 法.
2.1.3 分层抽样 自主学案
学习目标 1.理解分层抽样的概念. 2.掌握分层抽样的使用条件和操作步骤,会用分层 抽样法进行抽样. 自学导引 1.分层抽样的概念 在抽样时,将总体分成 互不交叉的层,然后按照 从各层 独立 地抽取一定数量的个 一定的比例 , 体,将各层取出的个体合在一起作为样本,这种 抽样方法是一种分层抽样.
变式迁移 2
某城市有 210 家百货商店,其中大型商
店 20 家,中型商店 40 家,小型商店 150 家.为了 掌握各商店的营业情况,计划抽取一个容量为 21 的样本, 按照分层抽样方法抽取时, 各种百货商店 分别要抽取多少家?写出抽样过程.
21 1 解 (1)样本容量与总体的个体数的比为 = ; 210 10 (2)确定各种商店要抽取的数目: 1 1 大型:20× =2(家),中型:40× =4(家), 10 10 1 小型:150× =15(家); 10 (3)采用简单随机抽样在各层中抽取大型: 2 家; 中型: 4 家;小型:15 家;这样便得到了所要抽取的样本.
2.分层抽样的适用条件 分层抽样尽量利用事先所掌握的各种信息,并充 分考虑保持 样本结构 与 总体结构 的一致 性,这对提高样本的代表性非常重要.当总体是 由 差异明显 的几个部分组成时,往往选用分层 抽样的方法.
9.1.1简单随机抽样(第一课时)(课件)高一数学(人教A版2019必修第二册)
(4)总体:这个水库里所有的鱼,个体:这个水库里的每一条鱼,适合用抽样调查;
练习巩固
练习2:判断下列抽取样本的方式是否属于简单随机抽样?
(1)盒子里共有80个零件,从中选出五个零件进行质量检验.在抽样操作时,从中任意拿
出一个零件进行质量检验后再把它放回盒子里;
(2)从20件玩具中一次性抽取三件进行质量检验;
普查
问题4:这种调查方式好不好?适宜采用什么方法调查?
抽样调查
新知探究
思考1:什么是普查和抽样调查?你还能举出生活中使用它们进行调查的
例子吗?它们分别有什么好处呢?
普查
例如,准确掌握全国的人口数据,可以为科学制
定国民经济和社会发展规划及其他方针政策提供依据
.2020年,我国进行了第七次人口普查,对全国人口
②用电子表格软件生成随机数
例如:在电子表格软件的任意单元格中输入“=
(1,712)”,即可生成一个1—
712范围的整数随机数.这样产生的随机数可能会有
重复
新知探究
③用统计软件生成随机数
小贴士
除了上述软件以外,还有很多能够产生随机数的软件,
一般的抽签软件,如:抽签助手,抽签器等;
可节省成本.
机数,需要剔除重复编号并重新产生.
问题7:用简单随机抽样的方法抽取样本,样本量是否越大越好?
抽样调查中样本量的选择要根据实际问题的需要,在精度和费用两者间
进行权衡,并不一定是越大越好.
在简单随机抽样调查中,当样本量和总体一样大时,就是全面调查了.
练习巩固
辨析3:判断正误.
1.在总体规模比较大的调查中,抽样调查比全面调查更合理.
延,调查学生每天晨午晚体温
测试一批待收瓶装牛奶
抽样调查设计ppt课件
1、概念: 将总体单位划分为若干群,然后以
群为单位抽取样本单位,对抽中群的 所有单位进行全面调查。 2、特点:
整群抽样的优点是组织工作方便, 但可能出现较大的误差。
为了规范事业单位聘用关系,建立和 完善适 应社会 主义市 场经济 体制的 事业单 位工作 人员聘 用制度 ,保障 用人单 位和职 工的合 法权益
其样本单位数在各类中的定额公式为:
ni n
Nii Nii
为了规范事业单位聘用关系,建立和 完善适 应社会 主义市 场经济 体制的 事业单 位工作 人员聘 用制度 ,保障 用人单 位和职 工的合 法权益
四、滚雪球抽样
以若干个具有所需特征的人为最初的调查单 位,然后依靠他们提供认识的合格的调查单 位,再由这些人提供第三批调查单位,…… 依此类推,样本如同滚雪球般由小变大。
为了规范事业单位聘用关系,建立和 完善适 应社会 主义市 场经济 体制的 事业单 位工作 人员聘 用制度 ,保障 用人单 位和职 工的合 法权益
三、配额抽样(定额抽样)
将总体依某种标准分层(群),然后按 照各层样本数与该层总体数成比例的原 则主观抽取样本。配额抽样与分层概率 抽样很接近,最大的不同是分层概率抽 样的各层样本是随机抽取的,而定额抽 样的各层样本是非随机的。
2、交叉控制配额抽样
以年龄、性别与收入水平作为交叉控制因素进行配额 抽样的样本配额分布
为了规范事业单位聘用关系,建立和 完善适 应社会 主义市 场经济 体制的 事业单 位工作 人员聘 用制度 ,保障 用人单 位和职 工的合 法权益
3、最佳比例配额抽样
在将总体分类定额抽样时,不仅要依据 各类在总体中的比重,还考虑到总体各 类标准差的大小。
第三节 非概率抽样调查
抽样设计培训课件(PPT 62页)
抽样方法---概率抽样法
a. 简单随机抽样。是指调研人员随机地从总体中抽取预定数量的 样本,总体中的每一个单位被选中的概率都是均等的,这个 概率等于样本容量与总体容量之商。
必须以一个完整的总体元素列表为依据
b. 等距抽样(系统抽样)。等距抽样是指在总体列表中,先随意选 择一个起点,然后按照一个固定的间隔逐一选择起点之后的 元素,直到达到预定的样本容量,其中样本间的间隔等于总 体容量与样本容量之商。
总体分布
(population distribution)
1. 总体中各元素的观察值所形成的概率分布 2. 分布通常是未知的 3. 可以假定它服从某种分布
总体
样本分布
(sample distribution)
1. 一个样本中各观察值的分布 2. 也称经验分布 3. 当样本容量n逐渐增大时,样本分布逐渐接近总
n
n
(xi x)2
(xi x)2
2 i1 x
M
i1 nn
(1.02.5)2 L (4.02.5)2 0.6252
16
n
式中:M为样本数目
比较及结论:1. 样本均值的均值(数学期望)等于总体均值
2. 样本均值的方差等于总体方差的1/n
样本均值的分布与总体分布的比较 (例题分析)
总体分布
.3
总体分布
.3
.2
.1 0
1
234
均值和方差
N
xi
i1 2.5
N
N
(xi )2
2 i1
1.25
N
样本均值的抽样分布
(例题分析)
抽样的设计教学课件PPT-文档资料
三、分层抽样
1.含义。又称类型抽样,它是先将总体中的所有 单位按某种特征或标志划分成若干类型或层次,然 后再在各个类型或层次中采用简单随机抽样或系统 抽样的办法抽取一个子样本,最后,将这些子样本 合起来构成总体的样本。 2.分层抽样的使用条件是: (1)被抽取的总体是异质的,一个变量或多个变量可 能影响调查结果。如,大学生的性别、年级、籍贯 可能影响对婚恋的态度。 (2)对所研究的总体有详细地名单。 流程图:总体——层——子总体——样本
21% 12%
33%
27% 40%
67%
48% 52%
100%
4.滚雪球抽样
也叫顺藤摸瓜法。是先从几个适合的调查对象开始, 然后通过他们得到更多的调查对象,这样一步步扩 大样本范围。当调查总体中的个体信息不充分时, 常采用这种方法。 例如,某研究部门在调查某市劳务市场中的保姆问 题时,先访问了7名保姆,然后请她们再提供其他 保姆名单,逐步扩大到近百人。通过对这些保姆的 调查,对保姆的来源地、从事工作的性质等状况就 有了较全面的掌握。还有对政府工作人员心理素质 的测试、家用健身器的应用状况、老人问题调查等 等。
6.非概率抽样的优缺点
优点:非概率抽样操作方便、省钱省力,统 计上也远较概率抽样简单,而且若能对调查 总体和调查对象有较好的了解,抽样也可获 得相当的成功。 缺点:非概率抽样不是按照概率均等的原则, 而是根据人们的主观经验或其它条件来抽取 样本。因而,其样本的代表性往往较小,误 差有时相当大,而且这种误差又无法估计。
三、抽样调查中的相关概念
6.总体参数。Parameter,总体中某一特征的综合 描述,如总体均值;方差、标准差;总体比例等; 7.样本统计量。Statistical variable,总体中某 一特征的估计量(变量),如样本均值;方差、标 准差、样本比例等; 8.统计值。Statistic,样本统计量在某一次抽样样 本中的观察值。 9.抽样误差。sampling error,统计值与总体参 数之间的差异。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第1部分 抽样设计第1节 概述一、作用与特点1.定义按照某种随机原则和程序,从总体中抽取一部分单位,通过对这一部分单位进行调查的到的信息,达到对总体情况进行了解或对总体有关情况的估计。
2.作用(1)数据来源(2)对已有数据进行调整、验证。
3.特点(1)节省费用(2)调查时间短,时效快(3)有助于提高原始数据的质量(4)存在抽样误差,但可以计算并控制二、基本概念1.总体与样本总体:调查对象的全体(注意:调查总体与目标总体)样本:从总体中按一定的原则或程序抽出的部分个体组成的集合2.总体参数与样本统计量3.抽样框:供抽样所用的所有调查单位的名单4.总体分布与抽样分布(1)总体分布:总体中个元素的观察值所形成的分布(2)样本分布:样本中观察值所形成的分布(3)抽样分布:样本统计量的抽样分布(4)样本均值的抽样分布与总体分布之间的关系:三、概率抽样与非概率抽样1.概率抽样:(1)定义:按照随机原则抽取样本,也称随机抽样。
也就是在抽取样本时,排除主观上有意识的挑选,总体中每个单元都有一定的机会被抽中。
小样本 大样本 小样本 大样本(2)分类:等概率抽样和不等概率抽样(3)特点:可以用样本数据对总体参数进行估计,但操作相对复杂。
2.非概率抽样(1)定义:根据有关判断有意识的挑选,或者根据方便、快捷的原则抽取。
(2)特点:操作简便,时效快,效率低,但理论上不具备对总体进行推断的依据。
第2节概率抽样方式一、简单随机抽样。
1.定义:从总体N个单元中,随机抽取n个单元构成样本2.放回和不放回简单随机抽样3.随机化程序实现方法(1)抽签法(2)随机数表法(3)计算机抽取(4)永久随机数法4.特点:单元入样概率相同,操作计算简单。
二、分层抽样1.定义:将总体按照一定的原则分成若干子总体,每个子总体称作层,在每个层内分别抽取样本。
2.原理:先对层进行估计,然后加权汇总。
3.分层原则:层内差异小,层间差异大。
4.特点(1)能提高估计效率(2)同时对总体和子总体进行估计三、整群抽样1.定义:将总体按照一定原则分成若干群,抽样直接抽取群,对抽中的群进行全面调查。
2.分群原则:群内差异大,群间差异小。
3.特点(1)实施方便,可节约费用和时间(2)不需要总体所有单元的名单(3)如果群内差异小,群间差异大,则估计精度差四、系统抽样1.定义:将总体按照某种顺序排列,在规定的范围内随机抽取起始单位,然后按照一定规则确定其他样本单位。
(最简单的方法:等距抽样)2.特点(1)操作简便;N 时,样本均值为有偏估计量;(2)当nk(3)方差估计复杂。
3.注意问题:周期性变化的总体五、多阶段抽样1.定义:首先从总体中采用随机方法抽取若干个小总体(初级单元),再在抽中的初级单元中随机抽取若干个单元,这种抽样方法称作二阶段抽样。
2.大范围调查中通常采用二阶段抽样的原因(1)缺少包括所有总体单位的抽样框;(2)可以节省调查的人财物力。
六、其他抽样方法1.多重抽样(二重抽样、双相抽样)抽样)2.不等概率抽样(pps抽样、ps3.双重抽样框抽样第3节非概率抽样方式一、采用非概率抽样的原因1.客观条件(调查经费)限制;2.时间要求紧;3.调查人员有丰富的积累;4.不需要进行区间估计。
二、方便抽样1.定义:按照方便的原则抽取样本,如拦截式调查2.特点(1)操作简便,节省经费;(2)不能用于样本推断总体,不适合于描述性研究和因果关系研究,但适合于探索性研究。
三、判断抽样‘1.定义:抽取样本时,由调查人员依据对实际情况了解和经验,人为确定样本单位,或有了解情况的专家圈定样本。
2.类型:平均型、众数型、特殊型(典型调查)3.特点(1)简便、快捷、节省费用,符合调查目的和特殊需要;(2)可以了解总体的数量特征和对问题深入分析;(3)不能对总体进行参数估计。
四、配额抽样1.定义:将总体中的各单位按照一定的标准化分为若干个类别,将样本数额分配到个类别中,在规定的数额内,由调查人员任意抽选样本。
2.配额抽样与分层抽样的异同(1)相同之处:二者都是先将总体分层,然后在各层中抽取样本;(2)不同之处:配额抽样在各层内采用判断、方便等非概率抽样方式,因此不能对总体进行估计;分层抽样在各层内随机抽取样本,因此可以对总体进行估计。
3.特点:不需要抽样框,又能保证样本结构与总体结构保持一致。
五、自愿样本1.定义:样本由自愿接受调查的单位所组成。
2.特点(1)样本集中于某些特定的群体;(2)样本结构具有独特性,通常与总体结构相去甚远,因而结果不能反映总体情况;(3)组织方便,成本低廉。
第4节抽样中的误差问题一、描述误差的概念1.估计量方差(1)估计量:设某个总体待估参数为θ,在概率抽样条件下,用样本数据计算出一个统计量θˆ作为总体参数θ的估计,把θˆ称作θ的一个估计量。
(2)估计量方差:2)]ˆ(ˆ[)ˆ(θθθE E V -= (3)作用:描述估计精度。
2.偏差(1)定义:如果反复进行抽样,其所有可能样本估计量的均值(数学期望))ˆ(θE 与总体参数的θ之间的离差,即θθθ-=)ˆ()ˆ(E Bias 。
(2)偏差与估计量方差的区别○1偏差是系统性误差,而估计量方差是随机误差,没有系统性; ○2估计量方差随着样本量的增大而减小,而大多数偏差(少数有偏估计量除外)并不随着样本量的增大而减小。
(3)结论○1对于无偏估计量0)ˆ(=θB ○2采用有偏估计量,无论怎样提高样本量,都不能提高估计精度。
3.均方误差(1)定义:估计量方差和偏差的平方之和。
22222)]ˆ([)ˆ(])ˆ([)]ˆ(ˆ[])ˆ()ˆ(ˆ[)ˆ()ˆ(θθθθθθθθθθθθθB V E E E E E E E MSE +=-+-=-+-=-= (2)对于无偏估计量:)ˆ()ˆ(θθV MSE = 二、抽样误差1.定义:由于抽样的随机性产生的,用样本统计量估计总体参数时产生的误差。
2.描述方法:)ˆ()ˆ(θθV S =(估计量的标准差,也称抽样标准差) 3.影响抽样误差的因素(1)总体的分布状况;(2)样本量;(3)抽样方式和估计方法。
4.特点:可以计算并控制,但不能消除。
5.控制方法(1)选择适当的抽样方法;(2)确定充分的样本量;(3)加强对抽样调查组织的领导,提高抽样调查工作质量。
三、非抽样误差1.定义:由于抽样框中的单元放回或者遗漏、部分调查对象不回答或者原始数据不准确等原因造成的误差,主要包括抽样框误差、无回答误差、调查员误差、受访者误差等。
2.抽样框误差:调查总体与目标总体不完全吻合(涵盖不全和过涵盖)。
3.无回答误差(1)单位无回答:若无回答率过高,需要补调查;(2)项目无回答:需插补。
4.调查员误差(解释误差)5.受访者误差(理解、记忆误差或者有意隐瞒)6.其他:测量工具误差、数据编码和录入错误等。
五、误差问题小结1.从性质上看:估计量方差、偏差、均访误差。
2.从类型上看:抽样误差和非抽样误差。
第5节 参数估计方法一、参数估计方法1.参数估计:用样本统计量去总体参数。
2.估计量:用来估计总体参数的统计量的名称,称为估计量。
3.方法分类(1)点估计:用样本估计量的值直接作为总体参数的估计值,称为点估计(2)区间估计:在点估计的基础上,给出总体参数估计的一个范围,称作区间估计。
4.评价估计量的标准:无偏性、有效性、一致性。
二、总体均值的区间估计1.点估计:用样本均值x 估计总体均值μ。
其中,用样本均值x 是总体均值μ的无偏估计,即μ=x E 。
2.放回抽样的区间估计绝对误差(也称极限误差、边际误差) n t x tS 2)(σ==∆相对误差 μ∆=r区间估计 (∆+∆-x x ,) 在总体方差未知时,可以采用样本方差∑=--=ni i x x n s 122)(11计算极限误差 ns t 2=∆。
3.不放回抽样的区间估计绝对误差 1)(2--⋅==∆N nN n t x tS σ相对误差 μ∆=r区间估计 (∆+∆-x x ,)例3.1 某种零件的长度服从正态分布,从某天生产的一批零件中按放回抽样的方法随机抽取9个,测得其平均长度为21.4cm 。
已知总体的标准差为0.15cm 。
试估计该批零件的平均长度的95%的置信区间。
解:已知15.0=σ,9=n ,14.2=x ,置信水平95%,对应的96.1=t ,则)498.21,302.21(315.096.114.2=⨯±=±n t x σ该批零件的平均长度的置信区间为(21.302,21.498)例3.2 在某天生产的500袋食品中,按不放回抽样方法随机抽取25袋进行检查,测得平均每袋的重量为996g 。
已知该种袋装食品的重量服从正态分布,且标准差为20g 。
试估计该种食品平均重量的置信区间,置信水平为95%。
解:已知20=σ,25=n ,996=x ,置信水平95%, 96.1=t ,则)65.1003,35.988(15002550052096.19961=--⨯±=--±N n N n t x σ该种食品的平均重量的置信区间为(988.35,1003.65)。
三、对总体比例的估计1.点估计:用样本比例p 估计总体比例π。
其中,用样本均值p 是总体均值π的无偏估计,即π=Ep 。
2.放回抽样的区间估计绝对误差 n tp tS )1()(ππ-==∆ 相对误差 π∆=r区间估计 (∆+∆-p p ,)3.不放回抽样的区间估计绝对误差 1)1()(--⋅-==∆N nN n t p tS ππ相对误差 μ∆=r区间估计 (∆+∆-p p ,)例3.3 某城市想要顾及下岗职工中女性所占的比例,采用放回抽样方法随机抽取了100名下岗职工,其中65人为女性,试以95%的置信水平估计该城市下岗职工中女性比例的置信区间。
解:已知100=n , 96.1=t 根据样本数据计算的样本比例为65.010065==p ,则 %)35.74%,65.55(10035.065.096.165.0)1(=⨯⨯±=-±n p p t p 于是该城市下岗职工中女性比例的置信区间为(55.65%,74.35%)。
例3.4 某企业共有职工1000人。
企业准备实行一项改革,在职工中征求意见,采取不放回抽样方法速记抽取200人作为样本,调查结果显示,有150人表示赞成该改革,50人反对。
试以95%的置信水平确定赞成改革的人数比例的区间。
解:已知200=n , 96.1=t 根据样本数据计算的样本比例为75.0200150==p ,则 %)37.80%,63.69(11000200100010035.065.096.165.01)1(=--⋅⨯⨯±=--⋅-±N n N n p p tp 于是该城市下岗职工中女性比例的置信区间为(69.63%,80.37%)。