第四章 抽样与抽样估计
统计学1-7章的填空、判断题 4
第四章抽样与抽样分布一、单项选择题1.抽样调查的目的在于(a )。
A、了解总体的基本情况B、用样本指标推断总体指标C、对样本进行全面调查D、了解样本的基本情况2.假定10亿人口大国和100万人口小国的居民年龄变异程度相同,现在各自用重复抽.样方法抽取本国的1%人口计算平均年龄,则抽样误差(c)。
A、两者相等B、前者大于后者C、前者小于后者D、不能确定3、抽样调查,随着样本量的增加,调查的误差(a)A、减小B、不变C、扩大D、不确定4、对某单位职工的文化程度进行抽样调查,得知其中80%的人是高中毕业,抽样平均误差为2%,当概率为95.45%(Z=2)时,该单位职工中具有高中文化程度的比重是( c )A、等于78%B、大于84%C、在76%与84%之间D、小于76%5、某银行想知道平均每户活期存款余额和估计其总量,根据存折账号的顺序,每50本存折抽出一本登记其余额。
这样的抽样组织形式是( c )A、类型抽样B、整群抽样C、机械抽样D、纯随机抽样6、农户家计调查中,按地理区域划分所进行的区域抽样,其抽样组织方式属于(d)A、简单随机抽样B、类型抽样C、等距抽样D、整群抽样7、抽样平均误差是指样本平均数或样本成数的( c )A、平均数B、平均差C、标准差D、标准差系数8、在不重复抽样中,抽样单位数从5%增加到25%,抽样平均误差( c )。
A、增加39.7%B、增加约3/5C、减少约3/5D、没有什么变化9、(甲)某高校新生1000人,从理科中随机抽取60人,文科中随机抽取40人,进行英语水平测试;(乙)从麦地总垅长中每3000市尺测竿落点处前后5尺长垅的产量进行实割实测;(丙)为研究城市青年业余时间活动情况,某城市每第10个居委会被抽取,并询问住在那里所有从16岁到30岁的青年人。
上述哪项属于类型抽样?( a )A、甲B、乙C、乙、丙D、甲、乙、丙10、抽样调查所遵循的基本原则是( b )A、准确性原则B、随机性原则C、可靠性原则】D、灵活性原则11、在其它条件不变的情况下,如果允许误差范围缩小为原来的1/2,则样本容量(a )A、扩大为原来的4倍B、扩大为原来的2倍C、缩小为原来的1/2倍D、缩小为原来的1/4倍12、对一批产品按不重复抽样方法抽取200件进行调查,其中废品8件,已知样本容量是产品总量的1/20,当F(Z)=95.45%时,不合格率的抽样极限误差是( d )A、1.35%B、1.39%C、2.70%D、2.78%13、抽样平均误差,确切地说是所有样本指标(样本平均数和样本成数)的( b)。
抽样与抽样估计课件
$number {01}
目 录
• 抽样的基本概念 • 抽样分布 • 参数估计 • 样本量的确定 • 抽样误差与非抽样误差 • 实际应用案例
01
抽样的基本概念
定义与意义
定义
抽样是从总体中选取一部分个体 进行研究的方法。
意义
通过对样本的研究,可以推断出 总体的特征和规律,从而提高研 究效率和准确性。
误差的评估
误差的评估方法包括通过历史数据或置信区间来评估误差的 大小和分布,以及通过对比不同调查方法或不同时间点的调 查结果来评估误差的可控性和稳定性。
06
实际应用案例
市场调查抽样
实施调查
按照抽样计划进行调查,收集所 需数据,并确保数据质量和完整 性。
选择抽样方法
根据调查目的和资源限制,选择 合适的抽样方法,如简单随机抽 样、分层抽样、系统抽样等。
抽样的常见方法
01
随机抽样
按照随机原则从总
体中抽取样本。
02
系统抽样
按照一定的间隔或 顺序从总体中抽取
样本。
04
整群抽样
将总体分成若干群
03
,然后从各群中随
机抽取样本。
分层抽样
将总体分成若干层 ,然后从各层中随
机抽取样本。
抽样的原则与步骤
原则
随机性、代表性、可行性、经济性。
步骤
确定研究目的和总体范围、选择抽样方法、确定样本量和样本分布、实施抽样、 分析样本数据并推断总体特征。
02 抽样分布
随机抽样与概率分布
1 2
3
随机抽样
在统计学中,随机抽样是从总体中选取一部分个体的过程, 每个个体被选中的机会均等且不受其他因素的影响。
统计学(抽样估计)
第四章第一节
二、抽样调查的特点
➢按随机原则抽取调查单位; ➢要抽取足够多的调查单位;
基本原则
➢可从数量上推断总体
基本目的及任务
➢要运用概率估计的方法
➢抽样调查中所产生的抽样误差可以事先计算
并加以控制。
科学性体现
3
第四章第一节
三、抽样调查的使用范围 ➢ 有些事情在测量或实验时有破坏性,不可能进行
1、用样本标准差替代总体标准差。大样本情况下,可 以直接用样本标准差S代表代表总体标准差;在小样
本的情况下,则采用样本修正标准差 S *来代替。
S* (xi x)2 n 1 S n n 1
2、用以前(近期)的总体标准差或同类地区的总体标 准差来代表所研究的标准差。若同时有多个可供参 考的数值时,应选择其中最大者。对于成数P,应选 最接近0.5的比率。
up
P(1 P)(重复) n
up
P(1 n
p)
(
N N
n 1
)或up
ux
σ 2 (N n)或 n N1
ux
σ 2 (1 n )(不重复) nN
P(1 P) (1 n )(不重复)
n
N
26
第四章第三节
注意:在上述公式中, 或 P(1 P)总体标准差,但
是实际中这两个数据却是未知的。计算抽样平均误 差时通常采用以下替代方法。
进行检验,来判断这种假设的真伪,以决定取舍
4
第四章第一节 四、抽样估计的一般步骤 1、设计抽样方案 2、抽取样本单位 3、搜集样本资料 4、整理样本资料 5、推断总体指标
5
第四章第二节 第二节 调样调查的基本概念及理论依据 一、全及总体和抽样总体(教材没有) ➢ 全及总体-简称总体(N):研究对象的全 体 (唯一确定) ✓ 变量总体 :各单位可用数量标志计量 A 有限总体:变量值有限 B 无限总体:变量值无限,分为可列或连续 ✓ 属性总体 :各单位用品质标志描述
教育与心理统计学 第四章 抽样理论与参数估计考研笔记-精品
第四章抽样理论与参数估计第一节抽样理论的基本知识分层抽样,又叫分层随机抽样,这种抽样方法是按照总体已有的某些特征,承认总体中已有的差异,按差异将总体分为几个不同的部分,每一部分称为一个层,在每一个层中实行简单随机抽样。
它充分利用了总体的已知信息,因而是一种非常适用的抽样方法,其样本代表性及推论的精确性一般优于简单随机抽样。
分层的原则是层与层之间的变异越大越好,各层内的变异要小。
试述分层抽样的原则和方法?分层抽样是按照总体上已有的某些特征,将总体分成几个不同部分,在分别在每一部分中随机抽样。
分层的总的原则是:各层内的变异要小,而层与层之间的变异越大越好。
在具体操作中,没有一成不变的标准,研究人员可根据研究需要依照多个分层标准,视具体情况而定。
⑷两阶段随机抽样两阶段随机抽样首先将总体分成M个部分,每一部分叫做一个"集团"(或"群"),第一步从M个集团中随机抽取m个"集团”作为第一阶段样本,第二步是分别从所选取的m个"集团”中抽取个体(g构成第二阶段样本。
一般而言,两阶段抽样相对于简单随机抽样,标准误要大些,但是,两阶段抽样简便易行,节省经草贼,因而它是大规模调查研究中常被使用的抽样方法。
例如,如果我们要了解全国城市初中二年级学生的身高,第一步我们可以从全国几百个城市中随机抽取几十个城市作为第一阶段的样本。
第二步,在第一阶段随机抽取出来的城市中再随机抽取初中二年级的学生。
(二)非旃抽样非概率抽样不是完全按随机原则选取样本,有方便抽样、判断抽样。
方便抽样是由调查人员自由、方便地选择被调查者的非随机选样。
判断抽样是通过某些条件过滤,然后选择某些被调查者参与调查的抽样法。
当采取非概率抽样的方法选取样本时,研究者要说明采用此种方取样的原因以及对研究结果可能造成的影响。
第二节抽样分布[统计量分布、基本随机变量函数的分布]总体:又称母全体、全域,指具有某种特征的一类事物的全体。
第四章 抽样
主讲人: 张建鹏 要内容
一、抽样的意义与作用 二、概率抽样的原理与程序 三、概率抽样方法 四、非概率抽样方法 五、样本规模与抽样误差
2
一、抽样的意义与作用
1. 相关概念 (1). 总体(population):构成它的所有元素的集合 N 表示。元素则是构成总体的基本的单元。 如:海医学生新闻获得方式调查 某市居民家庭生活状况 (2). 样本(sample):从总体中按一定方式抽取的一部 分元素的集合。用n表示 如:从海医1万名学生中,按一定方式抽取300人进行 调查,这300人构成该总体的一个样本。
28
分层(最佳)抽样法
定义:又称非比例抽样法,根据各层样本标准差 的大小确定各层的样本数目的方法。 计算公式为:
ni = n * ( N i Si / ∑ N i Si )
(1)
式中:ni ----- 各类型应抽选的样本单位数 n ----- 样本单位数 Ni ----- 各类型的调查单位数 Si ----- 各类型调查单位数的样本标准差
14
抽样设计的五个步骤 1)定义目标总体 (如上述案例中正在上学的 年龄在8-17岁的年轻人) 2)制定抽样框 (例如上述案例中的所有县及 县内的城市和城镇) 3)选择一种抽样技术 (如上述案例中的三段 分层概率抽样) 4)实际抽取样本 (样本容量,1000名;执行 抽样过程和对调查员指令) 5)评估样本质量 (如检测样本平均年龄是否 与全国普查数据一致或接近)
33
整群抽样与分层抽样的比较
特征 样本来源 抽样目的 划分原则 整群抽样 一个或几个 不提高成本而提 高抽样效率 分层抽样 所有层 不提高成本而提 高精度
群中的个体异质, 层中个体同质, 群间同质 层间异质
第四章 抽样技术
• (五)多阶段抽样
– 含义:multistage sampling-----即先抽大的调 查单元,在大单元中抽小单元,再在小单元 中抽更小的单元。如:我国的城市职工家计 调查,采用三阶段抽样,先城市-基层单位调查户。
第四章 抽样技术
– 应用:在复杂、大规模的市场调查中。
• (六)抽样技术的选用原则
• (四)常用术语
– 1.总体(population)与样本(sample) – 2.总体指标和样本指标
• 总体指标-------反映总体数量特征的指标,有总 体平均数µ,总体比例P, 总体方差 σ 2
第四章 抽样技术
– 样本指标------又称样本估计量或统计量,用 以估计和推断相应总体指标的综合指标,有 样本平均数 x ,样本比例p ,样本方差S2。
第四章 抽样技术
• 成数------分总体成数与样本成数 • 含义------总体中具有某种特征的单位占全部单 位的比例,称总体成数(总体比例) • 如:产品的合格率,市场占有率等。 • 样本成数的抽样分布
– 当从总体中抽出一个容量为n的样本时,样本中具有 某种特征的单位数x服从二项分布,即有x~B(n, π),且 有E(x)=n π V(x)=n π(1- π). – 因而样本比例p=x/n也服从二项分布,且有: – E(p)=E(x/n)= π – V(p)=V(x/n)=1/n π(1- π)
第四章 抽样技术
第四章 抽样技术
第四章 抽样技术
本章要点
• 1.抽样调查的含义、特点与程序; • 2.随机抽样技术的类型及其各自的特点、 方法; • 3.非随机抽样技术的类型及其各自的特 点、方法; • 4.抽样误差的含义及其计算方法 。
第四章 抽样技术
第四章 抽样
(1)概率抽样:简单随机抽样、系统抽样、 分层抽样、整群抽样、多段抽样、PPS抽样、 户内抽样 (2)非概率抽样:偶遇抽样、判断抽样、 定额抽样、雪球抽样
二、概率抽样的原理与程序
(一)概率抽样的基本原理 1、总体的同质性与异质性 同质性:如果某个总体中的每一个成员在所有方 面都相同,那么,我们就说这个总体具有完全的 同质性。 否则,就存在不同程度的异质性。 同质性总体不需要抽样。 社会各种总体的异质性决定了严格的概率抽样的 必要性。
(二)系统抽样
3、系统抽样优缺点: <1>优点: ①易于实施,工作量少。 ②样本在总体中分布更为均匀,抽样误差 小于或至多等于简单随机抽样。
(二)系统抽样
<2>系统抽样缺点: ①系统抽样是以总体的随机排列为前提, 如果总体的排列出现有规律分布时,会使 系统抽样产生极大误差。 ②当总体内个体类别之间的数目悬殊过大 时,样本的代表性可能较差。 <3>适用范围:系统抽样最适用于同质性较 高的总体。
人们通常采用下列几组数字
有90%的样本统计值落在u〒1.65SE(样本 平均数的标准差)之间; 有95%的样本统计值落在u〒1.96SE之间; 有98%的样本统计值落在u〒2.33SE之间; 有99%的样本统计值落在u〒2.58SE之间。 其中,百分数表示置信水平,u〒1.65SE等 表示置信区间。
随机数表抽样举例
3、简单随机抽样方法
①当总体元素较少时:常用的办法类似于 抽签,即把总体中每一个单位都编号,将 这些号码写在一张张小纸条上,然后放入 一容器如纸盒、口袋中,搅拌均匀后,从 中任意抽取,直到抽够预定的样本数目。 这样,由抽中的号码所代表的元素组成就 是一个简单随机样本。
抽样技术第4章分层抽样
4.7 事后分层
在实际当中,有时进行事先分层会存在 一定的困难。 1.各层的抽样框无法得到。 2.几个变量都适合于分层,而要进行事先的 多重交叉分层存在一定困难。 3.总体规模太大,事先分层太费事等。 在这种情况下,就可以考虑采用事后分层 技术。
事后分层的具体实施办法是:先采用简
单随机抽样的方法从总体中抽取一个样本
第四章 分层抽样
4.1 什么是分层抽样
在例2.4中我们用简单随机抽样估计每 个郡的平均农场面积。我们提到,即使我 们认真细致地产生了一个随机样本,还是 有一些地区被过分代表,而另一些则根本 没有代表。例4.1用分层抽样保持分层变量 在样本中的均衡,从而使得总体得到全面 的估计。
使用分层抽样的理由: 1.我们要防止得到一个很差的样本。
分层抽样比例
如我们在2.3中所观察到的一样,比例是取
值为0到1之间的一个变量的均值,为了得
到比例的推断,我们用等式(4.1)—
(4.5),其中
,
,
则有
估计总体单元的总数有一个特别相似的性质:
因此,总体单元的总数估计量是每层总数估
计量之和 。类似有
。
例4.3 美国团体学习委员会(ACLS)用分层随 机抽样在七门学科中选取ACLS中的团体研究出版 物格局和属于这些团体的学者使用电脑和图书馆 的情况。数据见表4.2.
单元数。这样第h层中第j个单元入样的概率
为
。因此,抽样权重只是抽样概率
的倒数:
(4.8)
抽样权重之和等于总体容量N,每个抽样单 元代表一特定数量的总体单元。因此,整 个样本代表整个总体。这个定义可以用于 检验权重变量是否正确:如果样本权重之 和是其它的数,而不是N,那么肯定有某个 地方出错了。 总体总数的估计量可以写成以下形式:
第四章 抽样技术基础知识
抽样技术的完整概念包括对样本的调查和对总体参 数的估计两个方面。首先介绍抽样调查,然后介绍总体 参数估计方法。
第一节
抽样调查
一、抽样调查的概念 抽样调查是统计学的重要分支,它已经成为当今世 界上最重要的统计方法。它广泛应用于社会、经济、科 技和自然等各个领域,成为现代统计学中发展最快、最 活跃的一个分支。 (一)抽样调查 它是一种非全面调查,是根据随机原则从总体中抽 取部分单位进行调查。这部分单位称为样本。而这部分 单位数目的多少不是随心所欲确定的,是根据一定原则 和要求用科学的方法计算来确定。所谓随机原则,就是 可能性原则,是指在抽取样本单位时,完全排除人们的 主观愿望,使总体中的每个单位机会确定,抽中与否全 凭偶然。
(四)参数和统计量 1.参数 2 即总体平均数,用 表示,总体标准差用σ 表示,总体成数 X (比重)用P 表示,这些数据在抽样技术称为参数。由于总体是 唯一确定的,总体参数也是唯一确定的。 2.统计量 样本平均数用 x表示,样本标准差用s 表示,样本成数用p 表示,这些数据在抽样技术称为统计量。 成数指总体或样本中具有某种属性的单位数占全部单位数的 比重。如,一片森林中病株数的比重、一批产品中合格品比重、 一片农作物中缺苗断垄数比重、某市居民拥有计算机户比重、某 电视节目收视率等等。 本节小结: (一)样本是从总体中随机抽取的一部分单位。 (二)参数是总体数量特征,是用样本统计量估计出来的。 (三)统计量是由样本变量直接计算得到的。
2.区域抽样框,按自然地域划分并排列出总体所有单位。例 如,一片土地划分为若干地块并编号、一片森林划分为若干林区 并编号等。 3.时间表抽样框,按时间顺序排列总体单位。例如,流水线 生产的产品质量检验,把一天划分为若干时段并按顺序排列。 抽样框的编制是抽样调查的前提条件,要求不重不漏来保证 样本对总体的代表性。 (二)总体和样本 总体指所要研究现象的整体,用字母N 表示。如,从1万平 方米小麦中抽取500平方米进行产量调查,则N =10000平方米。 样本,指从总体中抽取的样本单位数,用字母n 表示。如, 上例中n =500平方米 (三)大样本和小样本 大样本和小样本是根据样本容量多少来划分的。n≥30时为 大样本,n <30时为小样本。
统计学习题 第四章 抽样估计
第四章抽样估计一、判断题1.抽样估计的目的是用以说明总体特征。
2.抽样分布就是样本分布。
3.既定总体在当抽样方法、抽样组织形式和样本容量确定时,样本均值的分布惟一确定。
4.样本容量就是样本个数。
5.在抽样中,样本容量是越大越好。
6.抽样的目的是判断样本估计值是否处于以总体指标为中心的某规定区域范围内。
7.当估计量有偏时,人们应该弃之不用。
8.对于一个确定的抽样分布,其方差是确定的,因而抽样标准误也是确定的。
9.抽样极限误差越大,用以包含总体参数的区间就越大,估计的把握程度也就越大,因此极限误差越大越好。
10.非抽样误差会随着样本容量的扩大而下降。
二、单项选择题1.想了解学生的眼睛视力状况,准备抽取若干学校、若干班级的学生进行测试,则()。
A.观测单位是学校B.观测单位是班级C.观测单位是学生D.观测单位可以是学校、也可班级或学生2.下列误差中属于非一致性的有()。
A.估计量偏差B.偶然性误差C.抽样标准误D.非抽样误差3.抽样估计中最常用的分布理论是()。
A.t分布理论B.二项分布理论C.正态分布理论D.超几何分布理论4.抽样标准误大小与下列哪个因素无关?()A.样本容量B.抽样方式、方法C.概率保证程度D.估计量5.下列关于抽样标准误的叙述哪个是错误的?()A.抽样标准误是抽样分布的标准差B.抽样标准误的理论值是惟一的,与所抽样本无关C.抽样标准误比抽样极限误差小D.抽样标准误只能衡量抽样中的偶然性误差的大小三、计算分析题1. 某小组5个工人的每周工资分别为520、540、560、580、600元,现从中用简单随机抽样形式(不重复抽样)随机抽取2个工人周工资构成样本。
要求:(1)计算总体平均工资的标准差;(2)列出全部可能的样本平均工资;(3)计算样本平均工资的平均数,并检验其是否等于总体平均工资;(4)计算样本平均工资的标准差;(5)用抽样平均误差的公式计算并验证是否等于(4)的结果。
2.从某大型企业中随机抽取100名职工,调查他们的工资。
社会调查研究方法——第4章抽样PPT课件
2021/3/25
授课:XXX
10
3、抽样的作用
▪ (1)现实生活中有些研究总体是不可能进行 全面调查的,只可能调查其中的一部分。
▪ (2)节约人力、物力。 ▪ (3)对其他调查方法所得到的资料的可信性
的检验,尤其是对普查资料的修正与补充, 必须进行抽样调查。
2021/3/25
授课:XXX
11
4、抽样的优越性
4
2、抽样的概念
▪ (1)总体(population) ▪ (2)样本(sample) ▪ (3)抽样(sampling) ▪ (4)抽样单位(sampling unit) ▪ (5)抽样框(sampling frame) ▪ (6)参数值(parameter) ▪ (7)统计值(statistic) ▪ (8)抽样误差 ▪ (9)置信水平与置信区间
第四章 抽样
▪ 第一节 抽样的意义与作用 ▪ 第二节 非概率抽样方法 ▪ 第三节 概率抽样的原理与程 ▪ 第四节 概率抽样方法 ▪ 第五节 户内抽样与PPS抽样 ▪ 第六节 样本规模与抽样误差
2021/3/25
授课:XXX
1
教学要求:
▪ 了解抽样的概念、意义 ▪ 掌握概率抽样和非概率抽样的的几种方法 ▪ 教学重点:概率抽样 ▪ 教学难点:概率抽样中的分层抽样
▪ (1)调查费用较低。 ▪ (2)速度快 ▪ (3)应用范围广。 ▪ (4)可获得内容丰富的资料。 ▪ (5)准确度高。
2021/3/25
授课:XXX
12
▪5、抽样的类型
抽样技术
非概率抽样
概率抽样
方便抽样 判断抽样 配额抽样 滚雪球抽样
简单随机抽样 系统抽样 分层抽样 整群抽样 多级抽样 其他抽样技术
第四章 抽样方法
非概率抽样的用途是有限的, 因为抽选单元的倾向性不允许对调 查总体进行推断。然而非概率抽样 快速简便,对探索性研究很有用, 特别是在市场调查中应用非常广 泛。。
一、非概率抽样
非概率抽样是用主观的(非随机 的)方法从总体中抽选单元,是一种 快速、简易且节省的从总体中选取 样本单元的方法。
它假定总体是同质的,即总体单元 都相似。比如“街道拦截”访问法。
2.志愿者抽样
被调查者都是志愿者。 例如具有特定病情的人参加某些医疗
实验;打电话参与广播或电视节目的 人;抽选参加焦点座谈或深入访问的 人。
3.判断抽样
由专家有目的地抽选有代表性的样本。 它适用于探索性研究,
如:抽选参加焦点座谈或深入访谈的 人,但不宜用在试调查中。
果。 有时,非概率抽样是唯一可行的选择。
例如,在医学实验中,采用志愿者抽样 可能是取得数据的唯一途径。
非概率抽样常被用于抽选参加焦 点座谈和深入访问的个人。
另一个能较好发挥非概率抽样作 用的例子是预研究。
非概率抽样的优点是:
快速简便; 费用相对较低; 不需要抽样框; 对探索性研究和调查的设计开发很有用。
简单随机样本(图示)
简单随机抽样在实际抽样中应用很 少,常被用作评估其他抽样方法的 效率的标准。
抽样的误差是通过其抽样方差来测 量的,如果一种抽样方法的抽样方 差比另一种抽样方法的抽样方差小, 我们就称这种抽样方法更有效率 (统计效率)。
与其他抽样技术相比,简单随机抽样 有以下优点:
是最简单的抽样技术;
假定一个总体有六个农场,我们 要估计这个农场总体的总支
出。假定我们已知每个农场的规模 (以公顷计的农场大小),为便于说明, 进一步假定我们已知它们的支出。
第四章 抽样调查
p
p1 p
n
0.2 0.8 0.02 400
即:根据样本资料推断全部学生中戴眼镜的学 生所占的比重时,推断的平均误差为2%。
例: :
一批食品罐头共60000桶,随机抽查300桶,发 现有6桶不合格,求合格品率的抽样平均误差?
解: 已知 N 60000 n 300 n1 6
解:
x xf 12600 126件 f 100
s x x 2 f 4144 6.47件
f 1
99
x
s 2 1 n n N
6.472 1 100 0.614件
100 1000
x
通过例题可说明以下几点:
①样本平均数的平均数等于总体平均数。 ②抽样平均数的标准差仅为总体标准差的 1
n
③可通过调整样本单位数来控制抽样平均误差。
例:假定抽样单位数增加 2 倍、0.5倍时, 抽样平均误差怎样变化?
解:抽样单位数增加 2 倍,即为原来的 3 倍
则:
x
3n
1 0.577 3
二、抽样调查的特点
1、 是专门组织的一次性的非全面调查 2、 抽选样本单位遵循随机原则 3、 用样本指标数值去推断总体指标数值 (与重点调查的区别) 4、 抽样误差可计算并控制在一定范围内 (与典型调查的区别)
三、抽样调查的几个基本概念 (一) 全及总体和抽样总体
全及总体 指研究对象的全体。其单位数 (总体) 用N 表示。
即:当根据样本学生的平均体重估计全部学生的平均 体重时,抽样平均误差为1公斤。
例: 某厂生产一种新型灯泡共2000只,随机抽出 400只作耐用时间试验,测试结果平均使用寿 命为4800小时,样本标准差为300小时,求抽 样推断的平均误差?
抽样和抽样估计
2、同步,有1500人参加了企业培训,则 参加企业培训计划旳百分比为:P =1500/2500=0.60
上述总体均值、总体原则差、百分比均称为总体旳 参数
样本均值旳原则差可用来测度样本均值与总 体均值旳“距离”,即可用来计算可能旳误差, 它也被称为均值原则误(standard error of the mean)。
3、样本均值抽样分布旳实际应用
样本统计量旳估计值与其所要测度旳总体参数值之间旳 绝对差距,被称为抽样误差(sampling error)。
参数是总体旳数值特征 A parameter is a numerical characteristic of a population。
如:例3中旳中层干部平均年薪,年薪原则差及受培训人数 所占百分比均为该企业中层干部这一总体旳参数。
●抽样估计就是要经过样本而非总体来估计总体参数。
一、简朴随机抽样(Simple Random Sampling)
同步,因为n/N=30/2500=0.012<=0.05,所以样本 原则差为
又因为n·p=300.6=18, n(1-p)=30 0.4=12 所以,样本百分比服从如下正态分布:
p ~ N (0.6, 0.0892 )
四、点估计量旳性质:估计量优劣旳衡量 用样本统计量(sample statistics)能够作为其相 应旳总体旳点估计量(point estimator)。 但要估计总体旳某一指标,并非只能用一种样本 指标,而可能有多种指标可供选择,即对同一总体 参数,可能会有不同旳估计量。
李金昌《统计学》(最新版)精品课件第四章 抽样估计
Statistics
二、常用的抽样分布定理
(一)样本均值的抽样分布定理
1.正态分布的再生定理 如果某样本的n个个体完全随机地来自数学期望为 X 、方差 为S 2 的正态总体,则不论样本容量n多大,样本均值服从数学期 ( N n) S 2 S2 望为 X 、方差为 V ( x ) (重复抽样时)或 V ( x ) (有 Nn n 限总体且不重复抽样时)的正态分布。标准化统计量 z x X V (x ) 则服从数学期望为0、方差为1的标准正态分布。此即为正态分布 的再生定理。 2.中心极限定理 对于任一具有平均数 X 和方差 S 2的有限总体,当样本容量n 足够大时(例如 n 30或 n 50 ),样本均值 x的分布也趋于服从 正态分布,其数学期望和方差与再生定理的相同。此即为中心极 限定理。
Statistics
3.分布定理 当正态总体的方差未知且n较小,或任一方差为 S 2的总体但n 较小,则样本均值 x 的分布服从自由度为n-1的t分布。分布曲线 与正态分布相近,其中数学期望相同。
Statistics
(二)样本成数的抽样分布定理
1.二项分布定理 N 从一个数学期望为p、方差为 N 1 PQ 的是非变量(0-1分布) n1 总体中随机重复地抽取容量为n的样本,那么样本中含有 个某类 变量值的概率为:
反映样本分布特征的样本统计量的值(即样本统计值)是可 知的。但是由于抽样的随机性,样本统计值不是惟一确定的,因 此样本统计量是随机变量,其值随样本不同而不同。 抽样估计,就是要以可知但非惟一的样本统计值去估计惟一 却未知的总体参数的值。
Statistics
(三)抽样分布及其特征
1.抽样分布的概念及影响因素 一般意义上说,抽样分布就是样本统计量的概率分布,它由 样本统计量的所有可能取值和与之对应的概率所组成。如果说样 本分布是关于样本观测值的分布,那么抽样分布则是关于样本统 计值的分布,而样本统计值是由样本观测值计算而来的。 实际的抽样分布形成取决于以下五个因素: 总体分布; 样本容量; 抽样方法; 抽样组织形式; 估计量构造
统计学第四章的教材
几个直观的结论
1. 样本均值的均值(数学期望)等于总体均值(式中:M为样本 n 数目); xi 22 23 28 i 1 25 X M 16 2. 抽样误差是随样本不同而不同的随机变量。抽样误差均值 等于0; xX 0
3. 样本均值的方差等于总体方差的1/n。
3
(二)抽样估计的一般步骤 1、设计抽样方案 2、 随机抽取样本(从总体随机抽取部分单位构成样本) 3、搜集样本资料(对样本单位进行调查登记) 4、整理样本资料(审查、分组汇总、计算样本指标的
数值,即计算估计量的具体数值)
5、估计总体指标(即估计总体参数)
总体参数与样本估计量的关系——对于特定的目 的,总体是惟一的,所以参数也是惟一的;而由 于样本是随机的,所以样本估计量是随机变量。
(3)抽样方法。相同条件下,重复抽样的抽样平均误 差大比不重复抽样的抽样平均误差大。
(4)抽样组织方式。由于不同抽样组织方式有不同的 抽样误差,所以,在误差要求相同的情况下,不同抽 样组织方式所必需的抽样数目也不同。
21
不知道总体方差时如何计算
用样本方差代替计算 用过去(总体或样本)方差代替计算 用同类现象(当前 或过去、总体或样本) 方 代替计算 有若干个方差可选择时,选方差最大者 (注意:对比率,即选择最接近0.5的值所 得的方差最大)
进无偏估计量。
29
二、区间估计
(一)区间估计的原理 区间估计就是根据样本估计量以一定 可靠程度推断总体参数所在的区间范围。 特点:考虑了估计量的分布,所以它能 给出估计精度,也能说明估计结果的把握 程度(置信度)。
30
(一)总体均值的置信区间
(1)假定条件
总体服从正态分布,且总体方差(2)已知
抽样与抽样估计
第四章抽样与抽样估计一、单项选择题1.抽样估计的基本内容是()A.参数估计B.假设检验C.参数估计和假设检验两方面D.数据的收集2.估计量的标准差实质上就是()A.总体标准差B.抽样总体的标准差C.抽样总体方差D.样本统计量的标准差3.不放回抽样的误差()A.总是大于放回抽样的误差B.总是小于放回抽样的误差C.总是等于放回抽样的误差D.上情况都可能发生4.在简单随机抽样中,当其它条件保持不变,样本量增加一倍,则估计量的标准差()A.缩小为原来的81.6%B.缩小为原来的50%C.缩小为原来的25%D.扩大为原来的四倍5.概率抽样中,样本的形成是()A.随机的B.随意的C.非随机的D.确定的6.抽样误差之所以产生是由于()A.破坏了抽样的随机原则B.抽样的随机性C.破坏了抽样的系统D.调查人员的素质7.抽样误差指的是()A.系统性误差B.抽样框误差C.代表性误差D.随机性误差8.抽样误差的大小()A.可以事先计算,但不能控制B.不能事先计算,但能控制C.可以事先计算并进行控制D.能够控制,但不能消除9.随机抽出100个工人,占全体工人1%,工龄不到一年的比重为10%。
在概率为0.9545时,工龄不到一年的工人比重的估计标准差应为()A.0.6%B. 6%C.0.9%D. 3%10.根据抽样调查25个工厂(抽样比为2%)资料,采购阶段流动资金平均周转时间为52天,方差100,在概率为0.9545时,流动资金平均周转时间估计量的标准差为()A.0.8B.3.96C.4D.22611.假定10亿人口大国和100万人口小国的居民年龄的变异程度相同,现在各自用重复抽样方法抽取本国的1%人口计算平均年龄,则平均年龄的抽样标准差()A.两者相等B.前者比后者大C.前者比后者小D.不能确定12.根据抽样调查的资料,某城市人均日摄入热量2500千卡,抽样标准差150千卡,则在多大的置信度下可以断定该市人均摄入热量在2350千卡至2650千卡之间()A.0.9545B.0.6827C.1D.0.9013.在抽样调查某企业工人生产定额完成情况时,从工人按姓氏笔划多少的顺序名单中进行每五人抽样。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(一)样本统计量的极限分布 1、如果总体服从正态分布,且均值和方差均为已知,即
Y ~ N (, 2 )
则可以证明不论样本量大小如何,样本均值都围绕总体 均值而服从正态分布,并且其抽样分布的方差等于总体方差 的n分之一,即 y ~ N (, 2 / n)
2、对于非正态总体,若均值μ 和σ 2有限,则根据中心极限 定理,当样本量n充分大时,样本均值仍然围绕着总体均值 而近似地服从正态分布,即
3、缺点: (1)若群内个单元有趋同性,效率将会降低; (2)通常无法预先知道总样本量,因为不知道群内有 多少单元; (3)方差估计比简单随机抽样更为复杂。
(四)分层抽样
1、定义:在抽样之前将总体分为同质的、互不重叠 的若干子总体,也称为层。然后在每一个层独立地随机 抽取样本。 分层抽样示意图:
2、优点:
抽取样本
总体 样本
推断总体
抽样调查中的总体是有限的。在抽样以前,必须根
据实际情况把总体划分成若干个互不重叠并且能组合成 总体的部分,每个部分称为一个抽样单元,不论总体是 否有限,总体中的抽样单元数一定是有限的,而且是已 知的,因此说抽样调查的总体总是有限的。 抽样调查中影响样本代表性的因素有以下几个方面: (1)总体标志值分布的离散程度。 (2)抽样单元数的多少(或称样本量的大小)。 (3)抽样方法。
通常将反映总体数量特征的综合指标称为总体参
数。常见的总体参数主要有:总体总和;总体均值;总
体比率;总体比例。 一般将反映样本数量特征的综合指标称之为统计
量。统计量是n元样本的一个实值函数,是一个随机变
量,统计量的一个具体取值即为统计值。主要的样本统 计量有:样本总和;样本均值;样本比率;样本比例。
第五章
抽样与抽样估计
重点:不同抽样组织形式的抽样误差计算;总体
均值及比例的区间估计;必要抽样数目的计算方
法。抽样估计的基本理论;抽样误差的含义与计 算方法;区间估计问题。 难点:抽样估计的基本理论;抽样误差的含义与 计算方法;区间估计问题。 所需课时:7课时
本章主要内容
第一节
第二节 第三节 第四节
(4)估计值与抽样方差的计算较为复杂。
(六)多相抽样 1、定义:在同一个抽样框内,先抽一个大样本, 收集基本的信息,然后在这个大样本中再抽一个子样本, 收集调查的详细信息。 多相抽样示意图:
第一相样本 。。。。。。。。 。。。。。。。。 。。。。。。。。 。。。。。。。。
。。。。。 。。。。。
第二相样本
r+3k
圆形系统抽样方法:当N不能被n整除时,用圆形系 统抽样法可以避免出现样本量可能不一致的情况。把总 体单元假想排列在一个圆上,取 k = N/n 最接近的整数, 作为间隔,然后在1到N之间,抽取随机起点 r,则被抽 中的单元顺序号为: r,r+k,r+2k,„„r+(n-1)k。 如:N=55,n=9,就取k=6,在1到55之间取一个随机 起点。例如r=42,则被抽中的单元是42,48,54,5,11, 17,23,29和35 。
二、必要样本量和样本可能数目
样本中包含的抽样单元个数称为样本容量,又称样本 含量或样本大小 。必要样本量是能够满足估计精度要求的最 少样本量。 样本可能数目则是在容量为N的总体中抽取容量为n的 样本时,所有可能被抽中的不同样本的个数。用A表示。当N 和n一定时,A的多少与抽样方法有关,其计算方法列表如下:
y ~ N (, 2 / n)
(二)样本统计量的精确分布
2 1、 分布
设随机变量Yi~N(0,1)(i=1,2,„,n),且相互独立,则 2 2 Y=∑Y i服从自由度为n的 分布,记作
Y ~ 2 (n)
其概率密度函数为:
n x 1 1 2 2 x e , x 0; n n f x 2 2 2 0 , x 0.
式中 n 是正整数,Γ (n/2)是Γ (伽马)函数
( y) e t t y 1dt
0
( y 0)
当 y=n/2 时的函数值。
第二节
抽样分布
一、正态分布 二、抽样分布
一、正态分布
如果总体各个体的标志值以总体平均数为中心,形成 钟型对称分布,其分布曲线向两侧扩展,逐渐向横轴逼 近,无限延伸出去,但不接触横轴,则这种分布就叫做 正态分布,或高斯分布、常态分布。服从正态分布的总 体称为正态总体。
如果一个随机变量X服从正态分布,则其分布的密 度
(五)多阶抽样 1、定义:它是由两个或更多个连续的阶段抽取样本 的方法。
多阶抽样示意图:
第一阶样本 最终样本
总体
2、优点: (1)当群具有同质性时,多阶抽样的效率高于整群抽 样;
(2)样本的分布比简单随机抽样集中,采用面访可以 节约时间和费用;
(3)不需要整个总体单元的名录框,只要群的名录框 和抽中群的单元名录框。 3、缺点: (1)效率不如简单随机抽样; (2)通常不能提前知道最终的样本量; (3)调查的组织较整群抽样复杂;
(三)整群抽样 1、定义:由若干个有联系的基本单元组成的集合称为 群,抽样时以群为抽样单元的抽样方法就称为整群抽样。
整群抽样示意图:
黄色为总体 红色为群 白点为基本单元
2、整群抽样的优点:
(1)能大大减低收集数据的费用;
(2)当总体单元自然形成的群时,容易取得抽样框, 抽样也更容易;
(3)当群内单元差异大,而不同群之间的差异小时, 可以提高效率。
2.各种非概率抽样方法 随意抽样。样本单元的抽选以随意的方式进行。如街道 拦截访问。 志愿者抽样。被调查者都是自愿参与调查。如网上问卷, 自愿回答。 判断抽样。由专家有目的地挑选“有代表性”的样本进 行调查。如典型调查。 配额抽样。从总体的各个子总体中选取特定数量的样本 单元组成样本。如市场调查中,规定男女消费者的样本 各多少。 滚雪球抽样。适合于总体中某种较为稀少的特殊子总 体而又缺少完整的抽样框。抽样时通过已知的少数个体 获得信息逐渐扩大。
(二)系统抽样
1、定义:又称等距抽样,对研究的总体按一定 的顺序排列,每隔一定的间隔抽取一个单元的抽样方 法。 2、抽选方法:设总体单元数为N,要抽n个单元 为样本,先计算抽样间隔k=N/n,在1到k之间抽取一 个随机起点r,则被抽中单元的顺序位置是:r,r+k, r+2k,„。
起点r
r+k
r+2k
(二)概率抽样
概率抽样是从总体中随机抽选样本单元,被抽中的单 元既不取决于调查人员的愿望,也不取决于被被调查者的 态度。其次每一个单元都有一定的概率被抽中。 优点: 可以对总体进行推断,并能计算估计值的抽样误差。 缺点: 相对于非概率抽样,设计比较复杂,而且费用也比较高。 常见的概率抽样方法主要有: 简单随机抽样、系统抽样、与大小(或规模)成比例的 概率(PPS)抽样、整群抽样、分层抽样(STR)、多阶抽样、 以及多相抽样等。
四、抽样效率与设计效果
在样本容量相同的情况下,抽样方差越小表明抽样 效率越高。设计效果是设计方案的方差与简单随机抽 样的方差之比。设计效果通常用英文字母Deff表示:
D deff 2 srs
2
五、抽样的类型
非概率抽样:采用非随机的方法从总体 中抽选单元 抽 样 调 查 概率抽样:基于随机的原则从总体中抽 取单元
(1)由于性质相同的单元分在同一层,层内差异缩小,可 以提高抽样效率;
(2)可以得到各层子总体的估计;
(3)操作与管理方便; (4)能避免得到一个“差”的样本。 3、缺点: (1)对抽样框的要求比较高,必须有分层的辅助信息; (2)收集或编制抽样框的费用比较高; (3)若调查变量与分层的变量不相关,效率可能降低; (4)估计值的计算比简单随机抽样复杂。
3、系统抽样的优点 (1)没有抽样框时可代替简单随机抽样方法简单; (2)不需要辅助的抽样框信息; (3)样本的分布比较好;估计值容易计算。 4、系统抽样的缺点 (1)若抽样间隔与总体的某种周期性变化一致,会得 一个差的样本; (2)不使用辅助信息使抽样效率不高; (3)使用概念框时,不能预先知道样本量; (4)没有一个无偏的方差估计量; (5)当N不能被n整除时会得到样本量不同的样本。
(一)非概率抽样
1.非概率抽样及其优缺点 非概率抽样是用非随机的方法抽选样本。 优点: 快速简便; 费用相对比较低; 不需要任何抽样框; 对探索性研究和调查设计的开发很有用。 缺点: 不能对总体进行推断; 由于不知总体单元的入样概率,故不能计算估 计 值的抽样误差。
函数(分布曲线方程)为:
f ( x) 1
2
e
1 x 2 ( ) 2
当μ =0,σ 2=1时,称该分布为标准正态分布。标准正 态分布的密度函数为
1 2
1 2
任何正态分布,它的样本落在任意区间(a,b)内的概 率等于直线x=a,x=b,横坐标和曲线f(x)所夹的面积(可 由正态分布概率积分表查得)。经计算,正态总体的样本 落在:
六、几种主要的概率抽样方法
(一)简单随机抽样 1、定义:简单随机抽样是从总体的N个抽样单元 中,每次抽取一个单元时,使每一个单元都有相等的 概率被抽中,连续抽n次,以抽中的n个单元组成简单 随机样本。 2、优点: (1)比较容易理解和掌握;(2)抽 样框不需要其他辅助信息;(3)理论上比较成熟, 有现成的方差估计公式。 3、缺点: (1)没有利用辅助信息;(2)样本 分散,面访费用较高;(3)有可能抽到较差的样本; (4)抽选大样本比较费时。
。。。。
2、优点: 能显著提高估计值精度(与简单随机抽样相比);能 用来获得抽样框中所没有的辅助信息(特别是分层信息); 适用于某些调查指标的数据收集费用特别高,或 会给被调查者带来较重的回答负担的情况。 3、缺点: