(应用统计学经济与管理中的数据分析)第六章抽样调查基础
统计学第六章抽样调查

Part
05
系统抽样技术
系统抽样原理及步骤
• 系统抽样原理:系统抽样是一种等距抽样方法,它首先确定一个抽样间隔,然后在总体中按照这个间隔进行抽 样。这种方法适用于总体单位排列有序且周期性变化的情况。
系统抽样原理及步骤
01
系统抽样步骤
02
确定总体范围和抽样框;
03
计算抽样间隔,确定样本量;
系统抽样原理及步骤
01
03 02
分层标准选择与确定方法
• 以调查对象的某些自然特征或社会特征作 为分层标准。
分层标准选择与确定方法
专家判断法
依靠专家经验判断选择合 适的分层标准。
数据分析法
通过对历史数据或相关数据的 分析,找出影响调查指标的主 要因素,作为分层标准。
试验法
通过试验确定不同分层标准 对调查结果的影响程度,选 择最优的分层标准。
缺点
由于样本可能被重复抽取,导致样本的代表性降 低。
缺点
操作相对复杂,需要记录已经抽取过的样本。
简单随机抽样优缺点分析
操作简单
简单随机抽样的操作过程相对简单,易于理解和实施。
等概率原则
保证了每个单位被抽中的机会相等,避免 具有代表性:当样本量足够大时,简单随机抽样可以获得具有代表性的样本。
整群抽样优缺点比较
• 适用于某些特定情况:对于某些总体分布不均匀或难以划分的情况,整群抽样 可能更为适用。
整群抽样优缺点比较
抽样误差较大
01
由于是以群为单位进行抽样,可能导致抽样误差较大。
样本代表性不足
02
如果群的划分不合理或随机性不足,可能导致样本代表性不足。
对群内个体差异考虑不足
03
第6章抽样设计

第四节 抽样误差与样本量
• 一、调查误差的概念与种类 • 调查误差是指调查的结果和客观实际情况的出入和差数。
一般有两种误差存在, 即非抽样误差和抽样误差。 • 非抽样误差是基于抽样之外的许多其它原因而产生的误差。
• 抽样误差是指一个样本的测定值与对该变量真值之间的差 异,抽样误差无特定偏向,其误差大小主要受以下三个因 素影响:
• 单位顺序的排列方式有两种: 一种是排列顺 序与调查项目无关。另一种是按与调查项 目有关标志排队。
• 三、分层抽样
• 分层抽样又叫类型抽样, 它是先将总体 所有单位按某一重要标志进行分类(层), 然后再各类(层)中采用简单随机抽样或 等距抽样方式抽取样本单位的一种抽样方 式。
• 分层抽样比简单随机抽样和机械抽样更 为精确, 能够通过对较少的抽样单位的调查, 得到比较准确的推断结果, 特别是当总体较 大、内部结果复杂时, 分层抽样常能取得令 人满意的效果。同时, 分层抽样在对总体推 断的同时, 还能获得对每层的推断。
• (二)特点
• 与全面调查相比,抽样调查具有以下三个 显著特点:
• 1、经济
• 与全面调查相比,抽样调查的样本量大大 减少,从而可以显著地节约人力、物力和 财力。
• 2、高效
• 由于抽样调查只对总体中少量单位进行调 查,故能十分迅速地得到调查讨论。
• 3.准确
• 抽样调查是调查部分总体单位,数目较少,
• 第一,被研究总体各单位标志值的变异程度。 • 第二,抽样的样本量。 • 第三,抽样调查的组织方式。
• 二、样本量 • 在开始组织抽样调查之前,确定抽多少样本单位是个很重
要的问题。 • (一)影响样本量的因素 • 抽样调查的样本量取决于以下几个因素: • 1、被调查对象标志的差异程度 • 2、允许误差数值的大小 • 3、调查结果的可靠程度 • 4、抽样的方法 • 5.抽样的组织形式
统计学第六章 抽样法

第六章 抽样法
序号
1 2 3 4
5 6 7 8
9 10 11 12
13 14 15 16 合计
样本变量x
40、40 40、50 40、70 40、80
50、40 50、50 50、70 50、80
70、40 70、50 70、70 70、80
80、40 80、50 80、70 80、80
-
x
x E(x)
总体
研究如何利用 样本数据来 推断总体特 征。
内容包括:参 数估计和假 设检验。
目的:对总体
特征作出推
样 本
断。
这是推断统计学研 究的问题
5
第六章 抽样法
描述统计与推断统计的关系
反映客观 现象的数
据
概率论
(包括分布理论、大 数定律和中心极限定
理等)
样本数
描述统计
推断统计
据
总体数 据
(统计数据的搜集 、整理、显示和分
13
第六章 抽样法
第二节 有关抽样的基本概念(2)
(二)抽样总体
也称子样,样本或样本总体,它是从全 及总体中随机抽取出来的,代表全及总体的 那部分单位的集合体。抽样总体的单位数称 为样本容量,用n表示,对于N来说,n是很 小的。
总体
样 本
14
第六章 抽样法
第二节 有关抽样的基本概念(3)
• 二 全及指标和抽样指标p.249 (一) 全及指标
研究总体中 的品质标志
总体成数 P N1
N
总体成数标准差 P
P1 P
17
第六章 抽样法
第二节 有关抽样的基本概念(5)
(二)抽样指标
抽样指标是由样本总体各单位标志值 或标志特征计算的综合指标,也称统计量。 与全及指标相对应有:样本平均数,样本 标准差;样本成数,样本成数的标准差。
经济应用统计学-第六章抽样推断

非参数检验优缺点总结
• 易于理解和实现:非参数检验方法通常基于直观和易于理解的思想,计算和实现相对简单。
非参数检验优缺点总结
检验效能较低
与参数检验方法相比,非参数检 验方法的检验效能通常较低,即 当原假设为真时,非参数检验方 法更容易犯第二类错误(接受原 假设)。
对数据信息的利用不 充分
非参数检验方法通常只利用数据 的部分信息(如排序信息),而 忽略了数据的其他有用信息(如 数值大小),因此可能无法充分 利用数据信息。
两配对样本非参数检验
包括Wilcoxon 符号秩次检验、McNemar 检验 等方法,用于比较同一总体内两个配对样本的差 异是否显著。
两独立样本非参数检验
包括Mann-Whitney U 检验、Kruskal-Wallis H 检验等方法,用于比较两个独立样本所来自的 总体的分布位置或分布形状是否存在差异。
考虑样本量大小
在选择置信水平时,应充分考虑样本量的大小。当样本量较小时,应选择较低的置信水平以避免过大的估计误差;当 样本量较大时,可以选择较高的置信水平以获得更精确的估计结果。
参考相关文献或行业标准
在选择置信水平时,可以参考相关领域的文献或行业标准,了解通常采用的置信水平及其依据。这有助 于确保研究结果的可比性和可靠性。
04
假设检验原理与步骤
假设检验基本概念阐述
原假设与备择假设
原假设通常是研究者想要推翻的 假设,而备择假设则是研究者希 望证实的假设。
检验统计量与拒绝域
检验统计量是根据样本数据计算出 的用于检验原假设的统计量,而拒 绝域则是根据显著性水平和检验统 计量的分布确定的,当检验统计量 落入拒绝域时,我们拒绝原假设。
单侧检验
当研究者对备择假设的方向有明确预期时,即备择假设只可能大于或小于原假设时,应选择单侧检验 。例如,在比较两种药物疗效的研究中,如果研究者预期新药疗效优于旧药,则应选择单侧检验。
统计学原理 李洁明 第六章 抽样调查

不考虑顺序的不重复抽样
N(N − 1)⋯(N − n + 1) N! C = = n ! n (N − n)! !
n N
考虑顺序的重复抽样
n BN = N n
不考虑顺序的重复抽样
n n DN = CN +n−1
抽样调查的理论依据
大数定律:证明了抽样平均数(成数) 大数定律:证明了抽样平均数(成数)趋近于总体平均 成数)的趋势。 数(成数)的趋势。 1)独立同分布大数定律: 独立同分布大数定律: 2)贝努力大数定律: 贝努力大数定律: 中心极限定律: 中心极限定律:证明了多个随机变量和的分布趋近于正 态分布。抽样平均数就是一种随机变量。 态分布。抽样平均数就是一种随机变量。 1)独立同分布中心极限定律: 独立同分布中心极限定律: 拉普拉斯中心极限定律: 2)德莫佛—拉普拉斯中心极限定律: 德莫佛 拉普拉斯中心极限定律
特 点
只抽取部分单位; 只抽取部分单位; 用部分推断总体; 用部分推断总体; 抽样遵循随机原则; 抽样遵循随机原则; 会产生抽样误差,但误差可以计算和控制。 会产生抽样误差,但误差可以计算和控制。
统计误差
统计数字与实际数量之间的差别。 统计数字与实际数量之间的差别。 登记误差: 登记误差: 调查误差或工作误差,指在登记、 调查误差或工作误差,指在登记、汇总计算过程中 产生的误差。(可以避免的) 。(可以避免的 产生的误差。(可以避免的) 代表性误差: 代表性误差: 用部分去推断总体产生的误差。(一般不可避免) 。(一般不可避免 用部分去推断总体产生的误差。(一般不可避免)
x1
1,2,4
x2
1,2,5
x3
3,4,5
x4
1,3,5
x5
应用统计学:经济与管理中的数据分析(PDF)

x1
log
x2
log
xn
1 n
n i 1
log
xi
3-7
• 例:某钢厂2004年的钢产量为100万吨,2005年的钢产 量为110万吨,2006年为132吨,2007年为165吨。试求 该钢厂2005~2007年钢产量的年平均发展速度。
xG 3 x1 x2 x3 3 110%120%125% 118.17%
一、数值平均数:算术平均数(arithmetic mean)
• 定义:一个数据集的算术平均数,称为平均数, 也称为均值(mean)。
n
x
所有x值之和 观察值个数
xi
i 1
n
• 优点:最简单、最常用的数据集中趋势代表值。 • 缺点:容易受极端数值的影响。 • 均值的解释:数据集分布“质量中心”。
3-3
3-13
• 确定四分位数: • ① 以递增顺序排列原数据(即从小到大排列) • ② 计算项次数i
i p n 100
• 计算Q1,取p=25; • 计算Q2,取p=50; • 计算Q3,取p=75。 • ③ 若i为整数,则取第i、i+1项的平均值; • 若i为非整数,则取i向上取整。
3-14
§3.2 数据分布离散程度的测度 (Measures of Data Variation)
• 品质数据:异众比率 • 数量数据:极差 • 数量数据:四分位差 • 数量数据:方差 • 数量数据:标准差 • 数量数据:变异系数
一、品质数据:异众变化率(Variation Ratio)
• 定义:非众数组的频数占总频数的比例。 众数组的频数
合计
组中值(x i) 频数(f i)
775
第6章抽样估计

二、抽样误差的测度
(一)抽样实际误差 (二)抽样平均误差
新编统计学 Statistics
抽样平均误差是抽样平均数或抽样成数 的标准差,反映了抽样指标与总体指标的平 均误差程度。
抽样平均误差的计算公式
抽样平均数 的平均误差
x
x
2
X
M
新编统计学 Statistics
抽样成数 平均误差
p
新编统计学 Statistics
公式表示: Z
x Z/2x
p Z/2p
第三节 抽样估计的方法
一、点估计
新编统计学 Statistics
总体参数点估计的特点 总体参数优良估计的标准
无偏性 一致性 有效性
二、区间估计
新编统计学 Statistics
总体参数区间估计的特点:
新编统计学
3.计算抽样极限误差:
Statistics
P ZP 1 .9 6 0 .01 0 9 .08 388
4.计算总体P的置信区间:
上限: pp 25 .63 %
下限: pp 17 .87 %
即:以95%的把握程度估计该地区农户中拥有 彩电的农户在 17.87%至25.63%之间。
问题一
已知:N=5000
N=400
新编统计学 Statistics
n1 87(1)0.95
1.计算样本成数:
pn1 8721 .75 % n 400
2.计算抽样平均误差:
p
p1p 1n
n N
0.217 0 5 .782 15 40 00.0198 400 500 0
已知: n=100 x=58 σ=10
则: 101(公斤 )
第六章 抽样调查(梁应)

二、抽样误差的影响因素:
1. 全及总体标志变异程度。——正比关系 2. 抽样单位数目的多少。——反比关系 3. 不同的抽样方式。 4. 不同的抽样组织形式。
抽样误差的作用: 1. 在于说明样本指标的代表性大小。
误差大,则样本指标代表性低; 误差小,则样本指标代表性高; 误差等于0,则样本指标和总体指标一样大。
2 N n
•
n N1
但实际中, 往往N很大,n很小,故改用下列公式:
2
n
(1 )
x
n
N
上例中,若为不重复抽样,则:
400 (1
100 ) 1.99(小时)
x 100 10000
(二) 成数的抽样平均误差
已证明得:成数的方差为p(1-p) 在重复抽样情况下:
p(1 p)
p
n
在不重复抽样情况下:
4.抽样方法适用于对大量现象的观察,即组成事物总
体的单位数量较多的情况;
5.利用抽样推断的方法,可以对于某种总体的假设进
行检验,判断这种假设的真伪,以决定取舍。
第二节 抽样调查的基本概念及理论依据
一、 全及总体和抽样总体(总体和样本)
全及总体:所要调查观察的全部事物。
总体单位数用N表示。
抽样总体:抽取出来调查观察的单位。
修正系数
R R
1r ,当R的数目较大时,可用(1
r R
)来代替。
整群抽样的抽样平均误差计算公式为:
x
2x (1 r ) rR
p
p2 (1 r ) rR
例
假如某一机器大量生产某一种零件,现每隔一小时抽取5分钟 产品进行检验,用以检查产品的合格率,检查结果如下:
合格率
统计学第六章 抽样估计

(2)通过试访问进行估计 通过试访问的方法,先获得少数一部分样 本的误差数据,然后根据这些数据去计算最终 所需要的样本量,然后再将所需要的样本量完 成。
(3)序贯抽样方法 所谓序贯抽样,是指依次抽取样本,每抽 取一次,进行一次误差计算,直至达到所需要 的精度。
一般做序贯抽样时,会有一张图,如黑板 上图所示。
案例:
假定欲估计喜欢某产品的居民比例在95% 置信度水平下,要求绝对误差小于5%,求样 本量。
本题解法:
但是,如果是相对误差,已知P
五、其他抽样组织形式
1、分层抽样(Stratified Sampling) 2、整群抽样(Cluster Sampling) 3、多阶段抽样(Multi-stage Sampling) 4、设计效应(deff)
序贯抽样的方式操作比较简单,但不适用 于经济调查,一般运用于质量检验中。
(4)成数估计时,使用最大值判断 绝对误差与相对误差 有时候绝对误差很小,但相对误差会很大。
对于绝对误差: 当成数是P时,其标准差为 在成数估计的条件下,方差的最大值为 0.25,因此可以使用最大的方差作为推断最大 样本量的基础。
1、样本平均数的分布
从一个总体中抽出一部分单位,构成一个 样本,可计算出一个样本平均数。
无数次抽选的结果,将会产生无数个样本 平均数,这些样本平均数具有自己的分布形式。
根据大数定理,当样本量超过30时,样本 平均数的分布为正态分布。
2、分布特征
在有放回条件下,简单随机抽样的误差计 算公式如下:
3、多阶段抽样(Multi-stage Sampling)
多阶段抽样的误差计算取决于各阶段的 抽样方式,以最简单的二阶段抽样为例,如 果每一阶段的抽选都是简单随机抽样,一阶 单位的规模相同,则有下列公式:
管理统计学课件_第06章

Beijing institute of technology
北京理工大学
两个样本均值差的抽样分布
例 某手机厂商对甲、乙两省份居民进行抽样调查后发现, 甲省消费者中有约18%的人使用过该品牌手机,而乙省 消费者中使用过该品牌手机的人数比例为14%。假设以 上调查结果是真实的,现在从甲省抽取1500人,乙省抽 取2000人组成两个独立随机样本,请分析甲省用过该品 牌手机的人数比例低于乙省用过该品牌手机人数比例的 可能性有多大?
Beijing institute of technology
北京理工大学
Management statistics
管理统计学
两个样本方差比的抽样分布
1 两个总体都为正态分布,即X1~N(μ1,σ12)的一个样本,Y1,
Y2,… ,Yn2是来自正态总体X2~N(μ2,σ22 )
2 从两个总体中分别抽取容量为n1和n2的独立样本 3
X ~ N ( ,
2
n
)
Beijing institute of technology
北京理工大学
Management statistics
管理统计学
示例
某高校在研究生入学体检后对所有结果进行统计分析,得 出其中某一项指标的均值是7,标准差2.2。从这个总体中 随机选取一个容量为31的样本。 (1)计算样本均值大于7.5的概率, (2)计算样本均值小于7.2的概率, (3)计算样本均值在7.2和7.5之间的概率。
2
2
~ ( n 1)
2
的抽样分布为自由度为 n 1 的卡方分布。即:
2
n
( n 1) S
2
2
经济统计学习题解析抽样调查与数据分析方法

经济统计学习题解析抽样调查与数据分析方法在经济统计学中,抽样调查和数据分析方法是非常重要的工具。
抽样调查的目的是通过从总体中选取一部分样本来获取总体的信息,而数据分析方法则是对所获得的数据进行处理和分析,以获得有关总体的结论。
下面将介绍抽样调查和数据分析方法的基本概念和应用。
一、抽样调查1. 定义和目的抽样调查是指从总体中选取部分样本进行调查和观察的方法,其目的是通过研究样本来推断总体的特征和规律。
抽样调查的好处在于可以节省时间和成本,且可以减小调查中的误差。
2. 抽样方法在抽样调查中,常用的抽样方法包括简单随机抽样、分层抽样、整群抽样和系统抽样等。
简单随机抽样是从总体中随机选择样本,每个个体被选中的概率相等;分层抽样是将总体分为若干层,然后从各层中抽取样本;整群抽样是将总体分为若干个群体,然后从部分群体中抽取样本;系统抽样是按照一定的规则从总体中选取样本。
3. 抽样误差抽样调查中存在抽样误差,即样本与总体之间的差异。
减小抽样误差的方法包括增加样本容量、提高抽样的精确度和改进抽样的方法等。
二、数据分析方法1. 数据收集和整理数据分析的第一步是收集和整理数据。
收集数据的方法包括问卷调查、观察记录、实验获取等,而整理数据则是将收集到的数据进行编码、归类和存储。
2. 描述性统计分析描述性统计分析是对数据进行整体和细节的描述和总结,常用的统计指标包括平均数、中位数、众数、标准差和方差等。
通过描述性统计分析,可以了解数据的分布情况和集中趋势。
3. 推断性统计分析推断性统计分析是在样本数据基础上对总体进行推断和判断。
常用的推断性统计分析方法包括假设检验、置信区间估计和回归分析等。
通过推断性统计分析,可以得出对总体的结论并进行统计推断。
4. 数据可视化数据可视化是将数据通过图表、图像和图形的方式展示出来,以便更好地理解数据。
常见的数据可视化工具包括条形图、饼图、散点图和折线图等。
三、案例分析以下是一个案例分析的例子,以说明抽样调查和数据分析方法的应用。
统计基础 第六章

体参数可能落入的一个数值范围作出估计。具体区
间范围为:
• 估计量±概率度×抽样平均误差
(一)平均数的区间估计方法
• 平均数的区间范围为:x x • 即 x x X x x • 或 x tU x X x tU x
• 若估计全及总体指标所在范围,可在上式两 边同乘总体单位数N。
• 即: N (x x ) N ( X x x ) • 或 N (x tU x ) NX N (x tU x )
N ( p tU P ) NX N ( p tU P )
上述公式表明,在一定抽样平均误差的条件下, 概率度越大,则抽样极限误差越大,总体指标落在 误差范围内的概率越大,从而抽样估计的可靠程度 也就越高;反之,概率度越小,则抽样极限误差越 小,总体指标落在误差范围内的概率也越小,从而 抽样估计的可靠程度也就越低。
(一)重复抽样的抽样平均误差
1.抽样平均数的抽样平均误差
x
2
nn
表示总体的标准差,n为样本容量。
2.抽样成数的抽样平均误差
p
P(1 P) n
P(1-P)表示总体是非标志的方差,n为样本容量。
(二)不重复抽样的抽样平均误差
1.抽样平均数的抽样平均误差
2 ( N n) 2 (1 n )
第六章 抽样调查
本章相关内容
第一节 抽样调查的意义和作用 第二节 抽样误差 第三节 抽样推断 第四节 必要抽样数目的确定
目标要求
能力(技能)目标
知识目标
熟练运用抽样估计的一 般原理推断全及总体的
掌握随机抽样的涵义;
指标;
掌握抽样调查方法;
熟练运用抽样估计原理 进行区间估计;
掌握抽样平均误差的计算 方法;
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
4
一、抽样单元和抽样框
为使抽样能够实施,同时也为了具体抽样的便利,通常将总体划分成互不重叠且有穷尽的 若干部分,每个部分称为一个抽样单元(sampling unit)。
抽样单元不一定就是组成整体的最小单位。如在电视剧收视率抽样调查中,可以将每个电 视观众作为抽样单元,也可以将每个拥有电视机的家庭作为抽样单元;在人口变动量抽样 调查中可以将县、乡(街道)或居委会(村)都作为抽样单元。抽样单元可以是自然形成的, 例如各级行政单位、机关、学校、工厂以至个人;也可以是人为划分的,例如在田地调查 中,将整块田地划分为边长一米的方形小块作为抽样单元。
抽样单元有大小之分。一个大的抽样单元(例如省)可以分成若干个小的抽样单元(例如县) ,前者称为初级单元或一级单元(primary sampling unit),后者称为次级单元或二级单元 (secondary sampling unit)。这些概念对于理解较复杂的抽样方法,例如多阶抽样与整 群抽样,非常重要。
12
第三节 分层随机抽样
13
一、层数确定与样本量分配
(一)确定层数的基本思想 (二)每层样本量的分配
1. 比例分配 2. 最优分配 3. 奈曼最优分配(Neyman optimum allocation)
14
二、估计量及其性质
(一)估计量
1. 简单估计 2. 比估计
(1) 分别比估计: (2) 联合比估计:
样本中包含的抽样单元数 称为样本量(size of the sample),样本量与总体单元总数 之比 称为抽样比(sampling fraction)。须强调,在复杂抽样中 是指该抽样中的最基本的单元 的数量。
在总体中按抽样单元进行概率抽样时,需要一份有关抽样单元的名册、清单或地图。记录 或表明总体所含全部(初级)抽样单元或一个较大的抽样单元所包含的全部次一级抽样单元 的这种名册、清单或地图称为抽样框(sampling frame)。在抽样框中,每个抽样单元都被 编上号。抽样框是设计并实施一个抽样方案所必须具备的基础资料。一旦某个单元被选中 ,也需要根据抽样框找到这个单元,从而能够实施调查。
抽样可以逐个进行,即每次只从总体中抽取一个个体(或单元),也可以整个样本 一次同时抽取。在逐个抽取时,每次被抽到的个体可以不放回也可以重新放回 整体中去,前者称为不放回抽样(sampling without replacement),后者称为 放回抽样(sampling with replacement)。如果整个样本一次同时抽取也是一种 不放回抽样。另外,当抽取总体中的每个个体时,个体被抽中的概率可以是相 等的,也可以是不等的。前者称为等概率抽样(sampling with equal probabilities),后者称为不等概率抽样(sampling with unequal probabilities)。
9
一、样本容量的确定
(一)参数为总体总和或总体均值的情形 (二)参数为总体比例的情形
10
二、估计方法
(一)估计方法
1. 简单估计 2. 比估计
(二)估计量的无偏性
(1) 总体均值 (2) 总体总值 (3) 总体比例 (4) 总体比率
11
三、方差与区间估计
1. 总体特征的方差的简单估计 2. 比估计量的方差估计
Hale Waihona Puke 5二、误差误差一般理解为估计值与真实值之间的差异。误差 越小,估计量的精度越高。
抽样调查中的误差来源主要有两个,一种是非抽样 误差(non-sampling error),它是指由于调查中获 得的原始数据不准确(例如测量误差)、抽样框有缺 陷(抽样框中的抽样单元有重复或遗漏)、或在调查 中由于种种原因无法得到符合抽样设计方案的全部 样本数据(例如部分调查对象拒绝回答问题)等原因 引起的。
3
第一节 基 本 概 念
抽样调查涉及的概念比较多。首先对抽样(sampling)做一个大的分类:概率抽 样(probability sampling)和非概率抽样(non-probability sampling),其中概 率抽样又可以称为随机抽样(random sampling)。概率抽样具有以下几个基本 特点:①能够确切地定义(或区分)不同的样本,即能够明确表明一个确定的样本 包含哪些个体;②对每个可能的样本,都赋予一个被抽到的概率;③通过某种 随机形式从总体中抽取一个样本,使这个样本被抽中的概率等于所赋予的概率 ;④从样本估计总体参数时需要与抽样概率相联系。概率抽样的优点在于可以 估计抽样误差,可获得估计的精度。非概率抽样主要依赖主观判断,或根据操 作方便的原则进行。非概率抽样一般不能估计其抽样误差。本章的重点是概率 抽样,对非概率抽样只讨论系统抽样。
抽样调查误差的另一来源是抽样误差(sampling error),它是由于我们用局部的样本数据对整体的 总体参数进行估计所引起的误差。
6
三、精度、信度与效度
7
图6-1描述了ABC三种抽样调查对各自的总体均值参数的估 计情况,图中的空心圆圈表示均值参数真值的位置,而散点 表示了抽样样本。从图中可以直观地看到,A偏倚小(可以理 解成样本“重心”和均值参数真值位置之间的系统性误差) 而样本的方差(可以理解为调查中的随机误差)大,称这样的 抽样调查效度(validity)高而信度(reliability)低;B的系统性 误差大而随机误差小,称这样的抽样调查效度差而信度高; 相比之下,C的系统误差与随机误差都小,即均方误差小, 精度高。
8
第二节 简单随机抽样
简单随机抽样(simple random sampling)有两种等价的定 义:第一,从总体 个单元中,一次抽取 个单元,使全部可 能的 种不同的结果每种被抽到的概率都等于 ,通过这种抽 样得到的样本叫做简单随机样本,样本容量为 ;第二,从 总体 个单元中,逐个不放回地抽取单元,每次抽取到尚未 入样中的任何一个单元的概率都相等,直到抽足 个单元为 止,这样所得的 个单元也组成一个简单随机样本。图6-2形 象地表示了简单随机抽样。
(二)估计量的性质
1. 简单估计 2. 比估计