数理统计第一章(2)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第1章 抽样调查
§1.1 引言
绪论中关于数理统计学的概念的阐述可以看出数理统计面对的就是数据,而数据的“质量”对最终的得出的结论的可靠性有着重大影响.对于普查的数据,数据的有效性、准确性很重要(这类数据的研究不属于数理统计学的范畴).对于抽查数据,数据的概率性质很重要.本章简要地介绍抽样调查的一些概念和技术以及相关理论.在数理统计学中还有另一种获取数据的方法--试验设计(将在后面介绍).
抽样调查是从总体中抽取一小部分个体以获取总体的有关信息.根据研究对象即总体的不同特点需要设计不同的抽样方法以获取高“质量”的数据.抽样技术在很多领域都有应用. 随机抽样至少有以下的益处:
• 抽取个体的随机性排除了调查者的偏见,即使是无意识的。 • 与完全枚举(即普查)相比,减少很多成本,调查更省时。
•随机抽样的结论实际上可能比完全枚举更精确。小样本的数据质量更容易监控,完全枚
举需要大量的调查人员去实施,由此可能带来更多业务不精的职员。
• 随机抽样技术使得抽样误差估计变得可能。
• 在抽样设计时,通常可以确定出满足预设误差水平的样本容量。
抽样调查大多是指大规模抽样调查,总体往往是具体的人或物且其中的个体数目很大,但我们总是假定个体数目是有限的、已知的,常用N 表示总体中的个体数目。在具体的抽样调查问题中,我们总是调查个体的某项(或多项)指标.这种指标可以是数值的,也可以是非数值的.对于非数值的指标我们总可以用数字表示。最常见的非数值的指标是分类数据(或属性数据),比如将总体中的成员依据某一属性分成r 类,我们可以用数值r ,, 1(或11,0-r ,, )分别代表各个类别,最常见的是分为二类(比如正品与次品,男性与女性),我们称之为二分变量.
总体中的N 个个体的数量指标值记为N x ,,x ,x 21.这里N x ,,x ,x 21中可以有相同的。 例1.1 作为本章的第一个例子,我们利用Herkson(1976)的研究来解释一些思想.总体由
393=N 个短期居留医院组成.我们关注于医院一个月内出院人数.令i x 表示1968年1月份
第i 个医院的出院人数,那么总体为39321x ,,x ,x .总体均值为6.814,总体标准差为7.589.总体的数值都是知道的,我们可通过频数直方图显示总体数值的分布,见P139图7.1.
这里举这个例子是为了教学目的,后面还会用这个例子来说明一些方法和思想.实际中,我们往往是不知道总体中各个个体的数值,而是希望通过抽样而获得的数据去了解总体的信息,比如估计总体均值等.
在抽样调查的统计问题中,我们关注的是总体的一些数值特征(也称为参数). (1)总体均值(population mean )
∑==
N
i i
x
N
1
1μ
在分类数据中,各类别的比例.尤其是对于二分总体,我们用0和1代表两个类别,则常关注总体中取值为1的个体所占的比例:
=
p ∑=N
i i x N
1
1
这里i x 取0或1
(2)总体总数(population total) ∑==
N
i i
x
1
τ
(3)总体方差(population variance)
∑==
N
i i
2
)-x
(N
1
21μσ,
易见21
2
2
1μ-=σ∑=N i i x N 在二分总体情况下,总体方差为p)p -1(. 总体标准差(population standard deviation)
2σσ=.
一般地,总体中的个体的数量指标值N x ,,x ,x 21是未知的,因而总体的特征数(或参数)也是未知的,而我们要做的工作就是通过调查到的结果即样本来获取总体参数的信息. §1.2 简单随机抽样
抽样技术本质上具有概率性,即总体中每个个体都以特定的概率出现在样本中(简称为入样),并且样本的实际构成是随机的. 不同的抽样方法决定了样本的不同概率性质(也与总体的概率结构有关),或反过来说,不同的抽样方法就是由样本的不同概率性质来定义的. 最初级的抽样方法是简单随机抽样:每个个体都以相同的概率入样.
简单随机抽样可分为有放回的简单随机抽样(也称为有重复的简单随机抽样)和不放回的简单随机抽样(也称为无重复的简单随机抽样)两种方式. 有放回的简单随机抽样所得的样本)X ,,(X n 1的概率性质有: (1) 各个i X 具有相同的分布; (2)
n X ,,X 1相互独立.
不放回的简单随机抽样所得的样本)X ,,(X n 1的概率性质有: (1)各个i X 具有相同的分布;
(2)n X ,,X 1不相互独立. 任意指定的n 个个体组成样本的概率均为
n N
C 1
。 两种方式下的样本的第一条概率性质相同,这是由“每个个体都以相同的概率入样”的缘故.一般而言,简单随机抽样是指不放回的简单随机抽样.这里引入有放回的随机抽样是因为(1)放回的随机抽样的样本的概率性质更为简单;(2)给不放回的随机抽样提供一个比较对象.
例如,若总体中N 个个体的数量指标值N x ,,x ,x 21各不相同,那么i X 的概率质量函数为
N ,,,j ,N
)x X P(j i 211
==
= 若总体中N 个个体的数量指标值有相同的,各个体的不同取值记为m 1,ξ⋅⋅⋅ξ,
,且取值j ξ的个体数为j n )m ,,,j ( 21=,那么i X 的概率质量函数为 m j N
n X P j j i ,,2,1,)(⋅⋅⋅==
ξ=
若总体为二分变量,那么i X ~)p ,(B 1,其中p 为总体中取值为1的个体的比例. 我们往往关注总体均值、总体总数、总体方差等总体参数的估计,对于分类总体,则一般关注各类别的比例的估计。 通常用样本均值(sample mean )
∑==n
i i X n X 1
1