数理统计第一章
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第1章抽样调查
§1.1 引言
数理统计学是数学的一个重要分支.它研究怎样有效地收集、整理和分析带有随机性的数据,以对所考查的问题作出推断或预测,直至为采取一定的决策和行动提供依据和建议.若在以上句子中去掉“带有随机性的”这几个字,那就是统计学的研究范围.统计学就是数据科学(《数理统计学讲义》,高教出版)。
数理统计学是这样一门学科:它使用概率论和数学的方法,研究怎样收集(通过试验和观察)带有随机误差的数据,并在设定的模型下(称为统计模型)之下,对数据进行分析(称为统计分析),以对所研究的问题作出推断(称为统计推断)(《概率论与数理统计》,中科大出版,陈希孺).
由以上关于数理统计学的概念的阐述可以看出数理统计面对的对象就是数据,而数据的“质量”对最终的得出的结论的可靠性有着重大影响.对于普查的数据,数据的有效性、准确性很重要(这类数据的研究不属于数理统计学的范畴).对于抽查数据,数据的概率性质很重要.本章简要地介绍抽样调查的一些概念和技术以及相关理论.在数理统计学中还有另一种获取数据的方法--试验设计(将在后面介绍).
抽样调查是从总体中抽取一小部分个体以获取总体的有关信息.根据研究对象即总体的不同特点需要设计不同的抽样方法以获取高“质量”的数据.抽样技术在很多领域都有应用.
抽样技术本质上具有概率性—总体中每个个体都以特定的概率出现在样本中(简称为入样),并且样本的实际构成是随机的. 随机抽样至少有以下的益处:
∙ 抽取个体的随机性排除了调查者的偏见,即使是无意识的。
∙ 与完全枚举
(即普查)相比,小样本减少很多成本,调查更省时。 ∙随机抽样的结论实际上可能比完全枚举更精确。小样本的数据质量更容易监控,完全枚举需要大量的调查人员去实施,由此可能带来更多业务不精的职员。
∙ 随机抽样技术使得抽样误差估计变得可能。
∙ 在抽样设计时,通常可以确定出满足预设误差水平的样本容量。
以上的讨论中涉及“总体”和“个体”和“样本”三个名词.总体指研究对象的全体.而组成总体的各个成员称为个体.依总体中个体数有限和无限,总体分为有限总体和无限总体.本章讨论的总体都是有限总体.
在具体的统计问题中,我们总是关注总体中成员的某项(或多项)数量指标.总体中的N 个成员的数量指标值记为N x ,,x ,x 21.如果将总
体中的成员依据某一属性分成r 类,我们可以用数值r ,, 1(或11,0-r ,, )分别代表各个类别(称为分类数据或属性数据),最常见的是分为二类(比如正品与次品,男性与女性),我们称之为二分变量.
例1.1 作为本章的第一个例子,我们利用Herkson(1976)的研究来解释一些思想.总体由393=N 个短期居留医院组成.我们关注于医
院一个月内出院人数.令i x 表示1968年1月份第i 个医院的出院人数,那么总体为39321x ,,x ,x .总体均值为6.814,总体标准差为7.589.总体的数值都是知道的,我们可通过频数直方图显示总体数值的分布,见P139图7.1.
这里举这个例子是为了教学目的,后面还会用这个例子来说明一些方法和思想.实际中,我们往往是不知道总体的数值,而是希望通过抽样而获得的数据去了解总体的信息,比如估计总体均值等.
在统计问题中,我们特别关注的是总体的一些数值特征,或参数. 总体均值(population mean )
∑==N
i i
x N 11μ 在分类数据中,各类别的比例.
总体总数(population total)
∑==N
i i x 1τ
总体方差(population variance)
∑==N i i 2)-x
(N 121μσ
在二分情况下,总体方差为p)p -1(.
总体标准差(population standard deviation)
2σσ=.
一般地,总体的特征数(或参数)是未知的,而我们要做的工作就是通过观察到的数据即样本来获取总体参数的信息.
样本是指按照一定的抽样方案(或试验方案)从总体中抽取的若干
个个体.由于抽取个体的目的是要调查其某项(或多项)数量指标,因此所得的样本表现为抽取的各个个体的数量指标。记它们的数量指标为n X ,,X 1.我们称n X ,,X 1为样本,抽取的个体数n 称为样本容量. 由于抽样是随机安排的,因此n X ,,X 1是n 个随机变量(或向量).它们的联合分布依赖于总体的分布及抽样方案.抽样观察完成后便得到n 个具体的观察值n x ,,x 1,称n x ,,x 1为样本值, )x ,,(x n 1是)X ,,(X n 1的一次实现.以后样本值简称为样本,因此以后说到样本可以是n 个随机变量,也可以是n 个的观察值,这就是所谓的样本的二重性.在不会引起混淆时都用n x ,,x 1表示样本.
§1.2 简单随机抽样
最初级的抽样方法是简单随机抽样:每个个体都以相同的概率入样.
简单随机抽样有放回的简单随机抽样(也称为有重复简单随机抽样)和不放回的简单随机抽样(也称为无重复简单随机抽样)两种方式.
有放回的简单随机抽样所得的样本)X ,,(X n 1的概率特性有
(1) 各个i X 具有相同的分布;
(2) n X ,,X 1相互独立.
不放回的简单随机抽样所得的样本)X ,,(X n 1的概率特性有
(1)各个i X 具有相同的分布;
(2)n X ,,X 1不相互独立. 任意指定的n 个个体组成样本的概率均为n N
C 1。
两种方式下的样本的第一条概率特性相同,这是由“每个个体都以相同的概率入样”的缘故.一般而言,简单随机抽样都是指不放回的随机抽样.这里引入有放回的随机抽样是因为(1)放回的随机抽样的样本的概率性质更为简单;(2)给不放回的随机抽样提供一个比较对象.
例如,若总体中N 个个体的数量指标值N x ,,x ,x 21各不相同,那么i X 的概率质量函数为 N ,,,j ,N
)x X P(j i 211=== 若总体中N 个个体的数量指标值有相同的,各个体的不同取值记为m 1,ςς ,,且取值j ς的个体数为j n )m ,,,j ( 21=,那么i X 的概率质量函
数为 m ,,,j ,N n )X P(j
j i 21===ς
若总体为二分变量,那么i X ~)p ,(B 1,其中p 总体中取值为1的个体的比例.
我们往往关心总体均值、总体总数、总体方差等总体参数的估计,通常用样本均值(sample mean ) ∑==n i i X n X 1
1 作为总体均值μ的估计.作为总体总数的一个估计,我们考虑
X N T =
由于样本n X ,,X 1是随机的,所以样本均值X 也是随机的,它的概率分布称为抽样分布.X 的抽样分布决定了X 估计μ的精度,粗略地讲,