(抽样检验)第四章抽样理论和参数估计

合集下载

抽样分布与参数估计

抽样分布与参数估计

抽样分布与参数估计首先,我们来了解什么是抽样分布。

在统计学中,抽样分布是指从总体中多次抽样得到的样本统计量的分布。

假设我们的总体是指所有感兴趣的个体的集合,而样本是从总体中选取的一部分个体。

抽样分布的形状和性质取决于总体的分布和样本的大小。

通过分析抽样分布,可以得到有关总体参数的有用信息。

例如,我们想要知道一些城市成年人的平均年收入。

在实际情况下,我们无法调查每个人的收入情况,因此我们需要从总体中随机抽取一部分个体作为样本,并计算他们的平均年收入。

如果我们多次从总体中抽取样本并计算平均年收入,然后绘制这些平均值的分布图,我们就可以得到平均年收入的抽样分布。

这个抽样分布将给我们提供有关总体平均年收入的估计和推断。

接下来,我们将讨论参数估计。

参数估计是指使用样本数据来估计总体参数的过程。

总体参数是用于描述总体特征的数值,如总体平均值、总体标准差等。

通过从总体中抽取样本,并计算样本统计量,我们可以利用样本统计量来估计总体参数。

常用的参数估计方法有点估计和区间估计。

点估计是指用单个数值来估计总体参数,例如用样本均值来估计总体均值。

点估计给出了一个单一的值,但不能提供关于估计的精度的信息。

因此,我们常常使用区间估计。

区间估计是指给出一个区间,这个区间内有一定的置信水平使得总体参数落在这个区间内的概率最高。

区间估计能够向我们提供关于估计的精确程度的信息。

区间估计依赖于抽样分布的性质。

中心极限定理是制定抽样分布理论的一个重要原则。

根据中心极限定理,当样本容量足够大时,样本均值的抽样分布将近似于正态分布。

这使得我们可以使用正态分布的性质来计算置信区间。

构建置信区间的一种常用方法是使用样本均值的标准误差。

标准误差是样本均值的标准差,它用来衡量样本均值和总体均值之间的误差。

根据正态分布的性质,当样本容量足够大时,样本均值与总体均值之间的误差可以用标准误差来估计。

通过计算标准误差并结合正态分布的性质,我们可以得到样本均值的置信区间。

统计推断与参数估计的基本理论与方法

统计推断与参数估计的基本理论与方法

统计推断与参数估计的基本理论与方法统计推断是统计学中的一门重要的研究领域,它主要关注如何通过样本数据对总体特征进行推断。

参数估计则是统计推断的一个重要组成部分,它通过样本数据来估计总体参数。

本文将介绍统计推断和参数估计的基本理论和方法。

一、统计推断的基本理论统计推断的基本理论包括抽样理论、似然函数和假设检验等。

1. 抽样理论抽样理论是统计推断的基础,它研究的是如何从总体中抽取样本以便对总体进行推断。

通过合理的抽样方法,可以保证样本对总体的代表性。

2. 似然函数似然函数是参数估计的基本工具,它是样本观测值关于参数的函数。

通过最大似然估计可以得到参数的最优估计值。

3. 假设检验假设检验是统计推断的重要方法,用于检验某个关于总体参数的假设。

它包括构造检验统计量和确定拒绝域两个步骤,从而进行参数推断。

二、参数估计的基本方法参数估计是统计推断中的核心内容,它通过样本数据来估计总体参数。

参数估计的基本方法包括点估计和区间估计。

1. 点估计点估计是一种直接估计总体参数的方法,它通过样本数据来估计总体参数的具体值。

最常用的点估计方法是最大似然估计和矩估计。

2. 区间估计区间估计是一种间接估计总体参数的方法,它给出了参数的估计区间。

通过给出一个置信区间,可以对总体参数进行估计,并给出估计的精度。

三、常用的统计推断方法在实际应用中,统计学家们发展了许多常用的统计推断方法,包括假设检验、方差分析、回归分析等。

1. 假设检验假设检验是统计推断中最常用的方法之一,它用于检验某个关于总体参数的假设。

例如,检验某种药物对疾病的治疗效果是否显著。

2. 方差分析方差分析是一种用于比较多个总体均值的方法,它通过分析不同组之间的方差来判断各组均值是否有显著差异。

例如,在新产品开发中,可以通过方差分析评估不同市场的销售情况。

3. 回归分析回归分析是一种用于建立变量之间关系的方法,它可以推断自变量对因变量的影响程度。

通过回归分析可以得到回归方程,从而进行预测和解释。

统计学(抽样估计)

统计学(抽样估计)
2
第四章第一节
二、抽样调查的特点
➢按随机原则抽取调查单位; ➢要抽取足够多的调查单位;
基本原则
➢可从数量上推断总体
基本目的及任务
➢要运用概率估计的方法
➢抽样调查中所产生的抽样误差可以事先计算
并加以控制。
科学性体现
3
第四章第一节
三、抽样调查的使用范围 ➢ 有些事情在测量或实验时有破坏性,不可能进行
1、用样本标准差替代总体标准差。大样本情况下,可 以直接用样本标准差S代表代表总体标准差;在小样
本的情况下,则采用样本修正标准差 S *来代替。
S* (xi x)2 n 1 S n n 1
2、用以前(近期)的总体标准差或同类地区的总体标 准差来代表所研究的标准差。若同时有多个可供参 考的数值时,应选择其中最大者。对于成数P,应选 最接近0.5的比率。
up
P(1 P)(重复) n
up
P(1 n
p)
(
N N
n 1
)或up
ux
σ 2 (N n)或 n N1
ux
σ 2 (1 n )(不重复) nN
P(1 P) (1 n )(不重复)
n
N
26
第四章第三节
注意:在上述公式中, 或 P(1 P)总体标准差,但
是实际中这两个数据却是未知的。计算抽样平均误 差时通常采用以下替代方法。
进行检验,来判断这种假设的真伪,以决定取舍
4
第四章第一节 四、抽样估计的一般步骤 1、设计抽样方案 2、抽取样本单位 3、搜集样本资料 4、整理样本资料 5、推断总体指标
5
第四章第二节 第二节 调样调查的基本概念及理论依据 一、全及总体和抽样总体(教材没有) ➢ 全及总体-简称总体(N):研究对象的全 体 (唯一确定) ✓ 变量总体 :各单位可用数量标志计量 A 有限总体:变量值有限 B 无限总体:变量值无限,分为可列或连续 ✓ 属性总体 :各单位用品质标志描述

统计学教程(含spss)四参数估计

统计学教程(含spss)四参数估计

从一批灌装产品中,随机抽取20灌,得样本方差为0.0025。试以95%的置 信度,估计总体方差的存在区间。
n 1 s2 2 n 1 s2
2 2
2 1 2
n 1 s2
2 0.025
2
n 1 s2
2 0.975
19 0.0025 2 19 0.0025
32.8523
8.90655
自正态总体抽样时,总体均值与总体中位数相同,而中位数的 标准误差大约比均值的标准误差大25%。因此,样本均值更有效。
x 的抽样分布
M e的抽样分布
____
X
有效性
一致性
如果 lim
P
1(为任意小数,n
为样本容量)
n
则称 为的满足一致性标准的点估计量
ˆ1的抽样分布 ˆ2的抽样分布
x s 2 p 均为一致性估计量
X~N, 2
x__

N
, 2 n
__
Z x ~N 0,1
n
P Z
Z Z
1
2
2
P Z
2
__
x n
Z
1
2
显著性水平
22
2
Z 2
置信度
1
0
P_x_ Z
2
n
__
x Z 2
1
n
2
Z 2
显著性水平α下,μ在1- α置信水平下的置信区间:
__
x
Z
2
__
n , x Z 2
f x
x
n
x 2
f x
1
e 2 2 x
2
x
抽样分布
E(x)

抽样分布、参数估计和假设检验

抽样分布、参数估计和假设检验

抽样分布一、抽样分布的理论及定理 (一) 抽样分布抽样分布是统计推断的基础,它是指从总体中随机抽取容量为n 的若干个样本,对每一样本可计算其k 统计量,而k 个统计量构成的分布即为抽样分布,也称统计量分布或随机变量函数分布。

(二) 中心极限定理中心极限定理是用极限的方法所求的随机变量分布的一系列定理,其内容主要反映在三个方面。

1.如果总体呈正态分布,则从总体中抽取容量为n 的一切可能样本时,其样本均数的分布也呈正态分布;无论总体是否服从正态分布,只要样本容量足够大,样本均数的分布也接近正态分布。

2.从总体中抽取容量为n 的一切可能样本时,所有样本均数的均数(X μ)等于总体均数(μ)即μμ=X3.从总体中抽取容量为n 的一切可能样本时,所有样本均数的标准差(X σ)等于总体标准差除以样本容量的算数平方根,即n X σσ=中心极限定理在统计学中是相当重要的。

因为许多问题都使用正态曲线的方法。

这个定理适于无限总体的抽样,同样也适于有限总体的抽样。

中心极限定理不仅给出了样本均数抽样分布的正态性依据,使得大多数数据分布都能运用正态分布的理论进行分析,而且还给出了推断统计中两个重要参数(即样本均数X μ与样本标准差X σ)的计算方法。

(三)抽样分布中的几个重要概念1.随机样本。

统计学是以概率论为其理论和方法的科学,概率又是研究随机现象的,因此进行统计推断所使用的样本必须为随机样本(random sample )。

所谓随机样本是指按照概率的规律抽取的样本,2.抽样误差。

从总体中抽取容量为n 的k 个样本时,样本统计量与总体参数之间总会存在一定的差距,而这种差距是由于抽样的随机性所引起的样本统计量与总体参数之间的不同,称为抽样误差。

3.标准误。

样本统计量分布的标准差或某统计量在抽样分布上的标准差,符号SE 或Xσ表示。

根据中心极限定理其标准差为n X σσ=正如标准差越小,数据分布越集中,平均数的代表性越好。

(完整版)抽样调查习题及答案

(完整版)抽样调查习题及答案

第四章习题抽样调查一、填空题1.抽样调查是遵循随机的原则抽选样本,通过对样本单位的调查来对研究对象的总体数量特征作出推断的。

2.采用不重复抽样方法,从总体为N的单位中,抽取样本容量为n的可能样本个数为N(N-1)(N-2)……(N-N+1)。

3.只要使用非全面调查的方法,即使遵守随机原则,抽样误差也不可避免会产生。

4.参数估计有两种形式:一是点估计,二是区间估计。

5.判别估计量优良性的三个准则是:无偏性、一致性和有效性。

6.我们采用“抽样指标的标准差”,即所有抽样估计值的标准差,作为衡量抽样估计的抽样误差大小的尺度。

7.常用的抽样方法有简单随机抽样、类型(分组)抽样、等距抽样、整群抽样和分阶段抽样。

8.对于简单随机重复抽样,若其他条件不变,则当极限误差范围Δ缩小一半,抽样单位数必须为原来的4倍。

若Δ扩大一倍,则抽样单位数为原来的1/4。

9.如果总体平均数落在区间960~1040内的概率是95%,则抽样平均数是1000,极限抽样误差是40.82,抽样平均误差是20.41。

10.在同样的精度要求下,不重复抽样比重复抽样需要的样本容量少,整群抽样比个体抽样需要的样本容量多。

二、判断题1.抽样误差是抽样调查中无法避免的误差。

(√)2.抽样误差的产生是由于破坏了随机原则所造成的。

(×)3.重复抽样条件下的抽样平均误差总是大于不重复抽样条件下的抽样平均误差。

(√)4.在其他条件不变的情况下,抽样平均误差要减少为原来的1/3,则样本容量必须增大到9倍。

(√)5.抽样调查所遵循的基本原则是可靠性原则。

(×)6.样本指标是一个客观存在的常数。

(×)7.全面调查只有登记性误差而没有代表性误差,抽样调查只有代表性误差而没有登记性误差。

(×)8.抽样平均误差就是抽样平均数的标准差。

(×)三、单项选择题1.用简单随机抽样(重复)方法抽取样本单位,如果要使抽样平均误差降低50%,则样本容量需扩大为原来的(C)A.2倍B.3倍C.4倍D.5倍2.事先将全及总体各单位按某一标志排列,然后依固定顺序和间隔来抽选调查单位的抽样组织方式叫做(D)A.分层抽样B.简单随机抽样C.整群抽样D.等距抽样3.计算抽样平均误差时,若有多个样本标准差的资料,应选哪个来计算(B)A.最小一个B.最大一个C.中间一个D.平均值4.抽样误差是指(D)A.计算过程中产生的误差B.调查中产生的登记性误差C.调查中产生的系统性误差D.随机性的代表性误差5.抽样成数是一个(A)A.结构相对数B.比例相对数C.比较相对数D.强度相对数6.成数和成数方差的关系是(C)A.成数越接近于0,成数方差越大B.成数越接近于1,成数方差越大C.成数越接近于0.5,成数方差越大D.成数越接近于0.25,成数方差越大7.整群抽样是对被抽中的群作全面调查,所以整群抽样是(B)A.全面调查B.非全面调查C.一次性调查D.经常性调查8.对400名大学生抽取19%进行不重复抽样调查,其中优等生比重为20%,概率保证程度为95.45%,则优等生比重的极限抽样误差为(40%)A. 4%B. 4.13%C. 9.18%D. 8.26%9.根据5%抽样资料表明,甲产品合格率为60%,乙产品合格率为80%,在抽样产品数相等的条件下,合格率的抽样误差是(B)A.甲产品大B.乙产品大C.相等D.无法判断10.抽样调查结果表明,甲企业职工平均工资方差为25,乙企业为100,又知乙企业工人数比甲企业工人数多3倍,则随机抽样误差(B)A.甲企业较大B.乙企业较大C.不能作出结论D.相同四、多项选择题抽样调查中的抽样误差是(ABCDE)A.是不可避免要产生的B.是可以通过改进调查方法来避免的C.是可以计算出来的D.只能在调查结果之后才能计算E.其大小是可以控制的2.重复抽样的特点是(AC)A.各次抽选相互影响B.各次抽选互不影响C.每次抽选时,总体单位数始终不变D每次抽选时,总体单位数逐渐减少E.各单位被抽中的机会在各次抽选中相等3.抽样调查所需的样本容量取决于(ABE)A.总体中各单位标志间的变异程度B.允许误差C.样本个数D.置信度E.抽样方法4.分层抽样误差的大小取决于(BCD)A.各组样本容量占总体比重的分配状况B.各组间的标志变异程度C.样本容量的大小D.各组内标志值的变异程度E.总体标志值的变异程度5.在抽样调查中(ACD)A.全及指标是唯一确定的B.样本指标是唯一确定的C.全及总体是唯一确定的D.样本指标是随机变量E.全及指标是随机变量五、名词解释1.抽样推断2.抽样误差3.重复抽样与不重复抽样4.区间估计六、计算题1.某公司有职工3000人,现从中随机抽取60人调查其工资收入情况,得到有关资料如下:(1)试以0.95的置信度估计该公司工人的月平均工资所在范围。

教育与心理统计学 第四章 抽样理论与参数估计考研笔记-精品

教育与心理统计学  第四章 抽样理论与参数估计考研笔记-精品

第四章抽样理论与参数估计第一节抽样理论的基本知识分层抽样,又叫分层随机抽样,这种抽样方法是按照总体已有的某些特征,承认总体中已有的差异,按差异将总体分为几个不同的部分,每一部分称为一个层,在每一个层中实行简单随机抽样。

它充分利用了总体的已知信息,因而是一种非常适用的抽样方法,其样本代表性及推论的精确性一般优于简单随机抽样。

分层的原则是层与层之间的变异越大越好,各层内的变异要小。

试述分层抽样的原则和方法?分层抽样是按照总体上已有的某些特征,将总体分成几个不同部分,在分别在每一部分中随机抽样。

分层的总的原则是:各层内的变异要小,而层与层之间的变异越大越好。

在具体操作中,没有一成不变的标准,研究人员可根据研究需要依照多个分层标准,视具体情况而定。

⑷两阶段随机抽样两阶段随机抽样首先将总体分成M个部分,每一部分叫做一个"集团"(或"群"),第一步从M个集团中随机抽取m个"集团”作为第一阶段样本,第二步是分别从所选取的m个"集团”中抽取个体(g构成第二阶段样本。

一般而言,两阶段抽样相对于简单随机抽样,标准误要大些,但是,两阶段抽样简便易行,节省经草贼,因而它是大规模调查研究中常被使用的抽样方法。

例如,如果我们要了解全国城市初中二年级学生的身高,第一步我们可以从全国几百个城市中随机抽取几十个城市作为第一阶段的样本。

第二步,在第一阶段随机抽取出来的城市中再随机抽取初中二年级的学生。

(二)非旃抽样非概率抽样不是完全按随机原则选取样本,有方便抽样、判断抽样。

方便抽样是由调查人员自由、方便地选择被调查者的非随机选样。

判断抽样是通过某些条件过滤,然后选择某些被调查者参与调查的抽样法。

当采取非概率抽样的方法选取样本时,研究者要说明采用此种方取样的原因以及对研究结果可能造成的影响。

第二节抽样分布[统计量分布、基本随机变量函数的分布]总体:又称母全体、全域,指具有某种特征的一类事物的全体。

参数的假设检验抽样分布、参数估计、假设检验(回归分析)

参数的假设检验抽样分布、参数估计、假设检验(回归分析)

z = -3.162 < 1.64 接受原假设
5% 1.64
假设检验的基本原理
2)相伴概率 P 检验统计量观察值以及所有所有比
它更为极端的可能值出现的概率之和 双侧检验:
P = P(Z < -3.162) + P(Z > 3.162) = 0.002
左侧检验:P = P(Z < -3.162) = 0.001
1
t分布两尾 概率分位点
P(x t / 2sx x t / 2sx ) 1
参数估计 - 区间估计
正态总体方差的区间估计
(n 1)s2
2
~
2 (n 1)
2分布上尾 概率分位点
P(12
2
(n 1)s2
2
2
2)
1
P(
(n 1)s2
12 2
2
(n 1)s
2 2
2
)
1
参数估计 - 区间估计
n
Z x ~ N(0,1) 2 n
中心极限定理
➢ 无论样本所来自的总体是否服从正态分布, 只要样本足够大,样本平均数就近似服从正 态分布,样本越大,近似程度越好。
➢所需的样本含量随原总体的分布而异,但只 要样本含量 30,无论原总体是何分布,都 足以满足近似的要求。
➢设原总体的期望为,方差为 2,则样本平 均数的期望为,方差为 2 /n。
统计推断概述
抽样分布 参数估计简介 假设检验的基本原理
抽样分布的概念
样本统计量的概率分布称为抽样分布(sampling distribution)
样本是通过对总体的随机抽样获得的 样本统计量是随机变量,有一定的概率分布
简单随机样本

(抽样检验)抽样与参数估计最全版

(抽样检验)抽样与参数估计最全版

(抽样检验)抽样与参数估计抽样和参数估计推断统计:利用样本统计量对总体某些性质或数量特征进行推断。

从数据得到对现实世界的结论的过程就叫做统计推断(statisticalinference)。

这个调查例子是估计总体参数(某种意见的比例)的壹个过程。

估计(estimation)是统计推断的重要内容之壹。

统计推断的另壹个主要内容是本章第二节要介绍的假设检验(hypothesistesting)。

因此本节内容就是由样本数据对总体参数进行估计,即:学习目标:了解抽样和抽样分布的基本概念理解抽样分布和总体分布的关系了解点估计的概念和估计量的优良标准掌握总体均值、总体比例和总体方差的区间估计第一节抽样和抽样分布回顾相关概念:总体、个体和样本抽样推断:从所研究的总体全部元素(单位)中抽取壹部分元素(单位)进行调查,且根据样本数据所提供的信息来推断总体的数量特征。

总体(Population):调查研究的事物或现象的全体参数个体(Itemunit):组成总体的每个元素样本(Sample):从总体中所抽取的部分个体统计量样本容量(Samplesize):样本中所含个体的数量壹般将样本单位数不少于三十个的样本称为大样本,样本单位数不到三十个的样本称为小样本。

壹、抽样方法及抽样分布1、抽样方法(1)、概率抽样:根据已知的概率选取样本①、简单随机抽样:完全随机地抽选样本,使得每壹个样本都有相同的机会(概率)被抽中。

注意:在有限总体的简单随机抽样中,由抽样是否具有可重复性,又可分为重复抽样和不重复抽样。

而且,根据抽样中是否排序,所能抽到的样本个数往往不同。

②、分层抽样:总体分成不同的“层”(类),然后在每壹层内进行抽样③、整群抽样:将壹组被调查者(群)作为壹个抽样单位④、等距抽样:在样本框中每隔壹定距离抽选壹个被调查者(2)非概率抽样:不是完全按随机原则选取样本①、非随机抽样:由调查人员自由选取被调查者②、判断抽样:通过某些条件过滤来选择被调查者(3)、配额抽样:选择壹群特定数目、满足特定条件的被调查者2、抽样分布壹般地,样本统计量的所有可能取值及其取值概率所形成的概率分布,统计上称为抽样分布(samplingdistribution)。

第四章 抽样

第四章 抽样

• 3.设计抽样方案 • 4.制定抽样框
– 制定抽样框就是依据已经明确界定的总体范围,收集总体中全部抽样单位 的名单,并统一编号。
• 5.实际抽取样本 • 6.样本评估
– 样本评估就是对样本的质量和代表性进行检验,其目的是防止因样本的偏 差过大而导致的失误。
– 实际抽取样本就是在上述几个步骤的基础上,严格按照所选定的抽样方法, 从抽样框中抽取一个个的抽样单位,构成样本。
运用:
• 从侨光分校的7000位学生中,抽取100位学 生进行调查查,以研究学生对学校教学条 件的满意度。之前所做的普查表现出的对 学校教学条件的平均满意度为85%,现通 过抽查统计后的满意度为80%。 • 请说出本次抽查中的总体、样本、抽样元 素、抽样单位、抽样框、参数值、统计值、 抽样误差。
二、抽样的作用
• 分类抽样有着突出的优点: 第一,分类抽样能够克服简单随机抽样的缺 点,适用于总体内个体数目较多,结构较复杂, 内部差异较大的情况。 第二,精确度较高。 第三,便于对不同层面的问题进行探索。 第四,便于分工,使工作效率提高。 分类抽样的缺点是,如何分类通常由人们主 观判定,因此要求调查者具备较高的素质与能力, 并且必须事先对总体各单位的情况有较多的了解, 而它们在实际工作中有时难以完全实现,这就会 影响分类的科学性和精确性。
三、抽样的类型
• 概率抽样 • 非概率抽样
– 根据抽取对象的具体方式,人们把抽样分为许多不同 的类型。总的来说,各种抽样都可以归为概率抽样与 非概率抽样两大类。这是两种有着本质区别的抽样类 型。概率抽样是依据概率论的基本原理,按照随机原 则进行的抽样,因而它能够避免抽样过程中的人为误 差,保证样本的代表性;而非概率抽样则主要是依据 研究者的主观意愿、判断或是否方便等因素来抽取对 象,它不考虑抽样中的等概率原则,因而往往产生较 大的误差,难以保证样本的代表性。 概率抽样与非概率抽样又各自包括了许多具体类 型。分别适用于不同调查对象。联系实际认识概率抽 样的不同类型及其适用性是掌握抽样方法的关键。

抽样技术第4章分层抽样

抽样技术第4章分层抽样

4.7 事后分层
在实际当中,有时进行事先分层会存在 一定的困难。 1.各层的抽样框无法得到。 2.几个变量都适合于分层,而要进行事先的 多重交叉分层存在一定困难。 3.总体规模太大,事先分层太费事等。 在这种情况下,就可以考虑采用事后分层 技术。
事后分层的具体实施办法是:先采用简
单随机抽样的方法从总体中抽取一个样本
第四章 分层抽样
4.1 什么是分层抽样
在例2.4中我们用简单随机抽样估计每 个郡的平均农场面积。我们提到,即使我 们认真细致地产生了一个随机样本,还是 有一些地区被过分代表,而另一些则根本 没有代表。例4.1用分层抽样保持分层变量 在样本中的均衡,从而使得总体得到全面 的估计。
使用分层抽样的理由: 1.我们要防止得到一个很差的样本。
分层抽样比例
如我们在2.3中所观察到的一样,比例是取
值为0到1之间的一个变量的均值,为了得
到比例的推断,我们用等式(4.1)—
(4.5),其中


则有
估计总体单元的总数有一个特别相似的性质:
因此,总体单元的总数估计量是每层总数估
计量之和 。类似有

例4.3 美国团体学习委员会(ACLS)用分层随 机抽样在七门学科中选取ACLS中的团体研究出版 物格局和属于这些团体的学者使用电脑和图书馆 的情况。数据见表4.2.
单元数。这样第h层中第j个单元入样的概率

。因此,抽样权重只是抽样概率
的倒数:
(4.8)
抽样权重之和等于总体容量N,每个抽样单 元代表一特定数量的总体单元。因此,整 个样本代表整个总体。这个定义可以用于 检验权重变量是否正确:如果样本权重之 和是其它的数,而不是N,那么肯定有某个 地方出错了。 总体总数的估计量可以写成以下形式:

第4章参数估计和假设检验

第4章参数估计和假设检验

第4章参数估计和假设检验第四章参数估计与假设检验掌握参数估计和假设检验的基本思想是正确理解和应⽤其他统计推断⽅法的基础,后⾯将要学习的⽅差分析、⾮参数检验、回归分析、时间序列等统计推断⽅法都是在此基础上展开的。

需要特别指出的是,所有的统计推断都要以随机样本为基础。

如果样本是⾮随机的,统计推断⽅法就不适⽤了。

由于相关知识在先修课程中已经学习过,本章主要在回顾相关知识的基础上,补充讲解必要样本容量的计算、p值、参数估计和假设检验⽅法的软件操作和结果分析等内容。

本章的主要内容包括:(1)参数估计的基本思想和软件实现。

(2)简单随机抽样情况下样本容量的计算。

(3)假设检验的基本原理。

(4)假设检验中的p值。

(5)⼏种常⽤假设检验的软件实现。

第⼀节参数估计⼀、参数估计的基本概念参数估计是指利⽤样本信息对总体数字特征作出的估计。

例如,我们可以通过估计⼀部分产品的合格率对整批产品的合格率作出估计,通过调查⼀个样本的⼈⼝数来对全国的⼈⼝数作出估计,等等。

参数估计可以分为点估计和区间估计。

点估计是指根据样本数据给出的总体未知参数的⼀个估计值。

对总体参数进⾏估计的⽅法可以有多种,例如矩估计法、极⼤似然估计法等,得到的估计量(样本统计量)并不是唯⼀的。

例如我们可以使⽤样本均值对总体均值作出估计,也可以使⽤样本中位数对总体均值进⾏估计。

因此,在参数估计中我们需要对估计量的好坏作出评价,这就涉及到估计量的评价准则问题。

常⽤的估计量评价准则包括⽆偏性、有效性、⼀致性等。

⽆偏性是指估计量的数学期望与总体参数的真实值相等;有效性的含义是,在两个⽆偏估计量中⽅差较⼩的估计量较为有效,⽅差越⼩越有效;⼀致性是指随着样本容量的增⼤,估计量的取值应该越来越接近总体参数。

样本的随机性决定了估计结果的随机性。

由于每⼀个点估计值都来⾃于⼀个随机样本,所以总体参数真值刚好等于⼀个具体估计值的可能性极⼩。

区间估计的⽅法则以概率论为基础,在点估计的基础上给出了⼀个置信区间,并给出了这⼀区间包含总体真值的概率,⽐点估计提供了更多的信息。

应用抽样技术课件第四章

应用抽样技术课件第四章

3、既按类型又按层内单元标志值相近的原 则进行多重分层,同时达到估计类值以及提 高估计精度的目的。
例如
全国疾病监测点的选取
第1重是中国的七大地理区域(东北、华北、华东、华南、 华中、西北、西南) 第2重是城市和农村地区, 第3重是把城市和农村地区再按照一定的标准分为不同水 平。农村地区根据人口普查资料所得到的9个社会经济、 人口和死亡率指标,把农村分为4层:最富裕农村、富裕 农村、贫穷农村和最贫穷农村;城市按人口分为大、中、 小三类。
练习:大学生平均生活费的估计
2013年4月某高校学生组成研究小组对在校本科生的月生活费支 出情况进行了抽样调查。调查采用分层抽样,对全校本科男生、 女生分别随机抽样,共发放问卷300份,回收291份。其中有效 问卷270份,男生125份,女生145份。调查所得数据如下: 性别 男生 女生 人数 平均生活费 标准差 (人) (元/人) (元/人) 125 145 930 1045 327 413
第四章
分层抽样
本章要点
本章主要是对分层抽样理论包括抽样方式、估 计量及其性质、样本量的确定及分配、分层抽样设 计效果等进行系统全面地介绍。具体要求: ①正确理解层、分层抽样以及分层随机抽样的 涵义,分层抽样的特点及作用; ②掌握分层抽样的参数估计量及其性质; ③掌握分层抽样样本量的确定方法; ④了解分层抽样的设计效果;
分层抽样的总体均值估计量
对总体均值 Y 的估计是通过对各层的 Y 的估计,再按层权 Wh h 加权平均得到的。总体均值估计量为:
ˆ WY ˆ Y hh sth Nhomakorabea1L
ˆ y 如果是分层随机抽样(各层内都是简单随机抽样),则 Y h h
总体均值的简单估计量为

统计学 第四章 参数估计

统计学 第四章  参数估计

由样本数量特征得到关于总体的数量特征 统计推断(statistical 的过程就叫做统计推断 的过程就叫做统计推断 inference)。 统计推断主要包括两方面的内容一个是参 统计推断主要包括两方面的内容一个是参 数估计(parameter estimation),另一个 数估计 另一个 假设检验 。 是假设检验(hypothesis testing)。
ˆ P(θ )
无偏 有偏
A
B
θ
ˆ θ
估计量的无偏性直观意义
θ =µ



• •
• • • •

2、有效性(efficiency)
有效性:对同一总体参数的两个无偏点估计 有效性: 量,有更小标准差的估计量更有效 。
ˆ P(θ )
ˆ θ1 的抽样分布
B A
ˆ θ2 的抽样分布
θ
ˆ θ
பைடு நூலகம்
3、一致性(consistency)
置信区间与置信度
1. 用一个具体的样本 所构造的区间是一 个特定的区间, 个特定的区间,我 们无法知道这个样 本所产生的区间是 否包含总体参数的 真值 2. 我们只能是希望这 个区间是大量包含 总体参数真值的区 间中的一个, 间中的一个,但它 也可能是少数几个 不包含参数真值的 区间中的一个
均值的抽样分布
总体均值的区间估计(例题分析)
25, 95% 解 : 已 知 X ~N(µ , 102) , n=25, 1-α = 95% , zα/2=1.96。根据样本数据计算得: x =105.36 96。 总体均值µ在1-α置信水平下的置信区间为 σ 10 x ± zα 2 = 105.36 ±1.96× n 25 = 105.36 ± 3.92

李金昌《统计学》(最新版)精品课件第四章 抽样估计

李金昌《统计学》(最新版)精品课件第四章 抽样估计

Statistics
二、常用的抽样分布定理
(一)样本均值的抽样分布定理
1.正态分布的再生定理 如果某样本的n个个体完全随机地来自数学期望为 X 、方差 为S 2 的正态总体,则不论样本容量n多大,样本均值服从数学期 ( N n) S 2 S2 望为 X 、方差为 V ( x ) (重复抽样时)或 V ( x ) (有 Nn n 限总体且不重复抽样时)的正态分布。标准化统计量 z x X V (x ) 则服从数学期望为0、方差为1的标准正态分布。此即为正态分布 的再生定理。 2.中心极限定理 对于任一具有平均数 X 和方差 S 2的有限总体,当样本容量n 足够大时(例如 n 30或 n 50 ),样本均值 x的分布也趋于服从 正态分布,其数学期望和方差与再生定理的相同。此即为中心极 限定理。
Statistics
3.分布定理 当正态总体的方差未知且n较小,或任一方差为 S 2的总体但n 较小,则样本均值 x 的分布服从自由度为n-1的t分布。分布曲线 与正态分布相近,其中数学期望相同。
Statistics
(二)样本成数的抽样分布定理
1.二项分布定理 N 从一个数学期望为p、方差为 N 1 PQ 的是非变量(0-1分布) n1 总体中随机重复地抽取容量为n的样本,那么样本中含有 个某类 变量值的概率为:
反映样本分布特征的样本统计量的值(即样本统计值)是可 知的。但是由于抽样的随机性,样本统计值不是惟一确定的,因 此样本统计量是随机变量,其值随样本不同而不同。 抽样估计,就是要以可知但非惟一的样本统计值去估计惟一 却未知的总体参数的值。
Statistics
(三)抽样分布及其特征
1.抽样分布的概念及影响因素 一般意义上说,抽样分布就是样本统计量的概率分布,它由 样本统计量的所有可能取值和与之对应的概率所组成。如果说样 本分布是关于样本观测值的分布,那么抽样分布则是关于样本统 计值的分布,而样本统计值是由样本观测值计算而来的。 实际的抽样分布形成取决于以下五个因素: 总体分布; 样本容量; 抽样方法; 抽样组织形式; 估计量构造

统计学第四章的教材

统计学第四章的教材

几个直观的结论
1. 样本均值的均值(数学期望)等于总体均值(式中:M为样本 n 数目); xi 22 23 28 i 1 25 X M 16 2. 抽样误差是随样本不同而不同的随机变量。抽样误差均值 等于0; xX 0


3. 样本均值的方差等于总体方差的1/n。
3
(二)抽样估计的一般步骤 1、设计抽样方案 2、 随机抽取样本(从总体随机抽取部分单位构成样本) 3、搜集样本资料(对样本单位进行调查登记) 4、整理样本资料(审查、分组汇总、计算样本指标的
数值,即计算估计量的具体数值)
5、估计总体指标(即估计总体参数)
总体参数与样本估计量的关系——对于特定的目 的,总体是惟一的,所以参数也是惟一的;而由 于样本是随机的,所以样本估计量是随机变量。
(3)抽样方法。相同条件下,重复抽样的抽样平均误 差大比不重复抽样的抽样平均误差大。
(4)抽样组织方式。由于不同抽样组织方式有不同的 抽样误差,所以,在误差要求相同的情况下,不同抽 样组织方式所必需的抽样数目也不同。
21
不知道总体方差时如何计算
用样本方差代替计算 用过去(总体或样本)方差代替计算 用同类现象(当前 或过去、总体或样本) 方 代替计算 有若干个方差可选择时,选方差最大者 (注意:对比率,即选择最接近0.5的值所 得的方差最大)
进无偏估计量。
29
二、区间估计
(一)区间估计的原理 区间估计就是根据样本估计量以一定 可靠程度推断总体参数所在的区间范围。 特点:考虑了估计量的分布,所以它能 给出估计精度,也能说明估计结果的把握 程度(置信度)。
30
(一)总体均值的置信区间
(1)假定条件

总体服从正态分布,且总体方差(2)已知

抽样与参数估计统计学实验报告

抽样与参数估计统计学实验报告

抽样与参数估计统计学实验报告抽样与参数估计统计学实验报告概述本实验以抽样与参数估计统计学为主题,研究了参数估计、抽样方法、统计识别等内容。

实验目的1. 熟悉参数估计和统计分析的基本原理和方法;2. 掌握抽样的基本原理,熟悉抽样方法的运用;3. 掌握统计模型识别的方法,进行统计分析和决策;实验介绍1. 参数估计:参数估计是统计分析过程中重要的一步,它是识别某个实际系统的一个重要参数,以此据估计出实际系统的精确参数,估计准确的参数是统计模型的建立的前提。

2. 抽样方法:抽样方法就是从一个总体中取样,所取样的水平表现出一定的代表性,从而能推算出总体的概况,抽样方法有分层抽样、系统抽样、整群抽样等多种。

3. 统计模型识别:是用统计技术进行模型识别,它是利用概率模型来分析数据,建立有效的模型,从而进行有效的分析。

数据分析1. 针对参数估计,我们使用假设检验,通过比较估计值和真实值,进行检验,从而得出参数的准确度。

2. 针对抽样方法,我们使用分层抽样,将总体划分成不同的层,可以更好地表征总体,进行有效抽样。

3. 针对统计模型识别,我们使用多种模型进行比较,根据其检验概率和显著性水平,选择出最有效的模型进行识别。

结论1. 通过假设检验,得出了参数估计的准确度;2. 通过分层抽样得出了较好的抽样结果;3. 通过多种模型进行比较,选择出最有效的模型进行识别。

建议在下次实验中,为了提高参数估计的精度,应该进行更加精细的假设检验;为了增加抽样的可靠性,应该采用更为严谨的抽样方法;此外,要多尝试不同的统计模型,以期得到更好的结果。

自考心理与教育统计05951整理概况

自考心理与教育统计05951整理概况

绪论(一)什么是教育与心理统计学教育与心理统计学的概念是专门研究如何运用统计学原理和方法,搜集、整理、分析教育与心理科学研究中获得的随机性数据资料,并根据这些数据资料传递的信息,进行科学推论找出教育与心理活动规律的一门学科。

(二)教育与心理统计学的基本内容描述统计:对已获得的数据进行整理、概括,显现其分布特征的统计方法。

(一、二章节)推断统计:通过局部数据所提供的信息,推论总体情况。

(四、五、六、七、八、九章节)多元分析统计:寻找主要影响因素,对相近或相关因素合并或归类。

(三)教育与心理统计的昨天、今天和明天1904年美国人桑代克写的《心理与社会测量导论》是第一本教育与心理统计的专著。

(四)预备知识1. 随机现象及随机变量的概念随机现象:在相同的条件下,其分数或者其他数据结果可能不止一个,由实验或观测得到的数据,事先无法确定。

随机变量:取值之前不能预料取到什么值的变量。

随机变量分为:称名变量:说明某一事物与其他事物属性上的不同或类别上的差异。

比如:性别顺序变量:可以按事物的某一属性,把它们按多少或从大到小排列。

等距变量:变量之间有相等的距离。

除了有量的大小还有相等单位。

比如:温度比率变量:有量的大小,相等单位,还有绝对零点。

比如:身高、体重总体指具有某一种特征的一类事物的全体。

样本指总体中抽取的一部分有代表性的个体。

个体指构成总体的每一个基本元素。

2. 常用的符号及其计算法则离散变量:数值只能用自然数和整数表达。

连续变量:能在一定区间内任意取值的变量。

二分称名变量:变量只能有两个结果,比如是或否,对或者错。

(笔记部分)第一章常用的统计表与图(一)次数分布表与图1. 次数分布的概念数据在各个不同数值点上所出现的次数情况(75分在100个人的班级中出现了8次),或是一批数据在整个取值范围内各个等距区间中所出现的次数情况(70~80这个区间内出现了15次)。

2. 次数分布图通常的两种表达方式次数直方图和次数多边图3. 简单次数分布表、次数直方图与次数多边图的编制(笔记部分)(二)几种常用的统计分析图1. 散点图、线形图、条形图、圆形图的涵义一、散点图散点图是用平面直角坐标系上点的散布图形来表示两种事物之间的相关性及联系模式。

抽样调查与参数估计

抽样调查与参数估计
2.样本:又称子样,来自总体,是从总体中按随机原则抽选出来的部分,由 抽选的单位构成。样本单位数用 n 表示。
3.总体是唯一的、确定的,而样本是不确定的、可变的、随机的。
4-5
二、样本容量与样本个数
样本容量:一个样本中所包含的单位数,用n表示。必要样本量是能够满足估计 精度要求的最少样本量。
起点r
r+k
r+2k
r+3k
4-20
圆形系统抽样方法:当N不能被n整除时, 用圆形系统抽样法可以避免出现样本量可能不一 致的情况。把总体单元假想排列在一个圆上,取 k = N/n 最接近的整数,作为间隔,然后在1到N 之间,抽取随机起点 r,则被抽中的单元顺序号 为: r,r+k,r+2k,……r+(n-1)k。
4-15
七、抽样误差和非抽样误差
抽样误差是指由于抽选样本的随机性,用样本数据对 总体参数进行估计是所引起的误差。只有采取概率抽 样方式才能产生样误差,得到估计量的精度,因此我 们说抽样误差仅仅表现于概率抽样方式之中。与非概 率抽样方式相比,能够计算抽样误差是概率抽样最突 出的优点。
非抽样误差是指除抽样误差以外的,由于各种原因而 引起的误差,例如抽样框有缺陷,目标总体单位和抽 样单位没有能够一一对应;调查中一些被调查者拒绝 回答问题,调查人员没得到全部样本数据;由于各种 原因(测量、遗忘或有意隐瞒等),调查中获得的原始 数据不正确,以及在对调查数据进行编码、录入、汇 总过程中可能出现差错,都会产生非抽样误差。
可以把抽样框中所包含抽样单位信息的丰富程度
作为评价抽样框质量的一个标准。在好的抽样框中,抽
样单位的信息比较丰富,这就为采用复杂的抽样设计
(如分层抽样)和不同的估计方法(如比率估计)提供了条
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第四章抽样理论和参数估计知识引入1970 年美国首次进行征兵抽签,组织者将19-25岁的适龄青年按年龄分组,使用编号001-366 的等重量塑料球,001代表1月1日出生者,031代表1月31日…,366代表12月31日。

然后将所有塑料球放入滚筒中混合抽取号码,每组抽中号码对应生日的青年依次应征,直到人数足够为止。

之后,有记者指出此次抽签产生了严重的偏差,他们注意到,年末生的人似乎倾向于被抽到较前面的征兵顺序。

其结果就是一堆12 月份生的人去了越南战场。

后来,经过统计学家的分析,发现这种“偏差”确实存在;经过分析终于找到了原因,原来代表生日的号码塑料球是一次按一整个月份装入滚筒中混合的,加上又没有均匀混合;于是1 月份的生日容易在滚筒底下,12 月份的是最后才装进去,容易在上面。

在抽样术语中,经常能够听到“随机抽样”、“随机选择”这样的表述,“随机性”原则其实保证了总体中的每个个体被抽中的概率相等,因而被认为是保证各种抽签、选择过程公平、公正的一个基本手段。

上述抽样就没有保证这种随机性。

在本章中,我们还会看到,作为推断的基础,我们直接研究的样本是否“得当”对研究总体十分关键,可以通过一定的抽样设计制定科学、合理、公正的抽样方法。

如上述随机性原则可以保证抽样可以使得样本和总体有相同的内部结构,也就是说有最大的可能使总体的某些特征在样本中得以再现。

本章在介绍必要的抽样概念和抽样方法基础上,重点介绍抽样分布理论,并对参数估计进行简要介绍。

第一节抽样和常用抽样方法一、简单随机抽样抽样(sampling)或取样,在整个研究过程中位于数据收集之前,恰当的抽样设计是保证样本代表性的关键环节,是利用样本对总体进行假设检验或参数估计的基础。

抽样涉及到的一些基本概念在绪论中均已介绍。

一个合理可行的抽样设计,一方面要求针对调查或实验研究的具体情况选择一种适宜抽样方法;另一方面应该根据调查研究所要求的精确度及经费状况确定样本容量。

一般所说的随机抽样,就是指简单随机抽样,它是最基本的抽样方法,适用范围广,最能体现随机性原则且原理简单。

抽取时,总体中每个个体应独立地、等概率地被抽取。

常用的实施方法有抽签法和随机数表法。

1、抽签法:是把总体中的每一个个体都编上号并做成签,充分混合后从中随机抽取一部分,这部分签所对应的个体就组成一个样本。

2、随机数表法:所谓随机数表或乱码表,是由一些任意的数毫无规律地排列而的数表。

教材附表17即是一万个数字的随机数表。

随机数表的用法许多计算机软件都可以自动生成随机数字。

这里介绍教材附录17中乱码表的用法:首先对总体中所有个体依次编号,接着从表中任一位置(任意行列交叉处)开始,依次往下找足你所需要的随机数(均为5位),以这些随机数为编号的个体即组成一个样本。

在查找随机数时,有两点要注意,一是总体容量是几位数,就从表中随机数末尾截取相应位数(因而最多可以截取4位数,抽取9999个)。

如总体容量为500,则可以看表中数据的末尾三位数,并依次往下找;二是找到的数字若超过总体的容量范围,则跳过,比如总体容量为500,要求抽取30个,则设定任意起始点往下找,找到一个数字末尾三位为678,则跳过,看到一个098,则表示编号098号被抽中,…,直到找满30个为止。

当然这两种方法都是针对有限总体的,在实际当中的无限总体可以采用其他方法来抽样。

简单随机抽样从理论上说是最符合随机性原则,但是这种方法在实际应用时,存在着一些不足:首先,对大总体进行编号是相当困难的;其次,由于完全采用随机性,实际抽取的那一个样本可能不具备总体本应该有的一些特性。

另外,对于大总体在制签或查表时都是相当困难的。

对于已有顺序编号的大总体,实际当中常常采用等距抽样简洁地实现。

等距抽样也称系统抽样。

顾名思义,它是按照抽样比例(样本容量与总体容量之比)确定抽样间距(抽样比例的倒数),然后从任意起点间隔抽样间距逐个获得样本中的个体。

如一总体有5000个,要求抽取一个500人组成样本,即抽样比例为10%,则从任意位置开始(假设总体中所有个体均已编号,且一般地假设从10以内开始),连续抽取a、a+10、a+20、…、a+4990共500个编号个体作为样本。

二、分层抽样分层抽样是事先按总体已有的某些特征,将总体分成几个不同的部分,每一部分叫一层,再分别在每一层中随机抽样。

这种方法充分利用了总体的已有信息,因而是一种非常实用的抽样方法。

对于一个总体如何分层,分多少层,要视具体情况而定。

一个总的原则是,各层内个体在该特征上的差异要少,而层与层之间的差异要越大越好。

比如说,对大学生可以按其学校是一流大学、重点大学、一般大学来分层。

对于复杂问题还可以按几个分层标准来分层。

如韦克斯勒幼儿智力量表在制定常模时,就按年龄、性别、种族、地区、家长职业和城市农村等六个因素来分层,使得样本中各种搭配下的人数比例都与总体尽量接近。

分层抽样在具体实施时,又根据是否知道各层内标准差分成两种办法:按各层人数比例分配。

这是在各层内标准差不知道时的分配方式,即让样本中各层人数的比例与总体中各层人数的比例相同。

最佳分配。

这是在已知各层内标准差时的分配方式,它是按标准差大小和总体中各层人数比例共同来确定最终样本中各层人数的比例。

任意一层中要抽取的人数可表示为:其中N 表示总体容量,n 表示样本容量,i 表示第i 层。

确定了各层内的抽取人数,每层内的抽取可采用简单随机抽样法进行。

三、两阶段抽样两阶段抽样也称为分群抽样,首先是将总体分成若干群,从中随机选出一些群,这是第一阶段抽样;再从被选出的群中进行随机抽样,这是第二阶段抽样。

这里分群的原则正好和分层抽样中分层的原则相反,要求各群内个体之间的差异尽量地大,而各群之间就没多大的差异。

比如要进行一个全国范围内生活消费方面的调查,可以按大城市进行分群,显然各大城市内的居民千差万别,而各个城市之间则相差无几,因此不必选取所有的大城市,可以只从中选择一部分,然后再在这些城市进行抽样。

在一个复杂的抽样设计中,往往可能将分层抽样抽样和分群抽样反复应用,最终才得到所要的样本。

如上面的例子中,要在一个大城市里选取一部分居民,也不是件容易的事,这时可再分群或分层,直到便于抽样时为止。

四、样本容量的确定样本容量的大小对统计推断非常重要。

样本容量过小,会影响样本的代表性,使抽样误差增大而降低了统计推断的精确性;而样本容量过大,虽然减小了抽样误差,但可能增大过失误差,且增大经费开支。

另外,样本容量与抽样误差之间并不存在直线关系,随着样本容量的增大,抽样误差减小的速度越来越慢。

对于样本容量的确定受到很多因素的影响,也有很多相应的计算公式,这里不一一介绍。

教材中介绍了对样本均值进行推断时利用最大允许抽样误差计算样本容量的方法。

所谓“最大允许抽样误差”是指某一总体参数与其点估计(抽样所得的统计量)之间的差异在实际中所能接受的最大范围。

比如,对于总体均值μ,它的点估计是,那么在实际中用来估计μ 时,研究者所能接受的最大范围就称为最大允许抽样误差,一般记为d。

确定样本容量的目的就是使抽样的误差在研究者所能接受的的范围以内,因此样本容量与 d 是有直接关系。

根据下面的抽样分布知识,可以得知:或第二节抽样分布理论一、为什么要了解抽样分布推断统计的核心思想是从特殊到一般,从部分到全体,即用样本统计量来推断总体参数。

然而,统计推断和直接推断的本质区别在于,后者往往不会关心样本和总体的差异,而直接根据统计量来下结论;这会产生很多偏差。

而统计推断则依据抽样分布理论进行推断,它用概率的形式描绘出样本统计量在无限次抽样(在无限总体中总可以得到无限多个容量有限的样本)中的分布规律,从而帮助我们判断一次抽样结果的意义。

以一个有限总体抽样的例子来说明抽样过程。

某班25名同学的某科成绩,它就是要研究的总体:1234567891011121381 99 66 98 55 92 100 84 69 74 77 66 10014151617181920212223242584 100 68 59 71 60 94 91 92 95 78 84为了较快地估计该班该课程的平均成绩(总体参数),从中有放回地抽取5名学生(即抽取一个学生的成绩登记后再放回去抽取下一个,所以已抽取的可能在后面再次被抽取到),用他们的平均成绩(样本统计量)来反映总的平均情况(实际中,直接对25个数据求平均即可,这里以具体数据说明抽样过程,想象这里的总体为无限容量)。

下表列出了一种可能的抽样情况:X1 X2 X3 X4 X5第一次抽样学号18152132590.8 成绩71 100 99 100 84第二次抽样学号102312151778.8 成绩74 95 66 100 59第三次抽样学号5152211083.8 成绩55 100 99 91 74…………………………………………这里只抽取了3 个样本,但可看出每个样本的平均数都与总体均值81.5(实际情况中总体参数往往未知)有些差异,第一个样本显然比总体均值大多了。

如何判断哪个样本统计量更具有代表性(总体参数未知时),这就需要了解样本平均数的分布规律,以便更好地对总体均值进行估计或推断。

从上面的例子可以看出抽样的实质就是对总体进行n次重复试验或n次重复观察,而每一次试验或观察都是相互独立的(有放回抽样),即抽样问题就是研究n 个“独立同分布”的随机变量的函数问题。

这里“独立”是指n 次重复试验互不影响,即各样本独立;“同分布”是这n个随机变量都从同一总体取值。

所以对于用随机变量X表示的总体,常常用(X1,X2,……,Xn)来表示它的一个容量为n 的样本。

注意,这里的每个Xi作为X的一次观测值本身也是随机变量。

二、基本随机变量分布与抽样分布一般的随机变量概率分布可称为基本随机变量分布,但上述我们要研究的是样本统计量的概率分布。

注意到,根据上述n个独立同分布随机变量计算而来的样本统计量本身也是随机变量,则它们的概率分布就称为抽样分布,即样本统计量或基本随机变量函数的理论分布。

根据样本统计量的不同,可区分样本均值的抽样分布、样本方差的抽样分布、样本相关系数的抽样分布、比例的抽样分布等。

另外,从分布形态上看,常见的抽样分布主要包括是正态分布、T分布、χ2分布、F分布等,将在后文陆续介绍。

三、抽样分布理论抽样分布理论是整个推断统计的理论基础,对它们的证明不用理会,只需掌握这些结论及其应用条件。

假设某一个用随机变量X表示的抽样母总体的均值为μ,方差为σ2,从总体中抽取容量为n 的样本,则有如下结论:(1)一切可能样本的平均数的均值(期望)等于母总体的均值,表示为:EX = μ(2)一切可能样本的平均数的方差等于母总体方差的n分之一,表示为:DX = σ2/n 因此样本均值分布的标准差等于母总体标准差的分之一,称其为标准误(SE),即SE = σ/。

相关文档
最新文档