第5章 抽样分布与参数估计
抽样分布与参数估计
抽样分布与参数估计首先,我们来了解什么是抽样分布。
在统计学中,抽样分布是指从总体中多次抽样得到的样本统计量的分布。
假设我们的总体是指所有感兴趣的个体的集合,而样本是从总体中选取的一部分个体。
抽样分布的形状和性质取决于总体的分布和样本的大小。
通过分析抽样分布,可以得到有关总体参数的有用信息。
例如,我们想要知道一些城市成年人的平均年收入。
在实际情况下,我们无法调查每个人的收入情况,因此我们需要从总体中随机抽取一部分个体作为样本,并计算他们的平均年收入。
如果我们多次从总体中抽取样本并计算平均年收入,然后绘制这些平均值的分布图,我们就可以得到平均年收入的抽样分布。
这个抽样分布将给我们提供有关总体平均年收入的估计和推断。
接下来,我们将讨论参数估计。
参数估计是指使用样本数据来估计总体参数的过程。
总体参数是用于描述总体特征的数值,如总体平均值、总体标准差等。
通过从总体中抽取样本,并计算样本统计量,我们可以利用样本统计量来估计总体参数。
常用的参数估计方法有点估计和区间估计。
点估计是指用单个数值来估计总体参数,例如用样本均值来估计总体均值。
点估计给出了一个单一的值,但不能提供关于估计的精度的信息。
因此,我们常常使用区间估计。
区间估计是指给出一个区间,这个区间内有一定的置信水平使得总体参数落在这个区间内的概率最高。
区间估计能够向我们提供关于估计的精确程度的信息。
区间估计依赖于抽样分布的性质。
中心极限定理是制定抽样分布理论的一个重要原则。
根据中心极限定理,当样本容量足够大时,样本均值的抽样分布将近似于正态分布。
这使得我们可以使用正态分布的性质来计算置信区间。
构建置信区间的一种常用方法是使用样本均值的标准误差。
标准误差是样本均值的标准差,它用来衡量样本均值和总体均值之间的误差。
根据正态分布的性质,当样本容量足够大时,样本均值与总体均值之间的误差可以用标准误差来估计。
通过计算标准误差并结合正态分布的性质,我们可以得到样本均值的置信区间。
曾五一《统计学导论》(第2版)配套题库【课后习题】第五章 抽样分布与参数估计 【圣才出品】
A.是不可避免要产生的 B.是可以通过改进调查方法消除的
C.是可以事先计算的
D.只有调查结束之后才能计算
【答案】AC
【解析】抽样误差是由于抽样的随机性引起的样本结果与总体之间的误差。抽样误差是
一种随机性误差,只存在概率抽样中,在概率抽样中,抽样误差是不可避免的。但是,用大
数定律的数学公式,是可以事先计算的。
构造的统计量
X S
服从 t n
1
,则置信区间为:
X
t /2
n
1
S n
n
样本均值
X
=12.09,样本标准差
S2 n 1
S
2 15
=0.005,
S15
=0.0707
SX =
S =0.0707/ n
16 =0.0177, t0.025
15
2.131
△= t /2 n 1
S n
=0.0177 2.131=0.038
5.某微波炉生产厂家想要了解微波炉进入居民家庭生活的深度。他们从某地区已购买 了微波炉的 2200 个居民户中用简单随机不还原抽样方法以户为单位抽取了 30 户,询问每 户一个月中使用微波炉的时间。调查结果依次为(单位:分钟)
【答案】A
【解析】 E z 2
,根据公式可知,如果极限误差缩小为原来的二分之一,则在其
n
他条件不变的情况下,样本容量扩大为原来的 4 倍。
4.当样本单位数充分大时,样本估计量充分地靠近总体指标的可能性趋于 1,称为抽 样估计的( )。
A.无偏性 B.一致性 C.有效性 D.充分性 【答案】B 【解析】一致性是指随着样本容量不断增大,样本统计量接近总体参数的可能性就越来 越大,或者,对于任意给定的偏差控制水平,两者间偏差高于此控制水平的可能性越来越小, 接近于 0。用公式表示就是
第5章--抽样分布与参数估计教案资料
(5)
(5.5)
(6)
(6.5)
(7)
(7.5)
(8)
(8.5)
(9)
9
9,1
9,2
9,3
9,4
9,5
9,6
9,7
9,8
9,9
9,10
(5)
(5.5)
(6)
(6.5)
(7)
(7.5)
(8)
(8.5)
(9)
(9.5)
10
10,1
10,2
10,3
10,4
10,5
10,6
10,7
10,8
10,9
10,10
数是 ,标准差是 ,从这个总体中抽出一 个容量是 n 的样本,则样本平均数 X 也服从 正态分布,其平均数 E( X ) 仍为 ,其标准
差为 。 X 5-19
从正态分布的再生定理可以看出,只要总体 变量服从正态分布,则从中抽取的样本,不管n 是多少,样本平均数都服从正态分布。但是在 客观实际中,总体并非都是正态分布。对于从 非正态分布的总体中抽取的样本平均数的分布 问题,需要由中心极限定理来解决。
第5章--抽样分布与参数估计
第一节 抽样的基本概念与数学原理
一、有关抽样的基本概念 二、大数定理与中心极限定理
5-2
一、有关抽样的基本概念
(一)样本容量与样本个数 1.样本容量。样本是从总体中抽出的部分
单位的集合,这个集合的大小称为样本容量, 一般用n表示,它表明一个样本中所包含的单 位数。
lim
n
1 n
p
n
i 1
X
i
1
(5.5)
5-17
大数定理表明:尽管个别现象受偶然因 素影响,有各自不同的表现。但是,对总体 的大量观察后进行平均,就能使偶然因素的 影响相互抵消,消除由个别偶然因素引起的 极端性影响,从而使总体平均数稳定下来, 反映出事物变化的一般规律。
抽样分布与参数估计
三、t分布曲线下的面积分布规律
自由度为 的t分布曲线
t 分布曲线下 的整个面积为1, t 分布曲线下从a到b 的面积为t值分布 在此范围内的百分 比,即t值落在此 范围内的概率P。
双侧:由于t分布以0为中心对称,即 P(t≤- t, )= P(t≥ t, )= /2 于是有P(- t, ≤t≤ t, )=1-
sx
u X
X
t X =n-1
s X
u分布 t分布
二、t分布图形的特点
• 1. t分布是一簇曲线。 t分布有一个参数, 即自由度 ,与标准差的自由度一致。
• 2. t分布曲线以0为中心,左右对称; 越小, t变量值的离散程度越大,曲线越扁平。
• 3. t分布曲线较标准正态曲线要扁平些(高 峰低些,两尾部翘得高些), 逐渐增大, t分布曲线逐渐的逼近于标准正态曲线,若 =,则t分布曲线和标准正态曲线完全吻 合。
参数估计在统计方法中的地位
统计方法
描述统计
推断统计
点值估计
参数估计
假设检验
区间估计
一、基本概念
➢ 参数估计:用样本统计量来估计总体参数。
点值估计:不计抽样误差,直接用样本均数来 估计μ。
区间估计:根据抽样误差的规律,按一定的概 率估计总体均数的所在范围。统计上习惯用95% 或99%可信区间表示总体均数可能所在范围。
第一节 均数的抽样误差 第二节 t分布 第三节 总体均数可信区间的估计
一、抽样研究:从总体中随机抽取部分 观察单位构成样本,用样本信息去 推断总体特征的研究方法。
统计推断的过程
总体
样
样本统计量
本
例如:样本均
值、比例
二、抽样误差:在抽样研究中,因抽样造 成的样本统计量与样本统计量、样本统计 量与总体参数的差值。
抽样分布、参数估计和假设检验
抽样分布一、抽样分布的理论及定理 (一) 抽样分布抽样分布是统计推断的基础,它是指从总体中随机抽取容量为n 的若干个样本,对每一样本可计算其k 统计量,而k 个统计量构成的分布即为抽样分布,也称统计量分布或随机变量函数分布。
(二) 中心极限定理中心极限定理是用极限的方法所求的随机变量分布的一系列定理,其内容主要反映在三个方面。
1.如果总体呈正态分布,则从总体中抽取容量为n 的一切可能样本时,其样本均数的分布也呈正态分布;无论总体是否服从正态分布,只要样本容量足够大,样本均数的分布也接近正态分布。
2.从总体中抽取容量为n 的一切可能样本时,所有样本均数的均数(X μ)等于总体均数(μ)即μμ=X3.从总体中抽取容量为n 的一切可能样本时,所有样本均数的标准差(X σ)等于总体标准差除以样本容量的算数平方根,即n X σσ=中心极限定理在统计学中是相当重要的。
因为许多问题都使用正态曲线的方法。
这个定理适于无限总体的抽样,同样也适于有限总体的抽样。
中心极限定理不仅给出了样本均数抽样分布的正态性依据,使得大多数数据分布都能运用正态分布的理论进行分析,而且还给出了推断统计中两个重要参数(即样本均数X μ与样本标准差X σ)的计算方法。
(三)抽样分布中的几个重要概念1.随机样本。
统计学是以概率论为其理论和方法的科学,概率又是研究随机现象的,因此进行统计推断所使用的样本必须为随机样本(random sample )。
所谓随机样本是指按照概率的规律抽取的样本,2.抽样误差。
从总体中抽取容量为n 的k 个样本时,样本统计量与总体参数之间总会存在一定的差距,而这种差距是由于抽样的随机性所引起的样本统计量与总体参数之间的不同,称为抽样误差。
3.标准误。
样本统计量分布的标准差或某统计量在抽样分布上的标准差,符号SE 或Xσ表示。
根据中心极限定理其标准差为n X σσ=正如标准差越小,数据分布越集中,平均数的代表性越好。
参数的假设检验抽样分布、参数估计、假设检验(回归分析)
z = -3.162 < 1.64 接受原假设
5% 1.64
假设检验的基本原理
2)相伴概率 P 检验统计量观察值以及所有所有比
它更为极端的可能值出现的概率之和 双侧检验:
P = P(Z < -3.162) + P(Z > 3.162) = 0.002
左侧检验:P = P(Z < -3.162) = 0.001
1
t分布两尾 概率分位点
P(x t / 2sx x t / 2sx ) 1
参数估计 - 区间估计
正态总体方差的区间估计
(n 1)s2
2
~
2 (n 1)
2分布上尾 概率分位点
P(12
2
(n 1)s2
2
2
2)
1
P(
(n 1)s2
12 2
2
(n 1)s
2 2
2
)
1
参数估计 - 区间估计
n
Z x ~ N(0,1) 2 n
中心极限定理
➢ 无论样本所来自的总体是否服从正态分布, 只要样本足够大,样本平均数就近似服从正 态分布,样本越大,近似程度越好。
➢所需的样本含量随原总体的分布而异,但只 要样本含量 30,无论原总体是何分布,都 足以满足近似的要求。
➢设原总体的期望为,方差为 2,则样本平 均数的期望为,方差为 2 /n。
统计推断概述
抽样分布 参数估计简介 假设检验的基本原理
抽样分布的概念
样本统计量的概率分布称为抽样分布(sampling distribution)
样本是通过对总体的随机抽样获得的 样本统计量是随机变量,有一定的概率分布
简单随机样本
曾五一《统计学导论》配套题库【章节题库】第五章 抽样分布与参数估计 【圣才出品】
12.样本均值的抽样标准差 x ,( ).
A.随着样本量的增大而变小 B.随着样本量的增大而变大
5 / 30
圣才电子书 十万种考研考证电子书、题库视频学习平台
C.与样本量的大小无关
D.大于总体标准差
【答案】A
【解析】根据样本均值的抽样分布可知,样本均值抽样分布的标准差 x
D.服从 2 分布
【答案】B
【解析】当 n 比较大时,样本均值的抽样分布近似服从正态分布。题中 n 36 30 为
大样本,因此样本均值的抽样分布近似服从正态分布。
5.估计量的含义是指( )。 A.用来估计总体参数的统计量的名称
2 / 30
圣才电子书 十万种考研考证电子书、题库视频学习平台
圣才电子书 十万种考研考证电子书、题库视频学习平台
第五章 抽样分布与参数估计
一、单项选择题 1.抽样分布是指( )。 A.一个样本各观测值的分布 B.总体中各观测值的分布 C.样本统计量的分布 D.样本数量的分布 【答案】C 【解析】统计量是样本的函数,它是一个随机变量。样本统计量的分布称为抽样分布。
2.根据中心极限定理可知,当样本容量充分大时,样本均值的抽样分布服从正态分布, 其分布的均值为( )。
A.
B. X C. 2
2 D.
n 【答案】A
【解析】根据中心极限定理,设从均值为 ,方差为 2 的任意一个总体中抽取样本量 为 n 的样本,当 n 充分大时,样本均值的抽样分布近似服从均值为 ,方差为 2 n 的正
n
,样本
量越大,样本均值的抽样标准差就越小。
13.在用正态分布进行置信区间估计时,临界值 1.645 所对应的置信水平是( )。 A.85% B.90% C.95% D.99% 【答案】B 【解析】置信水平是指总体参数值落在样本统计值某一区内的概率;而置信区间是指在
第五章 参数估计
1
X 2 t n1 n2 2
2
2 Sp
n1
n2
X
1
X 2 z
2
2 S12 S 2 n1 n2
2 Sp
2 2 n1 1S1 n2 1S 2
n1 n2 2
20
例题:
分别在城市1和城市2中随机抽取n1=400, n2=500的职工进行调查,经计算两城市职工的 平均月收入及标准差分别为X1=1650元,
22
思考题:
一个研究机构做了一项调查,以确定稳定的吸 烟者每周在香烟上的消费额。他们抽取49位固 定的吸烟者,发现均值为20元,标准差5元。
1.总体均值的点估计是多少?
2.总体均值μ的95%置信区间是什么?
23
思考题解答:
1.总体均值的点估计是20元。
2.总体均值μ的95%置信区间: 随机变量X表示每周香烟消费额,由题意可知,X=20, S=5,1-α=0.95,α=0.05;n=49 属于大样本,σ 未知以S估计。总体均值μ的95%置信区间为
P z Z z 1 2 2
P L U 1
X P z z 1 2 2 n
Step3:将上面等式进行等价变换即可。
P L U 1
第五章 参数估计
第五章 参数估计
利用样本数据对总体特征进行推断,通常在以下 两种情况下进行:
当总体分布类型已知(如:正态),根据样本数据对 总体分布的未知参数进行估计或检验。参数估 计或参数检验。(如:μ或σ为何?) 当总体分布类型未知或知道很少,根据样本数据 对总体的未知分布的形状或特征进行推断。非参 数检验。(如:是否正态分布?是否随机?)
抽样与参数估计
第四章抽样与参数估计推断统计:利用样本统计量对总体某些性质或数量特征进行推断。
从数据得到对现实世界的结论的过程就叫做统计推断(statistical inference)。
这个调查例子是估计总体参数(某种意见的比例)的一个过程。
估计(estimation) 是统计推断的重要内容之一。
统计推断的另一个主要内容是本章第二节要介绍的假设检验(hypothesis testing) 。
因此本节内容就是由样本数据对总体参数进行估计,即:学习目标:了解抽样和抽样分布的基本概念理解抽样分布与总体分布的关系了解点估计的概念和估计量的优良标准掌握总体均值、总体比例和总体方差的区间估计第一节抽样与抽样分布回顾相关概念:总体、个体和样本抽样推断:从所研究的总体全部元素(单位)中抽取一部分元素(单位)进行调查,并根据样本数据所提供的信息来推断总体的数量特征。
总体(Population):调查研究的事物或现象的全体参数个体(Item unit):组成总体的每个元素样本(Sample):从总体中所抽取的部分个体统计量样本容量(Sample size):样本中所含个体的数量一般将样本单位数不少于三十个的样本称为大样本,样本单位数不到三十个的样本称为小样本。
一、抽样方法及抽样分布1、抽样方法(1)、概率抽样:根据已知的概率选取样本①、简单随机抽样:完全随机地抽选样本,使得每一个样本都有相同的机会(概率)被抽中。
注意:在有限总体的简单随机抽样中,由抽样是否具有可重复性,又可分为重复抽样与不重复抽样。
而且,根据抽样中是否排序,所能抽到的样本个数往往不同。
②、分层抽样:总体分成不同的“层”(类),然后在每一层内进行抽样③、整群抽样:将一组被调查者(群)作为一个抽样单位④、等距抽样:在样本框中每隔一定距离抽选一个被调查者(2)非概率抽样:不是完全按随机原则选取样本①、非随机抽样:由调查人员自由选取被调查者②、判断抽样:通过某些条件过滤来选择被调查者(3)、配额抽样:选择一群特定数目、满足特定条件的被调查者2、抽样分布一般地,样本统计量的所有可能取值及其取值概率所形成的概率分布,统计上称为抽样分布(sampling distribution)。
第五章 抽样法
抽样的作用
抽样调查能够解决全面调查无法或难以解决的问
题。
抽样调查可以补充和订正全面调查的结果。
抽样调查方法可以用于生产过程中产品质量的检
查和控制。 抽样调查方法可以用于对总体的某种假设进行检 验,以判断这种假设的真伪,决定行动的取舍。
抽样中的几个基本术语
总体(Population):调查研究的事物或现象的全体 个体(Item unit):组成总体的每个元素
一、抽样的概念、特点、作用 二、抽样中的基本术语 (一)总体和样本 (二)参数和统计量 (三)样本容量和样本个数 (四)重复抽样和不重复抽样 (五)概率抽样与非概率抽样 (六)抽样框 三、抽样误差
抽样的概念 特点
(一)概念 抽样调查是按照随机原则从全部研究对象中抽取 一部分单位进行观察,并依据获得的数据对全部研 究对象的数量特征做出具有一定可靠性的估计和判 断.达到对现象总体认识的一种方法. (二)特点 它是按照随机原则从总体中抽取样本。 它是由部分推算整体的一种方法。 它是运用概率估计的方法。 抽样误差可事先计算并加以控制。
抽样中的几个基本术语
X
i 1 N
总体均值
X
i
N
或
X F
i 1 K i
K
i
F
i 1
i
标准差
X
N i 1
i
X
2
N
或
X
K i 1
i K
X Fi
i
2
F
i 1
抽样中的几个基本术语
总体方差
2
( X i X )2
i 1
N
N
或
( X i X ) 2 Fi
统计学(李荣平)2014-5
P{t>tα(n)}= h(t;n)dt
t (n)
的数tα(n)为t(n)分布的上α分为点。 例:查表求:t0.05(8), t0.95(8)
o
t (n)
第一节 抽样分布
(三)F 分布
设 U ~ 2(n1 ),V ~ 2(n2 ), 且设 U,V 独立,则称随机变量
F U / n1 V / n2
保证质量,规定σ≤0.6mm时,认为生产过程处于良好控制
状态。为此,每隔一定时间抽取20个零件作为一个样本,并
计算样本方差S2。若P{S2≥c } ≤0.01(此时σ=0.6mm),
则认为生产过程失去控制,必须停产检查,问:
(1)C为何值时,S2≥c的概率才小于或等于0.01? (2)若取得的一个样本的标准差S=0.84,生产过程是
第五章 抽样分布与参数估计
主
第一节 抽样分布
要 内
第二节 参数点估计
容
第三节 区间估计
第一节 抽样分布
一、随机样本
总体与个体:试验全部可能的观测值叫总体;试验的 每一个观测值叫个体。
样本容量与样本个数:样本中包含的单位数叫样本容 量;从一个总体中可能抽取多少个样本叫样本个数。
总体容量:总体中所包含的个体数。 有限总体和无限总体:总体容量可数的称有限总体, 不可数的称无限总体。 重置抽样(重复抽样)和无重置抽样(不重复抽样)
X
1 n
n i 1
Xi
为样本均值;称统计量
S 2
1 n1
n i1
(Xi
X )2
为 样本方差 ,称统计量 S
S2
1n
( X X ) 2 为样本标准差 ;统计量
n 1 i1 i
统计学课件05第5章抽样与参数估计
反映样本数据的集中趋势和平均水平。
样本方差
定义
样本方差是每个样本数据与样本均值差的平方和的平均值,即 $s^2 = frac{1}{n} sum_{i=1}^{n} (x_i - overline{x})^2$。
计算方法
先计算每个样本数据与样本均值的差,然后将差平方,最后求和平 均。
作用
反映样本数据的离散程度和波动情况。
样本量的确定
根据调查目的和精度要求确定样 本量:精度要求越高,需要的样
本量越大。
根据总体规模和抽样方法确定样 本量:总体规模越大,需要的样 本量越大;分层或整群抽样较简 单随机抽样需要的样本量更大。
根据调查资源确定样本量:资源 有限时,需要在满足调查目的和 精度要求的前提下,合理确定样
本量。
02 参数估计
大数定律的数学表达
设随机变量X1,X2,...,Xn是相互独立的,且具有相同的分布函数F(x),则对于任意正实数ε,有 lim(n->∞)P(|X1+X2+...+Xn/n-E(X))/ε)=0,其中E(X)是随机变量X的期望值。
大数定律的实例
在抛硬币实验中,随着实验次数的增加,正面朝上的频率将趋近于0.5。
中心极限定理
中心极限定理定义
中心极限定理是指在大量独立同分布的随机变量中,不论 这些随机变量的分布是什么,它们的平均值的分布总是趋 近于正态分布。
中心极限定理的数学表达
设随机变量X1,X2,...,Xn是相互独立的,且具有相同的分布 函数F(x),则对于任意实数x,有lim(n->∞)P(∑Xi≤x)=∫(∞->x)F(t)dt。
样本分布的性质
无偏性
如果样本统计量的数学期 望等于总体参数,则该统 计量是无偏的。
第5章抽样调查及参数估计(练习题)
第五章抽样调查及参数估计5.1 抽样与抽样分布5.2 参数估计的基本方法5.3 总体均值的区间估计5.4 总体比例的区间估计5.5 样本容量的确定一、简答题1.什么是抽样推断?用样本指标估计总体指标应该满足哪三个标准才能被认为是优良的估计?2.什么是抽样误差,影响抽样误差的主要因素有哪些?3.简述概率抽样的五种方式二、填空题1.抽样推断是在随机抽样的基础上,利用样本资料计算样本指标,并据以推算总体数量特征的一种统计分析方法。
2.从全部总体单位中随机抽选样本单位的方法有两种,即重复抽样和不重复抽样。
3.常用的抽样组织形式有简单随机抽样、类型抽样、等距抽样、整群抽样等四种。
4.影响抽样误差大小的因素有总体各单位标志值的差异程度、抽样单位数的多少、抽样方法和抽样调查的组织形式。
5.总体参数区间估计必须具备估计值、概率保证程度或概率度、抽样极限误差等三个要素。
6.从总体单位数为N的总体中抽取容量为n的样本,在重复抽样和不重复抽样条件下,可能的样本个数分别是______________和_____________。
7.简单随机_抽样是最基本的抽样组织方式,也是其他复杂抽样设计的基础。
8.影响样本容量的主要因素包括总体各单位标志变异程度_、__允许的极限误差Δ的大小、_抽样方法_、抽样方式、抽样推断的可靠程度F(t)的大小等。
三、选择题1.抽样调查需要遵守的基本原则是( B )。
A.准确性原则 B.随机性原则 C.代表性原则 D.可靠性原则2.抽样调查的主要目的是( A )。
A.用样本指标推断总体指标 B.用总体指标推断样本指标C.弥补普查资料的不足 D.节约经费开支3.抽样平均误差反映了样本指标与总体指标之间的( B )。
A.实际误差 B.实际误差的平均数C.可能的误差范围 D.实际的误差范围4.对某种连续生产的产品进行质量检验,要求每隔一小时抽出10分钟的产品进行检验,这种抽查方式是( D )。
A.简单随机抽样 B.类型抽样 C.等距抽样 D.整群抽样5.在其他情况一定的情况下,样本单位数与抽样误差之间的关系是( B )。
医药统计学 第五章 抽样分布
3、总体参数(parameter): 总体X 的数字特征即总体的特征 指标。
eg: 、 。
(三)样本(sample):数理统计方法实质上是由局部来推 断整体,即通过一些个体的特征来推断总体的特征。 eg:观察某显像管厂所有显像管的平均寿命。
1、抽样研究(sampling):在实际工作中,所要研究的总 体无论是有限的还是无限的,通常都是采用抽样研究。
抽样:依照一定的规则从总体X 中抽取n个个体,然后对这
些个体进行测试或观察得到一组数据
。
目的:抽样研究的目的是用样本信息推断总体特征。
eg:
从上例的有限总体(浙江省2006年7岁健康男孩)中,按照随机化
原则抽取100名7岁健康男孩,他们的身高值
即为样本。因
此,从总体中抽取样本的过程为抽样,抽样方法有多种。
第四章 抽样分布
数理统计基本概念 抽样分布
学习目的和要求
掌握总体、样本、统计量、标准误等数理统计的基本概
念;查表求 2 分布、t 分布、F分布的临界值及其定理;
熟悉 X 的分布、 2分布、t 分布、F分布定义、性质和应
用。
数理统计的基本任务:
实验或 调查
以概率论为理论基础,通过样本提供的信息,对总 体的统计规律和特征进行估计与推断,其实用性较强。
1、 2分布(chi-square distribution):是指数分布的改进,
尤其当n较大时, 2分布可全面反映随机变量的分布。
eg: 寿命、保险等资料。
定义:设随机变量
为相互独立且服从标准
正态分布N(0,1),则称随机变量
2= X12 + X22 +X32 + … + … +Xn2
第五抽样分布与参数估计第一第二
类型组的样本单位数。
3、等距抽样(系统抽样、机械抽 样)
概念:将总体各单位标志值按某一标志顺序排
队,然而按一定的间隔抽取样本单位。
排队的方法:①按无关标志 ②按有关标志
抽取样本单位的方法
◦ ①按相等的距离取样 ②对称等距取样
抽取第一个样本单位的方法
◦ ①随机抽取
②居中抽取
4、整群抽样
概念:把总体分为若干群,从总体群中抽取若干样 本群,对抽中的群进行全数登记调查。 如:某水泥厂一昼夜的产量为14400袋,现每隔 144分钟抽取1分钟的水泥(10袋)检查平均每袋 重量和一级品率
例子
根据古典概率定义可算出,抛一枚质地均匀的硬币, 出现正面与出现反面的概率都是0.5。历史上有很
多人都曾经做过抛硬币试验。
试验者
试验次数
正面出现的频率
蒲丰
4040
0.5069
K.皮尔逊
12000
0.5016
K.皮尔逊
24000
0.5005
罗曼诺夫斯基
80640
0.4979
第二节
抽样分布
一、三种分布含义
第五抽样分布与参数估计第一第二
第一节
抽样的基本概念
(二)样本容量与样本个数
1.样本容量
◦ 是一个样本中所包含的单位数。
2.样本个数
◦ 即样本可能数目。是指从一个总体中可能抽取多少个样本。 与抽样方法有关。
(三)抽样方法
1、重复抽样
◦ 从总体的N 个单位中要随机抽取一个容量为n的样本,每次 从总体中抽出一个单位后,经过调查又把它放回到总体中, 重新再参加下一次抽选。
类型组,然后从各类型组中采用简单随机抽样方式或 其它方式抽取样本单位。
第五章参数估计和假设检验PPT课件
抽样
X ~ N(, 2)
n,S2
则 (n 1)S 2 / 2 ~ 2 (n 1)
当 n 30, 2分布趋近于正态分布
若X ~ x2 (n 1) 则 Z 2 2 2(n 1)
两个样本方差之比的抽样分布
从两个正态总体中分别独立抽样所得到的两个样本方 差之比的抽样分布。
抽样
X1
~
N
(
1
,
2 1
极大似然估计是根据样本的似然函数对总体参数进行 估计的一种方法 。
其实质就是根据样本观测值发生的可能性达到最大这 一原则来选取未知参数的估计量θ,其理论依据就是 概率最大的事件最可能出现。
区间估计
估计未知参数所在的可能的区间。 P(ˆL<<ˆU ) 1
评价准则
一般形式
置信度 精确度
(ˆ △)<<(ˆ △) 或 ˆ △
2
2
2
n
Z
2
2
Pq
△
2 pˆ
Z
2
PqN
n
2
N
△
2 pˆ
Z
2
Pq
2
假设检验
基本思想 检验规则 检验步骤 常见的假设检验 方差分析
基本思想
•小概率原理:如果对总体的某种假设是真实的,那么不利于 或不能支持这一假设的事件A(小概率事件) 在一次试验中几乎不可能发生的;要是在一次 试验中A竟然发生了,就有理由怀疑该假设的 真实性,拒绝这一假设。
参数的区间估计
待估计参数
已知条件
置信区间 ˆ △
总体均值 (μ)
正态总体,σ2已知 正态总体,σ2未知
非正态总体,n≥30
X Z / n
2
第5章抽样分布与参数估计
第5章抽样分布与参数估计在统计学中,抽样分布与参数估计是重要的概念。
抽样分布是指从总体中随机抽取样本,计算样本统计量,然后将这些统计量进行分布的过程。
参数估计是通过样本数据对总体参数进行估计的方法。
首先,我们来了解抽样分布。
在统计学中,我们通常很难直接获得总体数据,因为总体数据往往很大,难以收集。
因此,我们采用抽样的方式来获取样本数据,并通过样本数据来推断总体特征。
抽样分布是指在重复抽取样本的过程中得到的统计量的分布。
抽样分布的中心趋于总体参数,而抽样分布的形状可以通过中心极限定理进行描述。
中心极限定理认为,当样本数量足够大时,样本均值的抽样分布近似服从正态分布,且均值等于总体均值。
这对于统计推断和参数估计具有重要意义。
其次,我们来了解参数估计的概念及其方法。
参数估计是指根据样本数据对总体参数进行估计的统计方法。
常见的参数包括总体均值、总体方差等。
参数估计可以分为点估计和区间估计两种方法。
点估计是指通过样本数据计算得到的单个数值来估计总体参数。
常用的点估计方法包括最大似然估计和矩估计。
最大似然估计是基于样本的观测值选择使得观测值出现的概率最大的参数值作为估计值的方法。
矩估计是通过样本矩与总体矩的对应关系来估计总体参数的方法。
区间估计是指对总体参数给出一个区间估计值,该区间包含了真实参数值的概率。
常用的区间估计方法包括置信区间估计和预测区间估计。
置信区间估计是通过样本数据计算得到的一个区间,可以包含真实参数值的概率。
置信区间的置信水平是指在多次重复抽样中,这个区间包含了真实参数值的概率。
预测区间估计是在给定自变量取值的情况下,通过样本数据对应的因变量的取值的一个区间估计。
总之,抽样分布与参数估计是统计学中重要的概念和方法。
通过抽样分布可以了解样本统计量的分布情况,而参数估计可以通过样本数据对总体参数进行估计。
这些概念和方法对于数据分析和决策具有重要的实际应用价值。
抽样分布与参数估计
2 x
(5.7)
(5.8)
x
n
(5.9)
【例 5-3】计算例 5-2 中 10 名推销员平均的任职年限 及其标准差, 并与例 5-2 求得的样本平均数的期望值与方差 作比较。 解: (1 2+3+4+5+6+7+8+9+10)/10=5.5
2
正态分布时,所需的样本容量 n 可以较小,反之则需 要较大的样本容量。通常将样本单位数不少于 30 的 称为大样本。
二、样本比例的抽样分布
(一)样本比例的期望值与方差
设随机变量 X 服从二点分布,其总体平均数为 , 又
称为总体比例,总体方差 2 ( ) ( 1 ) 。现对其进行 n 次独立重复观测,得到下列样本:(X1,X 2,…,X n),其中, 观测结果为“成功”的次数是 N1。 我们把样本中“成功”的次数所占比例定义作样本比例 P。
一、样本平均数的抽样分布
(一)样本平均数的期望值与方差
在放回抽样的情形下,设从总体中抽出的 样本为 x1 , x 2 , , x n ,其是相互独立的,并且 为 ,则可推导出样本平均数的期望值与方
2
与总体服从同一分布。设总体均值为 ,方差 差、标准差分别为:
X1 + X 2 + + X n E( X ) E( ) n 1 E ( X 1 ) E ( X 2 ) E ( X n ) n
0.45 0.40 0.35 0.30 0.25 0.20 0.15 0.10
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(四)放回抽样与不放回抽样
1.放回抽样。放回抽样的具体做法是:从总体中抽 出一个样本单位,记录其标志值后,又将其放回总 体中继续参加下一轮单位的抽取。放回抽样的特点 是:第一,n个单位的样本是由n次试验的结果构成 的。第二,每次试验是独立的,即其试验的结果与 前次、后次的结果无关。第三,每次试验是在相同 条件下进行的,每个单位在多次试验中选中的机会 (概率)是相同的。在放回抽样中,样本可能的个数 是Nn,N为总体单位数,n为样本容量。
抽样分布可能是精确地服从某种已知分布(所谓已 知分布,例如我们在第四章介绍过的各种常见分 布),也可能是以某种已知分布为极限分布。在实 际应用中,后者更为多见。
例5-2
对某公司 10 名推销员用放回抽样方式抽取容量为 n=2
的样本(y1,y2),构造统计量 Y
n
( i1
yi
)
/
n
。10
名推
销员任职年限如表 5-2。
P(X )
1.0
1
0.01
1.5
2
0.02
2.0
3
0.03
2.5
4
0.04
3.0
5
0.05
3.5
6
0.06
4.0
7
0.07
4.5
8
0.08
5.0
9
0.09
5.5
10
0.10
6.0
9
0.09
6.5
8
0.08
7.0
7
0.07
7.5
6
0.06
8.0
5
0.05
8.5
4
0.04
9.0
3
0.03
9.5
2
0.02
N 1
N
的修正系数。由于该系数在0,1之间,因此,不放 回抽样的标准差比放回抽样小。当N远大于n时,修 正系数近似1,修正与否对平均误差几乎没有影响, 这时可以不考虑抽样方式差异,都按放回抽样处理。
(二)样本平均数的分布规律
当总体 X 服从正态分布时,根据正态分布的再生定
理,样本平均数服从正态分布,即
被6 抽
6,1 (3.5)
6,2 (4)
6,3 (4.5)
6,4 (5)
6,5 (5.5)
6,6 (6)
6,7 (6.5)
6,8 (7)
6,9 6,10 (7.5) (8)
中7 的 人8 员
9
7,1 (4) 8,1 (4.5) 9,1 (5)
7,2 (4.5) 8,2 (5) 9,2 (5.5)
7,3 (5) 8,3 (5.5) 9,3 (6)
表5-3 10人中有放回抽二人的全部可能样本
第二次抽取可能被抽中的人员
1
2
3
4
5
6
7
8
9
10
1
1,1 (1)
1,2 (1.5)
1,3 (2)
1,4 (2.5)
1,5 (3)
1,6 (3.5)
1,7 (4)
1,8 (4.5)
1,9 (5)
1,10 (5.5)
2 第
2,1 (1.5)
2,2 (2)
2,3 (2.5)
解:显然,(1)和(2)的抽取行为都不是随机试 验。因而不属于概率抽样。只有(3)的抽取行为 是随机试验。总体的分布可用表5-1的分布列来描述, 而(3)的随机试验中所观测的随机变量也有与表51有相同的分布。所以,(3)的抽取行为是概率抽 样。
表5-1 10个球号码的分布
号码 1 2 3 4 5 6 7 8 9 10
样本是从总体中抽出的部分单位的集合,这个集合 的大小称为样本容量,一般用n表示,它表明一个 样本中所包含的单位数。
一般地,样本单位数大于30个的样本称为大样本, 不超过30个的样本称为小样本。 2.样本个数。样本个数又称样本可能数目,它是指 从一个总体中可能抽取多少个样本。
(二)总体参数与样本统计量 1.总体参数
个总体抽取容量为 n 的样本,则当 n 趋于无穷大时,
样本平均数 X 近似服从正态分布,其平均数 E( X ) 仍
为 ,其标准差为 。 X
中心极限定理告诉我们无论总体服从何种分布,只要 它的平均数与标准差客观存在,我们就可以通过增大
样本容量 n 的方式,保证样本平均数 X 近似服从正 态分布。样本容量 n 越大,样本平均数的分布就越接 近正态分布。
10.0
1
0.01
合计
100
1.00
利用表5-4的资料,可以计算出样本平均数的期望值 与方差 。
E( X ) XP( X ) 5.50 V ( X ) E( X 2 ) [E( X )]2 X 2P( X ) [ XP( X )]2
34.375 (5.5)2 4.125
x V (X ) 4.125 2.0310
4,2 (3)
4,3 (3.5)
4,4 (4)
4,5 (4.5)
4,6 (5)
4,7 (5.5)
பைடு நூலகம்
4,8 (6)
4,9 4,10 (6.5) (7)
可5 能
5,1 (3)
5,2 (3.5)
5,3 (4)
5,4 (4.5)
5,5 (5)
5,6 (5.5)
5,7 (6)
5,8 (6.5)
5,9 (7)
5,10 (7.5)
X
~
N
(
,
2 X
)。
当总体不服从正态分布时,根据中心极限定理,只要
样本容量 n 足够大,样本平均数 X 仍近似地服从正
态分布
N
(
,
2 X
)
。
一般来说,当总体分布接近正态
分布时,所需的样本容量 n 可以较小,反之则需要较
大的样本容量。通常将样本单位数不少于 30 的称为
大样本。
例5-4
160件电子元器件重量的均值为5.02克,标准差为 0.30克,从中采用不放回方式随机抽取64件,试求: (1)样本平均数的期望值与方差;(2)总重量在 4.96克与5.00克之间的概率。
等的。如果考虑顺序,其样本可能个数为 N! ; (N n)!
如果不考虑顺序,其样本可能个数为 N! 。 (N n)!n!
(五)抽样分布
从总体中可以随机地抽取许多样本,由每一个样本 都可以计算样本统计量的观测值,所有可能的样本 观测值及其所对应的概率便是所谓的抽样分布。因 此,抽样分布也可以称为样本统计量的概率分布。
E(Xn)
2 x
D(
X1
X2
n
Xn
)
1 n2
D( X1 )
D( X 2 )
D(
X
n
)
2
n
x
n
例5-3
计算例5-2中10名推销员平均的任职年限及其标准差, 并与例5-2求得的样本平均数的期望值与方差作比较。
解: = (1+2+3+4+5+6+7+8+9+10)/10=5.5
(1 5.5)2 (2 5.5)2 (10 5.5)2 /10 2.87228
解:
(1)E( X ) 5.02克
x
2
n
N N
n 1
0.3 64
(160-64) 0.02914克 (160-1)
(2)该问题可化为求样本平均数的观测值在4.96 克——5.0克之间的概率。因为 X ~ N(5.02,0.32) ,所 以,可先将其进行标准变换,并利用上一章介绍的 标准正态分布求解概率。即有:
二、大数定理与中心极限定理
(一)大数定理 独立同分布的随机变量 X1,X2,…,Xn,…,并且有
数 学 期 望 EXi 及 方 差 V Xi 2 ,
(i=1,2,…)。则对任意的正数 ε,有:
lim
n
p
1 n
n
Xi
i 1
1
大数定理表明:尽管个别现象受偶然因素影响,有
各自不同的表现。但是,对总体的大量观察后进行
从正态分布的再生定理可以看出,只要总体变量服 从正态分布,则从中抽取的样本,不管n是多少, 样本平均数都服从正态分布。但是在客观实际中, 总体并非都是正态分布。对于从非正态分布的总体 中抽取的样本平均数的分布问题,需要由中心极限 定理来解决。
(三)中心极限定理
1. 样本平均数的中心极限定理 如果变量 X 的分布具有期望值 和标准差 ,从这
2. 样本比例的中心极限定理
从任一总体比例为 、方差为 (1 ) 的(0,1) 分布总体中,抽取容量为 n 的样本,其样本比例 P
的分布会随着 n 的增大而趋近于平均数为 ,标
准差为 p 的正态分布。
第二节 抽样分布
一 样本平均数的抽样分布 二 样本比率的抽样分布
一、样本平均数的抽样分布
2.不放回抽样。每次从总体抽取一个单位,记录其 标志值后不放回原总体,不参加下一轮抽样。下一 次继续从总体中余下的单位中抽取。 特点是:第一,n 个单位的样本由 n 次试验结果构 成,但由于每次抽出不放回,所以实质上相当于从 总体中同时抽取 n 个样本单位。第二,每次试验结 果不是独立的,上次中选情况影响下次抽选结果。 第三,每个单位在多次(轮)试验中中选的机会是不
(一)样本平均数的期望值与方差 在放回抽样的情形下,设从总体中抽出的样本为
x1 , x2 ,, xn ,其是相互独立的,并且与总体服从
同一分布。设总体均值为 ,方差为 2 ,则可推
导出样本平均数的期望值与方差、标准差分别为: