第4章 抽样与参数估计
抽样分布与参数估计
抽样分布与参数估计首先,我们来了解什么是抽样分布。
在统计学中,抽样分布是指从总体中多次抽样得到的样本统计量的分布。
假设我们的总体是指所有感兴趣的个体的集合,而样本是从总体中选取的一部分个体。
抽样分布的形状和性质取决于总体的分布和样本的大小。
通过分析抽样分布,可以得到有关总体参数的有用信息。
例如,我们想要知道一些城市成年人的平均年收入。
在实际情况下,我们无法调查每个人的收入情况,因此我们需要从总体中随机抽取一部分个体作为样本,并计算他们的平均年收入。
如果我们多次从总体中抽取样本并计算平均年收入,然后绘制这些平均值的分布图,我们就可以得到平均年收入的抽样分布。
这个抽样分布将给我们提供有关总体平均年收入的估计和推断。
接下来,我们将讨论参数估计。
参数估计是指使用样本数据来估计总体参数的过程。
总体参数是用于描述总体特征的数值,如总体平均值、总体标准差等。
通过从总体中抽取样本,并计算样本统计量,我们可以利用样本统计量来估计总体参数。
常用的参数估计方法有点估计和区间估计。
点估计是指用单个数值来估计总体参数,例如用样本均值来估计总体均值。
点估计给出了一个单一的值,但不能提供关于估计的精度的信息。
因此,我们常常使用区间估计。
区间估计是指给出一个区间,这个区间内有一定的置信水平使得总体参数落在这个区间内的概率最高。
区间估计能够向我们提供关于估计的精确程度的信息。
区间估计依赖于抽样分布的性质。
中心极限定理是制定抽样分布理论的一个重要原则。
根据中心极限定理,当样本容量足够大时,样本均值的抽样分布将近似于正态分布。
这使得我们可以使用正态分布的性质来计算置信区间。
构建置信区间的一种常用方法是使用样本均值的标准误差。
标准误差是样本均值的标准差,它用来衡量样本均值和总体均值之间的误差。
根据正态分布的性质,当样本容量足够大时,样本均值与总体均值之间的误差可以用标准误差来估计。
通过计算标准误差并结合正态分布的性质,我们可以得到样本均值的置信区间。
第4章抽样分布与参数估计习题
第四章抽样分布与参数估计思考与练习一、单项选择题1.抽样平均误差与极限误差间的关系是( d )。
a. 抽样平均误差大于极限误差b. 抽样平均误差等于极限误差c. 抽样平均误差小于极限误差d. 抽样平均误差可能大于、等于或小于极限误差2.在其它条件不变的情况下,如果允许误差缩小为原来的二分之一,则样本容量( a )。
a. 扩大为原来的4倍b. 扩大为原来的2倍c. 缩小为原来的二分之一d. 缩小为原来的四分之一3.类型抽样影响抽样平均误差的方差是( b )。
a. 组间方差b. 组内方差c. 总方差d. 允许误差4.当样本单位数充分大时,样本估计量充分地靠近总体指标的可能性趋于1,称为抽样估计的( b )。
a.无偏性b.一致性c.有效性d.充分性二、多项选择题1.影响抽样平均误差的因素有( a b c d )。
a.总体标志变异程度b.样本容量c.抽样方式d.抽样的组织形式e.样本指标值的大小2.抽样估计的抽样平均误差(a c e)。
a.是不可避免要产生的b.是可以通过改进调查方法消除的c.是可以事先计算的d.只有调查结束之后才能计算e.其大小是可以控制的3.确定样本容量时,可用以下方法取得近似的总体方差估计值(a b c )。
a.参考以往调查的经验资料b.以试点调查的样本方差来估计c.在做成数估计时,用成数方差最大值0.25来代替d.假定总体不存在标志变异,方差为零三、计算题1.某市居民家庭人均年收入是服从μ=4 000元,σ=1 200元的正态分布,求该市居民家庭人均年收入:(1)在5 000~7 000元之间的概率;(2)超过8 000元的概率。
解:(1)1200,4000==σμ。
{}()()0.197055935.020325.09876.00062.08333.02}8333.0{1}5.2{2}5.2{1}8333.0{}5.2{}5.28333.0{}70005000{}70005000{=+-+=⎪⎪⎭⎫ ⎝⎛<+<--⎪⎪⎭⎫ ⎝⎛<+<-=<-<=<<=-<=-<-=<<z prob z prob z prob z prob z prob z prob z prob z x prob x prob σμσμσμ (2) {}{}{}00035.0333.32333.311333.31}333.3{}8000{}8000{=⎥⎥⎦⎤⎢⎢⎣⎡<+<--=<-=>=->=-=>z prob z prob z prob z prob z x prob x prob σμσμ2.某小组5个工人的周工资分别为140、160、180、200、220元,现在用重复抽样的方法从中抽出2个工人的工资构成样本。
教育与心理统计学 第四章 抽样理论与参数估计考研笔记-精品
第四章抽样理论与参数估计第一节抽样理论的基本知识分层抽样,又叫分层随机抽样,这种抽样方法是按照总体已有的某些特征,承认总体中已有的差异,按差异将总体分为几个不同的部分,每一部分称为一个层,在每一个层中实行简单随机抽样。
它充分利用了总体的已知信息,因而是一种非常适用的抽样方法,其样本代表性及推论的精确性一般优于简单随机抽样。
分层的原则是层与层之间的变异越大越好,各层内的变异要小。
试述分层抽样的原则和方法?分层抽样是按照总体上已有的某些特征,将总体分成几个不同部分,在分别在每一部分中随机抽样。
分层的总的原则是:各层内的变异要小,而层与层之间的变异越大越好。
在具体操作中,没有一成不变的标准,研究人员可根据研究需要依照多个分层标准,视具体情况而定。
⑷两阶段随机抽样两阶段随机抽样首先将总体分成M个部分,每一部分叫做一个"集团"(或"群"),第一步从M个集团中随机抽取m个"集团”作为第一阶段样本,第二步是分别从所选取的m个"集团”中抽取个体(g构成第二阶段样本。
一般而言,两阶段抽样相对于简单随机抽样,标准误要大些,但是,两阶段抽样简便易行,节省经草贼,因而它是大规模调查研究中常被使用的抽样方法。
例如,如果我们要了解全国城市初中二年级学生的身高,第一步我们可以从全国几百个城市中随机抽取几十个城市作为第一阶段的样本。
第二步,在第一阶段随机抽取出来的城市中再随机抽取初中二年级的学生。
(二)非旃抽样非概率抽样不是完全按随机原则选取样本,有方便抽样、判断抽样。
方便抽样是由调查人员自由、方便地选择被调查者的非随机选样。
判断抽样是通过某些条件过滤,然后选择某些被调查者参与调查的抽样法。
当采取非概率抽样的方法选取样本时,研究者要说明采用此种方取样的原因以及对研究结果可能造成的影响。
第二节抽样分布[统计量分布、基本随机变量函数的分布]总体:又称母全体、全域,指具有某种特征的一类事物的全体。
第四章 参数估计
x
n
总体标准差,若 未知,可用样本
标准差代替
36
总体均值的置信区间引例
(2 未知)
例:某商场从一批袋装食品中随机抽取10袋,测得 每袋重量(单位:克)分别为789,780,794, 762,802,813,770,785,810,806,要 求以95%的把握程度,估计这批食品的平均每袋 重量的区间范围。假定食品重量服从正态分布。
0.95,Z/2=1.96
x Z 2
n
,
x
Z
2
n
26 1.96 6 ,26 1.96 6
100
100
24.824,27.176
我们可以95%的概率保证平均每天 参加锻炼的时间在24.824~ 27.176 分钟之间。
一般置信水平
一般使用的置信水平是:90%, 95%, 99%
Confidence Level
▪ 总体服从正态分布,且总体方差(2)已知 ▪ 如果不是正态分布,可以由正态分布来近似 (n 30)
2. 使用正态分布统计量Z
Z
x s
m ~ N (0,1)
n
3. 总体均值 在1-置信水平下的置信区间为
s
s
x
Za 2
,x n
Za 2 n
总体均值的置信区间
(2 已知)
抽样极限误差:
s x Za 2 n
❖ 定理1
当总体 X ~ N ( m , s 2 ) 时,抽自该总体
的简单随机样本 x1 , x 2 , , x n 的样本平均数
服从数学期望为 ,方差为 s2的正态分布,
n
即 x ~ N (m, s2 ) 。
n
Z x ~ N (0,1) n
抽样与参数估计
第四章抽样与参数估计推断统计:利用样本统计量对总体某些性质或数量特征进行推断。
从数据得到对现实世界的结论的过程就叫做统计推断(statistical inference)。
这个调查例子是估计总体参数(某种意见的比例)的一个过程。
估计(estimation) 是统计推断的重要内容之一。
统计推断的另一个主要内容是本章第二节要介绍的假设检验(hypothesis testing) 。
因此本节内容就是由样本数据对总体参数进行估计,即:学习目标:了解抽样和抽样分布的基本概念理解抽样分布与总体分布的关系了解点估计的概念和估计量的优良标准掌握总体均值、总体比例和总体方差的区间估计第一节抽样与抽样分布回顾相关概念:总体、个体和样本抽样推断:从所研究的总体全部元素(单位)中抽取一部分元素(单位)进行调查,并根据样本数据所提供的信息来推断总体的数量特征。
总体(Population):调查研究的事物或现象的全体参数个体(Item unit):组成总体的每个元素样本(Sample):从总体中所抽取的部分个体统计量样本容量(Sample size):样本中所含个体的数量一般将样本单位数不少于三十个的样本称为大样本,样本单位数不到三十个的样本称为小样本。
一、抽样方法及抽样分布1、抽样方法(1)、概率抽样:根据已知的概率选取样本①、简单随机抽样:完全随机地抽选样本,使得每一个样本都有相同的机会(概率)被抽中。
注意:在有限总体的简单随机抽样中,由抽样是否具有可重复性,又可分为重复抽样与不重复抽样。
而且,根据抽样中是否排序,所能抽到的样本个数往往不同。
②、分层抽样:总体分成不同的“层”(类),然后在每一层内进行抽样③、整群抽样:将一组被调查者(群)作为一个抽样单位④、等距抽样:在样本框中每隔一定距离抽选一个被调查者(2)非概率抽样:不是完全按随机原则选取样本①、非随机抽样:由调查人员自由选取被调查者②、判断抽样:通过某些条件过滤来选择被调查者(3)、配额抽样:选择一群特定数目、满足特定条件的被调查者2、抽样分布一般地,样本统计量的所有可能取值及其取值概率所形成的概率分布,统计上称为抽样分布(sampling distribution)。
(04)第4章 参数估计
(2)99%的置信区间是多少?
(3)若样本容量为40,而观测的数据不变,则 95%的置信区间又是多少?
5 - 31
统计学
STATISTICS
总体均值的区间估计
(例题分析)
12, s 4.1
解:(1)已知n=15, 1- = 95%, =0.05 ,x
统计学
STATISTICS
总体均值的区间估计
统计学
STATISTICS
大样本的估计方法
不论总体是不是服从正态分布,在大样本 (n 30)时,样本均值均服从正态分布。 若已知 2 x
x ~ N ( ,
总体均值 在1- 置信水平下的置信区间为
n
)
z
n
~ N (0,1)
z 2
有效性:对同一总体参数的两个无偏点估计量, 有更小标准差的估计量更有效
ˆ P( )
ˆ1 的抽样分布
B A
ˆ2 的抽样分布
ˆ
5 - 11
ˆ ˆ1 是比 2 更有效,是一个更好的估计量
统计学
STATISTICS
有效性
(efficiency)
x1 x2 x3 样本均值 x 3 x1 2 x2 3x3 和 x1 6
统计学
STATISTICS
第 4 章 参数估计
4.1 参数估计的基本原理 4.2 一个总体参数的区间估计 4.4 样本容量的确定
5-1
统计学
STATISTICS
4.1 参数估计的一般问题
4.1.1 估计量与估计值 4.1.2 点估计与区间估计 4.1.3 评价估计量的标准
第四章 抽样
• 3.设计抽样方案 • 4.制定抽样框
– 制定抽样框就是依据已经明确界定的总体范围,收集总体中全部抽样单位 的名单,并统一编号。
• 5.实际抽取样本 • 6.样本评估
– 样本评估就是对样本的质量和代表性进行检验,其目的是防止因样本的偏 差过大而导致的失误。
– 实际抽取样本就是在上述几个步骤的基础上,严格按照所选定的抽样方法, 从抽样框中抽取一个个的抽样单位,构成样本。
运用:
• 从侨光分校的7000位学生中,抽取100位学 生进行调查查,以研究学生对学校教学条 件的满意度。之前所做的普查表现出的对 学校教学条件的平均满意度为85%,现通 过抽查统计后的满意度为80%。 • 请说出本次抽查中的总体、样本、抽样元 素、抽样单位、抽样框、参数值、统计值、 抽样误差。
二、抽样的作用
• 分类抽样有着突出的优点: 第一,分类抽样能够克服简单随机抽样的缺 点,适用于总体内个体数目较多,结构较复杂, 内部差异较大的情况。 第二,精确度较高。 第三,便于对不同层面的问题进行探索。 第四,便于分工,使工作效率提高。 分类抽样的缺点是,如何分类通常由人们主 观判定,因此要求调查者具备较高的素质与能力, 并且必须事先对总体各单位的情况有较多的了解, 而它们在实际工作中有时难以完全实现,这就会 影响分类的科学性和精确性。
三、抽样的类型
• 概率抽样 • 非概率抽样
– 根据抽取对象的具体方式,人们把抽样分为许多不同 的类型。总的来说,各种抽样都可以归为概率抽样与 非概率抽样两大类。这是两种有着本质区别的抽样类 型。概率抽样是依据概率论的基本原理,按照随机原 则进行的抽样,因而它能够避免抽样过程中的人为误 差,保证样本的代表性;而非概率抽样则主要是依据 研究者的主观意愿、判断或是否方便等因素来抽取对 象,它不考虑抽样中的等概率原则,因而往往产生较 大的误差,难以保证样本的代表性。 概率抽样与非概率抽样又各自包括了许多具体类 型。分别适用于不同调查对象。联系实际认识概率抽 样的不同类型及其适用性是掌握抽样方法的关键。
第四章 抽样
(1)概率抽样:简单随机抽样、系统抽样、 分层抽样、整群抽样、多段抽样、PPS抽样、 户内抽样 (2)非概率抽样:偶遇抽样、判断抽样、 定额抽样、雪球抽样
二、概率抽样的原理与程序
(一)概率抽样的基本原理 1、总体的同质性与异质性 同质性:如果某个总体中的每一个成员在所有方 面都相同,那么,我们就说这个总体具有完全的 同质性。 否则,就存在不同程度的异质性。 同质性总体不需要抽样。 社会各种总体的异质性决定了严格的概率抽样的 必要性。
(二)系统抽样
3、系统抽样优缺点: <1>优点: ①易于实施,工作量少。 ②样本在总体中分布更为均匀,抽样误差 小于或至多等于简单随机抽样。
(二)系统抽样
<2>系统抽样缺点: ①系统抽样是以总体的随机排列为前提, 如果总体的排列出现有规律分布时,会使 系统抽样产生极大误差。 ②当总体内个体类别之间的数目悬殊过大 时,样本的代表性可能较差。 <3>适用范围:系统抽样最适用于同质性较 高的总体。
人们通常采用下列几组数字
有90%的样本统计值落在u〒1.65SE(样本 平均数的标准差)之间; 有95%的样本统计值落在u〒1.96SE之间; 有98%的样本统计值落在u〒2.33SE之间; 有99%的样本统计值落在u〒2.58SE之间。 其中,百分数表示置信水平,u〒1.65SE等 表示置信区间。
随机数表抽样举例
3、简单随机抽样方法
①当总体元素较少时:常用的办法类似于 抽签,即把总体中每一个单位都编号,将 这些号码写在一张张小纸条上,然后放入 一容器如纸盒、口袋中,搅拌均匀后,从 中任意抽取,直到抽够预定的样本数目。 这样,由抽中的号码所代表的元素组成就 是一个简单随机样本。
第四章统计假设检验与参数估计.ppt
验等。尽管这些检验方法的用途及使用条件 不同,但其检验的基本原理是相同的。
参数估计有点估计(point
estimation)和区 间 估计(interval
estimation)。 2020-11-9
感谢你的观看
2
上一张 下一张 主 页 退 出
1 统计假设检验概述
了黑球,那么,自然会使人对H0的正确性产生 怀疑,从而否定H0。也就是说箱中不止1个黑 球。
2020-11-9
感谢你的观看
4
以上这几种问题的判断均是由样本去推断
总体的,属于统计假设检验问题,均是来判断 数据差异、分布差异是由处理引起,还是由于 随机误差引起的。
样本虽然来自于总体,但样本平均数并非 是总体平均数。由于抽样误差的影响(随机误 差的存在),样本平均数与总体平均数之间往 往有偏差。因此,仅由表面效应 x 0 是不能 判断它们之间是否有显著差异。其根本原因在 于 试 验 误差(或抽样误差)的不可避免性。
例3:小麦良种的千粒重x~N(33.5,1.62),现 由外地引进一高产品种,在8个小区种植,得千粒 重(g):35.6,37.6,33.4,35.1,32.7,36.8
,35.9,34.6,平均数为 x=35.2,试问新引进
的品种千粒重与当地品种有无显著差异?如果有
显著差异,是否显著高于当地品种?
曲种好于原曲种?
食醋醋酸含量的差异是由于采用新曲种引起的还是由于试验误差引起的?
2020-11-9
感谢你的观看
3
上一张 下一张 主 页 退 出
例2:A,B两种肥料,在相同条件下各施用于5 个小区的水稻上,水稻产量平均分别为
xA=500 kg,xB=520 kg ,二者相差20kg,那么 20kg差异究竟是由于两种肥料的不同而造成的 还是由试验的随机误差造成的?
04第四章 分层抽样
W S 1 =∑ h h nh N h
L
2
2
1 2 Wh S h = 2 ∑ N h
L
S N h (N h nh ) h ∑ nh h
L
2
可见,在分层抽样中,总体均值估计量的方差只与各层 内的方差有关,而同层间方差无关.而总体方差又是由 层内方差与层间方差两部分构成的.所以,估计量的方 差小于总体方差. 2,总体总和估计量的方差 有了总体均值估计量的方差,就可推导出总体总和估计 量的方差:
第 h 层的总体均值;
1 yh = nh
2 h
∑y
hi
第 h 层的样本均值; 第 h 层的总体方差;
1 Nh S = (Yhi Yh ) 2 ∑ N h 1 i =1
1 nh s = ∑ ( yhi yh ) 2 nh 1 i =1
2 h
L Nh
第 h 层的样本方差.
Y = ∑∑ y hi 为总体总量;
此时:
l L ( y ) = ∑ W 1 f h s = ∑ Wh s h 1 ∑ W s 2 V st h h h h nh nh N h h h L 2 2 2
1 = 2 N
2
s N h ( N h nh ) h ∑ nh h
L
L
2
s V (Yst ) = N V ( y st ) = ∑ N h ( N h n h ) h nh h
h
L
为各层内成数方差的平均.
(二)最优分配 1,一般情形 在分层随机抽样中,在给定的费用条件下,使估计量的方 差达到最小,或在精度要求(常用方差表示)一定条件下, 使总费用最小的各层样本量的分配称为最优分配. 在分层随机抽样中,费用函数可能是简单线性的,也可能 是其它复杂形式,这里主要考虑简单线性的费用函数:
抽样和参数估计习题及答案
抽样和参数估计习题及答案抽样和参数估计习题及答案在统计学中,抽样和参数估计是非常重要的概念和技巧。
通过抽样,我们可以从总体中选择一部分样本,并通过对这些样本的观察和分析来推断总体的特征。
参数估计则是根据样本数据来估计总体的参数值。
下面,我们将介绍一些与抽样和参数估计相关的习题,并提供相应的答案。
习题一:某公司有1000名员工,你想估计他们的平均工资。
你随机选择了50名员工,并得到了他们的工资数据。
计算这些员工的平均工资,并给出对总体平均工资的估计。
答案:根据题目所给的信息,我们可以计算这50名员工的平均工资。
然后,我们可以将这个平均工资作为总体平均工资的估计。
例如,假设这50名员工的平均工资为5000元,那么我们就可以估计总体平均工资为5000元。
习题二:一家电商公司想估计他们网站上每天的访问量。
他们在连续的7天中记录了每天的访问量,并得到了以下数据:1000, 1200, 800, 1500, 900, 1100, 1300。
计算这7天的平均访问量,并给出对总体平均访问量的估计。
答案:根据题目所给的数据,我们可以计算这7天的平均访问量。
然后,我们可以将这个平均访问量作为总体平均访问量的估计。
例如,将这7天的访问量相加得到8000,再除以7得到平均访问量约为1143。
因此,我们可以估计总体平均访问量为1143。
习题三:某城市有100个小区,你想估计这些小区的平均房价。
你随机选择了10个小区,并得到了每个小区的房价数据。
计算这10个小区的平均房价,并给出对总体平均房价的估计。
答案:根据题目所给的信息,我们可以计算这10个小区的平均房价。
然后,我们可以将这个平均房价作为总体平均房价的估计。
例如,假设这10个小区的平均房价为200万元,那么我们就可以估计总体平均房价为200万元。
习题四:一家公司想估计他们产品的市场份额。
他们随机选择了100个消费者,并调查了他们对该产品的购买意向。
其中有80个消费者表示愿意购买该产品。
统计学习题 第四章 抽样估计
第四章抽样估计一、判断题1.抽样估计的目的是用以说明总体特征。
2.抽样分布就是样本分布。
3.既定总体在当抽样方法、抽样组织形式和样本容量确定时,样本均值的分布惟一确定。
4.样本容量就是样本个数。
5.在抽样中,样本容量是越大越好。
6.抽样的目的是判断样本估计值是否处于以总体指标为中心的某规定区域范围内。
7.当估计量有偏时,人们应该弃之不用。
8.对于一个确定的抽样分布,其方差是确定的,因而抽样标准误也是确定的。
9.抽样极限误差越大,用以包含总体参数的区间就越大,估计的把握程度也就越大,因此极限误差越大越好。
10.非抽样误差会随着样本容量的扩大而下降。
二、单项选择题1.想了解学生的眼睛视力状况,准备抽取若干学校、若干班级的学生进行测试,则()。
A.观测单位是学校B.观测单位是班级C.观测单位是学生D.观测单位可以是学校、也可班级或学生2.下列误差中属于非一致性的有()。
A.估计量偏差B.偶然性误差C.抽样标准误D.非抽样误差3.抽样估计中最常用的分布理论是()。
A.t分布理论B.二项分布理论C.正态分布理论D.超几何分布理论4.抽样标准误大小与下列哪个因素无关?()A.样本容量B.抽样方式、方法C.概率保证程度D.估计量5.下列关于抽样标准误的叙述哪个是错误的?()A.抽样标准误是抽样分布的标准差B.抽样标准误的理论值是惟一的,与所抽样本无关C.抽样标准误比抽样极限误差小D.抽样标准误只能衡量抽样中的偶然性误差的大小三、计算分析题1. 某小组5个工人的每周工资分别为520、540、560、580、600元,现从中用简单随机抽样形式(不重复抽样)随机抽取2个工人周工资构成样本。
要求:(1)计算总体平均工资的标准差;(2)列出全部可能的样本平均工资;(3)计算样本平均工资的平均数,并检验其是否等于总体平均工资;(4)计算样本平均工资的标准差;(5)用抽样平均误差的公式计算并验证是否等于(4)的结果。
2.从某大型企业中随机抽取100名职工,调查他们的工资。
抽样分布与参数估计
2 x
(5.7)
(5.8)
x
n
(5.9)
【例 5-3】计算例 5-2 中 10 名推销员平均的任职年限 及其标准差, 并与例 5-2 求得的样本平均数的期望值与方差 作比较。 解: (1 2+3+4+5+6+7+8+9+10)/10=5.5
2
正态分布时,所需的样本容量 n 可以较小,反之则需 要较大的样本容量。通常将样本单位数不少于 30 的 称为大样本。
二、样本比例的抽样分布
(一)样本比例的期望值与方差
设随机变量 X 服从二点分布,其总体平均数为 , 又
称为总体比例,总体方差 2 ( ) ( 1 ) 。现对其进行 n 次独立重复观测,得到下列样本:(X1,X 2,…,X n),其中, 观测结果为“成功”的次数是 N1。 我们把样本中“成功”的次数所占比例定义作样本比例 P。
一、样本平均数的抽样分布
(一)样本平均数的期望值与方差
在放回抽样的情形下,设从总体中抽出的 样本为 x1 , x 2 , , x n ,其是相互独立的,并且 为 ,则可推导出样本平均数的期望值与方
2
与总体服从同一分布。设总体均值为 ,方差 差、标准差分别为:
X1 + X 2 + + X n E( X ) E( ) n 1 E ( X 1 ) E ( X 2 ) E ( X n ) n
0.45 0.40 0.35 0.30 0.25 0.20 0.15 0.10
统计学第4章 参数估计
无偏性
(unbiasedness)
无偏性:估计量抽样分布的数学期望等于被
估计的总体参数
抽样分布
中,样本 P(ˆ)
均值、比 率、方差
无偏
有偏
分别是总
A
B
体均值、
比率、方
差的无偏
估4计- 2量3
ˆ
统计学
STATISTICS
有效性
(efficiency)
有效性:对同一总体参数的两个无偏点估计
置信水平(1-α)表达了区间估计的可靠性。 它是区间估计的可靠概率。
显著性水平α表达了区间估计的不可靠的概 率。
4 - 20
统计学§4.2 点估计的评价标准
STATISTICS
对于同一个未知参数,不同的方法得到的估 计量可能不同,于是提出问题
应该选用哪一种估计量? 用何标准来评价一个估计量的好坏?
常用 标准
4 - 21
(1) 无偏性 (2) 有效性 (3) 一致性
统计学 定义 STATISTICS
无偏性
(unbiasedness)
若 E(ˆ)
则称 ˆ是 的无偏估计量.
定义的合理性
我们不可能要求每一次由样本得到的
估计值与真值都相等,但可以要求这些估 计值的期望与真值相等.
4 - 22
统计学
量,有更小标准差的估计量更有效
P(ˆ)
ˆ1 的抽样分布
B
无偏估计量还 必须与总体参 数的离散程度
比较小
4 - 24
A
ˆ2 的抽样分布
ˆ
统计学
有效性
STATISTICS
定义 设 ˆ1 1(X1, X 2, , X n )
统计学 第四章 参数估计
由样本数量特征得到关于总体的数量特征 统计推断(statistical 的过程就叫做统计推断 的过程就叫做统计推断 inference)。 统计推断主要包括两方面的内容一个是参 统计推断主要包括两方面的内容一个是参 数估计(parameter estimation),另一个 数估计 另一个 假设检验 。 是假设检验(hypothesis testing)。
ˆ P(θ )
无偏 有偏
A
B
θ
ˆ θ
估计量的无偏性直观意义
θ =µ
•
•
•
• •
• • • •
•
2、有效性(efficiency)
有效性:对同一总体参数的两个无偏点估计 有效性: 量,有更小标准差的估计量更有效 。
ˆ P(θ )
ˆ θ1 的抽样分布
B A
ˆ θ2 的抽样分布
θ
ˆ θ
பைடு நூலகம்
3、一致性(consistency)
置信区间与置信度
1. 用一个具体的样本 所构造的区间是一 个特定的区间, 个特定的区间,我 们无法知道这个样 本所产生的区间是 否包含总体参数的 真值 2. 我们只能是希望这 个区间是大量包含 总体参数真值的区 间中的一个, 间中的一个,但它 也可能是少数几个 不包含参数真值的 区间中的一个
均值的抽样分布
总体均值的区间估计(例题分析)
25, 95% 解 : 已 知 X ~N(µ , 102) , n=25, 1-α = 95% , zα/2=1.96。根据样本数据计算得: x =105.36 96。 总体均值µ在1-α置信水平下的置信区间为 σ 10 x ± zα 2 = 105.36 ±1.96× n 25 = 105.36 ± 3.92
统计学第四章的教材
几个直观的结论
1. 样本均值的均值(数学期望)等于总体均值(式中:M为样本 n 数目); xi 22 23 28 i 1 25 X M 16 2. 抽样误差是随样本不同而不同的随机变量。抽样误差均值 等于0; xX 0
3. 样本均值的方差等于总体方差的1/n。
3
(二)抽样估计的一般步骤 1、设计抽样方案 2、 随机抽取样本(从总体随机抽取部分单位构成样本) 3、搜集样本资料(对样本单位进行调查登记) 4、整理样本资料(审查、分组汇总、计算样本指标的
数值,即计算估计量的具体数值)
5、估计总体指标(即估计总体参数)
总体参数与样本估计量的关系——对于特定的目 的,总体是惟一的,所以参数也是惟一的;而由 于样本是随机的,所以样本估计量是随机变量。
(3)抽样方法。相同条件下,重复抽样的抽样平均误 差大比不重复抽样的抽样平均误差大。
(4)抽样组织方式。由于不同抽样组织方式有不同的 抽样误差,所以,在误差要求相同的情况下,不同抽 样组织方式所必需的抽样数目也不同。
21
不知道总体方差时如何计算
用样本方差代替计算 用过去(总体或样本)方差代替计算 用同类现象(当前 或过去、总体或样本) 方 代替计算 有若干个方差可选择时,选方差最大者 (注意:对比率,即选择最接近0.5的值所 得的方差最大)
进无偏估计量。
29
二、区间估计
(一)区间估计的原理 区间估计就是根据样本估计量以一定 可靠程度推断总体参数所在的区间范围。 特点:考虑了估计量的分布,所以它能 给出估计精度,也能说明估计结果的把握 程度(置信度)。
30
(一)总体均值的置信区间
(1)假定条件
总体服从正态分布,且总体方差(2)已知
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2015-4-20
统计学基础 (第二版)
样本均值的抽样分布 与中心极限定理
当总体服从正态分布N~(μ,σ2)时,来自该总体的所有 容量为n的样本的均值X也服从正态分布,X 的数 学期望为μ,方差为σ2/n。即X~N(μ,σ2/n)
=10
n=4 x 5 n =16 x 2.5
2. 优点:操作简便,可提高估计的精度 3. 缺点:对估计量方差的估计比较困难
4 - 11 2015-4-20
统计学基础 (第二版)
整群抽样
(cluster sampling)
1. 将总体中若干个单位合并为组(群),抽样时 直接抽取群,然后对中选群中的所有单位 全部实施调查 2. 特点
抽样时只需群的抽样框,可简化工作量 调查的地点相对集中,节省调查费用,方便 调查的实施 缺点是估计的精度较差
+1.96x
90%的样本 95% 的样本 99% 的样本
4 - 34 2015-4-20
统计学基础 (第二版)
置信水平
(confidence level)
1. 将构造置信区间的步骤重复很多次,置 信区间包含总体参数真值的次数所占的 比例,也称置信度 2. 表示为 (1 -
为是总体参数未在区间内的比例
样本均值的抽样分布
2015-4-20
4 - 18
样本均值的分布与总体分布的比较 统计学基础
(第二版)
(例题分析)
总体分布
0.3 P(x) 0.25 0.2 0.15 0.1 0.05 0 1 2 x 的取值 3 4
样本均值分布
= 2.5
σ2 =1.25
4 - 19
x 2.5
0.625
4. 结果来自容量相同的所有可能样本
5. 提供了样本统计量长远我们稳定的信息,是进 行推断的理论基础,也是抽样推断科学性的重 要依据
4 - 14 2015-4-20
统计学基础 (第二版)
样本均值的抽样分布
1. 容量相同的所有可能样本的样本均值的概 率分布
2. 一种理论概率分布 3. 进行推断总体总体均值的理论基础
一个任意分 布的总体
x
n
当样本容量足够 大时(n 30) , 样本均值的抽样 分布逐渐趋于正 态分布
x
4 - 21
X
2015-4-20
统计学基础 (第二版)
中心极限定理
(central limit theorem)
x 的分布趋 于正态分布 的过程
4 - 22
2015-4-20
i 1
N
i
N
N i 1
2.5
2
3
4
2
2 ( x ) i
N
1.25
2015-4-20
统计学基础 (第二版)
样本均值的抽样分布
(例题分析)
现从总体中抽取n=2的简单随机样本,在重复抽 样条件下,共有42=16个样本。所有样本的结果为
所有可能的n = 2 的样本(共16个)
相应的 为0.01,0.05,0.10
统计学基础 (第二版)
抽样分布与总体分布的关系
总体分布
正态分布
非正态分布
大样本 小样本
样本均值 正态分布
4 - 23
样本均值 正态分布
样本均值 非正态分布
2015-4-20
统计学基础 (第二版)
样本均值的抽样分布
(数学期望与方差)
1. 样本均值的数学期望
E( X )
2. 样本均值的方差
重复抽样
2. 总体比例可表示为
3. 样本比例可表示为
n0 P n
4 - 25
N0 N
或
N1 1 N n1 1 P n
2015-4-20
或
统计学基础 (第二版)
样本比例的抽样分布
1. 容量相同的所有可能样本的样本比例的概 率分布 2. 当样本容量很大时,样本比例的抽样分布 可用正态分布近似 3. 一种理论概率分布
2 X
2
n
2 不重复抽样 X
2 N n
n N 1
2015-4-20
4 - 24
统计学基础 (第二版)
样本比例的抽样分布
(比例—proportion)
1. 总体(或样本)中具有某种属性的单位与全部单位 总数之比
不同性别的人与全部人数之比 合格品(或不合格品) 与全部产品总数之比
= 50
X
x 50
X
总体分布
4 - 20
抽样分布
2015-4-20
统计学基础 (第二版)
中心极限定理
(central limit theorem)
中心极限定理:设从均值为,方差为 2的一个任意总 体中抽取容量为n的样本,当n充分大时,样本均值的抽 样分布近似服从均值为μ、方差为σ2/n的正态分布
4-3
2015-4-20
统计学基础 (第二版)
统计应用
一次失败的民意调查
在1936年的美国总统选举前,一份名为Literary Digest 杂志 进行了一次民意调查。调查的焦点是谁将成为下一届总统— 是 挑 战 者 , 堪 萨 斯 州 州 长 Alf Landon , 还 是 现 任 总 统 Franklin Delano Roosevelt 为了解选民意向,民意调查专家们根据电话簿和车辆登记簿 上的名单给一大批人发了简单的调查表 (电话和汽车在1936 年并不像现在那样普及,但是这些名单比较容易得到 ) 。尽 管发出的调查表大约有一千万张,但收回的比例并不高。在 收回的调查表中, Alf Landon非常受欢迎。于是该杂志预 测 Landon 将赢得选举。但事实上是Franklin Roosevelt赢 得了这次选举 调查失败的主要原因是抽样框出现了问题。在经济大萧条时 期由于电话和汽车并不普及,只是富裕阶层才会拥有,调查 有电话和汽车的人们,并不能够反映全体选民的观点
概率抽样
(probability sampling)
1. 也称随机抽样 2. 特点
按一定的概率以随机原则抽取样本
• 抽取样本时使每个单位都有一定的机会被 抽中
每个单位被抽中的概率是已知的,或是 可以计算出来的 当用样本对总体目标量进行估计时,要 考虑到每个样本单位被抽中的概率
4-8 2015-4-20
2015-4-20
4. 局限性
统计学基础 (第二版)
分层抽样
(stratified sampling)
1. 将抽样单位按某种特征或某种规则划分为 不同的层,然后从不同的层中独立、随机 地抽取样本 2. 优点
保证样本的结构与总体的结构比较相近,从 而提高估计的精度 组织实施调查方便 既可以对总体参数进行估计,也可以对各层 的目标量进行估计
4 - 15
2015-4-20
统计学基础 (第二版)
样本均值的抽样分布
(例题分析)
【例】设一个总体,含有4个元素(个体) ,即总体单位 数N=4。4 个个体分别为x1=1、x2=2、x3=3 、x4=4 。总 体的均值、方差及分布如下 总体分布
.3 .2 .1 0 1
4 - 16
均值和方差
x
比如,某班级平均分数在75~85之间,置信水平是95%
置信区间
样本统计量 (点估计)
置信下限
4 - 33
置信上限
2015-4-20
统计学基础 (第二版)
区间估计的图示
x z 2 x
- 2.58x -1.65 x
x
+1.65x +2.58x
x
-1.96 x
一个点估计量的可靠性是由它的抽样标准误差来 衡量的,这表明一个具体的点估计值无法给出估 计的可靠性的度量
2015-4-20
2. 无法给出估计值接近总体参数程度的信息
4 - 32
统计学基础 (第二版)
区间估计
(interval estimate)
1. 2.
在点估计的基础上,给出总体参数估计的一个估计 区间,该区间由样本统计量加减估计误差而得到 根据样本统计量的抽样分布能够对样本统计量与总 体参数的接近程度给出一个概率度量
16个样本的均值 (x) 第一个 观察值 1 2 3 4 第二个观察值 1 1.0 1.5 2.0 2.5 2 1.5 2.0 2.5 3.0 3 2.0 2.5 3.0 3.5 4 2.5 3.0 3.5 4.0
.2 .1 .3 P (X )
1.0 1.5 2.0 2.5 3.0 3.5 4.0 X
统计学基础 数据分析
(方法与案例)
作者 贾俊平
第 4 章 抽样与参数估计
4.1 4.2 4.3 4.4 4.5 抽样与抽样分布 参数估计的基本方法 总体均值的区间估计 总体比例的的区间估计 样本容量的确定
统计学基础 (第二版)
学习目标
抽样方法与抽样分布 估计量与估计值的概念 点估计与区间估计的区别 总体均值的区间估计方法 总体比例的区间估计方法 样本容量的确定方法
4. 推断总体总体比例的理论基础
4 - 26 2015-4-20
统计学基础 (第二版)
样本比例的抽样分布
(数学期望与方差)
1. 样本比例的数学期望
E ( P)
2. 样本比例的方差
重复抽样
2 P
(1 )
n
不重复抽样
2 P
4 - 27
(1 ) N n
n N 1
2015-4-20