第四章 抽样分布与参数估计2
抽样分布与参数估计
抽样分布与参数估计首先,我们来了解什么是抽样分布。
在统计学中,抽样分布是指从总体中多次抽样得到的样本统计量的分布。
假设我们的总体是指所有感兴趣的个体的集合,而样本是从总体中选取的一部分个体。
抽样分布的形状和性质取决于总体的分布和样本的大小。
通过分析抽样分布,可以得到有关总体参数的有用信息。
例如,我们想要知道一些城市成年人的平均年收入。
在实际情况下,我们无法调查每个人的收入情况,因此我们需要从总体中随机抽取一部分个体作为样本,并计算他们的平均年收入。
如果我们多次从总体中抽取样本并计算平均年收入,然后绘制这些平均值的分布图,我们就可以得到平均年收入的抽样分布。
这个抽样分布将给我们提供有关总体平均年收入的估计和推断。
接下来,我们将讨论参数估计。
参数估计是指使用样本数据来估计总体参数的过程。
总体参数是用于描述总体特征的数值,如总体平均值、总体标准差等。
通过从总体中抽取样本,并计算样本统计量,我们可以利用样本统计量来估计总体参数。
常用的参数估计方法有点估计和区间估计。
点估计是指用单个数值来估计总体参数,例如用样本均值来估计总体均值。
点估计给出了一个单一的值,但不能提供关于估计的精度的信息。
因此,我们常常使用区间估计。
区间估计是指给出一个区间,这个区间内有一定的置信水平使得总体参数落在这个区间内的概率最高。
区间估计能够向我们提供关于估计的精确程度的信息。
区间估计依赖于抽样分布的性质。
中心极限定理是制定抽样分布理论的一个重要原则。
根据中心极限定理,当样本容量足够大时,样本均值的抽样分布将近似于正态分布。
这使得我们可以使用正态分布的性质来计算置信区间。
构建置信区间的一种常用方法是使用样本均值的标准误差。
标准误差是样本均值的标准差,它用来衡量样本均值和总体均值之间的误差。
根据正态分布的性质,当样本容量足够大时,样本均值与总体均值之间的误差可以用标准误差来估计。
通过计算标准误差并结合正态分布的性质,我们可以得到样本均值的置信区间。
抽样分布与参数估计
三、t分布曲线下的面积分布规律
自由度为 的t分布曲线
t 分布曲线下 的整个面积为1, t 分布曲线下从a到b 的面积为t值分布 在此范围内的百分 比,即t值落在此 范围内的概率P。
双侧:由于t分布以0为中心对称,即 P(t≤- t, )= P(t≥ t, )= /2 于是有P(- t, ≤t≤ t, )=1-
sx
u X
X
t X =n-1
s X
u分布 t分布
二、t分布图形的特点
• 1. t分布是一簇曲线。 t分布有一个参数, 即自由度 ,与标准差的自由度一致。
• 2. t分布曲线以0为中心,左右对称; 越小, t变量值的离散程度越大,曲线越扁平。
• 3. t分布曲线较标准正态曲线要扁平些(高 峰低些,两尾部翘得高些), 逐渐增大, t分布曲线逐渐的逼近于标准正态曲线,若 =,则t分布曲线和标准正态曲线完全吻 合。
参数估计在统计方法中的地位
统计方法
描述统计
推断统计
点值估计
参数估计
假设检验
区间估计
一、基本概念
➢ 参数估计:用样本统计量来估计总体参数。
点值估计:不计抽样误差,直接用样本均数来 估计μ。
区间估计:根据抽样误差的规律,按一定的概 率估计总体均数的所在范围。统计上习惯用95% 或99%可信区间表示总体均数可能所在范围。
第一节 均数的抽样误差 第二节 t分布 第三节 总体均数可信区间的估计
一、抽样研究:从总体中随机抽取部分 观察单位构成样本,用样本信息去 推断总体特征的研究方法。
统计推断的过程
总体
样
样本统计量
本
例如:样本均
值、比例
二、抽样误差:在抽样研究中,因抽样造 成的样本统计量与样本统计量、样本统计 量与总体参数的差值。
第4章 抽样估计
• 解:根据题意,在重复抽样条件下,合格 率的抽样平均误差为:
p=
P(1-P)= n
0.9 0.1 50
=4.24%
在不重复抽样的条件下,合格率的抽样平均误差为:
p
P(1 P)(1 n )
n
N
0.9 0.1(1 50 )
50
5000
4.22%
答:抽取50件产品进行检验,该产品合格率的抽样平均误差 为4.22%。
• 例:2008年我国谷物平均产量为5548千克/公顷, 假如通过抽样调查得到的平均产量为5580千克/ 公顷或5534千克/公顷,则样本平均每公顷产量 与实际平均每公顷产量之间的误差分别为32千克 或−14千克。
1、抽样误差的种类
• 统计调查误差按产生的原因可以分为登记性误差和代 表性误差两大类。
• 例如在省抽县、县抽乡、乡抽村、村抽户的农产量 四阶抽样中,凡未被抽中的县、乡、村、户就不必 编制关于乡、村、户的抽样框。
4、整群抽样(Cluster sampling)
• 在二阶抽样中如果把初级抽样单元称作由次级抽样单 元组成的群,在抽中的群内不再对次级单元进行抽样 而是进行普查,那么这种抽样方法就称为整群抽样。
• 时间表抽样框:把总体的时间过程分为若干个小的时 间单位,并按时间顺序对总体单位进行抽样。如流水 线产品质量检查。
二、抽样误差及其度量
• 一般地说,抽样误差是指样本指标与被它估计未 知的总体参数(总体特征值)之差。具体地是指样 本平均数 x 与总体平均数μ的差,样本成数P与总 体成数π的差(P-π)。
2、抽样误差的度量
• 实际抽样误差:某一具体样本的样本估计值 与ˆ 总 体参数的真实值 之差( -ˆ )。
教育与心理统计学 第四章 抽样理论与参数估计考研笔记-精品
第四章抽样理论与参数估计第一节抽样理论的基本知识分层抽样,又叫分层随机抽样,这种抽样方法是按照总体已有的某些特征,承认总体中已有的差异,按差异将总体分为几个不同的部分,每一部分称为一个层,在每一个层中实行简单随机抽样。
它充分利用了总体的已知信息,因而是一种非常适用的抽样方法,其样本代表性及推论的精确性一般优于简单随机抽样。
分层的原则是层与层之间的变异越大越好,各层内的变异要小。
试述分层抽样的原则和方法?分层抽样是按照总体上已有的某些特征,将总体分成几个不同部分,在分别在每一部分中随机抽样。
分层的总的原则是:各层内的变异要小,而层与层之间的变异越大越好。
在具体操作中,没有一成不变的标准,研究人员可根据研究需要依照多个分层标准,视具体情况而定。
⑷两阶段随机抽样两阶段随机抽样首先将总体分成M个部分,每一部分叫做一个"集团"(或"群"),第一步从M个集团中随机抽取m个"集团”作为第一阶段样本,第二步是分别从所选取的m个"集团”中抽取个体(g构成第二阶段样本。
一般而言,两阶段抽样相对于简单随机抽样,标准误要大些,但是,两阶段抽样简便易行,节省经草贼,因而它是大规模调查研究中常被使用的抽样方法。
例如,如果我们要了解全国城市初中二年级学生的身高,第一步我们可以从全国几百个城市中随机抽取几十个城市作为第一阶段的样本。
第二步,在第一阶段随机抽取出来的城市中再随机抽取初中二年级的学生。
(二)非旃抽样非概率抽样不是完全按随机原则选取样本,有方便抽样、判断抽样。
方便抽样是由调查人员自由、方便地选择被调查者的非随机选样。
判断抽样是通过某些条件过滤,然后选择某些被调查者参与调查的抽样法。
当采取非概率抽样的方法选取样本时,研究者要说明采用此种方取样的原因以及对研究结果可能造成的影响。
第二节抽样分布[统计量分布、基本随机变量函数的分布]总体:又称母全体、全域,指具有某种特征的一类事物的全体。
第四章参数估计
z x ~ N(0,1)
n
• 根据式4-1可以得出总体均值 所在的1 置信水平下的置信区
间为:
x z 2
n
其中,x z 2 n 称为置信下限, x z 2
n
称为置信上限;
是事先所
确定的总体均值不包括在置信区间的概率; 1 称为置信水平。
总体均值的估计
总体方差未知且为小样本情况下估计
• 实验4-1:下面以2008年某地区20户家庭年收入数据为例进行均值估计, 20户家庭年收入的原始数据如图4.1所示,通过样本数据来估计该地区 家庭年收入的均值。
• 我们可以在EXCEL2003中“公式”选项卡中选择“插
入函数”按钮,打开如图4.2所示的“插入函数”对话
框来进行总体均值估计。
EXCEL 2003 统计应用
总体均值的估计
总体方差未知且为小样本情况下估计
• 使用函数进行总体均值估计的 步骤如下:
(1)计算样本个数
• 选择单元格D3并依次选择“公 式”|“插入函数”,打开“插 入函数”对话框;选择计数函 数COUNT,单击“确定”按钮, 打开“函数参数”对话框;在 Value1中输入数据范围 “A2:A21”如图4.3所示,单击 确定得到如图4.4所示的样本个 数。
EXCEL 2003 统计应用
参数估计概述
评价参数估计的标准
• 在参数估计时,人们可以构造很多个估计量,但不是所有的估计 量都一样优良。例如,要估计总体平均数,估计量有算术平均数、 中位数、众数等,到底用哪一个估计量更合适,就需要有评价的 标准。通常,评价估计量好坏的标准有三个:无偏性、有效性、 一致性。
第四章 参数估计
x
n
总体标准差,若 未知,可用样本
标准差代替
36
总体均值的置信区间引例
(2 未知)
例:某商场从一批袋装食品中随机抽取10袋,测得 每袋重量(单位:克)分别为789,780,794, 762,802,813,770,785,810,806,要 求以95%的把握程度,估计这批食品的平均每袋 重量的区间范围。假定食品重量服从正态分布。
0.95,Z/2=1.96
x Z 2
n
,
x
Z
2
n
26 1.96 6 ,26 1.96 6
100
100
24.824,27.176
我们可以95%的概率保证平均每天 参加锻炼的时间在24.824~ 27.176 分钟之间。
一般置信水平
一般使用的置信水平是:90%, 95%, 99%
Confidence Level
▪ 总体服从正态分布,且总体方差(2)已知 ▪ 如果不是正态分布,可以由正态分布来近似 (n 30)
2. 使用正态分布统计量Z
Z
x s
m ~ N (0,1)
n
3. 总体均值 在1-置信水平下的置信区间为
s
s
x
Za 2
,x n
Za 2 n
总体均值的置信区间
(2 已知)
抽样极限误差:
s x Za 2 n
❖ 定理1
当总体 X ~ N ( m , s 2 ) 时,抽自该总体
的简单随机样本 x1 , x 2 , , x n 的样本平均数
服从数学期望为 ,方差为 s2的正态分布,
n
即 x ~ N (m, s2 ) 。
n
Z x ~ N (0,1) n
统计学复习资料 抽样分布
5、样本容量与样本均值分布的关系
由于样本标准差与总体标准差及样本容量有关: x n 因此,样本容量增大,样本均值标准差变小,从而 使样本分布峰度变高,于是在相同区间内,概率分布线 下的面积变大,提高了样本均值落在该区间的可能性。 ▼注意: 1、所有可能的样本均值的平均数等于总体均值,而 与样本容量无关。 2、点估计往往是在总体方差已知的情况下进行的。
抽样估计方法主要用在下列两种情况: 1、对所考查的总体不可能进行全部测度; 2、从理论上说可以对所考查的总体进行全 部测度,但实践上由于人力、财力、时间等方 面的原因,无法或没有必要(不划算)进行全 部测度。 注意: ●抽样调查必须遵循随机原则。 ●抽样估计只能得到对总体特征的近似测度, 因此,抽样估计还必须同时考察所得结果的 “可能范围”与“可靠程度”。
假如抽取30名,得到样本平均数、标准差和成数是
x
n
x
1554420 30
51814 . 00
s
(x x) n 1
2
325009260
/ 29 3347 . 72
p 19 / 30 0 . 63
则,样本:抽取到的30名中层干部。 统计量:根据样本分布计算的综合指标,是样本变 量的函数。 另注意区分样本容量和样本个数: 样本容量是指一个样本所包含的单位数。 样本个数是指样本的可能数目。
.3
均值和方差
x
i 1
N
i
.2 .1 0
1 2 3 4
2.5
2
N
( xi )
2 i 1
N
1.25 N
样本均值的抽样分布
现从总体中抽取n=2的简单随机样本,在重复抽 样条件下,共有42=16个样本。所有样本的结果为
统计学概论04
(二)概率 1. 概率的定义 概率就是指随机事件发生的可能性,或称为机率, 概率就是指随机事件发生的可能性,或称为机率, 是对随机事件发生可能性的度量. 进行n次重复试 是对随机事件发生可能性的度量. 进行 次重复试 随机事件A发生的次数是 发生的次数是m次 验,随机事件 发生的次数是 次,发生的频率是 m/n,当试验的次数 很大时,如果频率在某一数值 很大时, ,当试验的次数n很大时 p附近摆动,而且随着试验次数 的不断增加,频率 附近摆动, 的不断增加, 附近摆动 而且随着试验次数n的不断增加 的摆动幅度越来越小,则称p为事件 发生的概率, 为事件A发生的概率 的摆动幅度越来越小,则称 为事件 发生的概率, 记为: 记为:P(A)=p.在古典概型场合 即基本事件发生的 .在古典概型场合, 概率都一样的场合: 概率都一样的场合 m A包含的样本点个数 A的有利场合数 = P( A) = = 样本点总数 n 样本点总数
4-8
只黑球和1只白球 例:袋中装有4只黑球和 只白球,每次从袋中随机 袋中装有 只黑球和 只白球, 地摸出1只球 并换入1只黑球 连续进行, 只球, 只黑球. 地摸出 只球,并换入 只黑球.连续进行,问第三 次摸到黑球的概率是多少? 次摸到黑球的概率是多少? 解: 记A为"第三次摸到黑球",则 为"第三次 为 第三次摸到黑球" A A 摸到白球" 先计算P( ). 摸到白球".先计算 . 由于袋中只有1只白球 如果某一次摸到了白球, 只白球, 由于袋中只有 只白球,如果某一次摸到了白球,换 入了黑球,则袋中只有黑球了.所以相当于第一, 入了黑球,则袋中只有黑球了.所以相当于第一, 第二次都是摸到黑球,第三次摸到白球. 第二次都是摸到黑球,第三次摸到白球.注意这是 一种有放回的摸球,样本点总数为53, 一种有放回的摸球,样本点总数为 ,有利场合数 是42×1.故: 2 × . 4 1 16 P( A )= 5 3 = 125 , 所以 42 1 109
第四章 抽样
(1)概率抽样:简单随机抽样、系统抽样、 分层抽样、整群抽样、多段抽样、PPS抽样、 户内抽样 (2)非概率抽样:偶遇抽样、判断抽样、 定额抽样、雪球抽样
二、概率抽样的原理与程序
(一)概率抽样的基本原理 1、总体的同质性与异质性 同质性:如果某个总体中的每一个成员在所有方 面都相同,那么,我们就说这个总体具有完全的 同质性。 否则,就存在不同程度的异质性。 同质性总体不需要抽样。 社会各种总体的异质性决定了严格的概率抽样的 必要性。
(二)系统抽样
3、系统抽样优缺点: <1>优点: ①易于实施,工作量少。 ②样本在总体中分布更为均匀,抽样误差 小于或至多等于简单随机抽样。
(二)系统抽样
<2>系统抽样缺点: ①系统抽样是以总体的随机排列为前提, 如果总体的排列出现有规律分布时,会使 系统抽样产生极大误差。 ②当总体内个体类别之间的数目悬殊过大 时,样本的代表性可能较差。 <3>适用范围:系统抽样最适用于同质性较 高的总体。
人们通常采用下列几组数字
有90%的样本统计值落在u〒1.65SE(样本 平均数的标准差)之间; 有95%的样本统计值落在u〒1.96SE之间; 有98%的样本统计值落在u〒2.33SE之间; 有99%的样本统计值落在u〒2.58SE之间。 其中,百分数表示置信水平,u〒1.65SE等 表示置信区间。
随机数表抽样举例
3、简单随机抽样方法
①当总体元素较少时:常用的办法类似于 抽签,即把总体中每一个单位都编号,将 这些号码写在一张张小纸条上,然后放入 一容器如纸盒、口袋中,搅拌均匀后,从 中任意抽取,直到抽够预定的样本数目。 这样,由抽中的号码所代表的元素组成就 是一个简单随机样本。
西南大学 统计学课后答案
第四章 抽样分布与参数估计3.某地区粮食播种面积5000亩,按不重复抽样方法随机抽取了100亩进行实测,调查结果,平均亩产450公斤,亩产量标准差为52公斤。
试以95%的置信度估计该地区粮食平均亩产量和总产量的置信区间。
解:已知X =450公斤,n =100(大样本),n/N=1/50,11≈-Nn,不考虑抽样方式的影响,用重复抽样计算。
s =52公斤,1-α=95%,α=5%。
这时查标准正态分布表,可得临界值:96.1025.02/==z z α该地区粮食平均亩产量的置信区间是:1005296.14502⨯±=±nsz x α=[439.808,460.192] (公斤) 总产量的置信区间是:[439.808⨯5000,460.192⨯5000] (公斤) =[2199040,2300960](公斤)4.已知某种电子管使用寿命服从正态分布。
从一批电子管中随机抽取16只,检测结果,样本平均寿命为1490小时,标准差为24.77小时。
试以95%的置信度估计这批电子管的平均寿命的置信区间。
解:(1)已知X =1490小时,n =16,s =24.77小时,1-α=95%,α=5%。
这时查t 分布表,可得 2.13145)1(2/=-n t α该批电子管的平均寿命的置信区间是:1677.2413145.214902⨯±=±nst x α=[ 1476.801,1503.199](小时)因此,这批电子管的平均寿命的置信区间在1476.801小时与1503.199小时之间。
6.采用简单随机重复抽样的方法,从2 000件产品中抽查200件,其中合格品190件。
要求:(1)计算合格品率及其抽样平均误差。
(2)以95.45%的置信度,对合格品率和合格品数量进行区间估计。
(3)如果极限误差为2.31%,则其置信度是多少? 解:(1)合格品率:P=190/200⨯100%=95% 抽样平均误差:np p p )1()(-=σ=0.015(2)%3%95%100015.02%95)(22/02275.02/±=⨯⨯±=±==p Z P Z Z σαα]19601840[]2000%982000%92[(%]98%92[,,的置信区为:件合格品数量,:合格品率的置信区间为=⨯⨯)(3)%64.87)(8764.01,54.1%31.2%100015.0%31.2)(2/2/2/==-==⨯⨯==∆z F Z Z p Z ασααα查表得 7.从某企业工人中随机抽选部分进行调查,所得工资分布数列如下:试求:(1)以95.45%的置信度估计该企业工人平均工资的置信区间,以及该企业工人中工资不少于800元的工人所占比重的置信区间;(2)如果要求估计平均工资的允许误差范围不超过30元,估计工资不少于800元的工人所占比重的允许误差范围不超过10%,置信度仍为95.45%,试问至少应抽多少工人? 解(1)通过EXCEL 计算可得: X =816元,n =50人,s =113.77元。
(抽样检验)抽样与参数估计最全版
(抽样检验)抽样与参数估计最全版(抽样检验)抽样与参数估计抽样和参数估计推断统计:利⽤样本统计量对总体某些性质或数量特征进⾏推断。
从数据得到对现实世界的结论的过程就叫做统计推断(statisticalinference)。
这个调查例⼦是估计总体参数(某种意见的⽐例)的壹个过程。
估计(estimation)是统计推断的重要内容之壹。
统计推断的另壹个主要内容是本章第⼆节要介绍的假设检验(hypothesistesting)。
因此本节内容就是由样本数据对总体参数进⾏估计,即:学习⽬标:了解抽样和抽样分布的基本概念理解抽样分布和总体分布的关系了解点估计的概念和估计量的优良标准掌握总体均值、总体⽐例和总体⽅差的区间估计第⼀节抽样和抽样分布回顾相关概念:总体、个体和样本抽样推断:从所研究的总体全部元素(单位)中抽取壹部分元素(单位)进⾏调查,且根据样本数据所提供的信息来推断总体的数量特征。
总体(Population):调查研究的事物或现象的全体参数个体(Itemunit):组成总体的每个元素样本(Sample):从总体中所抽取的部分个体统计量样本容量(Samplesize):样本中所含个体的数量壹般将样本单位数不少于三⼗个的样本称为⼤样本,样本单位数不到三⼗个的样本称为⼩样本。
壹、抽样⽅法及抽样分布1、抽样⽅法(1)、概率抽样:根据已知的概率选取样本①、简单随机抽样:完全随机地抽选样本,使得每壹个样本都有相同的机会(概率)被抽中。
注意:在有限总体的简单随机抽样中,由抽样是否具有可重复性,⼜可分为重复抽样和不重复抽样。
⽽且,根据抽样中是否排序,所能抽到的样本个数往往不同。
②、分层抽样:总体分成不同的“层”(类),然后在每壹层内进⾏抽样③、整群抽样:将壹组被调查者(群)作为壹个抽样单位④、等距抽样:在样本框中每隔壹定距离抽选壹个被调查者(2)⾮概率抽样:不是完全按随机原则选取样本①、⾮随机抽样:由调查⼈员⾃由选取被调查者②、判断抽样:通过某些条件过滤来选择被调查者(3)、配额抽样:选择壹群特定数⽬、满⾜特定条件的被调查者2、抽样分布壹般地,样本统计量的所有可能取值及其取值概率所形成的概率分布,统计上称为抽样分布(samplingdistribution)。
统计学复习(抽样分布、参数估计、假设检验)
两个样本均值之差的抽样分布 (1)如: ) 抽样
X1 − N(µ1,σ12 ), X2 − N(µ2 ,σ2 ),
2
则 x1 − x2 ) ~ N(µ1 − µ2 , (
σ12 σ22
n1 + n2
)
抽样
σ12 N1 − n1 σ22 N2 − n2 (x1 − x2 ) ~ N[(µ1 − µ2 , ( )+ ( )] n1 N1 −1 n2 N2 −1
对于无限总体, 对于无限总体, 一个估计 如果对任意 量如能完 ε>ˆ 0 满足条件 全地包含 LimP(|θn −θ |≥ ε ) = 0 未知参数 n→∞ 信息, 信息,即 则称 θˆ 是 θ 为充分量 的一致估计。 的一致估计。
点估计
常用的求点估计量的方法
用样本的数字特征 1.数字特征法: 1.数字特征法:当样本容量增大时 ,用样本的数字特征 数字特征法 去估计总体的数字特征。 去估计总体的数字特征。 例如,我们可以用样本平均数(或成数 和样本方差来估 例如,我们可以用样本平均数 或成数)和样本方差来估 或成数 计总体的均值(或比率 和方差。 或比率)和方差 计总体的均值 或比率 和方差。
样本均值的抽样分布(简称均值的分布) 样本均值的抽样分布(简称均值的分布) 抽样
均值µ=∑Xi/N 均值
均值 X = Σxi
n
样本均值是样本的函数, 故样本均值是一个统计量, 样本均值是样本的函数, 故样本均值是一个统计量, 统计量 统计量是一个随机变量 随机变量, 统计量是一个随机变量, 样本均值的概率分布称为 样本均值的抽样分布。 样本均值的抽样分布。
2
n
总体均值 (µ) )
X ± tα
2
( n −1 )
抽样分布与参数估计
2 x
(5.7)
(5.8)
x
n
(5.9)
【例 5-3】计算例 5-2 中 10 名推销员平均的任职年限 及其标准差, 并与例 5-2 求得的样本平均数的期望值与方差 作比较。 解: (1 2+3+4+5+6+7+8+9+10)/10=5.5
2
正态分布时,所需的样本容量 n 可以较小,反之则需 要较大的样本容量。通常将样本单位数不少于 30 的 称为大样本。
二、样本比例的抽样分布
(一)样本比例的期望值与方差
设随机变量 X 服从二点分布,其总体平均数为 , 又
称为总体比例,总体方差 2 ( ) ( 1 ) 。现对其进行 n 次独立重复观测,得到下列样本:(X1,X 2,…,X n),其中, 观测结果为“成功”的次数是 N1。 我们把样本中“成功”的次数所占比例定义作样本比例 P。
一、样本平均数的抽样分布
(一)样本平均数的期望值与方差
在放回抽样的情形下,设从总体中抽出的 样本为 x1 , x 2 , , x n ,其是相互独立的,并且 为 ,则可推导出样本平均数的期望值与方
2
与总体服从同一分布。设总体均值为 ,方差 差、标准差分别为:
X1 + X 2 + + X n E( X ) E( ) n 1 E ( X 1 ) E ( X 2 ) E ( X n ) n
0.45 0.40 0.35 0.30 0.25 0.20 0.15 0.10
统计学第4章 参数估计
无偏性
(unbiasedness)
无偏性:估计量抽样分布的数学期望等于被
估计的总体参数
抽样分布
中,样本 P(ˆ)
均值、比 率、方差
无偏
有偏
分别是总
A
B
体均值、
比率、方
差的无偏
估4计- 2量3
ˆ
统计学
STATISTICS
有效性
(efficiency)
有效性:对同一总体参数的两个无偏点估计
置信水平(1-α)表达了区间估计的可靠性。 它是区间估计的可靠概率。
显著性水平α表达了区间估计的不可靠的概 率。
4 - 20
统计学§4.2 点估计的评价标准
STATISTICS
对于同一个未知参数,不同的方法得到的估 计量可能不同,于是提出问题
应该选用哪一种估计量? 用何标准来评价一个估计量的好坏?
常用 标准
4 - 21
(1) 无偏性 (2) 有效性 (3) 一致性
统计学 定义 STATISTICS
无偏性
(unbiasedness)
若 E(ˆ)
则称 ˆ是 的无偏估计量.
定义的合理性
我们不可能要求每一次由样本得到的
估计值与真值都相等,但可以要求这些估 计值的期望与真值相等.
4 - 22
统计学
量,有更小标准差的估计量更有效
P(ˆ)
ˆ1 的抽样分布
B
无偏估计量还 必须与总体参 数的离散程度
比较小
4 - 24
A
ˆ2 的抽样分布
ˆ
统计学
有效性
STATISTICS
定义 设 ˆ1 1(X1, X 2, , X n )
李金昌《统计学》(最新版)精品课件第四章 抽样估计
Statistics
二、常用的抽样分布定理
(一)样本均值的抽样分布定理
1.正态分布的再生定理 如果某样本的n个个体完全随机地来自数学期望为 X 、方差 为S 2 的正态总体,则不论样本容量n多大,样本均值服从数学期 ( N n) S 2 S2 望为 X 、方差为 V ( x ) (重复抽样时)或 V ( x ) (有 Nn n 限总体且不重复抽样时)的正态分布。标准化统计量 z x X V (x ) 则服从数学期望为0、方差为1的标准正态分布。此即为正态分布 的再生定理。 2.中心极限定理 对于任一具有平均数 X 和方差 S 2的有限总体,当样本容量n 足够大时(例如 n 30或 n 50 ),样本均值 x的分布也趋于服从 正态分布,其数学期望和方差与再生定理的相同。此即为中心极 限定理。
Statistics
3.分布定理 当正态总体的方差未知且n较小,或任一方差为 S 2的总体但n 较小,则样本均值 x 的分布服从自由度为n-1的t分布。分布曲线 与正态分布相近,其中数学期望相同。
Statistics
(二)样本成数的抽样分布定理
1.二项分布定理 N 从一个数学期望为p、方差为 N 1 PQ 的是非变量(0-1分布) n1 总体中随机重复地抽取容量为n的样本,那么样本中含有 个某类 变量值的概率为:
反映样本分布特征的样本统计量的值(即样本统计值)是可 知的。但是由于抽样的随机性,样本统计值不是惟一确定的,因 此样本统计量是随机变量,其值随样本不同而不同。 抽样估计,就是要以可知但非惟一的样本统计值去估计惟一 却未知的总体参数的值。
Statistics
(三)抽样分布及其特征
1.抽样分布的概念及影响因素 一般意义上说,抽样分布就是样本统计量的概率分布,它由 样本统计量的所有可能取值和与之对应的概率所组成。如果说样 本分布是关于样本观测值的分布,那么抽样分布则是关于样本统 计值的分布,而样本统计值是由样本观测值计算而来的。 实际的抽样分布形成取决于以下五个因素: 总体分布; 样本容量; 抽样方法; 抽样组织形式; 估计量构造
统计学中的抽样分布与区间估计
统计学中的抽样分布与区间估计是一种重要的方法和理论,可供研究者利用有限样本数据对总体参数进行推断与估计。
抽样分布是指多次从总体中抽取样本得到的统计量的分布,它与总体的分布有关,并且可以用来计算参数的抽样分布,从而提供参数的区间估计。
首先,抽样分布是统计学研究中的基本概念。
在进行统计推断时,我们无法对整个总体做出观测和测量,只能通过对样本数据的分析和统计推断来了解总体的特征和属性。
因此,抽样分布的理论基础是从总体中随机抽取的样本可以代表总体。
其次,抽样分布的性质主要包括:无偏性、一致性和有效性。
无偏性是指样本统计量的数学期望等于总体参数的真实值,即抽样分布的期望与总体参数一致;一致性是指随着样本容量的增加,抽样分布会趋于聚集在总体参数附近;有效性是指样本统计量的方差最小,即抽样分布的方差相对较小。
区间估计是利用抽样分布来进行参数估计的一种方法。
在统计推断中,我们往往无法通过一个点估计量来完全确定参数的值,因此需要通过区间估计来给出一个范围,以包含参数的真实值。
区间估计的过程包括:选择合适的抽样分布、计算样本统计量的抽样分布、确定置信水平和临界值、计算置信区间。
置信水平是区间估计中一个重要的指标,它表示在多次抽样中,根据抽样分布的性质,可以包含参数真实值的概率。
一般常用的置信水平为95%,意味着在100次实验中,有95次或更多的结果将包含参数真实值。
根据抽样分布的性质和置信水平,可以确定相应的临界值,并利用样本统计量的抽样分布计算置信区间。
区间估计的应用非常广泛。
例如,在医学研究中,可以利用抽样分布和区间估计来估计新药的治疗效果;在市场调研中,可以利用抽样分布和区间估计来评估产品的市场份额与消费者偏好;在金融投资中,可以利用抽样分布和区间估计来预测股票收益与风险。
总之,统计学中的抽样分布与区间估计是一种基础的方法和理论,可用于对总体参数进行推断与估计。
抽样分布的性质决定了区间估计的精确性和可信度。
通过合适地选择抽样分布和确定置信水平,可以利用区间估计进行统计推断和决策,为研究者提供有限样本数据的有力支持和指导,进而推动学科的发展与进步。
统计学第四版第七章答案
第四章抽样分布与参数估计7.2某快餐店想要估计每位顾客午餐的平均花费金额。
在为期3周的时间里选取49名顾客组成了一个简单随机样本。
(1)假定总体标准差为15元,求样本均值的抽样标准误差。
15=2.143xn49(2)在95%的置信水平下,求边际误差。
xt x,由于是大样本抽样,因此样本均值服从正态分布,因此概率度t=z2 因此,x txz2xz0.025x=1.96×2.143=4.2(3)如果样本均值为120元,求总体均值的95%的置信区间。
置信区间为:x,x=1204.2,1204.2=(115.8,124.2)xx7.4从总体中抽取一个n=100的简单随机样本,得到x=81,s=12。
要求:大样本,样本均值服从正态分布:xN,2n或xN,2sn置信区间为:ssxz2,xz2nn,sn=12100=1.2(1)构建的90%的置信区间。
z=2 z=1.645,置信区间为:811.6451.2,811.6451.2=(79.03,82.97)0.5(2)构建的95%的置信区间。
z=z0.025=1.96,置信区间为:811.961.2,811.961.2=(78.65,83.35)2(3)构建的99%的置信区间。
z=z0.005=2.576,置信区间为:812.5761.2,812.5761.2=(77.91,84.09)27.7某大学为了解学生每天上网的时间,在全校7500名学生中采取重复抽样方法随机抽取36人,调查他们每天上网的时间,得到下面的数据(单位:小时):3.33.16.25.82.34.15.44.53.24.42.05.42.66.41.83.55.72.32.11.91.25.14.34.23.60.81.54.71.41.22.93.52.40.53.62.5求该校大学生平均上网时间的置信区间,置信水平分别为90%,95%和99%。
解:(1)样本均值x=3.32,样本标准差s=1.61;(2)抽样平均误差:s重复抽样:x==1.61/6=0.268nn不重复抽样:x=NnsNnn1nN1N=7.37500363675001=0.268×0.995=0.268×0.998=0.267 (3)置信水平下的概率度:1=0.9,t= z=2 z=1.645 7.51=0.95,t= z=2 z=1.96 0.61=0.99,t= z=2 z=2.576 7.8(4)边际误差(极限误差):xtxzx21=0.9,x txz x=2 z3.4x重复抽样:x zx=z0.05x=1.645×0.268=0.4412不重复抽样:x zx= 2 z=1.645×0.267=0.4394.5x1=0.95,xtxz2x= z2.2x重复抽样:x zx= 2 z=1.96×0.268=0.5254.8x不重复抽样:x zx=z0.025x=1.96×0.267=0.52321=0.99,x txz x=z0.005x2重复抽样:x zx= 2 z=2.576×0.268=0.690.5x不重复抽样:xz2x= z=2.576×0.267=0.6880.5x(5)置信区间:x,xxx1=0.9,重复抽样:x,x=3.320.441,3.320.441=(2.88,3.76)xx不重复抽样:x,x=3.320.439,3.320.439=(2.88,3.76)xx 1=0.95,重复抽样:x,x=3.320.525,3.320.525=(2.79,3.85)xx 不重复抽样:x,x=3.320.441,3.320.441=(2.80,3.84)xx 1=0.99,重复抽样:x,x=3.320.69,3.320.69=(2.63,4.01)xx 不重复抽样:x,x=3.320.688,3.320.688=(2.63,4.01)xx7.4某居民小区为研究职工上班从家里到单位的距离,抽取了由16个人组成的一个随机样本,他们到单位的距离(单位:km)分别是: 103148691211751015916132假定总体服从正态分布,求职工上班从家里到单位平均距离的95%的置信区间。
自-统计学习题第四章抽样估计
第四章抽样估计一、判断题1.抽样估计的目的是用以说明总体特征。
2.抽样分布就是样本分布。
3.既定总体在当抽样方法、抽样组织形式和样本容量确定时,样本均值的分布惟一确定。
4.样本容量就是样本个数。
5.在抽样中,样本容量是越大越好。
6.抽样的目的是判断样本估计值是否处于以总体指标为中心的某规定区域范围内。
7.当估计量有偏时,人们应该弃之不用。
8.对于一个确定的抽样分布,其方差是确定的,因而抽样标准误也是确定的。
9.抽样极限误差越大,用以包含总体参数的区间就越大,估计的把握程度也就越大,因此极限误差越大越好。
10.非抽样误差会随着样本容量的扩大而下降。
二、单项选择题1.想了解学生的眼睛视力状况,准备抽取若干学校、若干班级的学生进行测试,则( )。
A.观测单位是学校B.观测单位是班级C.观测单位是学生 D.观测单位可以是学校、也可班级或学生2.下列误差中属于非一致性的有( )。
A.估计量偏差 B.偶然性误差 C.抽样标准误D.非抽样误差3.抽样估计中最常用的分布理论是( )。
A.t分布理论B.二项分布理论 C.正态分布理论D.超几何分布理论4.抽样标准误大小与下列哪个因素无关?( )A.样本容量B.抽样方式、方法 C.概率保证程度 D.估计量5.下列关于抽样标准误的叙述哪个是错误的?( )A.抽样标准误是抽样分布的标准差B.抽样标准误的理论值是惟一的,与所抽样本无关C.抽样标准误比抽样极限误差小D.抽样标准误只能衡量抽样中的偶然性误差的大小三、计算分析题1. 某小组5个工人的每周工资分别为520、540、560、580、600元,现从中用简单随机抽样形式(不重复抽样)随机抽取2个工人周工资构成样本。
要求:(1)计算总体平均工资的标准差;(2)列出全部可能的样本平均工资;(3)计算样本平均工资的平均数,并检验其是否等于总体平均工资;(4)计算样本平均工资的标准差;(5)用抽样平均误差的公式计算并验证是否等于(4)的结果。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
平均身高=169.8CM
总平均身高=168.6CM 平均身高=174.6CM
《统计学》第四章
抽样误差
在用样本估计量推断总体参数的过程中, 肯定会产生误差。产生的误差一种误差是登记 性误差,是由于诸多主观和客观原因引起的差 错而造成的,可消除或减小到最低程度。 另一种误差是随机误差,是抽样推断过程 中产生的或大或小的偶然性误差,并且是抽样 推断所固有的、是无法消除的,但可以计算并 加以控制。
第二节
总体参数估计
也叫抽样估计,就是根据样本指 总体参数估计 标数值对总体指标数值作出估计 或推断。就是以样本统计量来估 计总体参数。 通常,把用来估计总体特征的样本指标叫估计 量或统计量,待估计的总体指标叫总体参数。
1、它在逻辑上运用归纳推理而不是演绎推理。
特 点
2、在方法上运用不确定的概率估计方法, 而不是运用确定的数学分析方法。 3、抽样估计存在抽样误差。
《统计学》第四章
设待估计的总体参数是 ,样本统计 量是 ,抽样估计的极限误差是 , 即 。
极限误差就是允许误差范围。显然, 越小,估计的精度要求越高; 越大, 估计的精度要求越低。
可靠性是抽样估计本身正确性的一个 概率保证,通常称为估计的臵信度。
《统计学》第四章
参数估计的方法
参数估计的方法有两种:
n/N称为抽样比。
样本个数又称样本可能数目,它是指 从一个总体中可能抽取多少个样本。
样本个数
样本个数的多少与抽样方法有关。
总体参数与样本统计量
《统计学》第四章
根据全及总体各个单位的标志值或 总体参数 标志特征所计算的反映总体某种属 性的综合指标 ,又称总体参数。 它是抽样统计推断的对象。
⒈ 总体平均数(又叫总体均值):
统计推断
样本总体指标:统
计量(已知量)
《统计学》第四章
随机样本
与总体分布 特征相同
与总体分布 特征不同 总体
非随机样本
并非所有的抽样估计都按随机原 则抽取样本,也有非随机抽样
抽样推断的基本概念 全及总体
《统计学》第四章
又称总体或母体,是所要认识研究对 象的全体,它由具有某种共同性质或 特征的单位所组成。常用N表示全及 总体的单位数目。 又称样本或子样,是指从全及总体中 按照随机原则抽取的那部分个体的组 合。
《统计学》第四章
参数估计应满足的要求
精度要求
所谓精度,就是估计误差的最大范 围,即误差的最大值,可通过极限误差 来反映。
可靠性要求 所谓可靠性,就是指估计结果正确
的概率大小。
《统计学》第四章
由于样本的结构问题,用样本指标来估计总 体指标,要达到准确无误是不可能的,抽样误 差的存在是必然的。所以,在估计总体指标的 同时,就必须要考虑估计误差的大小。当然, 不希望误差太大,误差越大,样本的价值便越 小。但误差不是越小越好,误差越小抽样费用 就越高。在实际中,要根据所研究总体单位的 变异程度和分析任务的要求以及统计条件,确 定一个可允许的误差范围,把抽样误差控制在 一定的范围内。
2
《统计学》第四章
指根据抽样总体各个单位的标志值 样本统计量 或标志特征计算的综合指标,又被 称为统计量,它是随机变量。一般 利用统计量来估计和推断总体的有 关参数。 ⒈ 样本平均数(又叫样本均值):
n
x
i 1
xi
n
或x
i 1 n
n
xi f i fi
i 1
为自由度 ⒉ 样本单位标志值的标准差:
用过去同类问题全面调查或抽样调查的经 验数据代替; 用样本标准差 s代替总体标准差 ,用 s p 代替 P 。
x x 或 x x f n 1 f 1
2 2
n p1 p n 1
《统计学》第四章
影响抽样平均误差的因素 总体的变异性(即总体标准差的大 小): 越大,抽样误差越大; 样本容量的多少: 越大,抽样误差越 n 小; 抽样方法:不重复抽样的抽样误差比 重复抽样的抽样误差小; 抽样组织方式:简单随机抽样的误差 最大。
一种是点估计,即把根据抽样资料计算的样 本指标直接作为总体指标的估计值。
指每一个可能样本的指标值与 总体指标值之间的平均离差, 即一系列样本指标的标准差。
样本可能数目
2 (样本指标-总体指标)
式中: x 为样本平均数的抽样平均误差; 为 M 注意:不要混淆抽样 为第 i 个可能样本的平均2 可能的样本数目; i x (x x) S 标准差与样本标准差! 数;X 为总体平均数
不考虑顺序的不重复抽样, 1 / C 1 / 8347680
7 36
二、抽样推断的理论基础
《统计学》第四章
表明大量随机观象平均结果具有稳定性的性 大数定律 质。大数定律论证了如果独立随机变量总体 存在有限的平均数和方差,则对于充分大的 样本可以近乎100%的概率,期望样本平均 数与总体平均数的绝对离差为任意小。
抽样方法的分类
《统计学》第四章
根据对样本的要求不同,可分为: 考虑顺序抽样 不考虑顺序抽样 考虑各单位的中选顺序。
ABC≠CBA 不考虑各单位的中选顺序。
ABC=CBA
考虑顺序的重复抽样
综合起来共有 四种抽样方法
考虑顺序的不重复抽样 不考虑顺序的不重复抽样 不考虑顺序的重复抽样
《统计学》第四章
样本的可能数目
p ~ N ( P , P P n) 1 np 5, n(1 p ) 5
抽样误差
《统计学》第四章
167CM 169CM 172CM 160CM 162CM 167CM 175CM 180CM 165CM 167CM
170CM 175CM 178CM 180CM 162CM 173CM 155CM 160CM 170CM 165CM
x ~ N ( ,
2
n)
《统计学》第四章
比率的抽样分布 全部可能样本比率的均值等于总体比率, 即: E ( p ) P ( p P) 从非正态总体中抽取的样本比率,当n 足够大时其分布接近正态分布。 从正态总体中抽取的样本比率,不论容 量大小其分布均为正态分布。 1 样本比率的标准差为总体标准的 n。
一、抽样推断 按照随机原则 从全部研究对象中抽取 一部分单位进行调查,并以调查结果对 总体数量特征作出具有一定可靠程度的 估计与推断,从而认识总体的一种统计 方法。 指样本单位的抽取不受主
观因素及其他系统性因素 的影响,每个总体单位都 有均等的被抽中机会
《统计学》第四章
抽样推断
全及总体指标:
参数(未知量)
X
i 1
N
i
N
或
X
i 1 N i 1
N
i
Fi
i
F
《统计学》第四章
⒉ 总体单位标志值的标准差:
1 N
X
N i 1
i
X 或
2
1
Fi
i 1
N
X
N i 1
i
X Fi
2
⒊ 总体单位标志值的方差:
1 N
2
X
N i 1
i
X 或
为 的 无偏估计
2 P
《统计学》第四章
抽样方法的分类
重复抽样
根据取样方式不同,可分为:
从总体N个单位中随机抽取一个样本容 量为n的样本,每次从总体中抽取一个, 并把结果登记下来,又放回总体中重新 参加下一次的抽选。又称放回抽样
总体单位数N不变,同一单位可能 多次被抽中。
不重复抽样
每次从总体中抽选一个单位后就不 再将其放回参加下一次的抽选。又 称不放回抽样. 总体单位数减少n,同一单位只可 能被抽中一次。
lim P( x X
n
) 1
如果变量总体存在有限的平均数和方 中心极限定律 差,那么不论这个总体的分布如何, 随着样本容量的增加,样本平均数的 分布,便趋近于正态分布。
样本统计量所有可能值的概率 三、抽样分布 分布
样本统 样本统 样本统 样本统 样本统 计量样本统 计量 计量 样本统 计量 样本统 计量 样本统 计量 样本统 计量 样本统 计量 样本统 计量 样本统 计量 计量 计量 计量
1 M
( xi X ) 2
i 1
M
n 1
《统计学》第四章
例4-1
如果用重复抽样:可能组成的样本总数 目是: M N n =52 =25(个) 代入理论公式:
x =
( x-X)=2(元)
2
M
计算结果表明:25个可能样本的平均工资 与总体平均工资的平均误差为2元。
《统计学》第四章
考虑顺序的不重复抽样 考虑顺序的重复抽样
不考虑顺序的不重复抽样
A
n N
N ! /( N n)!
n
B
n N
N
C
n N
N ! /[n!( N n)!]
不考虑顺序的重复抽样
C
n N n 1
把填湖南风采36选7福利彩票号码看作一次抽 样,则它属于哪一种抽样?中特等奖的概率 是多少?(0—9选6呢?)
2 1 n s xi x 或s n 1 i 1
1
n i 1
为 的无偏估计
f i 1 i 1
x x
n i
2
fi
⒊ 样本单位标志值的方差:
1 2 s xi x 或s n 1 i 1
2 2
n
1
为 的无偏估计
2
ห้องสมุดไป่ตู้ 1
i 1 i
n
x x f
n 2 i 1 i