第四章 参数估计
第四章中心极限定理与参数估计
当 n 很大时,近似地服从正态分布.
第四章 中心极限定理与参数估计
例 1、对敌人的防御工事进行 80 次轰炸,每次轰炸命中目标炸弹 数目的数学期望为 2,方差为 0.8,且各次轰炸相互独立,求在 80 次轰炸中有 150 颗~170 颗炸弹命中目标的概率。 解:第 i 次轰炸命中目标炸弹的数目 X i (i 1,2,,80) 都是离散型随机
根据随机变量数学期望的性质,计算数学期望
80
80
80
E( X ) E( X i ) E( X i ) 2 160
i 1
i 1
i 1
第四章 中心极限定理与参数估计
由于离散型随机变量变量 X 1 , X 2 ,, X 80 相互独立,根据随机
变量方差的性质,计算方差
80
80
80
D( X ) D( X i ) D( X i ) 0.8 64 82
分大时,离散型随机变量 X 近似服从参数为 np, npq ( p q 1)
的正态分布,即近似有离散型随机变量 X ~ N(np, npq) 定理4.22表明:
正态分布是二项分布的极限分布, 当n充分大时, 可 以利用该定理来计算二项分布的概率.
随机变量 X 的取值在数学期望 E(X ) 附近的密集程度越低。
第四章 中心极限定理与参数估计
(3)在使用切贝谢夫不等式时,要求随机变量 X 的数学期望 E( X ) 与方差 D( X ) 一定存在,这时无论随机变量 X 的概率分布已知或未
知,都可以对事件 X E(X ) 发生的概率进行估计。 2、切贝谢夫不等式的应用举例 例1、 已知电站供电网有电灯 10000 盏,夜间每一盏灯开灯的概率 皆为 0.8,且它们开关与否相互独立,试利用切贝谢夫不等式估计夜 晚同时开灯的灯数在 7800 盏~8200 盏之间的概率。
第四章参数估计
z x ~ N(0,1)
n
• 根据式4-1可以得出总体均值 所在的1 置信水平下的置信区
间为:
x z 2
n
其中,x z 2 n 称为置信下限, x z 2
n
称为置信上限;
是事先所
确定的总体均值不包括在置信区间的概率; 1 称为置信水平。
总体均值的估计
总体方差未知且为小样本情况下估计
• 实验4-1:下面以2008年某地区20户家庭年收入数据为例进行均值估计, 20户家庭年收入的原始数据如图4.1所示,通过样本数据来估计该地区 家庭年收入的均值。
• 我们可以在EXCEL2003中“公式”选项卡中选择“插
入函数”按钮,打开如图4.2所示的“插入函数”对话
框来进行总体均值估计。
EXCEL 2003 统计应用
总体均值的估计
总体方差未知且为小样本情况下估计
• 使用函数进行总体均值估计的 步骤如下:
(1)计算样本个数
• 选择单元格D3并依次选择“公 式”|“插入函数”,打开“插 入函数”对话框;选择计数函 数COUNT,单击“确定”按钮, 打开“函数参数”对话框;在 Value1中输入数据范围 “A2:A21”如图4.3所示,单击 确定得到如图4.4所示的样本个 数。
EXCEL 2003 统计应用
参数估计概述
评价参数估计的标准
• 在参数估计时,人们可以构造很多个估计量,但不是所有的估计 量都一样优良。例如,要估计总体平均数,估计量有算术平均数、 中位数、众数等,到底用哪一个估计量更合适,就需要有评价的 标准。通常,评价估计量好坏的标准有三个:无偏性、有效性、 一致性。
第四章 参数估计
x
n
总体标准差,若 未知,可用样本
标准差代替
36
总体均值的置信区间引例
(2 未知)
例:某商场从一批袋装食品中随机抽取10袋,测得 每袋重量(单位:克)分别为789,780,794, 762,802,813,770,785,810,806,要 求以95%的把握程度,估计这批食品的平均每袋 重量的区间范围。假定食品重量服从正态分布。
0.95,Z/2=1.96
x Z 2
n
,
x
Z
2
n
26 1.96 6 ,26 1.96 6
100
100
24.824,27.176
我们可以95%的概率保证平均每天 参加锻炼的时间在24.824~ 27.176 分钟之间。
一般置信水平
一般使用的置信水平是:90%, 95%, 99%
Confidence Level
▪ 总体服从正态分布,且总体方差(2)已知 ▪ 如果不是正态分布,可以由正态分布来近似 (n 30)
2. 使用正态分布统计量Z
Z
x s
m ~ N (0,1)
n
3. 总体均值 在1-置信水平下的置信区间为
s
s
x
Za 2
,x n
Za 2 n
总体均值的置信区间
(2 已知)
抽样极限误差:
s x Za 2 n
❖ 定理1
当总体 X ~ N ( m , s 2 ) 时,抽自该总体
的简单随机样本 x1 , x 2 , , x n 的样本平均数
服从数学期望为 ,方差为 s2的正态分布,
n
即 x ~ N (m, s2 ) 。
n
Z x ~ N (0,1) n
(04)第4章 参数估计
(2)99%的置信区间是多少?
(3)若样本容量为40,而观测的数据不变,则 95%的置信区间又是多少?
5 - 31
统计学
STATISTICS
总体均值的区间估计
(例题分析)
12, s 4.1
解:(1)已知n=15, 1- = 95%, =0.05 ,x
统计学
STATISTICS
总体均值的区间估计
统计学
STATISTICS
大样本的估计方法
不论总体是不是服从正态分布,在大样本 (n 30)时,样本均值均服从正态分布。 若已知 2 x
x ~ N ( ,
总体均值 在1- 置信水平下的置信区间为
n
)
z
n
~ N (0,1)
z 2
有效性:对同一总体参数的两个无偏点估计量, 有更小标准差的估计量更有效
ˆ P( )
ˆ1 的抽样分布
B A
ˆ2 的抽样分布
ˆ
5 - 11
ˆ ˆ1 是比 2 更有效,是一个更好的估计量
统计学
STATISTICS
有效性
(efficiency)
x1 x2 x3 样本均值 x 3 x1 2 x2 3x3 和 x1 6
统计学
STATISTICS
第 4 章 参数估计
4.1 参数估计的基本原理 4.2 一个总体参数的区间估计 4.4 样本容量的确定
5-1
统计学
STATISTICS
4.1 参数估计的一般问题
4.1.1 估计量与估计值 4.1.2 点估计与区间估计 4.1.3 评价估计量的标准
第四章 参数的区间估计(Confidence Interval Estimation)
Chap 4-34
PHStat用于解决此类问题
PHStat | confidence intervals | estimate for the population total Excel spreadsheet for the voucher example
第四章 参数的区间估计 (Confidence Interval Estimation)
阅读教材:第7章
Chap 4-1
本章概要
估计的步骤(Estimation process) 点估计(Point estimates) 区间估计(Interval estimates) 均值的置信区间( 已知) 样本容量的确定(Determining sample size) 均值的置信区间 ( 未知) 比例的置信区间
n
) 1
Chap 4-9
区间估计的要素
置信度
区间内包含未知总体参数的确定程度 与未知参数的接近程度 获得容量为 n 的样本所需付出的代价
精度
成本
Chap 4-10
置信度
以 100 1 %表示,如:90%,95%,99% 相对频率意义上的解释
从长期来看, 所构建的所有置信区间中,100 1 % 的置信区间都将含有未知参数,即未知参数落入区间的 概率;
n
( z 2 ) (1 )
2
E2
其中: E z 2
(1 )
n
2. 3.
E的取值一般小于0.1 (=p) 未知时,可取最大值0.5
第四章线性系统参数估计的最小二乘法
测得铜导线在温度Ti (o C) 时的电阻 Ri (Ω ) 如表 6-1,求电阻 R 与温度 T 的近似函数关系。
i
1
2
3
4
5
6
7
Ti (o C) Ri (Ω )
19.1 76.30
25.0 77.80
30.1 79.25
36.0 80.80
40.0 82.35
45.1 83.90
50.0 85.10
使用(1,1.8),(2,2.2)两个点得到的方
1.5 1 1.5 2 2.5 3 3.5 4 4.5 5 5.5 6
程为 y=1.4 + 0.4x;使用(1,1.8),(6,3.3)两个点得到的方程为 y=1.5 + 0.3x,而使用(3,3)和(6,3.3)
两个点得到的方程是 y=2.7+0.1x。
(4.1)
其中,θ=(θ1, θ2, …, θn)是一个参数集。在系统辨识中它们是未知的。我们希望通过不同时刻
对Y及X的观测值来估计出它们的数值。
例如,在研究两个变量(x,y)之间的
4
关系时,通常的做法是取一个变量作为自
变量,另一个作为因变量。改变自变量可
3.5
得到相应的因变量。将所得到的一系列数
据对描绘在直角坐标系中,得到一系列的
X T XΘˆ = X TY
(4.7)
得
Θˆ=( X T X )−1 X TY
(4.8)
这样求得的Θˆ 就称为Θ的最小二乘估计(LSE),在统计学上,方程(4.7)称为正则方程,称ε
为残差。
在前面讨论的例子中,把 6 个数据对分别代入直线方程y=a0 + a1x中可得到 1 个由 6 个直线
统计学概论04
(二)概率 1. 概率的定义 概率就是指随机事件发生的可能性,或称为机率, 概率就是指随机事件发生的可能性,或称为机率, 是对随机事件发生可能性的度量. 进行n次重复试 是对随机事件发生可能性的度量. 进行 次重复试 随机事件A发生的次数是 发生的次数是m次 验,随机事件 发生的次数是 次,发生的频率是 m/n,当试验的次数 很大时,如果频率在某一数值 很大时, ,当试验的次数n很大时 p附近摆动,而且随着试验次数 的不断增加,频率 附近摆动, 的不断增加, 附近摆动 而且随着试验次数n的不断增加 的摆动幅度越来越小,则称p为事件 发生的概率, 为事件A发生的概率 的摆动幅度越来越小,则称 为事件 发生的概率, 记为: 记为:P(A)=p.在古典概型场合 即基本事件发生的 .在古典概型场合, 概率都一样的场合: 概率都一样的场合 m A包含的样本点个数 A的有利场合数 = P( A) = = 样本点总数 n 样本点总数
4-8
只黑球和1只白球 例:袋中装有4只黑球和 只白球,每次从袋中随机 袋中装有 只黑球和 只白球, 地摸出1只球 并换入1只黑球 连续进行, 只球, 只黑球. 地摸出 只球,并换入 只黑球.连续进行,问第三 次摸到黑球的概率是多少? 次摸到黑球的概率是多少? 解: 记A为"第三次摸到黑球",则 为"第三次 为 第三次摸到黑球" A A 摸到白球" 先计算P( ). 摸到白球".先计算 . 由于袋中只有1只白球 如果某一次摸到了白球, 只白球, 由于袋中只有 只白球,如果某一次摸到了白球,换 入了黑球,则袋中只有黑球了.所以相当于第一, 入了黑球,则袋中只有黑球了.所以相当于第一, 第二次都是摸到黑球,第三次摸到白球. 第二次都是摸到黑球,第三次摸到白球.注意这是 一种有放回的摸球,样本点总数为53, 一种有放回的摸球,样本点总数为 ,有利场合数 是42×1.故: 2 × . 4 1 16 P( A )= 5 3 = 125 , 所以 42 1 109
第4章参数估计和假设检验
第4章参数估计和假设检验第四章参数估计与假设检验掌握参数估计和假设检验的基本思想是正确理解和应⽤其他统计推断⽅法的基础,后⾯将要学习的⽅差分析、⾮参数检验、回归分析、时间序列等统计推断⽅法都是在此基础上展开的。
需要特别指出的是,所有的统计推断都要以随机样本为基础。
如果样本是⾮随机的,统计推断⽅法就不适⽤了。
由于相关知识在先修课程中已经学习过,本章主要在回顾相关知识的基础上,补充讲解必要样本容量的计算、p值、参数估计和假设检验⽅法的软件操作和结果分析等内容。
本章的主要内容包括:(1)参数估计的基本思想和软件实现。
(2)简单随机抽样情况下样本容量的计算。
(3)假设检验的基本原理。
(4)假设检验中的p值。
(5)⼏种常⽤假设检验的软件实现。
第⼀节参数估计⼀、参数估计的基本概念参数估计是指利⽤样本信息对总体数字特征作出的估计。
例如,我们可以通过估计⼀部分产品的合格率对整批产品的合格率作出估计,通过调查⼀个样本的⼈⼝数来对全国的⼈⼝数作出估计,等等。
参数估计可以分为点估计和区间估计。
点估计是指根据样本数据给出的总体未知参数的⼀个估计值。
对总体参数进⾏估计的⽅法可以有多种,例如矩估计法、极⼤似然估计法等,得到的估计量(样本统计量)并不是唯⼀的。
例如我们可以使⽤样本均值对总体均值作出估计,也可以使⽤样本中位数对总体均值进⾏估计。
因此,在参数估计中我们需要对估计量的好坏作出评价,这就涉及到估计量的评价准则问题。
常⽤的估计量评价准则包括⽆偏性、有效性、⼀致性等。
⽆偏性是指估计量的数学期望与总体参数的真实值相等;有效性的含义是,在两个⽆偏估计量中⽅差较⼩的估计量较为有效,⽅差越⼩越有效;⼀致性是指随着样本容量的增⼤,估计量的取值应该越来越接近总体参数。
样本的随机性决定了估计结果的随机性。
由于每⼀个点估计值都来⾃于⼀个随机样本,所以总体参数真值刚好等于⼀个具体估计值的可能性极⼩。
区间估计的⽅法则以概率论为基础,在点估计的基础上给出了⼀个置信区间,并给出了这⼀区间包含总体真值的概率,⽐点估计提供了更多的信息。
No.11-第4章-时间序列模型的参数估计与检验
所示,拟合AR(2)模型 t对 X t3 和 t对 t1 的散点图如图2、3所示。图1
有微弱的负相关趋势,说明AR(1)不是适应模型,而图2、3看不出有相关 趋势,说明AR(2)是适应模型。
图1
图2
图3
(2)估计相关系数法
1 j m
检验统计量
T
nm
ˆ j j a jj Q(~)
~ t(n m)
取检验水平 ,可得检验的拒绝域为
t t1 2 n m
小结:时间序列模型的检验
当我们对模型进行识别并估计出模型参数之后,所得到的时间序列模型 是否可用,还需要进行检验。
模型是否适用,可以检验残差序列是否为白噪声序列。 参数是否合适,可以构造统计量做假设检验,以使模型结构更为精简、 有效。 检验通过之后就可以利用所得到的模型进行预测和预报了。
(*)
令
Xt Xt ˆ1Xt1 ˆ2 Xt2 ˆp Xtp
于是(*)可以写成:
X~t t 1t1 2t2 qtq
构成一个MA模型。按照估计MA模型参数的方法,可以得到 1,2, ,q
以及
2
的估计值。
需要说明的是,在上述模型的平稳性、识别与估计的讨论中, ARMA(p,q)模型中均未包含常数项。
然后利用Yule Walker方程组,求解模型参数的估计值 ˆ1,ˆ2,...,ˆp
ˆ1 ˆ0 ˆ1
ˆ2
ˆ1
ˆ0
ˆ
p
ˆ
p 1
ˆ p2
ˆ p1 1 ˆ1
ˆ
p
统计学第四章抽样与参数估计
疗效评价
通过参数估计和假设检验等方法,评价药物 的疗效和安全性。
案例三:工业生产过程质量控制
抽样检验计划制定
根据产品特性和质量要求,制定合适的抽样 检验计划。
不合格品控制
对不合格品进行统计分析和处理,找出原因 并采取措施加以改进。
过程能力分析
收集生产过程中的质量数据,进行过程能力 分析和参数估计。
抽样作用
通过样本信息推断总体特征,为决策提供依据。
抽样方法分类
随机抽样
按照随机原则从总体中抽取样本,每个个体 被抽中的概率相等。
系统抽样
按照某种规则从总体中抽取样本,如每隔一 定距离或时间抽取一个样本。
分层抽样
将总体分成若干层,然后从各层中随机抽取 样本。
整群抽样
将总体分成若干群,然后随机抽取若干群作 为样本。
05
案例分析:实际场景下抽样 与参数估计问题探讨
案例一:市场调查中消费者满意度测评
01
抽样方法选择
根据市场调查的目的和预算,选 择合适的抽样方法,如简单随机 抽样、分层抽样或整群抽样。
03
数据收集与处理
设计调查问卷,收集消费者满意 度数据,并进行数据清洗和整理
。
02
样本量确定
综合考虑调查的精度要求、总体 规模、抽样误差等因素,合理确
运用统计学方法进行假设检验和参数估计,验证研究假 设的可靠性。
THANKS
定样本量。
04
参数估计
运用统计学方法,对消费者满意 度进行参数估计,如计算满意度
均值、标准差等。
案例二:医学研究中药物疗效评价
试验设计
采用随机对照试验等方法,确保试验组和对 照组的可比性。
样本量计算
系统辨识 第四章 系统辨识与参数估计
或
y (k ) = ϕT (k )θ + e (k ) 其中输入输出观测量和未知参数向量 分别为
T ϕ (k ) = [ − y( k − 1),...,− y (k − n a ), u (k − d ),...., u (k − d − nb ) θ = a1 , a2 ,...., a na , b1 , b2 ,..., bn b
2
(4.1.8)
考虑到离散时间白噪声序列的产生存在着技术上的困难 工程上用伪随机序 列代替离散时间白噪声 取得近似估计 其中运用最广泛的是二进制伪随机序列 是 序列 它的自相关函数接近脉冲函数 谱分析法 谱分析法主要用于辨识过程的频率响应 它的特点是不需要对过程施加试验 信号 只需利用正常操作下的输入输出数据就可以辨识过程的动态特性 因此应 用较为便利 估计 且抑制噪声的能力较强 2.5.19 式 关键在于谱密度的
∫
∞
0
h ( t ) R uu ( t − τ ) dt
(4.1.7)
从式 4.1.7 式求解脉冲响应 h (t ) 的解析式是一般很困难 但是 如果过程 输入信号的自相关函数具有特殊的形式 例如输入信号是均值为零的白噪声 其 自相关函数为 Ruu (τ) = σu δ (τ ) ˆ(t ) 则可直接求得脉冲响应的估计量 h ˆ(t ) = 1 R (τ) h uy 2 σu (4.1.9)
式中 y (⋅) u (⋅) h (t ) h (k )
系统的输出向量 系统的输入向量 连续系统的脉冲响应函数阵 离散系统的脉冲响应函数阵 连续系统的模型 离散系统的模型
即使系统的输入输出维数已知 也不考虑其它随机噪声作用 这样的脉冲响应函 数模型也不能用有限个参数来表示 除脉冲响应 h (t ) 之外 态特性的非参数模型 这三类模型的表现形式是以时间或频率为自变量的实验曲线 对过程施加特 定的实验信号 同时测定过程的输出 可以求得这些非参数模型 经过适当的数 学处理 它们又可以转变成参数模型 — 传递函数的形式 G( s ) h (t ) G( jω) g (t ) G( s ) 是经典控制理论研究中采用的数学模型 获取上述非参数模型并把它们转化为传递函数的主要方法有 阶跃响应法 脉冲响应法 适用于信噪比高的确定性系统 频率响应法 相关分析法 适用于随机系统 谱分析法 阶跃响应法 首先通过实验测取过程的阶跃响应曲线 然后用近似法 半对数法 切线法 两点法和面积法等[5]由阶跃响应曲线确定过程传递函数 至得到两条基本相同的响应曲线 脉冲响应法 首先测取过程脉冲响应 再由脉冲响应确定传递函数 脉冲响应在工程上采 用图 4.1 所示的矩形脉冲输入作用下过程的输出响应 当矩形脉冲的宽度 比过程的过渡时间小得多 时 过程的输出可近似为脉冲响应 脉冲响应也可以直接由阶跃响应经差分处理后求得 即有 且矩形脉冲的面积等于 这些方法对噪声很敏 感 要求在测取阶跃响应曲线时无噪声影响 或在相同条件下多次重复实验 直 所以称为非参数模型 阶跃响应 g (t ) 也是描述线性过程动 频率响应 G( jω)
第四章参数估计与假设检验
它的分布已知, 且分布不依赖于待估参
数 (常由 的点估计出发考虑 ).
例如
X~ N(,1/5)
取枢轴量
2019/12/15
g(X1,X2,,Xn,)X1/5 ~N(0,1)
30
给定置信度 1 ,定出常数 a , b ,使得
P ( a g ( X 1 ,X 2 ,X n ,) b ) 1
参数估计与假设检验
Parameter Estimation &Hypothesis Testing
吴涛 安徽大学数学科学院
第五章 参数估计与假设检验
§5.1 参数估计 §5.2 假设检验 §5.3 非参数检验
2019/12/15
2
什么是参数估计?
参数是刻画总体某方面概率特性的数量.
当此数量未知时,从总体抽出一个样本, 用某种方法对这个未知参数进行估计就 是参数估计.
方法求极大似然估计值.
2019/12/15
20
区间估计
引例 已知 X ~ N ( ,1), 的无偏、有效点估计为 X
常数
随机变量
不同样本算得的 的估计值不同,
因此除了给出 的点估计外, 还希望根据
所给的样本确定一个随机区间, 使其包含
参数真值的概率达到指定的要求.
2019/12/15
随机变量
2019/12/15
k ( X 1, X 2 , , X n )
6
7-6
并建立k个方程。
当测得样本值(x1, x2,…, xn)时,代入上述 方程组,即可得到 k 个数:
ˆ1 ( x1 , x 2 , , x n ) ˆ2 ( x1 , x 2 , , x n )
统计学第4章 参数估计
无偏性
(unbiasedness)
无偏性:估计量抽样分布的数学期望等于被
估计的总体参数
抽样分布
中,样本 P(ˆ)
均值、比 率、方差
无偏
有偏
分别是总
A
B
体均值、
比率、方
差的无偏
估4计- 2量3
ˆ
统计学
STATISTICS
有效性
(efficiency)
有效性:对同一总体参数的两个无偏点估计
置信水平(1-α)表达了区间估计的可靠性。 它是区间估计的可靠概率。
显著性水平α表达了区间估计的不可靠的概 率。
4 - 20
统计学§4.2 点估计的评价标准
STATISTICS
对于同一个未知参数,不同的方法得到的估 计量可能不同,于是提出问题
应该选用哪一种估计量? 用何标准来评价一个估计量的好坏?
常用 标准
4 - 21
(1) 无偏性 (2) 有效性 (3) 一致性
统计学 定义 STATISTICS
无偏性
(unbiasedness)
若 E(ˆ)
则称 ˆ是 的无偏估计量.
定义的合理性
我们不可能要求每一次由样本得到的
估计值与真值都相等,但可以要求这些估 计值的期望与真值相等.
4 - 22
统计学
量,有更小标准差的估计量更有效
P(ˆ)
ˆ1 的抽样分布
B
无偏估计量还 必须与总体参 数的离散程度
比较小
4 - 24
A
ˆ2 的抽样分布
ˆ
统计学
有效性
STATISTICS
定义 设 ˆ1 1(X1, X 2, , X n )
最新第4章-参数估计思考与练习参考答案
第4章 参数估计 思考与练习参考答案一、最佳选择题1.关于以0为中心的t 分布,错误的是( E )A. t 分布的概率密度图是一簇曲线B. t 分布的概率密度图是单峰分布C. 当ν→∞时,t 分布→Z 分布D. t 分布的概率密度图以0为中心,左右对称E. ν相同时,t 值越大,P 值越大2.某指标的均数为X ,标准差为S ,由公式()1.96, 1.96X S X S -+计算出来的区间常称为( B )。
A. 99%参考值范围B. 95%参考值范围C. 99%置信区间D. 95%置信区间E. 90%置信区间3.样本频率p 与总体概率π均已知时,计算样本频率p 的抽样误差的公式为( C )。
4.在已知均数为μ, 标准差为 σ 的正态总体中随机抽样, X μ->( B )的概率为5%。
A.1.96σB.1.96X σC.0.05/2,t S νD.0.05/2,X t S νE.0.05/2,X t νσ5. ( C )小,表示用样本均数估计总体均数的精确度高。
A. CVB. SC. X σD. RE. 四分位数间距 6. 95%置信区间的含义为( C ):A. 此区间包含总体参数的概率是95%B. 此区间包含总体参数的可能性是95%C. “此区间包含总体参数”这句话可信的程度是95%D. 此区间包含样本统计量的概率是95%E. 此区间包含样本统计量的可能性是95%二、思考题1. 简述标准误与标准差的区别。
答: 区别在于:(1)标准差反映个体值散布的程度,即反映个体值彼此之间的差异;标准误反映精确知道总体参数(如总体均数)的程度。
(2)标准误小于标准差。
(3)样本含量越大,标准误越小,其样本均数更有可能接近于总体均数,但标准差不随样本含量的改变而有明显方向性改变,随着样本含量的增大,标准差有可能增大,也有可能减小。
2. 什么叫抽样分布的中心极限定理?答: 样本含量n越大,样本均数所对应的标准差越小,其分布也逐渐逼近正态分布,这种现象统计学上称为中心极限定理(central limit theorem)。
统计学 第四章 参数估计
由样本数量特征得到关于总体的数量特征 统计推断(statistical 的过程就叫做统计推断 的过程就叫做统计推断 inference)。 统计推断主要包括两方面的内容一个是参 统计推断主要包括两方面的内容一个是参 数估计(parameter estimation),另一个 数估计 另一个 假设检验 。 是假设检验(hypothesis testing)。
ˆ P(θ )
无偏 有偏
A
B
θ
ˆ θ
估计量的无偏性直观意义
θ =µ
•
•
•
• •
• • • •
•
2、有效性(efficiency)
有效性:对同一总体参数的两个无偏点估计 有效性: 量,有更小标准差的估计量更有效 。
ˆ P(θ )
ˆ θ1 的抽样分布
B A
ˆ θ2 的抽样分布
θ
ˆ θ
பைடு நூலகம்
3、一致性(consistency)
置信区间与置信度
1. 用一个具体的样本 所构造的区间是一 个特定的区间, 个特定的区间,我 们无法知道这个样 本所产生的区间是 否包含总体参数的 真值 2. 我们只能是希望这 个区间是大量包含 总体参数真值的区 间中的一个, 间中的一个,但它 也可能是少数几个 不包含参数真值的 区间中的一个
均值的抽样分布
总体均值的区间估计(例题分析)
25, 95% 解 : 已 知 X ~N(µ , 102) , n=25, 1-α = 95% , zα/2=1.96。根据样本数据计算得: x =105.36 96。 总体均值µ在1-α置信水平下的置信区间为 σ 10 x ± zα 2 = 105.36 ±1.96× n 25 = 105.36 ± 3.92
4-统计假设检验与参数估计
3. 根据“小概率事件实际不可能性原理”否 定或接受无效假设
在统计学上 ,把小概率事件在一次试验中看成
是实际上不可能发生的事件,称为小概率事件实际不
可能原理。根据这一原理,当试验的表面效应是试验
误差的概率小于0.05时 ,可以认为在一次试 验
中试验表面效应是试验误差实际上是不可能的,
因而否定原先所作的无效假设H0,接受备择假设HA, 即认为试验的处理效应是存在的。当试验的表面效应
食醋醋酸含量的差异是由于采用新曲种引起的还是由于试验误差引起的?
3
上一张 下一张 主 页 退 出
例2:A,B两种肥料,在相同条件下各施用于5 个小区的水稻上,水稻产量平均分别为
xA=500 kg,xB=520成的 还是由试验的随机误差造成的?
而区间( t,t )则称为α水平上的接受域。
27
上一张 下一张 主 页 退 出
图4-1 双侧检验时H0的接受域和否定域
28
对前例分析: 0=0.0975
是被检验的假设,通过检验可能被接受,也
可能被否定。
H A 备择假设(alternative hypothesis) 与H0对应的假设,只有是在无效假设被否定
后才可接受的假设。无充分理由是不能轻率
接受的。
12
上一张 下一张 主 页 退 出
如前例,原假设H0:=0=9.75% ,即 假设由新曲种酿造出的食醋的醋酸含量与原 菌种酿造的食醋醋酸含量相等,这个假设表 明采用新曲种酿造食醋对提高醋酸含量是无 效的,试验的表面效应是随机误差引起的。
一部分是两个总体平均数的差(1 - 2 ), 叫 做 试 验 的 处 理 效 应 (treatment
effect);另一部分是试验误差( 1 - 2)。
统计学课后答案
第四章 抽样分布与参数估计3.某地区粮食播种面积5000亩,按不重复抽样方法随机抽取了100亩进行实测,调查结果,平均亩产450公斤,亩产量标准差为52公斤。
试以95%的置信度估计该地区粮食平均亩产量和总产量的置信区间。
解:已知X =450公斤,n =100(大样本),n/N=1/50,11≈-Nn,不考虑抽样方式的影响,用重复抽样计算。
s =52公斤,1-α=95%,α=5%。
这时查标准正态分布表,可得临界值:96.1025.02/==z z α该地区粮食平均亩产量的置信区间是:1005296.14502⨯±=±nsz x α=[439.808,460.192] (公斤) 总产量的置信区间是:[439.808⨯5000,460.192⨯5000] (公斤) =[2199040,2300960](公斤)4.已知某种电子管使用寿命服从正态分布。
从一批电子管中随机抽取16只,检测结果,样本平均寿命为1490小时,标准差为24.77小时。
试以95%的置信度估计这批电子管的平均寿命的置信区间。
解:(1)已知X =1490小时,n =16,s =24.77小时,1-α=95%,α=5%。
这时查t 分布表,可得 2.13145)1(2/=-n t α该批电子管的平均寿命的置信区间是:1677.2413145.214902⨯±=±nst x α=[ 1476.801,1503.199](小时)因此,这批电子管的平均寿命的置信区间在1476.801小时与1503.199小时之间。
6.采用简单随机重复抽样的方法,从2 000件产品中抽查200件,其中合格品190件。
要求:(1)计算合格品率及其抽样平均误差。
(2)以95.45%的置信度,对合格品率和合格品数量进行区间估计。
(3)如果极限误差为2.31%,则其置信度是多少? 解:(1)合格品率:P=190/200⨯100%=95% 抽样平均误差:np p p )1()(-=σ=0.015(2)%3%95%100015.02%95)(22/02275.02/±=⨯⨯±=±==p Z P Z Z σαα]19601840[]2000%982000%92[(%]98%92[,,的置信区为:件合格品数量,:合格品率的置信区间为=⨯⨯)(3)%64.87)(8764.01,54.1%31.2%100015.0%31.2)(2/2/2/==-==⨯⨯==∆z F Z Z p Z ασααα查表得7.从某企业工人中随机抽选部分进行调查,所得工资分布数列如下:试求:(1)以95.45%的置信度估计该企业工人平均工资的置信区间,以及该企业工人中工资不少于800元的工人所占比重的置信区间;(2)如果要求估计平均工资的允许误差范围不超过30元,估计工资不少于800元的工人所占比重的允许误差范围不超过10%,置信度仍为95.45%,试问至少应抽多少工人? 解(1)通过EXCEL 计算可得: X =816元,n =50人,s =113.77元。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
方差 方差
大样本 大样本 Z分布
小样本 σ 未知, σ22 未知,
t 分布 t 分布
分布 分布
2 2
第四章 参数估计
第二节 总体参数估计
四、单个总体均值的估计
(一)大样本的总体均值估计
【例1】某企业生产A产品的工人有1000人,某日采用不重 复抽样从中随机抽取 100 人调查他们的当日产量,样本人 均产量为 35 件,产量的样本标准差为 4.5件。请以 95.45% 的置信度估计该日人均产量的置信区间。
第四章 参数估计
第二节 总体参数估计
解:①计算样本指标
x
x
i 1
n
i
n
n
789 780 794 762 802 813 770 785 810 806 791.(克) 1 10
s
2 x x i i 1
n 1 2642 .9 10 1 17.136 (克)
2
x
Z
1
2
x
2 0.4269 0.8538 (件)
第四章 参数估计
第二节 总体参数估计
③确定置信区间 估计区间上限: X U 35 0.8538 35.85 ( 件) 估计区间下限: X L 35 0.8538 34.15( 件) 故,可以95.45%的置信度断言,该日人均产量在 34.15~35.85件之间。
抽样调查必须按照随机原则来抽取被调查单位。
第四章 参数估计
第一节 抽样调查的意义
(二)抽样调查的特点 1. 随机抽取样本单位 2. 推断总体数量特征 3. 抽样调查结果只有可控性误差
二、抽样调查的应用范围
1. 用于不可能进行全面调查的现象 2. 用于经济上不允许或精度上不必要进行全面调查的现象 3. 用于时效性要求较强的调查
p
P(1 P) 0.80(1 0.80) 4.000 % n 100
第四章 参数估计
第二节 总体参数估计
②计算抽样极限误差
Z 1 1 645 .. 645 由 ( 1 ) 0.90 ,查正态概率表得 Z 1 1
第四章 参数估计
第二节 总体参数估计
(三)抽样极限误差
在一次抽样中允许的最大误差范围称为抽样极限误差。 是变动的抽样指标与唯一确定的但又是未知的全及指标 之间离差的可能范围。 设 X 与 p 分别表示样本平均数与样本比率的抽样极 限误差,则有:
X X
p p P
第四章 参数估计
第四章 参数估计
第二节 总体参数估计
代表性误差是指用样本指标推断相应的总体指标时, 因样本结构与总体结构不同,致使样本不能完全代表总体 而产生的误差。
代表性误差包括系统误差和随机误差:
系统误差是指由于非随机因素引起的样本代表性不足 而产生的误差,表现为样本估计值系统性偏高或偏低,故 也称偏差。 随机误差是指由于随机抽样引起的样本结构不同于总 体而产生的样本估计值与总体参数真值之间的离差。通常 所说的抽样误差(sampling error)就是这一随机误差。
③计算抽样极限误差
由( 1 ) 0.9973 ,查正态概率表得 Z1 3
x Z
1
(件) x 3 0.08762 0.2629
2
2
④确定置信区间 估计区间上限: X U 150.3 0.2629 150.6(克)
估计区间下限: X L 150.3 0.2629 150.0 (克) 所以,该批茶叶的平均重量在150.0-150.6克之 间,可靠保证程度为99.73%。
第四章 参数估计
第二节 总体参数估计
三、区间估计
区间估计就是根据样本估计量以一定可靠程度推断总体 参数所在的区间范围。 区间估计有三项基本要素:①估计值,主要是样本的平均 数、比率和方差;②估计值的可能误差范围(或说允许误 差范围),即抽样极限误差 p 和 x ;③与误差范围相对 应的概率保证程度——参数估计的置信度。
第四章 参数估计
第二节 总体参数估计
误差来源
登记性误差
代表性误差
系统误差
随机误差
第四章 参数估计
第二节 总体参数估计
2. 影响抽样误差的因素 1) 总体变异度 2) 样本容量 3) 抽样方法 4) 抽样组织方式 (二)抽样平均误差 1. 抽样平均误差的概念 抽样平均误差是指所有可能样本的估计值与所要估计 参数离差的平均数。
④确定置信区间 估计区间上限:X U 791.1 12.26 803.36 (克) 估计区间下限:X L 791.1 12.26 778.84 (克) 故,在95%的置信度下,这批食品平均每袋重量的置信 区间是778.8~803.4克。
(9) 2
第四章 参数估计
第二节 总体参数估计
五、单个总体成数的估计
总体比率P是总体是非标志的的平均数,前面讲的平 均数估计理论都适用于总体比率P的估计,只是估计量的 形式略有不同。 【例 5】 某厂对一批产品的质量进行抽样检验,随机抽取 样品 100只,调查得样本优质品率为80%,试计算当把握 程度为90%时该批产品优质品率的区间范围。 解:①计算抽样平均误差
第四章 参数估计
第二节 总体参数估计
一、抽样误差 二、抽样估计的置信度 三、区间估计 四、单个总体均值估计
五、单个总体成数估计
﹡六、单个总体方差估计
第四章 参数估计
第二节 总体参数估计
一、抽样误差
(一)抽样误差的意义
1. 抽样误差的概念
抽样调查过程中的误差根据其来源大体上可以归纳 为两类:一类是登记性误差,另一类是代表性误差。 登记性误差是指在调查时对样本各单位观察、测量、 登记过程中出现的差错 (含被调查者提供虚假资料而造 成的误差 ) 及汇总样本、计算样本指标等工作产生的误 差。
②计算该抽样估计的概率度
z
x x
0.5 2.67 ,即 0.1872
Z
1
2
2.67
第四章 参数估计
第二节 总体参数估计
③确定估计结果的置信度 查正态概率表得 F( 2.67 ) 0.9962 即
1
2
0.9962
由此可算得
1 1 2 ( 1 0.9962) 0.9924
第二节 总体参数估计
抽样极限误差通常需要以抽样平均误差为标准单位来加 以衡量,把抽样极限误差除以相应的抽样平均误差,得出数 值 z ,称为概率度,以表明抽样极限误差是抽样平均误差的 多少倍。 即:z来自x x
或z
p p
第四章 参数估计
第二节 总体参数估计
二、抽样估计的置信度
抽样估计时总体参数落在某个区间的概率保证程度称为抽 样估计的置信度。 抽样估计的置信度(confidence interval)和抽样极限误 差有着密切联系。当抽样极限误差范围增大时,抽样估计 的置信度也随之有规律地增大,抽样估计的精确程度则随 之有规律地降低,反之亦然。
第四章 参数估计
第二节 总体参数估计
【例 3】考察某些人的平均身高,随机抽取 1000人,测 是平均身高为 168cm ,标准差为 5.92cm ,要求误差不 得超过0.5cm,试确定估计的可靠程度。 解:①计算该调查的抽样平均误差
x
2
n
s2 n
5.922 cm 0.1872 1000
第四章 参数估计
第二节 总体参数估计
抽样平均误差一般如下公式表示:
X
X
m i 1
i
X
2
m
X
m i 1
i
2
m
2 p P i i 1 m
p
p p
m i 1 i
2
m
m
m
是样本可能数目
第四章 参数估计
第二节 总体参数估计
2. 抽样平均误差的计算 (1)样本平均数的抽样平均误差 (即为样本均值的标准差) 1) 重复抽样
第四章 参数估计
第四章 参数估计
【学习目标】通过对本章的学习,掌握参数估计的方法; 掌握抽样调查的基本概念;了解抽样调查的意义和抽样组织设 计的应用。重点:抽样平均误差的计算与控制;单个总体均值、 成数的区间估计;必要样本单位数的确定。 第一节 抽样调查的意义 第二节△总体参数估计 第三节△抽样设计
所以,该抽查结果的可靠程度为99.24%。
第四章 参数估计
第二节 总体参数估计
(二)小样本的总体均值估计
【例4】某商场从一批袋装食品中随机抽取 10袋,测得每 袋重量 ( 单位:克 ) 分别为 789 、 780 、 794 、 762 、 802 、 813、 770 、785、 810、 806,要求以95%的把握程度, 估计这批食品平均每袋重量的区间范围。
2 2 x x (x x) (x x) f
备注 70包 大于 150 克/包
-1.8 -0.8 0.2 1.2 …
3.24 0.64 0.04 1.44 …
32.40 12.80 2.00 28.80 76.00
合计
第四章 参数估计
第二节 总体参数估计
解:①计算样本指标
x
x
i 1 k i 1
第四章 参数估计
第二节 总体参数估计
解:①计算抽样平均误差
x
2 N n
s2 n 4.52 100 件 1 1 0.4269 n N 1 n N 100 1000