第四章 参数估计2014

合集下载

教育与心理统计学 第四章 抽样理论与参数估计考研笔记-精品

教育与心理统计学  第四章 抽样理论与参数估计考研笔记-精品

第四章抽样理论与参数估计第一节抽样理论的基本知识分层抽样,又叫分层随机抽样,这种抽样方法是按照总体已有的某些特征,承认总体中已有的差异,按差异将总体分为几个不同的部分,每一部分称为一个层,在每一个层中实行简单随机抽样。

它充分利用了总体的已知信息,因而是一种非常适用的抽样方法,其样本代表性及推论的精确性一般优于简单随机抽样。

分层的原则是层与层之间的变异越大越好,各层内的变异要小。

试述分层抽样的原则和方法?分层抽样是按照总体上已有的某些特征,将总体分成几个不同部分,在分别在每一部分中随机抽样。

分层的总的原则是:各层内的变异要小,而层与层之间的变异越大越好。

在具体操作中,没有一成不变的标准,研究人员可根据研究需要依照多个分层标准,视具体情况而定。

⑷两阶段随机抽样两阶段随机抽样首先将总体分成M个部分,每一部分叫做一个"集团"(或"群"),第一步从M个集团中随机抽取m个"集团”作为第一阶段样本,第二步是分别从所选取的m个"集团”中抽取个体(g构成第二阶段样本。

一般而言,两阶段抽样相对于简单随机抽样,标准误要大些,但是,两阶段抽样简便易行,节省经草贼,因而它是大规模调查研究中常被使用的抽样方法。

例如,如果我们要了解全国城市初中二年级学生的身高,第一步我们可以从全国几百个城市中随机抽取几十个城市作为第一阶段的样本。

第二步,在第一阶段随机抽取出来的城市中再随机抽取初中二年级的学生。

(二)非旃抽样非概率抽样不是完全按随机原则选取样本,有方便抽样、判断抽样。

方便抽样是由调查人员自由、方便地选择被调查者的非随机选样。

判断抽样是通过某些条件过滤,然后选择某些被调查者参与调查的抽样法。

当采取非概率抽样的方法选取样本时,研究者要说明采用此种方取样的原因以及对研究结果可能造成的影响。

第二节抽样分布[统计量分布、基本随机变量函数的分布]总体:又称母全体、全域,指具有某种特征的一类事物的全体。

第四章 参数估计

第四章 参数估计

虽然平均而言, 能正确的代表μ ,但每一次 观察到的 不会刚好等于μ ,而是随着抽到 的样本不同有高有低: 因此除了点估计外,我们还想进一步知道从 样本中得到的估计值有多可靠,由于样本的 估计值本身也是一个随机变量,不一定会刚 好等于总体参数,因此我们问:估计值与总 体参数有多接近?

区间估计
• 区间估计
用正态分布统计量Z
Z
( X 1 X 2 ) ( 1 2 )
n1 n2
2 1
2 2
~ N (0,1)
两个总体均值之差的估计(续)

12、 22已知时,两个总体均值之差1-2在1- 置信水平下的 置信区间为
( X 1 X 2 ) z 2

12
n1

总体均值 在1-置信水平下的置信区间为
t
X ~ t (n 1) s n
X t 2
s n
单总体比率的区间估计



假定条件 总体服从二项分布 可以由正态分布来近似 使用正态分布统计量 p-p Z= ~ N(0,1) p(1- P) n 总体比例在1-置信水平下的置信区间为
P(
ˆ q
) 无偏 有偏
A

B
ˆ
估计量的优劣标准(续)
有效性(efficiency)

对同一总体参数的两个无偏点估计量 ,有更小标准差的估计量更有 效
ˆ P( q)
ˆ1的抽样分布
B A

ˆ 2的抽样分布
ˆ
估计量的优劣标准(续)
一致性(consistency)

随着样本容量的增大,估计量的值越来越接近被估计的总体参数
P(ˆ )

第四章中心极限定理与参数估计

第四章中心极限定理与参数估计
k 1
当 n 很大时,近似地服从正态分布.
第四章 中心极限定理与参数估计
例 1、对敌人的防御工事进行 80 次轰炸,每次轰炸命中目标炸弹 数目的数学期望为 2,方差为 0.8,且各次轰炸相互独立,求在 80 次轰炸中有 150 颗~170 颗炸弹命中目标的概率。 解:第 i 次轰炸命中目标炸弹的数目 X i (i 1,2,,80) 都是离散型随机
根据随机变量数学期望的性质,计算数学期望
80
80
80
E( X ) E( X i ) E( X i ) 2 160
i 1
i 1
i 1
第四章 中心极限定理与参数估计
由于离散型随机变量变量 X 1 , X 2 ,, X 80 相互独立,根据随机
变量方差的性质,计算方差
80
80
80
D( X ) D( X i ) D( X i ) 0.8 64 82
分大时,离散型随机变量 X 近似服从参数为 np, npq ( p q 1)
的正态分布,即近似有离散型随机变量 X ~ N(np, npq) 定理4.22表明:
正态分布是二项分布的极限分布, 当n充分大时, 可 以利用该定理来计算二项分布的概率.
随机变量 X 的取值在数学期望 E(X ) 附近的密集程度越低。
第四章 中心极限定理与参数估计
(3)在使用切贝谢夫不等式时,要求随机变量 X 的数学期望 E( X ) 与方差 D( X ) 一定存在,这时无论随机变量 X 的概率分布已知或未
知,都可以对事件 X E(X ) 发生的概率进行估计。 2、切贝谢夫不等式的应用举例 例1、 已知电站供电网有电灯 10000 盏,夜间每一盏灯开灯的概率 皆为 0.8,且它们开关与否相互独立,试利用切贝谢夫不等式估计夜 晚同时开灯的灯数在 7800 盏~8200 盏之间的概率。

第四讲参数估计PPT课件

第四讲参数估计PPT课件
0.50
均数 的均 数
4.99
5.00
均数标准差
0.2212 0.1580
5.00 0.0920
n
0.2236 0.1581 0.0913
由表1可见,从同一总体中随机抽取样本含 量n=10的若干样本,各样本算得的样本均 数并不等于相应的总体均数,且各样本均 数也不完全相同。这种由于随机抽样而造 成的来自同一总体的样本均数之间及样本 均数与相应的总体均数之间的差异,称之 为均数的抽样误差。
总体均数可信区间的计算
Hale Waihona Puke 总体均数可信区间的计算 需考虑: (1)总体标准差 是否已知, (2)样本含量n的大小 通常有两类方法: (1)t分布法
(2)u分布法
1. 单一总体均数的可信区间 (1) 未 知 : 按 t 分 布 。
双 侧 1 可 信 区 间 则 为 :
X t 2 , S X < X t 2 , S X ( X t S 2 , X , X t 2 , S X )
由于样本均数与相应的总体均数之间存在着 差异,由数理统计推理可知:从正态总体中 随机抽取样本含量为n的样本,每抽取一个 样本可计算一个样本均数,重复100次抽样可 得到100个样本均数。
这些样本均数服从均数为
,方差为
2 x
的正态分布.其中 x 为样本均数的总
体标准差,计算公式为: / n X
2. 两总体均数之差的可信区间: 从相 等,但 不等的两个正态总体 N(1, 2)和 N(2, 2)进行随机抽样。则两总体均数之差
( 1 2 )的双侧1 可信区间为
(X 1X2)t/2,SX1X2
( n 1 1 ) ( n 2 1 ) n 1 n 2 2
S X1X 2

第四章 参数估计

第四章 参数估计

x
n
总体标准差,若 未知,可用样本
标准差代替
36
总体均值的置信区间引例
(2 未知)
例:某商场从一批袋装食品中随机抽取10袋,测得 每袋重量(单位:克)分别为789,780,794, 762,802,813,770,785,810,806,要 求以95%的把握程度,估计这批食品的平均每袋 重量的区间范围。假定食品重量服从正态分布。
0.95,Z/2=1.96
x Z 2
n
,
x
Z
2
n
26 1.96 6 ,26 1.96 6
100
100
24.824,27.176
我们可以95%的概率保证平均每天 参加锻炼的时间在24.824~ 27.176 分钟之间。
一般置信水平
一般使用的置信水平是:90%, 95%, 99%
Confidence Level
▪ 总体服从正态分布,且总体方差(2)已知 ▪ 如果不是正态分布,可以由正态分布来近似 (n 30)
2. 使用正态分布统计量Z
Z
x s
m ~ N (0,1)
n
3. 总体均值 在1-置信水平下的置信区间为
s
s
x
Za 2
,x n
Za 2 n
总体均值的置信区间
(2 已知)
抽样极限误差:
s x Za 2 n
❖ 定理1
当总体 X ~ N ( m , s 2 ) 时,抽自该总体
的简单随机样本 x1 , x 2 , , x n 的样本平均数
服从数学期望为 ,方差为 s2的正态分布,
n
即 x ~ N (m, s2 ) 。
n
Z x ~ N (0,1) n

(04)第4章 参数估计

(04)第4章 参数估计
(1)平均办理时间的95%的置信区间是多少?
(2)99%的置信区间是多少?
(3)若样本容量为40,而观测的数据不变,则 95%的置信区间又是多少?
5 - 31
统计学
STATISTICS
总体均值的区间估计
(例题分析)
12, s 4.1
解:(1)已知n=15, 1- = 95%, =0.05 ,x
统计学
STATISTICS
总体均值的区间估计
统计学
STATISTICS
大样本的估计方法

不论总体是不是服从正态分布,在大样本 (n 30)时,样本均值均服从正态分布。 若已知 2 x
x ~ N ( ,

总体均值 在1- 置信水平下的置信区间为
n
)
z

n
~ N (0,1)
z 2
有效性:对同一总体参数的两个无偏点估计量, 有更小标准差的估计量更有效
ˆ P( )
ˆ1 的抽样分布
B A
ˆ2 的抽样分布
ˆ
5 - 11
ˆ ˆ1 是比 2 更有效,是一个更好的估计量

统计学
STATISTICS
有效性
(efficiency)
x1 x2 x3 样本均值 x 3 x1 2 x2 3x3 和 x1 6
统计学
STATISTICS
第 4 章 参数估计
4.1 参数估计的基本原理 4.2 一个总体参数的区间估计 4.4 样本容量的确定
5-1
统计学
STATISTICS
4.1 参数估计的一般问题
4.1.1 估计量与估计值 4.1.2 点估计与区间估计 4.1.3 评价估计量的标准

第四章线性系统参数估计的最小二乘法

第四章线性系统参数估计的最小二乘法

测得铜导线在温度Ti (o C) 时的电阻 Ri (Ω ) 如表 6-1,求电阻 R 与温度 T 的近似函数关系。
i
1
2
3
4
5
6
7
Ti (o C) Ri (Ω )
19.1 76.30
25.0 77.80
30.1 79.25
36.0 80.80
40.0 82.35
45.1 83.90
50.0 85.10
使用(1,1.8),(2,2.2)两个点得到的方
1.5 1 1.5 2 2.5 3 3.5 4 4.5 5 5.5 6
程为 y=1.4 + 0.4x;使用(1,1.8),(6,3.3)两个点得到的方程为 y=1.5 + 0.3x,而使用(3,3)和(6,3.3)
两个点得到的方程是 y=2.7+0.1x。
(4.1)
其中,θ=(θ1, θ2, …, θn)是一个参数集。在系统辨识中它们是未知的。我们希望通过不同时刻
对Y及X的观测值来估计出它们的数值。
例如,在研究两个变量(x,y)之间的
4
关系时,通常的做法是取一个变量作为自
变量,另一个作为因变量。改变自变量可
3.5
得到相应的因变量。将所得到的一系列数
据对描绘在直角坐标系中,得到一系列的
X T XΘˆ = X TY
(4.7)

Θˆ=( X T X )−1 X TY
(4.8)
这样求得的Θˆ 就称为Θ的最小二乘估计(LSE),在统计学上,方程(4.7)称为正则方程,称ε
为残差。
在前面讨论的例子中,把 6 个数据对分别代入直线方程y=a0 + a1x中可得到 1 个由 6 个直线

第4章参数估计和假设检验

第4章参数估计和假设检验

第4章参数估计和假设检验第四章参数估计与假设检验掌握参数估计和假设检验的基本思想是正确理解和应⽤其他统计推断⽅法的基础,后⾯将要学习的⽅差分析、⾮参数检验、回归分析、时间序列等统计推断⽅法都是在此基础上展开的。

需要特别指出的是,所有的统计推断都要以随机样本为基础。

如果样本是⾮随机的,统计推断⽅法就不适⽤了。

由于相关知识在先修课程中已经学习过,本章主要在回顾相关知识的基础上,补充讲解必要样本容量的计算、p值、参数估计和假设检验⽅法的软件操作和结果分析等内容。

本章的主要内容包括:(1)参数估计的基本思想和软件实现。

(2)简单随机抽样情况下样本容量的计算。

(3)假设检验的基本原理。

(4)假设检验中的p值。

(5)⼏种常⽤假设检验的软件实现。

第⼀节参数估计⼀、参数估计的基本概念参数估计是指利⽤样本信息对总体数字特征作出的估计。

例如,我们可以通过估计⼀部分产品的合格率对整批产品的合格率作出估计,通过调查⼀个样本的⼈⼝数来对全国的⼈⼝数作出估计,等等。

参数估计可以分为点估计和区间估计。

点估计是指根据样本数据给出的总体未知参数的⼀个估计值。

对总体参数进⾏估计的⽅法可以有多种,例如矩估计法、极⼤似然估计法等,得到的估计量(样本统计量)并不是唯⼀的。

例如我们可以使⽤样本均值对总体均值作出估计,也可以使⽤样本中位数对总体均值进⾏估计。

因此,在参数估计中我们需要对估计量的好坏作出评价,这就涉及到估计量的评价准则问题。

常⽤的估计量评价准则包括⽆偏性、有效性、⼀致性等。

⽆偏性是指估计量的数学期望与总体参数的真实值相等;有效性的含义是,在两个⽆偏估计量中⽅差较⼩的估计量较为有效,⽅差越⼩越有效;⼀致性是指随着样本容量的增⼤,估计量的取值应该越来越接近总体参数。

样本的随机性决定了估计结果的随机性。

由于每⼀个点估计值都来⾃于⼀个随机样本,所以总体参数真值刚好等于⼀个具体估计值的可能性极⼩。

区间估计的⽅法则以概率论为基础,在点估计的基础上给出了⼀个置信区间,并给出了这⼀区间包含总体真值的概率,⽐点估计提供了更多的信息。

参数估计

参数估计

解:
己知N 10000 , 25克, x 5克, t 2, 则在重复抽样条件下: t 2 25 n 2 100袋 2 x 5
2 2 2 2
在不重复抽样下: 2 2 2 2 Nt 10000 2 25 n 2 2 2 2 2 2 N x t 10000 5 2 25 99.01袋 100袋
己知N 5000 , p 3﹪, t 3, P1 P 0.0651 ,
2 p

则在重复抽样条件下: t 2 P1 P 32 0.0651 件 n 651 2 2 p 0.03 在不重复抽样条件下: Nt P1 P 5000 3 0.0651 n 2 2 2 N p t P 1 P 5000 0.03 32 0.0651
的人数

解:
己知N 1000, n 100, n1 90, n0 10, Z 1.96, n1 90 则p 0.9, n 100 p1 p n 0.9 0.1 100 p 1 1 n 1 N 100 1000 0.0285 p t p 1.96 0.0285 0.05586
则该企业全部工人中完成定额的工人比 重 P及完成定额的工人总数 NP 的置信 区间为:
0.9 0.05586 P 0.9 0.05586 0.8441 P 0.9559 1000 0.8441 NP 1000 0.9559 844.1 NP 955.9
即该企业工人中完成定额的工人比重在 0.8441至0.9559之间,完成定额的 工人总数在844.1至955.9人之间, 估计的可靠程度为95﹪。

系统辨识 第四章 系统辨识与参数估计

系统辨识 第四章 系统辨识与参数估计


y (k ) = ϕT (k )θ + e (k ) 其中输入输出观测量和未知参数向量 分别为
T ϕ (k ) = [ − y( k − 1),...,− y (k − n a ), u (k − d ),...., u (k − d − nb ) θ = a1 , a2 ,...., a na , b1 , b2 ,..., bn b
2
(4.1.8)
考虑到离散时间白噪声序列的产生存在着技术上的困难 工程上用伪随机序 列代替离散时间白噪声 取得近似估计 其中运用最广泛的是二进制伪随机序列 是 序列 它的自相关函数接近脉冲函数 谱分析法 谱分析法主要用于辨识过程的频率响应 它的特点是不需要对过程施加试验 信号 只需利用正常操作下的输入输出数据就可以辨识过程的动态特性 因此应 用较为便利 估计 且抑制噪声的能力较强 2.5.19 式 关键在于谱密度的


0
h ( t ) R uu ( t − τ ) dt
(4.1.7)
从式 4.1.7 式求解脉冲响应 h (t ) 的解析式是一般很困难 但是 如果过程 输入信号的自相关函数具有特殊的形式 例如输入信号是均值为零的白噪声 其 自相关函数为 Ruu (τ) = σu δ (τ ) ˆ(t ) 则可直接求得脉冲响应的估计量 h ˆ(t ) = 1 R (τ) h uy 2 σu (4.1.9)
式中 y (⋅) u (⋅) h (t ) h (k )
系统的输出向量 系统的输入向量 连续系统的脉冲响应函数阵 离散系统的脉冲响应函数阵 连续系统的模型 离散系统的模型
即使系统的输入输出维数已知 也不考虑其它随机噪声作用 这样的脉冲响应函 数模型也不能用有限个参数来表示 除脉冲响应 h (t ) 之外 态特性的非参数模型 这三类模型的表现形式是以时间或频率为自变量的实验曲线 对过程施加特 定的实验信号 同时测定过程的输出 可以求得这些非参数模型 经过适当的数 学处理 它们又可以转变成参数模型 — 传递函数的形式 G( s ) h (t ) G( jω) g (t ) G( s ) 是经典控制理论研究中采用的数学模型 获取上述非参数模型并把它们转化为传递函数的主要方法有 阶跃响应法 脉冲响应法 适用于信噪比高的确定性系统 频率响应法 相关分析法 适用于随机系统 谱分析法 阶跃响应法 首先通过实验测取过程的阶跃响应曲线 然后用近似法 半对数法 切线法 两点法和面积法等[5]由阶跃响应曲线确定过程传递函数 至得到两条基本相同的响应曲线 脉冲响应法 首先测取过程脉冲响应 再由脉冲响应确定传递函数 脉冲响应在工程上采 用图 4.1 所示的矩形脉冲输入作用下过程的输出响应 当矩形脉冲的宽度 比过程的过渡时间小得多 时 过程的输出可近似为脉冲响应 脉冲响应也可以直接由阶跃响应经差分处理后求得 即有 且矩形脉冲的面积等于 这些方法对噪声很敏 感 要求在测取阶跃响应曲线时无噪声影响 或在相同条件下多次重复实验 直 所以称为非参数模型 阶跃响应 g (t ) 也是描述线性过程动 频率响应 G( jω)

第4章 参数估计与假设检验

第4章 参数估计与假设检验
2 2 1.25 1.16 14.36 13.60 1.96 0.69, 0.83 2570 2000
2 2Leabharlann y 14.36, n2 2000, 2 1.16
, 2 (2 )
2 1
2
2 2 2 未知但 1 2
(2) 2 未知
S S 或 X t S f=n-1 , X t 2 X t 2 2 n n n
X ~ t (n 1) 选取样本函数 t S n P t t P t t 1 2 2 X P t 1 2 S n 得 的置信度为 1 的置信区间为
23.67,62.27
此题因为是大样本,故用两种方法计算结果相同, 而公式**较简便。如果是小样本,只能按小样本的 公式*计算。若按大样本公式计算,结果误差偏大。
(2 ) , 2 未知且
2 1 2
2 1
2
2
若为小样本,取样本函数 t
2 1 2
X Y 1 2
n
2
n

2
n
0 5 1.960 u 0.0 1 2.576 u0.1 1.645 u0.2 2
例2 伤寒论用桂枝39张处方,桂枝用量服从σ=3g的正 态分布,根据样本均数8.14g,显著水平0.05,估计桂枝用 量μ的置信区间 解:μ 的置信度0.95的置信区间为
3 8.14 1.96 =(7.1984,9.0816)g 39
2 x (1 ) 已知 2 e X u ~ N 0,1 2 / n
2

参数估计

参数估计

结论:不管总体X服从何种分布, 结论:不管总体X服从何种分布,总体期望和方差 的矩估计量分别为样本均值、样本方差, 的矩估计量分别为样本均值、样本方差,即
1 n µ = X = ∑ Xi n i =1 1 n σ 2 = ∑ ( X i − X ) 2 = Sn2 n i =1
估计值为
1 n µ = x = ∑ xi n i =1
ˆ L( x1 , x2 ,L , xn , θ ) = max L( x1 , x2 ,L , xn , θ )
ˆ 为参数θ的极大似然估计值。 则称 θ 为参数θ的极大似然估计值。
参数的极大似然估计法
求解方法: 求解方法: (1)构造似然函数 L(θ ) = f ( x1 , x2 ,L , xn , θ ) = Π f ( xi , θ ) ) (2)取自然对数 ) (3)令 )
$ 将样本观测值 x1 , x2 ,L , xn 代入 θ ( X 1 , X 2 ,L , X n ) , $ 参数θ 称为参数 的估计值。 得到的值 θ ( x1 , x2 ,L , xn ) 称为参数θ的估计值。
点估计( 如果构造一个统计量 点估计(point estimation) :如果构造一个统计量
试估计该批钢件的平均屈服点及其方差。 试估计该批钢件的平均屈服点及其方差。 解 由数字特征法,得屈服点及方差的估计值为 由数字特征法,
1 20 µ = x = ∑ xi = 5.21 20 i =1 1 20 2 2 2 σ =S = ∑ ( xi − 5.21) = 0.049 20 − 1 i =1
n
ln L( x1 , x2 ,L , xn ,θ ) = ∑ ln f ( xi , θ )
i =1
n

最新第4章-参数估计思考与练习参考答案

最新第4章-参数估计思考与练习参考答案

第4章 参数估计 思考与练习参考答案一、最佳选择题1.关于以0为中心的t 分布,错误的是( E )A. t 分布的概率密度图是一簇曲线B. t 分布的概率密度图是单峰分布C. 当ν→∞时,t 分布→Z 分布D. t 分布的概率密度图以0为中心,左右对称E. ν相同时,t 值越大,P 值越大2.某指标的均数为X ,标准差为S ,由公式()1.96, 1.96X S X S -+计算出来的区间常称为( B )。

A. 99%参考值范围B. 95%参考值范围C. 99%置信区间D. 95%置信区间E. 90%置信区间3.样本频率p 与总体概率π均已知时,计算样本频率p 的抽样误差的公式为( C )。

4.在已知均数为μ, 标准差为 σ 的正态总体中随机抽样, X μ->( B )的概率为5%。

A.1.96σB.1.96X σC.0.05/2,t S νD.0.05/2,X t S νE.0.05/2,X t νσ5. ( C )小,表示用样本均数估计总体均数的精确度高。

A. CVB. SC. X σD. RE. 四分位数间距 6. 95%置信区间的含义为( C ):A. 此区间包含总体参数的概率是95%B. 此区间包含总体参数的可能性是95%C. “此区间包含总体参数”这句话可信的程度是95%D. 此区间包含样本统计量的概率是95%E. 此区间包含样本统计量的可能性是95%二、思考题1. 简述标准误与标准差的区别。

答: 区别在于:(1)标准差反映个体值散布的程度,即反映个体值彼此之间的差异;标准误反映精确知道总体参数(如总体均数)的程度。

(2)标准误小于标准差。

(3)样本含量越大,标准误越小,其样本均数更有可能接近于总体均数,但标准差不随样本含量的改变而有明显方向性改变,随着样本含量的增大,标准差有可能增大,也有可能减小。

2. 什么叫抽样分布的中心极限定理?答: 样本含量n越大,样本均数所对应的标准差越小,其分布也逐渐逼近正态分布,这种现象统计学上称为中心极限定理(central limit theorem)。

统计学 第四章 参数估计

统计学 第四章  参数估计

由样本数量特征得到关于总体的数量特征 统计推断(statistical 的过程就叫做统计推断 的过程就叫做统计推断 inference)。 统计推断主要包括两方面的内容一个是参 统计推断主要包括两方面的内容一个是参 数估计(parameter estimation),另一个 数估计 另一个 假设检验 。 是假设检验(hypothesis testing)。
ˆ P(θ )
无偏 有偏
A
B
θ
ˆ θ
估计量的无偏性直观意义
θ =µ



• •
• • • •

2、有效性(efficiency)
有效性:对同一总体参数的两个无偏点估计 有效性: 量,有更小标准差的估计量更有效 。
ˆ P(θ )
ˆ θ1 的抽样分布
B A
ˆ θ2 的抽样分布
θ
ˆ θ
பைடு நூலகம்
3、一致性(consistency)
置信区间与置信度
1. 用一个具体的样本 所构造的区间是一 个特定的区间, 个特定的区间,我 们无法知道这个样 本所产生的区间是 否包含总体参数的 真值 2. 我们只能是希望这 个区间是大量包含 总体参数真值的区 间中的一个, 间中的一个,但它 也可能是少数几个 不包含参数真值的 区间中的一个
均值的抽样分布
总体均值的区间估计(例题分析)
25, 95% 解 : 已 知 X ~N(µ , 102) , n=25, 1-α = 95% , zα/2=1.96。根据样本数据计算得: x =105.36 96。 总体均值µ在1-α置信水平下的置信区间为 σ 10 x ± zα 2 = 105.36 ±1.96× n 25 = 105.36 ± 3.92

第四章参数估计

第四章参数估计
即:当样本单位数增加0.5倍时,抽样平均误差为原来的0.8165倍。
第5章 参数估计
20
(三)抽样允许误差(Ultimate sampling error)
1、含义:进行区间估计时,对应于一定置信水平下 允许出现的最大误差范围。
2、抽样允许误差的表示: E x E p
Ex
x max
Ep
p max
0.150.05
x
n
9
1- = 0.95查标准正态概率
分布表得:Z /2 =1.96
下限为:
x 2 x 2 .1 4 1 .9 6 * 0 .0 5 2 .0 4 2
该种零件的平均长度95%
的 置 信 区 间 为 ( 2.042 ,
2.238)
第5章 参数估计
33
【例6】已知某灯泡的寿命服从正态分布,现从一批 灯泡中随机抽取16只,测得其使用寿命如下: (小时)1510 1450 1480 1520 1480 1460 1480 1510 1530 1470 1500 1520 1510 1470 试确定该批灯泡平均使用寿命95%的置信区间。
应总体参数的点估计值。 若总体标准差已知,进入下一步。否则, 计算样本标准差以推算抽样平均误差。 根据给定的抽样极限误差,估计参数的区间下限
和上限,给出估计区间。 将抽样极限误差除以抽样平均误差求Z值,查《标
准正态分布概率表》求出相应的置信水平。 给出结论。
第5章 参数估计
24
总体均值的区间估计(已知抽样允许误差)
用样本均值或中位数作为总体均值的估计值, 用样本比率作为总体比率的估计值, 用修正样本方差作为总体方差的估计值。 2、点估计误差不能准确计算,且没有给出估计值接 近总体未知参数程度的信息。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
/2
湖北大学商学院 chen qianli
区间估计注意事项:
数据必须是总体的一个SRS。 对于比SRS复杂的概率抽样设计方案以上公式是
不正确的。可以获得其他概率抽样的相关公式。 对于带有未知大小偏误的随意收集的数据,没有 正确的推断方法。好的公式不能挽救坏的数据。 因为样本均值是不耐抗的,异常值会对置信区间 产生很大影响。应该搜索异常值并试图修正或说 明去除的理由,然后再计算置信区间。如果异常 值不能去除,需要采用对异常值不敏感的方法。
量,有更小标准差的估计量更有效
ˆ) P(
ˆ1 的抽样分布
B A
ˆ2 的抽样分布
ˆ

湖北大学商学院 chen qianli
一致性(consistency)
• 一致性:随着样本容量的增大,估计量
的值越来越接近被估计的总体参数
ˆ) P(
较大的样本容量
B A
较小的样本容量

湖北大学商学院 chen qianli
湖北大学商本容量小且总体不是正态分布,真
实的置信水平会不同于1-α。仔细检查数据 的偏斜程度和其他非正态的迹象。置信区 间只依赖样本均值的分布,即使在很小样 本容量下样本均值比单个值更接近正态分 布,当n>=15,置信区间不会受到非正态 总体很大的影响,除非有极端数值或存在 强烈的偏斜。 必须知道总体标准差σ,这对应用产生限制, 稍后会讨论σ未知的情形。当样本容量很大 时,用样本标准差s代替总体标准差是合适 的。
– 比如,某班级平均分数在75~85之间,置信水平是95%
置信区间
样本统计量 (点估计)
置信下限
湖北大学商学院 chen qianli
置信上限
区间估计实例:HMO
湖北大学商学院 chen qianli
区间估计实例:HMO
样本均值 x 是未知总体均值 的自然的估 计量,因为它的无偏性。 x 405.02 作为总体均值的估计有多可靠?显然再进行 一次抽样,肯定不会给出405.02的值。 要了解此种估计方法的可靠性,需要知道样 本均值的分布,即抽样分布。由中心极限 定理(CLT)知,样本均值近似服从正态分 2 布 N ,
湖北大学商学院 chen qianli
区间估计注意事项:
关于置信区间的最重要的警示是,置信区间的边际 误差只包括随机抽样误差。抽样调查中实际的困 难如代表不足和不回应,会产生其他误差。这些 误差可能大于随机抽样误差,特别是在大的样本 容量下。调查的实际实施会在很多方面影响结果 的可靠性,但这些方面没有包括在报告的边际误 差里。 使用概率方法容易指出某个推断方法完全正确的条 件,但这些条件在实际中不可能完全满足。决定 什么时候某个统计方法在实际中应该使用经常需 要在数据的探索性分析下的判断。
湖北大学商学院 chen qianli

大学生每周上网花多少时间?
回答类别
3小时以下 3~6小时 6~9小时 9~12小时 12小时以上
人数(人)
32 35 33 29 71
频率(%)
16 17.5 16.5 14.5 35.5
合计
200
100
•平均上网时间为8.58小时,标准差为0.69小时。全校学生每
(正态总体、2已知,或非正态总体、大 样本)
湖北大学商学院 chen qianli
总体均值的区间估计
(大样本)
1. 假定条件
– – 总体服从正态分布,且方差(2) 已知 如果不是正态分布,可由正态分布来近似 (n 30)
2. 使用正态分布统计量 z
z x
3. 总体均值 在1- 置信水平下的置信区间为 s x z 2 或 x z 2 ( 未知) n n
湖北大学商学院 chen qianli
区间估计的图示
x z 2 x
- 2.58x -1.65 x
x

+1.65x +2.58x
x
-1.96 x
+1.96x
90%的样本 95% 的样本 99% 的样本
湖北大学商学院 chen qianli
置信水平
样本统计量
如:样本均值 、比例、方差
湖北大学商学院 chen qianli
4.1 参数估计的一般问题

估计量与估计值 点估计与区间估计 评价估计量的标准
湖北大学商学院 chen qianli
估计量与估计值
(estimator & estimated value)
1. 估计量:用于估计总体参数的随机变量
第 4 章 参数估计
7.1 7.2 7.3 7.4 参数估计的一般问题 一个总体参数的区间估计 两个总体参数的区间估计 样本容量的确定
湖北大学商学院 chen qianli
不像其他科学,统计从来不打算使 自己完美无缺,统计意味着你永远 不需要确定无疑。
Gudmund R.Iversen
湖北大学商学院 chen qianli
湖北大学商学院 chen qianli
总体均值的置信区间 从未知均值 和已知标准差 的总体中获取
/2
容量为n的SRS, 的置信水平为1-α的置信 区间为: xz
n
其中 z / 2 为标准正态分布曲线右侧的概率为 / 2 的临界值。 z /2 称为边际误差。 n 此区间在正态总体时是准确的,在其他总体 分布但n很大时是近似正确的。


区间估计
矩估计法 顺序统计量法 最大似然法 最小二乘法
湖北大学商学院 chen qianli
点估计
1. 用样本的估计量的某个取值直接作为总体参
数的估计值
例如:用样本均值直接作为总体均值的估计;用 两个样本均值之差直接作为总体均值之差的估计 虽然在重复抽样条件下,点估计的均值可望等于 总体真值,但由于样本是随机的,抽出一个具体 的样本得到的估计值很可能不同于总体真值 一个点估计量的可靠性是由它的抽样标准误差来 衡量的,这表明一个具体的点估计值无法给出估 计的可靠性的度量
湖北大学商学院 chen qianli

n
~ N (0,1)
总体均值的区间估计
(例题分析)
【 例 】一家食品生产企业以生产袋装食品为主,为对产量质 量进行监测,企业质检部门经常要进行抽检,以分析每袋重 量是否符合要求。现从某天生产的一批食品中随机抽取了 25 袋,测得每袋重量(单位:g)如下表所示。已知产品重量的 分布服从正态分布,且总体标准差为 10g 。试估计该批产品 平均重量的置信区间,置信水平为95%
湖北大学商学院 chen qianli
周的平均上网时间是多少?每周上网时间在12小时以上的学生 比例是多少?你做出估计的理论依据是什么?
参数估计在统计方法中的地位
推 •参 统 假 断 数 设 计 统 估 检 方 计 计 验
描 述 统 计

湖北大学商学院 chen qianli
统计推断的过程
总体
样 本
– 如样本均值,样本比例、样本方差等 – 例如: 样本均值就是总体均值 的一个估计量
2. 参数用 表示,估计量用 ˆ 表示 3. 估计值:估计参数时计算出来的统计量的
具体值
– 如果样本均值 x =80,则80就是的估计值
湖北大学商学院 chen qianli
参数估计的方法
估 计 方 法

大学生每周上网花多少时间?
为了解学生每周上网花费的时间,中国人民大学公
共管理学院的 4 名本科生对全校部分本科生做了问 卷调查。调查的对象为中国人民大学在校本科生, 调查内容包括上网时间、途径、支出、目的、关心 的校园网内容,以及学生对收费的态度,包括收费 方式、价格等 问卷调查由调查员直接到宿舍发放并当场回收。对 四个年级中每年级各发60份问卷,其中男、女生各 30份。共收回有效问卷共 200份。其中有关上网时 间方面的数据经整理如下表所示
湖北大学商学院 chen qianli
(point estimate)
2. 无法给出估计值接近总体参数程度的信息
– –
区间估计
(interval estimate)
1. 在点估计的基础上,给出总体参数估计的一个区间
范围,该区间由样本统计量加减估计误差而得到 2. 根据样本统计量的抽样分布能够对样本统计量与总 体参数的接近程度给出一个概率度量
置信区间
(confidence interval)
1. 由样本统计量所构造的总体参数的估计区间称为 2.
置信区间 统计学家在某种程度上确信这个区间会包含真正 的总体参数,所以给它取名为置信区间 用一个具体的样本所构造的区间是一个特定的区 间,我们无法知道这个样本所产生的区间是否包 含总体参数的真值
湖北大学商学院 chen qianli
区间估计注意事项:
上例中,我们说有95%的相信程度总体均值 在394.48到415.56之间,这是指区间的计 算是通过一种方法完成,此方法可以在所 有可能样本的95%给出正确结果。不能说 有95%的可能真实均值μ落在394.48到 415.56之间。一旦我们抽取一个特定样本 并从中获得一个特定区间后随机性不存在 了,真实的总体均值μ要么在394.48到 415.56之间,要么不在。概率作为长期相 对频数的解释在此情形下没有意义。
湖北大学商学院 chen qianli
置信区间如何变化
估计总体均值的边际误差
z / 2

n
可说明置信区间的重要性质: 高置信水平1-α会增加 z ,从而增加边际误差。
我们当然希望高置信水平和小边际误差,但改进 一个会恶化另一个。有三种方式减小边际误差: 1.使用较低的置信水平;2.减少σ 3.增加样本容量n
1. 将构造置信区间的步骤重复很多次,置信
区间包含总体参数真值的次数所占的比例 称为置信水平 2. 表示为 (1 - – 为是总体参数未在区间内的比例
相关文档
最新文档