参数估计
第三章 参数估计
第三章参数估计重点:1.总体参数与统计量2.样本均值与样本比例及其标准误差难点:1.区间估计2.样本量确实定知识点一:总体分布与总体参数统计分析数据的方法包括:描绘统计和推断统计〔第一章〕推断统计是研究如何利用样本数据来推断总体特征的统计学方法,包括参数估计和假设检验两大类。
总体分布是总体中所有观测值所形成的分布。
总体参数是对总体特征的某个概括性的度量。
通常有总体平均数〔μ〕总体方差〔σ2〕总体比例〔π〕知识点二:统计量和抽样分布总体参数是未知的,但可以利用样本信息来推断。
统计量是根据样本数据计算的用于推断总体的某些量,是对样本特征的某个概括性度量。
统计量是样本的函数,如样本均值〔〕、样本方差〔 s2〕、样本比例〔p〕等。
构成统计量的函数中不能包括未知因素。
由于样本是从总体中随机抽取的,样本具有随机性,由样本数据计算出的统计量也就是随机的。
统计量的取值是根据样本而变化的,不同的样本可以计算出不同的统计量值。
[例题·单项选择题]以下为总体参数的是( )a.样本均值b.样本方差c.样本比例d.总体均值答案:d解析:总体参数是对总体特征的某个概括性的度量。
通常有总体平均数、总体方差、总体比例题·判断题:统计量是样本的函数。
答案:正确解析:统计量是样本的函数,如样本均值〔〕、样本方差〔〕、样本比例〔p〕等。
构成统计量的函数中不能包括未知因素。
[例题·判断题]在抽样推断中,作为推断对象的总体和作为观察对象的样本都是确定的、唯一的。
答案:错误解析:作为推断对象的总体是唯一的,但作为观察对象的样本不是唯一的,不同的样本可以计算出不同的统计量值。
〔一〕样本均值的抽样分布设总体共有n个元素,从中随机抽取一个容量为n的样本,在重置抽样时,共有n n种抽法,即可以组成n n不同的样本,在不重复抽样时,共有个可能的样本。
每一个样本都可以计算出一个均值,这些所有可能的抽样均值形成的分布就是样本均值的分布。
概率论 第七章 参数估计
L( ) max L( )
称^为
的极大似然估计(MLE).
求极大似然估计(MLE)的一般步骤是:
(1) 由总体分布导出样本的联合概率分布 (或联合密度);
(2) 把样本联合概率分布(或联合密度)中自变 量看成已知常数,而把参数 看作自变量, 得到似然函数L( );
(3) 求似然函数L( ) 的最大值点(常常转化 为求ln L( )的最大值点) ,即 的MLE;
1. 将待估参数表示为总体矩的连续函数 2. 用样本矩替代总体矩,从而得到待估参
数的估计量。
四. 最大似然估计(极大似然法)
在总体分布类型已知条件下使用的一种 参数估计方法 .
首先由德国数学家高斯在1821年提出。 英国统计学家费歇1922年重新发现此
方法,并首先研究了此方法的一些性质 .
例:某位同学与一位猎人一起外出打猎.一只 野兔从前方窜过 . 一声枪响,野兔应声倒下 .
p值 P(Y=0) P(Y=1) P( Y=2) P(Y=3) 0.7 0.027 0.189 0.441 0.343 0.3 0.343 0.441 0.189 0.027
应如何估计p?
若:只知0<p<1, 实测记录是 Y=k
(0 ≤ k≤ n), 如何估计p 呢?
注意到
P(Y k) Cnk pk (1 p)nk = f (p)
第七章 参数估计
参数估计是利用从总体抽样得到的信息 估计总体的某些参数或参数的某些函数.
仅估 计一 个或 几个 参数.
估计新生儿的体重
估计废品率
估计降雨量
估计湖中鱼数
…
…
参数估计问题的一般提法:
设总体的分布函数为 F(x, ),其中为未 知参数 (可以是向量).从该总体抽样,得样本
第7章参数估计
x 1 0
f P 1-p
x
xf f
1 p 0 (1 p) p (1 p)
p
2 (x x)2 f (1 p)2 p (0 p)2 (1 p)
f
p (1 p)
似然函数常简记为L或 L 1,2, ,k
未知参数的函数。
38
若有 ˆi (x1, x2,..., xn ) i 1, 2, k 使得
L x1, x2,..., xn;ˆ1, ˆ 2,
, ˆ k
max L (1 ,2 , ,k )
x1, x2,..., xn; 1, 2,
, k
则 ˆi (X1, X2,..., Xn) 为参数θi的极大似然估计量。
中选出一个使样本观察值出现的概率为最大的 ˆ 作
为θ的估计量。
称 ˆ 为θ 的极大似然估计量。
37
2.似然函数的数学表达式
设X1,X2,…Xn是取自总体X的一个样本,样本的联合密度 (连续型)或联合分布律 (离散型)为 :
f (x; 1,2 , , k )
定义似然函数为:
n
L L x1,..., xn; 1, 2, , k f xi; 1, 2, , k i 1 x1, x2 ,..., xn 给定的样本观察值
§7.1.4抽样误差
1.误差:调查结果与实际值之间的差异 抽样调查中的误差
登记性误差(非抽样误差) 误差代表性误差随系机统误误差差((抽非样抽误样差误)差)
2.抽样误差—由于抽样的随机性而产生的 样本指标对总体指标的代表性误差。抽样误 差可以计算并加以控制,但不可以避免。
第五章 参数估计
1
X 2 t n1 n2 2
2
2 Sp
n1
n2
X
1
X 2 z
2
2 S12 S 2 n1 n2
2 Sp
2 2 n1 1S1 n2 1S 2
n1 n2 2
20
例题:
分别在城市1和城市2中随机抽取n1=400, n2=500的职工进行调查,经计算两城市职工的 平均月收入及标准差分别为X1=1650元,
22
思考题:
一个研究机构做了一项调查,以确定稳定的吸 烟者每周在香烟上的消费额。他们抽取49位固 定的吸烟者,发现均值为20元,标准差5元。
1.总体均值的点估计是多少?
2.总体均值μ的95%置信区间是什么?
23
思考题解答:
1.总体均值的点估计是20元。
2.总体均值μ的95%置信区间: 随机变量X表示每周香烟消费额,由题意可知,X=20, S=5,1-α=0.95,α=0.05;n=49 属于大样本,σ 未知以S估计。总体均值μ的95%置信区间为
P z Z z 1 2 2
P L U 1
X P z z 1 2 2 n
Step3:将上面等式进行等价变换即可。
P L U 1
第五章 参数估计
第五章 参数估计
利用样本数据对总体特征进行推断,通常在以下 两种情况下进行:
当总体分布类型已知(如:正态),根据样本数据对 总体分布的未知参数进行估计或检验。参数估 计或参数检验。(如:μ或σ为何?) 当总体分布类型未知或知道很少,根据样本数据 对总体的未知分布的形状或特征进行推断。非参 数检验。(如:是否正态分布?是否随机?)
第四章 参数估计
x
n
总体标准差,若 未知,可用样本
标准差代替
36
总体均值的置信区间引例
(2 未知)
例:某商场从一批袋装食品中随机抽取10袋,测得 每袋重量(单位:克)分别为789,780,794, 762,802,813,770,785,810,806,要 求以95%的把握程度,估计这批食品的平均每袋 重量的区间范围。假定食品重量服从正态分布。
0.95,Z/2=1.96
x Z 2
n
,
x
Z
2
n
26 1.96 6 ,26 1.96 6
100
100
24.824,27.176
我们可以95%的概率保证平均每天 参加锻炼的时间在24.824~ 27.176 分钟之间。
一般置信水平
一般使用的置信水平是:90%, 95%, 99%
Confidence Level
▪ 总体服从正态分布,且总体方差(2)已知 ▪ 如果不是正态分布,可以由正态分布来近似 (n 30)
2. 使用正态分布统计量Z
Z
x s
m ~ N (0,1)
n
3. 总体均值 在1-置信水平下的置信区间为
s
s
x
Za 2
,x n
Za 2 n
总体均值的置信区间
(2 已知)
抽样极限误差:
s x Za 2 n
❖ 定理1
当总体 X ~ N ( m , s 2 ) 时,抽自该总体
的简单随机样本 x1 , x 2 , , x n 的样本平均数
服从数学期望为 ,方差为 s2的正态分布,
n
即 x ~ N (m, s2 ) 。
n
Z x ~ N (0,1) n
参数估计
参数估计
参数估计就是用样本统计量来推算总体参 数,有点估计和区间估计两种方法。 一、参数估计的理论基础 按正态分布理论对参数进行估计。 正态分布的主要特征有: 1.以总体平均数为中心两侧呈对称分布,即 1.以总体平均数为中心两侧呈对称分布,即 样本平均数大于或小于总体平均数的概率完全相 等,就是说样本平均数的正离差与负离差出现的 可能性完全相等。
2.样本平均数越接近总体平均数,其出现的 2.样本平均数越接近总体平均数,其出现的 可能性越大;反之样本平均数越远离总体平均数, 其出现的可能性越小。这种可能性数学上称为概 率F(t),也就是可靠性。与概率对应的数值称为 ),也就是可靠性。与概率对应的数值称为 概率度,即抽样误差扩大的倍数,用字母t表示。 概率F(t)与概率度t 的对应函数关系如图4-2所 的对应函数关系如图4 示。
30
f x
25 20
( )
15
10
5
0
-4 -3 -2 -1 0 1 2 3 4
x
-3t
x 3 x 2
-2t
x
-1t
0 68.27% 95.45% 99.73% F(t)
X
x + x + 2
1t
2t
x + 3
3t
图4 - 2
正态分布概率图
图4-2显示样本平均数与总体平均数的平均误差不超过1μ的 显示样本平均数与总体平均数的平均误差不超过1 概率为0.6827,不超过2 的概率为0.9545,不超过3 概率为0.6827,不超过2μ的概率为0.9545,不超过3μ的概率为 0.9973。即: 0.9973。即: 当t =1时,F(t) = 0.6827 =1时, 当t =2时,F(t) = 0.9545 =2时, 当t =3时,F(t) = 0.9973 =3时, 概率度t与概率F(t)的对应关系是:概率F(t)越大,则概率 度t值越大,估计的可靠性越高,样本统计量与总体参数之间正 负离差的变动范围也越大。对于t每取一个值,概率保证程度F(t) 有一个唯一确定的值与之对应。因此人们制定正态分布概率表 有一个唯一确定的值与之对应。因此人们制定正态分布概率表 (见书后附页)供大家查找。
参数估计
6. 参数估计6.1. 参数估计概述统计学包括四个方面的问题,其中之一就是统计推断。
所谓统计推断就是指,如果有一个总体,其分布和统计量都不知道,如一批生产出来的产品的质量。
这样就需要对其进行推断,如一批灯泡的平均使用寿命是多少,是否为合格品等。
统计推断就是解决这些问题。
统计推断分为两个方面,一方面是参数估计,另一方面是假设检验。
6.1.1.参数估计所谓参数估计就是通过对样本的研究,来确定总体的统计量。
其中又可分为点估计和区间估计两类。
点估计就是估计出总体的某一统计量的确切值,如总体的均值、方差等。
通常可以通过样本的相应值来进行估计。
如:样本的平均值∑=i X nx 1是总体平均值的估计量; 样本的方差为∑=--=ni i x x n s 122)(11是总体方差的估计量; 点估计的优点在于它能明确地给出所估计的参数。
但是一般说来,估计的数值与实际值之间是肯定会有误差存在的。
在实际工作中常常需要对这种误差进行衡量,也就是说还需要确定这个估计值的精度,或误差范围和可信程度。
因此就产生了区间估计的问题。
区间估计是通过样本来估计总体参数可能位于的区间。
例如说一批产品的平均使用寿命为1000小时,这仅仅是一个点估计,还需要说明大多数产品(95%)的使用寿命的上限和下限值,比如说位于800~1200小时之间,这就是一个区间估计值。
因此,在进行区间估计时,除了要给出一个区间值外,还需要同时指明可以信赖的程度,即在进行区间估计时,需要确定的是αθθθ-=<<1)ˆˆ(21p ,其中α为事先给定的一个很小的正数,如0.10, 0.05, 0.01或0.001等,称之为显著水平;1-α称为参数θ的置信概率,或置信水平。
θ1和θ2为所估计的参数θ的区间范围的上下限。
其含为我们有100(1-α)%的把握相信所估计的参数θ位于θ1和θ2的区间范围内。
6.1.2.估计量的评价标准对于所给出的估计来说,有些是好的,有些则不是。
07心理统计学-第七章 参数估计
犯错误的概率,常用α(或p)表示。则1-α为置信 度。(显著性水平越高表示的是α值越小,即犯错误的可
能性越低) α为预先设定的临界点,常用的如.05、.01、.001;p 为检验计算所得的实际(犯错误)概率。
第一节 点估计、区间估计与标准误
三、区间估计与标准误
3、区间估计的原理与标准误
转换成比率为
p
n
p, SE p
n
pq n
同理可得公式7-17。自习[例7-12、例7-13]
1、从某地区抽样调查400人,得到每月人均文化消费为 160元。已知该地区文化消费的总体标准差为40元。试 问该地区的每月人均文化消费额。(α=.05,总体呈正态
分布)
2、上题中总体方差未知,已知Sn-1=44元。 3、已知某中学一次数学考试成绩的分布为正态分布,总 体标准差为5。从总体中随机抽取16名学生,计算得平 均数为81、标准差为Sn=6。试问该次考试中全体考生成 绩平均数的95%置信区间。 4、上题中总体方差未知,样本容量改为17人。 5、假定智商服从正态分布。随机抽取10名我班学生测 得智商分别为98、102、105、105、109、111、117、 123、124、126(可计算得M=112,Sn≈9.4),试以95% 的置信区间估计我班全体的智商平均数。 返回
值表,求tα /2(df)。
5、计算置信区间CI。
σ2已知,区间为M-Zα /2 SE <μ< M+Zα /2 SE;
σ2未知,区间为M-tα /2(df)SE <μ< M+tα /2(df)SE。
6、对置信区间进行解释。
二、σ2已知,对μ的区间估计(Z分布,例7-1 & 2) 三、σ2未知,对μ的区间估计(t分布,例7-3 & 4)
第二章 参数估计
0
x 2de
x
2xe
x
dx
2
xde
x
0
x
0
0
2 e dx 2 2
0
9
例4:设X1, … , Xn为取自 N ( , 2 ) 总体的
样本,求参数 , 2 的矩估计。
: E( X ) D( X ) 2 E( X 2 ) [E( X )]2
极大似然法是由德国数学家G.F.Gauss在1821年提 出的.然而这个方法通常归于英国统计学家 R.A.Fisher,因为他在1912年里发现了这一方法,并 且首先研究了这种方法的性质.
设总体的密度函数为f(x,θ), θ为待估参数,θ∈Θ,Θ
为参数空间.当给定样本观察值 x (x1, x2 , xn )后,f(x,
以随便给的,所以根据统计思想建立各种点估计方法
和评价点估计的好坏标准便是估计问题的研究中心.
这里先介绍三个常用的标准:无偏性、有效性和一致
性.
1
有效性
^
^
设 i i ( X1,, X n ), i 1, 2分别是参数 的两个无偏估计,
^
^
^
^
若D 1 D 2 至少有一个n使 成立 , 则称 1比 2 有效.
总体k阶矩 样本k阶矩
k E(Xk )
Ak
1 n
n i 1
X
k i
的矩估计量是
约定:若
是未知参数的矩估计,则u()的矩
估计为u(
),
6
例2、:设X1, … , Xn为取自参数为的指数分布 总体的样本,求的矩估计。
第5章 参数估计
猎物射击,结果该猎物身中一弹,你认为谁打中的可能
性最大? 根据经验而断:老猎人打中猎物的可能性最大. 极大似然估计法的思想就是对固定的样本值,选
择待估参数的估计值使“样本取样本值”[离散型]或 “样
本取值落在样本值附近”[连续型] 的概率最大。
(2、极大似然估计的求法
单参数情形
根据总体分 布律写出似 然函数:换x 为xi
来得到待估参数θ 的极大似然估计值(驻点);
③ 、必要时,参照极大似然估计值写出极大似然
估计量.
【例6】求服从二项分布B(m,p)的总体X未知参数 p的极大似然估计量。 〖解〗单参数,离散型。 因为总体 X
~ B(m, p),
x m x
其分布律为
m x
f ( x; p) C p (1 p)
下面分离散型与连续型总体来讨论. 设离散型总体X的分布律
P{X x} p( x; )
( )
形式已知,θ 为待估参数. X 1 , X 2 ,..., X n 为来自总体X的
样本, x1 , x2 ,..., xn 为其样本值,则 X 1 , X 2 ,..., X n 的联合分
布律为:
用其观察值
ˆ( X , X ,..., X ), 1 2 n
——θ 的估计量
ˆ( x , x ,..., x ) 1 2 n
——θ 的估计值
来估计未知参数θ .
今后,不再区分估计量和估计值而统称为θ 的估计,
ˆ . 均记为
二、构造估计量的两种方法
1、矩估计法 理论根据:样本矩(的连续函数)依概率收敛于总
因为X~N(μ ,σ 2),所以X总体的概率密度为
2 1 (x ) 2 f ( x; , ) exp ( R, 0) 2 2 2
参数估计Parametersestimation
3. 置信度(水平) :用置信区间估计的可靠性 (把握度) 4. 抽样平均误差 与概率度 Z 抽样平均误差 :样本均值抽样分布的标准差。 反映在参数周围抽样平均值的平均变异程度。
练习
1、根据居民100户抽样家计调查,居民用于食品 费用占总收入的比例平均为45%,比例的标准差为 20%。求食品费用占居民总收入比例的区间估计(置 信度为95%)。 2、根据某大学100名学生的抽样调查,每月平均 用于购买书籍的费用为4.5元,标准差为5元,求大学 生每月用于购买书籍费用的区间估计(置信度为 95%)。 3、某工厂根据200名青年职工的抽样调查,其中60% 参加各种形式的业余学习。求青年职工参加业余学习 比例的区间估计(置信度为95%)。 (0.41,0.49)(3.52,5.48)(0.54,0.66)
=170±1.47
因此,有95%的把握,该校学生的平均身高在 168.5 ~ 171.5厘米之间。
第三节 其他类型的置信区间
1. 小样本,且为正态总体 ,总体均值的区间估计(用 分布)
[例] 在一个正态总体中抽取一个容量为25的样本, 其均值为52,标准差为12,求置信水平为95%的总体 均值的置信区间。 [解] 根据题意,总体方差未知,且为小样本,故 用 分布统计量。由95%置信水平查 分布表得概
因此,有95%的把握,该厂妇女的平均从事家务 劳动的时间在2.87 ~ 2.43小时之间。
从来自在“白领犯罪与罪犯生涯:一些初步
研究结果”的一项研究报告的数据表明,白领犯 罪可能是年纪较大者,并且显示比街头罪犯有较 低的犯罪率。给出数据为:白领犯罪发作平均年 龄为54岁, =100,标准差被估计为7.5岁。建立
第六章---参数估计ppt课件
1、条件分析:总体分布为正态,且总体方差已 知,用正态法进行估计。 2、计算标准误 3、确定置信水平为0.95,查表得
51
4、计算置信区间 D=0.95时 D=0.99时
52
解释:总体均数μ落在75.61-84.39之间的可 能性为95%,超出这一范围的可能只有5%。而 作出总体μ落在74.22-85.78之间结论时的正 确概率为99%,犯错误的可能性为1%。
38
( 二)、 分布法, 未知 1、前提条件: 总体正态分布, n不论大小,
2、使用 t分布统计量
D=0.95时 D=0.99时
39
例:总体正态, 未知,
,
,
,
,
平均数0.95的置信区间是多少?
,
,试问总体
40
解: 1、条件分析:总体正态, 未知,
小
于30,只能用 分布
2、计算标准误
3、计算自由度
9
一、点估计
(一)意义 含义:直接用样本统计量的值作为总体参数的估 计值 无偏估计量:恰好等于相应总体参数的统计量。
例8-1;假设某市六岁男童平均身高110.7cm,随机 抽取113人测得平均身高110.70cm.总体的平均数, 标准差是多少
10
(二)良好点估计的条件
无偏性: 一致性: 有效性: 无偏估计量的变异性问题。
47
1 、条件分析:总体分布为非正态, 未知, >30,只能用近似正态估计法。
2、计算标准误
3、确定置信水平为0.95,查表得
48
4、计算置信区间
5、结果解释:该校的平均成绩有95%的可能落 在50.2~54.0之间。
49
课堂练习
已知某总体为正态分布,其总体标准差为10。 现从这个总体中随机抽取n1=20的样本,其平 均数分别80。试问总体参数μ在0.95和0.99的 置信区间是多少。
统计学第4章 参数估计
无偏性
(unbiasedness)
无偏性:估计量抽样分布的数学期望等于被
估计的总体参数
抽样分布
中,样本 P(ˆ)
均值、比 率、方差
无偏
有偏
分别是总
A
B
体均值、
比率、方
差的无偏
估4计- 2量3
ˆ
统计学
STATISTICS
有效性
(efficiency)
有效性:对同一总体参数的两个无偏点估计
置信水平(1-α)表达了区间估计的可靠性。 它是区间估计的可靠概率。
显著性水平α表达了区间估计的不可靠的概 率。
4 - 20
统计学§4.2 点估计的评价标准
STATISTICS
对于同一个未知参数,不同的方法得到的估 计量可能不同,于是提出问题
应该选用哪一种估计量? 用何标准来评价一个估计量的好坏?
常用 标准
4 - 21
(1) 无偏性 (2) 有效性 (3) 一致性
统计学 定义 STATISTICS
无偏性
(unbiasedness)
若 E(ˆ)
则称 ˆ是 的无偏估计量.
定义的合理性
我们不可能要求每一次由样本得到的
估计值与真值都相等,但可以要求这些估 计值的期望与真值相等.
4 - 22
统计学
量,有更小标准差的估计量更有效
P(ˆ)
ˆ1 的抽样分布
B
无偏估计量还 必须与总体参 数的离散程度
比较小
4 - 24
A
ˆ2 的抽样分布
ˆ
统计学
有效性
STATISTICS
定义 设 ˆ1 1(X1, X 2, , X n )
参 数 估 计
二、参 数 估 计
【例5-5】 设X~B(1,p),(X1,X2,…,Xn)是取自总体X的一个子样, 试求参数p的极大似然估计量。
解:设(x1,x2,…,xn)是子样(X1,X2,…,Xn)的一组相应的取值。总体X 的分布律为
则似然函数为 取对数后,有 令
二、参 数 估 计
从而得p的极大似然估计值为 p的极大似然估计量为
项目
参数估计
二、参 数 估 计
一、 参数估计的基本原理
参数估计是指由样本指标值(统计量)估计总体指标值 (参数),即当总体的分布性质已知,但其所含参数真值未 知时,根据一组样本的观察值X1,X2,…,Xn来估计总体中未 知参数θ或θ的某函数。首先从样本(X1,X2,…,Xn)中提取有 关总体X的信息,即构造样本的函数——统计量 g(X1X2,…,Xn);然后用样本值代入,求出统计量 g(x1,x2,…,xn)的值,用该值来作为相应待估参数的值。
二、参 数 估 计
二 、 评价估计量的标准
在参数估计中,用样本估计量 作为总体参数θ的估 计量,实际上,对于同一参数,用不同的估计方法求出的估 计量可能不相同,用相同的方法也可能得到不同的估计量。 也就是说,同一参数可能具有多种估计量,而且,从原则上 讲,任何统计量都可以作为未知参数的估计量,那么采用哪 一个估计量好呢?这就涉及估计量的评价问题,而判断估计 量好坏的标准是:有无系统偏差,波动性的大小,伴随样本 容量的增大是否越来越精确,这就是估计的无偏性、有效性 和一致性。
区间的概念,并给出在一定可信程度的前提下求置信区间的
方法,使区间的平均长度最短。
二、参 数 估 计
用给定的置信度1-α说明区间估计的可靠程度
,通常α取值很小,如取0.05、0.01,有时取0.1。
名词解释参数估计
名词解释参数估计
参数估计(parameter estimation)就是用样本统计量去估计总体的参数。
比如,用样本均值估计总体均值,用样本方差估计总体方差。
如果将总体参数笼统地用一个符号来表示,用于估计总体参数的统计量用表示,参数估计也就是如何用来估计。
在参数估计中,用来估计总体参数的统计量称为估计量(estimator),用符号表示。
样本均值、样本方差等都可以是一个估计量。
根据一个具体的样本计算出来的估计量的数值称为估计值(estimated value)。
比如,要估计一个班学生考试的平均分数,从中抽取一个随机样本,全班的平均分数是不知道的,称为参数,用表示,根据样本计算的平均分数就是一个估计量,用表示。
假定计算出来的样本平均分数为80分,这个80分就是估计值的具体数值,称为估计值。
参数估计
§4 均值的置信区间的分析(2):一对矛盾
区间估计中的一对矛盾
精度
区间长度越长,精度越低 区间长度越短,精度越高 n越大,精度越高
置信度越高,区间长度越长 置信度越低,区间长度越短
置信度
样本容量n固定时,精度与置信度不能同时提高!
先保证置信度,再提高精度
§4 均值的置信区间的分析(3):一个特殊应用
§3 参数的区间估计:引例
抛一枚均匀的硬币10000次, ?问题1:出现正面的次数可能达到5500次吗?
可能。但可能性非常小,与摸彩票(36选7)中特等奖的 概率类似的小。 有68.3%的可能在(4950,5050)之间; 有95.4%的可能在(4900,5100)之间; 有99.7%的可能在(4850,5150)之间;
§3 参数的区间估计
在估计参数 时,构造一个置信区间,其置信系 数为95%,下面哪一种说法最正确( ) A.落在该置信区间的概率为95% B.不落在该区间的风险为5% C. 有95%的随机置信区间会包括 D. 这一估计的误差不超过5%
§4 均值的区间估计——大样本结果
x z / 2 n
在参数估计中利用t分布构造置信区间的条件是 ( ) A. 总体分布需服从正态分布且方差已知 B. 总体分布为正态分布,方差未知 C. 总体不一定是正态分布但须大样本 D. 总体不一定是正态分布,但需要方差已知
§4 正态总体均值的区间估计
为管理的需要,银行要测定在业务柜台上每笔业 务平均所需的时间。假设每笔业务所需时间服从 正态分布,现随机抽取样本量为16,测得平均时 间为13分钟,标准差为5.6分钟,要求以99%的 置信系数确定置信界限。若置信系数改为90%, 其置信界限有何区别?
关于参数估计
关于参数估计虽然⾮计算机专业,但因为⼀些原因打算学习西⽠书,可由于长时间没有碰过概率统计的知识,有所遗忘。
所以特意重新复习了⼀遍类似的知识,写在这⾥权当总结。
主要参考《概率论与数理统计》(陈希孺)。
参数估计就是根据样本推断总体的均值或者⽅差、或者总体分布的其他参数。
可以分两种,⼀种是点估计(估计⼀个参数的值),另⼀种是区间估计(估计⼀个参数的区间)。
参数估计的⽅法有多种,各种估计⽅法得出的结果不⼀定相同,很难简单的说⼀个必定优于另⼀个。
点估计点估计主要有三种⽅法:矩估计、最⼤似然估计、贝叶斯估计。
矩估计定义k阶样本原点矩为 $$a_k=\frac{1}{n}\sum n_{i=1}X_i k$$若k=1则原点矩显然就是样本均值\bar{X};再定义k阶样本中⼼矩为m_k=\frac{1}{n}\sum^n_{i=1}(X_i-\bar{X})^k.另⼀⽅⾯,总体分布设为f(x;\theta_1,\theta_2,...,\theta_k)则有m阶原点矩\alpha_m=\int x^mf(x;\theta_1,\theta_2,...,\theta_k){\rm d}x.矩估计的思想就是:令样本k阶矩等于总体k阶矩,得到⼀组⽅程,由此反解出\{\theta_i\}.⼀般原则是要求解n个参数,就选n个最低阶的矩,令它们相等并反解。
例题:设X_1,...,X_n为区间[\theta_1,\theta_2]上均匀分布总体中抽出的n个样本,估计出\theta_1,\theta_2.计算出样本中⼼矩m_1=\sum_iX_i/n和m_2=\sum_iX_i^2/n.再计算出总体中⼼矩分别为\frac{\theta_1+\theta_2}{2}和\frac{(\theta_1+\theta_2)^2}{12},令它们对应相等,解出来两个\theta即可。
极⼤似然估计符号同前,样本(X_1,...,X_n)的联合概率密度(PDF)为f(x_1;\theta_1,...,\theta_k)f(x_2;\theta_1,...,\theta_k)...f(x_n;\theta_1,...,\theta_k).现在反过来,固定样本\{X_i\}⽽把上⾯PDF看作关于\{\theta_i\}的“密度函数”,加引号是因为实际上\{\theta_i\}是固定参数⽽⾮随机变量,这⾥可以叫做似然函数(likehood, ⽽⾮probability)。
第七章__参数估计
三、区间估计与标准误
㈠区间估计的定义 是根据样本统计量,利用抽样分布的原理,在一定的
可靠程度上,估计出总体参数所在的范围,即以数 轴上的一段距离表示未知参数可能落入的范围。 ㈡置信区间与显著性水平 ⑴置信区间:也称置信间距,指在一定可靠程度上,总体参
数所在的区域距离或区域长度。
⑵置信界限(临界值):置信区间的上下两端点值。 ⑶显著性水平:指估计总体参数落在某一区间时,可能犯错
⑶区间估计的原理是样本分布理论。在计算区间估计值解释估 计的正确概率时,依据的是该样本统计量的分布规律及样本 分布的标准误。样本分布可提供概率解释,而标准误的大小 决定区间估计的长度。一般情况下,加大样本容量可使标准 误变小。
当总体方差已知时,样本平均数的分布为正态分布或
渐近正态分布,此时,样本平均数的平均数uX u, 平均数的离散程度即平均数分布的标准差(简称
例4
解:由题意知,其总体方差未知,但其总体分布为正态分布,
则此样本均数的分布服从t分布, 可以依t分布对总平 均身高μ进行估计。
SEX
S 4.8 0.81; df n 1 36 1 35 n 1 35
查t值表可知 : t0.05 230 2.042;t0.01 230 2.75
例2 已知某区15 岁男生立定跳远的方差 为 436.8cm ,现从该区抽取58名15岁男生, 测得该组男生立定跳远的平均数为198.4cm, 试求该区15岁男生立定跳远平均成绩的95%和 99%的置信区间。
例2
解:由题意知:由于样本容量(n=58)大于30 ,
该样本的抽样分布为渐进正态分布。
SEX
因此, 的95%的置信区间为 :
82 2.0211.12 82 2.0211.12
参数估计PPT课件
目录
• 参数估计简介 • 最小二乘法 • 最大似然估计法 • 贝叶斯估计法 • 参数估计的评估与选择
01 参数估计简介
参数估计的基本概念
参数估计是一种统计学方法,用于估计未知参数的值。通过使用样本数据和适当的统计模型,我们可 以估计出未知参数的合理范围或具体值。
参数估计的基本概念包括总体参数、样本参数、点估计和区间估计等。总体参数描述了总体特征,而 样本参数则描述了样本特征。点估计是使用单一数值来表示未知参数的估计值,而区间估计则是给出 未知参数的可能范围。
到样本数据的可能性。
最大似然估计法的原理是寻找 使似然函数最大的参数值,该 值即为所求的参数估计值。
最大似然估计法的计算过程
确定似然函数的表达式
根据数据分布和模型假设,写出似然函数的表达式。
对似然函数求导
对似然函数关于参数求导,得到导数表达式。
解导数方程
求解导数方程,找到使似然函数最大的参数值。
确定参数估计值
04
似然函数描述了样本数据与参数之间的关系,即给定参数值下观察到 样本数据的概率。
贝叶斯估计法的计算过程
首先,根据先验信息确定参数的先验分布。 然后,利用样本信息和似然函数计算参数的后验分布。 最后,根据后验分布进行参数估计,常见的估计方法包括最大后验估计(MAP)和贝叶斯线性回归等。
贝叶斯估计法的优缺点
参数估计的常见方法
最小二乘法
最小二乘法是一种常用的线性回归分析方法,通过最小化误差的平方和来估计未知参数。这种方法适用于线性回归模 型,并能够给出参数的点估计和区间估计。
极大似然法
极大似然法是一种基于概率模型的参数估计方法,通过最大化样本数据的似然函数来估计未知参数。这种方法适用于 各种概率模型,并能够给出参数的点估计和区间估计。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
参数估计——用样本统计量估计总体的某一未知量; 假设检验——用样本验证总体的某种性质或者数量特征; 一,简单随机抽样(同一性,独立性) 无限总体 有限总体 有放回抽样 不放回抽样 二,统计量
用于估计总体参数的样本数据计算的指标;
常用的有 样本均值11n i i X X n ==∑,样本方差()2
2
1
11n i i S X X n ==--∑
三,均值的抽样分布
(1),样本算术平均数的均值(无偏)
总体均值1
1N i i X N μ==∑,
总体标准差,()
2
1
1
N
i
i X
N
σ
μ==
-∑
(2),样本算术平均数的标准差(抽样平均误差/均值标准差)X σ
有放回抽样:X
n
σ
σ=
有限总体无放回抽样:1X
N n N n σσ⎛⎫
-=
⎪ ⎪-⎝
⎭
(多了个有限总体的校正系数)
注意:当抽样比小于5%时,校正系数忽略不计,即用X n
σ
σ=来计算抽样平均误差;
(3),从正态分布的总体中抽样 如样本是有放回抽样,那么一总体~(,)X N μσ,则不管样本容量如何改变,其均值的抽样分布也是正
态,且均值为X
μμ=,均值标准差为X
σ
其标准化公式为X
X
X X Z
n
μμ
σ
σ--==
(4),从非正态分布的总体中抽样
不管总体服从何种分布,当样本容量足够大时(一般30n ≥),均值的抽样分布能够近似服从正态分布
即:
~(,/)X N n μσ或~(,
)1
N n
X N N n σ
μ--
四,两个样本均值之差的抽样分布
(1),若
111~(,)X N μσ和222~(,)X N μσ,那么1
2
22
12121
2
~(,
)X X N n n σσμμ--+
(2),若
2
1111
~(,
)X N n σμ和22
22
~(,
)X N n σμ,那么2
212
12121
2
~(,
)X X N n n σσμμ--+
,
(3),若21111~(,
)1N n N N n N σμ-⎛⎫
⎪-⎝⎭和22221~(,
)1N n N N n N σμ-⎛⎫
⎪-⎝⎭
, 那么
22
1112
2212121122~(,
)11N n N n X X N n N n N σσμμ⎛⎫⎛⎫----+ ⎪ ⎪--⎝⎭⎝⎭
五,样本比例(样本成数)的抽样分布
处理是(1)/否(0)的定性变量,表示具有某种特征的样本比例
X p n =
=成功数样本容量
样本比例(无偏),比例的样本平均误差(1)p
p p n
σ-=
注意当样本容量很大时,可以用正态分布近似; 六,样本比例(样本成数)之差的抽样分布
()1212E p p P P -=-
1
2
11
2212
(1(1+
p p P P P P n n σ---=
)) 七,样本方差的抽样分布(学会查表) (1),一个样本方差的抽样分布 若
(),X N μσ ,抽取容量为n 的随机样本,则()()2221/1n S n σχ-- ;
(2),两个样本方差之比的抽样分布 若
111~(,)
X N μσ和
222~(,)
X N μσ,相互独立,抽取容量为
1
n 和
2
n 的样本,则
()22
11122222
/1,1/S F F n n S σσ=--
参数估计 一,点估计
用样本统计量估计总体的未知参数真值
方法:数字特征法(重点)、顺序统计量法、极大似然估计法 用样本的平均数和样本方差来估计总体均值和方差
1
ˆn
i
i X
X n
μ
===∑,()2
2
2
1
1ˆ1n
i i S X X n σ===--∑
二,区间估计
以一定的概率(置信度)来保证估计的正确性,就是指可以求出一个对总体的参数估计的区间范围,并且这个区间范围的可靠程度是一定的,称为置信度,区间估计也叫置信区间。
总体的未知参数θ,由样本可以给出位置参数的某一区间
()ˆˆ,L
U
θθ,并且给定一个()0,1α∈,使得
ˆˆ()1L U
p θθθα≤≤=-,这样就称随机区间()ˆˆ,L U θθ是参数θ的置信度为1α-的置信区间。
三、总体均值的置信区间(难点) (1)、正态总体(方差已知) 求X 置信度为1α-的置信区间:
令()0,1/X Z N n
μ
σ-=
/2/2()1/X p z z n
ααμ
ασ--<
<=-
注意:图像理解;公式记忆;习题训练;查表
(2)、正态总体(方差未知)
一般地,可用样本标准差S 来代表总体标准σ,根据t 分布进行区间估计,求X 置信度为1α-的置信
区间,令()1/X t t n S n
μ
-=
- ,
(1)/2(1)/2()1/n n X p t t S n
ααμ
α----<
<=-
(3)、非正态总体
若总体方差已知,则总体均值
μ
的置信度为
1α
-的置信区间同(1)中相同,为
/2/2,X z X z n n αασσ⎛
⎫-+ ⎪⎝
⎭;
若总体方差未知,则总体均值μ的置信度为1α-的置信区间为/2
/2
,S S X
z X z n n αα⎛⎫
-+ ⎪⎝
⎭
;
四、两个总体均值之差的置信区间(难点) 若总体方差均已知,则总体均值
12μμ-的置信度为1α
-的置信区间同(1)中相同,为
()()2222121212/212/21212,X X z X X z n n n n αασσσσ⎛⎫--+-++ ⎪ ⎪⎝⎭
;
若总体方差未知但相等,则总体均值
12μμ-的置信度为1α
-的置信区间同(1)中相同,为
()()121
212(2)/212
(2)/212
121111,n n p n n p
X X t S X X t S n n n n αα+-+-⎛⎫--+-++ ⎪ ⎪⎝
⎭
,其中
()()22
11222
12112
p
n S n S S n n -+-=
+-;
五、总体比例的置信区间
/2/2()1(1)p P
p z z P P n
ααα--<
<≈--
六、两个总体比例之差的置信区间
1212/2/2112212
()()()1(1)(1)
p p P P p z z p p p p n n ααα----<
<≈---+
七、正态分布总体方差的区间估计
1/2/2
2
2
2
(1)()1n S p ααχχασ
--<
<=-
八、两个正态总体方差之比的区间估计
22
111/2
/22222
/()1/S p F F S αασασ-<<=- 九、样本容量的确定 (1)、估计总体均值μ
2
X z n
α
σ
∆=(置信区间的一半)
则n=?
(2)、估计总体成本P
2
(1)p p p z n
α
-∆=
则n=?。