第六章参数估计基础
参数估计

i 1
n
xi 0 0 1 x i n 0 xi e e i 1 ( 0 ) ( 0 )n
n
i 1
n
xi 0
1
ln L( ) n 0 ln n ln ( 0 )
x i ( 0 1)
n 1 n 1 ˆ X i 1 X i 2 k E X i 1 X i 2 E ( 2 ) E k i 1 i 1
2k ( n 1) 2 2
1 k 2( n 1)
19
20
7、如果已知总体X的均值 , 证明总体方差的无偏估计量为
令 E( X ) X
X
(1)
15
E( X 2 )
0
1 x x e dx ( )
1 ( ) 2
x 1e x d x 0
( 2) ( 1) ( ) ( 1) 2 2 ( ) ( ) 2
所以对于已给的置信水平1-α,
的置信区间为
2 S2 n1 1, n2 1 S22 2
S12 12 2 2 F n1 1, n2 1 S 2 2 F
2
1
11
1、 设总体服从几何分布: ( X x ) p(1 p) x 1,x 1, 3 P 2,
X Y 考虑样本函数 T
假设 1 2,求 1 2 的置信区间。
1
2
1 1 sw n1 n2
∴对应于置信水平1- α , 两个总体均值差 1 2 的置信区间为:
第六章参数估计

113第六章 参数估计一、 知识点1. 点估计的基本概念2. 点估计的常用方法(1) 矩估计法① 基本思想:以样本矩作为相应的总体矩的估计,以样本矩的函数作为相应的总体矩的同一函数的估计。
(2) 极大似然估计法设总体X 的分布形式已知,其中),,,(21k θθθθΛ=为未知参数,),,(21n X X X Λ为简单随机样本,相应的),,,(21n x x x Λ为它的一组观测值.极大似然估计法的步骤如下:① 按总体X 的分布律或概率密度写出似然函数∏==ni i n x p x x x L 121);();,,,(θθΛ (离散型)∏==ni i n x f x x x L 121);();,,,(θθΛ (连续型)若有),,,(ˆ21nx x x Λθ使得);,,,(max )ˆ;,,,(2121θθθn n x x x L x x x L ΛΛΘ∈=,则称这个θˆ为参数θ的极大似然估计值。
称统计量),,,(ˆ21nX X X Λθ为参数θ的极大似然估计量。
② 通常似然函数是l θ的可微函数,利用高等数学知识在k θθθ,,,21Λ可能的取值范围内求出参数的极大似然估计k l x x x nl l ,,2,1),,,,(ˆˆ21ΛΛ==θθ 将i x 换成i X 得到相应的极大似然估计量k l X X X nl l ,,2,1),,,,(ˆˆ21ΛΛ==θθ 注:当);,,,(21θn x x x L Λ不可微时,求似然函数的最大值要从定义出发。
3. 估计量的评选标准(1) 无偏性:设),,(ˆˆ21nX X X Λθθ=是参数θ的估计量,如果θθ=)ˆ(E ,则称θˆ为θ的无偏估计量。
(2) 有效性:设1ˆθ,2ˆθ是θ的两个无偏估计,如果)ˆ()ˆ(21θθD D ≤,则称1ˆθ较2ˆθ更有效。
4. 区间估计114 (1) 定义 设总体X 的分布函数族为{}Θ∈θθ),;(x F .对于给定值)10(<<αα,如果有两个统计量),,(ˆˆ111n X X Λθθ=和),,(ˆˆ122n X X Λθθ=,使得{}αθθθ-≥<<1ˆˆ21P 对一切Θ∈θ成立,则称随机区间)ˆ,ˆ(21θθ是θ的双侧α-1置信区间,称α-1为置信度;分别称1ˆθ和2ˆθ为双侧置信下限和双侧置信上限. (2) 单侧置信区间(3) 一个正态总体下未知参数的双侧置信区间(置信度为α-1)二、 习题 1. 选择题(1) 设n X X X ,,,21Λ是来自总体X 的一个样本,则以下统计量①)(211n X X + ②)2(14321n X X X X X n ++++-Λ ③)2332(101121n n X X X X +++-作为总体均值μ的估计量,其中是μ的无偏估计的个数是A.0B.1C.2D.3(2) 设321,,X X X 是来自正态总体)1,(μN 的样本,现有μ的三个无偏估计量321332123211216131ˆ;1254131ˆ;2110351ˆX X X X X X X X X ++=++=++=μμμ其中方差最小的估计量是A.1ˆμB.2ˆμC. 3ˆμD.以上都不是 (3) 设0,1,0,1,1为来自0-1分布总体B(1,p)的样本观察值,则p 的矩估计值为 。
西北工业大学《概率论与数理统计》课件-第六章 参数估计

(2) 似然函数
定义6.1 设总体X的分布密度(或分布律)为 p(x; ), 其中 (1, 2, ,m )为未知参数. 又设
( x1, x2,, xn ) 为自总体X的样本(X1,X2,…,Xn) 的一 个观察值,则称样本的联合分布
n
L( ) p(x1, x2, … , xn; ) p( xi; )
2º似然估计方程组与最大似然估计之间没有必 然
从中解得 pˆ k n
参数 p的估计值
这时, 对一切 0< p <1, 均有
P{Y k; pˆ } P{Y k; p}
综上所述: 设某试验的可能结果为: A1, A2 , ···, Ai , ···
若在一次试验中,某结果 Ai 出现,则应选择参 数使Ai 出现的概率最大.
以上这种选择一个参数使得实验结果具有
(k 1,2,, m)
(4) 求最大似然估计(MLE)的步骤:
1 写出似然函数
(1, 2 , ,m )
n
L( ) L( x1, x2,, xn; ) p( xi; )
n
i 1
2 取对数 ln L( ) ln p( xi; )
i 1
3 解似然方程(组)
ln L
ln L
2
为来自总体X的简单随机样本. 矩估计法的具体步骤:
1 求出k E( X k ) (1,2,,m ), k 1,2,,m;
2 要求k Ak , k 1,2,, m
这是一个包含 m个未知参数1,2 ,,m的方程组.
3 解出其中1,2,,m , 用ˆ1,ˆ2,,ˆm表示.
4 用方程组的解ˆ1, ˆ2 , ,ˆm 分别作为 1,2 ,,m的估计量,这个估计量称为
第6章 参数估计

较 的样本容量
θ
B A
较 的样本容量
θ
ˆ θ
一致性: 一致性:
随着样本容量增大, 随着样本容量增大,估计量会越来越接近被估计 的参数。 的参数。即对任意的
→∞→ n
ε >0
,有
ˆ lim P{| θ −θ |< ε} =1
则称 θ 是参数θ的一致估计量。 ˆ 是参数θ的一致估计量。
X
µ -1.96 σx
+1.96σ µ +1.96σx
90%的样本 90%的样本 95% 的样本 99% 的样本
置信水平
1. 将构造置信区间的步骤重复很多次,置信 将构造置信区间的步骤重复很多次, 区间包含总体参数真值的次数所占的比例 称为置信水平. 称为置信水平. 2. 表示为 1 - a 是总体参数未在区间内的比例 3. a是总体参数未在区间内的比例 是总体参数未在区间内的比例 常用的置信水平值有 99%,
• 如某班级平均分数在75~85之间,置信水平是95% 如某班级平均分数在75~85之间,置信水平是95% 75 之间 95
5.1.3. 评价估计量的标准
1.无偏性: 无偏性:
ˆ ˆ 如果 E(θ ) =θ ,即估计量 θ 的数学 期望等于被估计的总体参数, 期望等于被估计的总体参数,我们称估计量
(35)4 35) (45)4.5 45) (55)5 55)
无偏性:估计量抽样分布的数学期望等于被 估计的总体参数. 估计的总体参数 .
ˆ P(θ)
偏 偏
A
B
ˆ θ
θ
样本平均数是总体平均数的无偏估 样本平均数是总体平均数的无偏估 计量。 计量。
以无偏性来评判估计量是很合理的。一 以无偏性来评判估计量是很合理的。 个好的估计量就某一个具体的估计值而言 可能不等于总体参数值, ,可能不等于总体参数值,但平均来看有 向估计的总体参数集中的趋势。 向估计的总体参数集中的趋势。
第六章 参数值的估计

第六章 参数值的估计 第一节 参数估计的一般问题一、估计量与估计值参数估计就是用样本统计量去估计总体参数,如用X 估计μ,用S2估计2σ,用p 估计π等。
总体参数可以笼统地用一个符号θ表示。
参数估计中,用来估计总体参数的统计量的名称,称为估计量,用θ表示,如样本均值、样本比例等就是估计量。
用来估计总体参数时计算出来的估计量的具体数值,叫做估计值。
二、点估计与区间估计——参数估计的两种方法 1、点估计用样本估计量θ的值直接作为总体参数θ的估计量值。
2、区间估计它是在点估计基础上,给出总体参数估计的一个区间,由此可以衡量点估计值可靠性的度量。
这个区间通常是由样本统计量加减抽样误差而得到。
以样本均值的区间估计来说明区间估计原理:根据样本均值的抽样分布可知,重复抽样或无限总体抽样情况下,样本均值,由此可知,样本均值落在总体均值两侧各为一个标准误差范围内的概率为0.6827,两个标准误差范围0.9545,三个标准误差范围0.9973,并可计算出样本均值落在μ的两侧任何一个标准误差范围内的概率(根据已知的μ,σ计算)。
但实际估计时,μ是未知的,因而不再是估计样本均值落在某一范围内的概率,而只能根据已设定的概率计算这个范围的大小。
例如:约有95%的样本均值会落在距μ的两个标准误差范围内,即约有95%的样本均值所构造的两个标准误差的区间会包括μ。
在区间估计中,由样本统计量所构造的总体参数的估计区间,称为置信区间,区间的最小值为置信下限,最大值为置信上限。
例如,抽取了1000个样本,根据每个样本构造一个置信区间,其中有95%的区间包含了真实的总体参数,而5%的没有包括,则称95%为置信水平/置信系数。
构造置信区间时,可以用所希望的值作为置信水平,常用的置信水平是90%,95%,99%,见下表:α称为显著性水平,表示用置信区间估计的不可靠的概率,1-为置信水平。
如何解释置信区间:如用95%的置信水平得到某班学生考试成绩的置信区间为(60,80),即在多次抽样中有95%的样本得到的区间包含了总体真实平均成绩,(60,80)这个区间有95%的可能性属于这些包括真实平均成绩的区间内的一个。
考研资料_厦门大学卫生综合_卫生统计厦大内部习题集_第六章 参数估计基础

第六章参数估计基础习题一、是非题1.总体率的区间估计中, 值越大,置信度越低。
( )2.样本率的标准误越小,抽样误差越大。
( )3.对同一样本资料来说,总体均数的置信区间宽度通常会小于医学参考值范围的宽度。
()4.置信度由99%下降到95%,置信区间估计的准确度也下降。
( )5.在t值相同时,双侧概率正好是单侧格率的2倍。
( )二、选择题1.均数的标准误反映了( )。
A.个体变异程度B.集中趋势的位置C.指标的分布特征D.样本均数与总体均数的差异E.频数分布规律2.用于描述均数的抽样误差大小的指标是( )。
A.S B.S C.CV D.R E.S23.抽样误差产生的原因是( )。
A.观察对象不纯B.非正态分布C.个体差异D.非分类变量资料E.随机抽样方法错误4.均数95%置信任区间主要用于()。
A.估计“正常人群”某指标95%观察值所在范围B.反映总体均数有95%的可能在某范围内C.反映某指标的可能取值范围D.反映某措标的观察值波动范围E.反映95%的样本均数在此范围内5.以下关于参数估计的说法正确的是( )。
A.区间估计优于点估计B.样本含量越大,置信区间范围越大C.样本含量越小,参数估计越精确D.对于一个参数可以获得几个估计值E.标准差大小与置信区间范围无关三、筒答题1.已知某地正常成年女性的平均空腹血糖值为 4.95mmol/L,标淮差为 1.03 mmol/L,某医疗机构从该地随机抽取40名正常成年女性,测得其平均空腹血糖值为5.17 mmol/L,试指出5.17 mmol/L与4.95 mmol/L不同的原因是什么?应该用什么指标来表示两者间的差别?2.样本均数的抽样分布有哪些特点?3.t分布与Z(标准正态分布)分布相比有什么特点?。
第六章 参数估计

宁波工程学院
理学院
第六章 参数估计
第12页 12页
6.1.2 极(最)大似然估计
定义6.1.1 设总体的概率函数为P(x;θ ),将样本 的联合概率函数看成θ 的函数
L (θ ) = L (θ ; x1 ,⋯ , xn ) = p ( x1 ; θ ) ⋅ p ( x2 ; θ ) ⋅⋯ ⋅ p ( xn ; θ )
宁波工程学院
理学院
第六章 参数估计
第9页
例6.1.3 x1, x2, …, xn 是来自(a,b)上的均匀分布 U(a,b)的样本,a与b均是未知参数,这里k=2, 由于
a+b EX = , 2 (b − a ) 2 Var( X ) = , 12
不难推出
a = EX − 3Var( X ), b = EX + 3Var( X ),
第7页
二、概率函数P 二、概率函数P(x,θ)已知时未知参数的矩法估计 设总体的分布含有k个未知参数 θ ,⋯,θ ,那么 1 k 它的前k阶矩 µ1, µ2 ,⋯, µk 都是这k个参数的函数
µi = gi (θ1,⋯,θk ) 从这k个方程中解出 θ = θ (µ ,⋯, µ ) j j 1 k
4 December 2010
宁波工程学院
理学院
第六章 参数估计
第20页 20页
§6.2 点估计的评价标准
6.2.1 相合性
点估计量不可能等同于参数的真实取值。但根据 格里纹科定理,完全可以要求估计量随着样本量 的不断增大而逼近参数真值,这就是相合性
ˆ ˆ 定义6.2.1 θn = θn ( x1,⋯, xn ) 是θ 的一个估计量,若对 任何一个ε>0,有
统计学,刘照德06-1第六章 参数估计

第一节 点估计
点估计的求解方法主要有 : • 矩估计法 • 最大似然估计法
第一节 点估计
一 、矩估计法
• 矩估计法是一种常用的估计方法,其基本 思想是,用样本原点矩作为总体原点矩的 估计。
第一节 点估计
• 设k个参数 ( , , ),求 k个参数 ˆ (ˆ ,ˆ ,ˆ ) 矩估计 需要建立k个方程,方法是:设总体 的一个样本观测值是 (x , x ,, x ) ,其l阶原点 1 A x 矩 ,总体观测量X的l阶原点矩 n ml E( X l ) ml ( ) ,用样本原点矩Al作为总体 原点矩ml的估计,得出k个方程Al =ml(θ )(l =1,…,k),解此方程组得出的 即为参数 的矩 估计。
对于给定的抽样方法 ,不同的抽样,就有不同的 ˆ , ˆ) 估计区间 ( 1 2
在用同样方法构造的总体参数的多个估计区间 中,包含总体参数真值的区间所占的比例称为 置信水平,表示为 (1 - 。 2.为是未包含总体参数的区间所占的比例。 •
3. 常用的置信水平值有 99%, 95%, 90%
第一节点估计??????????222221???xexdxemxem??????2221??????aa??????21221??aaa????????????????niiniixxnxxnx12122211?????二最大似然估计法?最大似然方法的基本思想是固定样本观测值在可能的取值中挑选使似然函数达到最大从而概率p达到最大的作为参数的估计
1 2
ˆ) P(
ˆ 的抽样分布 1
B A
ˆ2 的抽样分布
ˆ
第一节 点估计
• 3.一致性 依 设 为 的一个估计量,若当 n 时, ,则称 为 的一致估计量。此即 概率收敛于 随着样本容量n的增大,点估计量 越来越接近 被估总体参数 。
第六章---参数估计ppt课件

1、条件分析:总体分布为正态,且总体方差已 知,用正态法进行估计。 2、计算标准误 3、确定置信水平为0.95,查表得
51
4、计算置信区间 D=0.95时 D=0.99时
52
解释:总体均数μ落在75.61-84.39之间的可 能性为95%,超出这一范围的可能只有5%。而 作出总体μ落在74.22-85.78之间结论时的正 确概率为99%,犯错误的可能性为1%。
38
( 二)、 分布法, 未知 1、前提条件: 总体正态分布, n不论大小,
2、使用 t分布统计量
D=0.95时 D=0.99时
39
例:总体正态, 未知,
,
,
,
,
平均数0.95的置信区间是多少?
,
,试问总体
40
解: 1、条件分析:总体正态, 未知,
小
于30,只能用 分布
2、计算标准误
3、计算自由度
9
一、点估计
(一)意义 含义:直接用样本统计量的值作为总体参数的估 计值 无偏估计量:恰好等于相应总体参数的统计量。
例8-1;假设某市六岁男童平均身高110.7cm,随机 抽取113人测得平均身高110.70cm.总体的平均数, 标准差是多少
10
(二)良好点估计的条件
无偏性: 一致性: 有效性: 无偏估计量的变异性问题。
47
1 、条件分析:总体分布为非正态, 未知, >30,只能用近似正态估计法。
2、计算标准误
3、确定置信水平为0.95,查表得
48
4、计算置信区间
5、结果解释:该校的平均成绩有95%的可能落 在50.2~54.0之间。
49
课堂练习
已知某总体为正态分布,其总体标准差为10。 现从这个总体中随机抽取n1=20的样本,其平 均数分别80。试问总体参数μ在0.95和0.99的 置信区间是多少。
第6章 参数估计

是取自总体 X 的样本 ,
n
则样本的联合分布律
P{ X 1 x1 ,, X n xn } p ( xi , ),
i 1
对确定的样本观察值 x1 , x2 ,, xn , 它是未知参数
的函数, 记为
L( ) L( x1 , x2 ,, xn , ) p ( xi , ),
这位同学命中的概率, 故一般会猜测这一枪是猎人 射中的. 最大似然估计法的思想: 在已得到试验结果的情况 下, 应寻找使这个结果出现的可能性最大的那个
值作为 的估计 ˆ.
第28页
离散型总体的情形:
P{ X x} p( x, ),
x1 , x2 , , xn
设总体 X 的概率分布为 其中 为未知参数. 如果
本, 试求 , 2 的矩估计量. 1 E ( X ) , 解
2 E ( X 2 ) D( X ) [ E ( X )]2 2 2 ,
X 令 2 2 n 1 2 2 S X n
X 2 n 1 2 S n
2 (n / 2)
可以证明,当n时, 有cn1. 这说明 s 是 的渐近无偏估计。
教材P304例6.1.3(Jackknife)
第7页
设 T ( x) 是基于样本x ( x1 , x2 ,, xn ) 的关于参数 g ( )
1 的估计量,且满足 E T ( x) g ( ) O( ). 如以 x( i )表示从 n 样本中删去 xi 后的向量,则 T ( x) 的刀切统计量为
6.2.1替换原理和矩法估计
替换原理是指用样本矩及其函数去替换相应的总 体矩及其函数,譬如: ˆ • 用样本均值估计总体均值E(X),即 E( X ) x ; ˆ • 用样本方差估计总体方差Var(X),即 Var( X ) s 2 • 用样本的 p 分位数估计总体的 p 分位数, • 用样本中位数估计总体中位数。
社会统计学(第六章新)

补充练习题
1、在某地区抽样调查7500名进城农民工,有稳定收 、在某地区抽样调查 名进城农民工, 名进城农民工 入的有1875人,在90%的置信度下,请估计该地 入的有 人 %的置信度下, 区进城农民工有稳定收入的比例的置信区间? 区进城农民工有稳定收入的比例的置信区间? 要求结果精确到小数点后3位数 位数) (要求结果精确到小数点后3位数) 2、调查某厂职工的工资状况,随机抽取100名工人, 、调查某厂职工的工资状况,随机抽取 名工人, 名工人 调查得到他们的月平均工资为1200元,标准差为 调查得到他们的月平均工资为 元 200元。求在 %的置信度下,全厂职工的月平均 元 求在95%的置信度下, 工资的置信区间是多少? 工资的置信区间是多少?
S SE= = n n
22
σ
均值抽样分布的基本特征( 均值抽样分布的基本特征(续1) )
4、如果将均值标准化,就可得到标准正态 、如果将均值标准化, 分布: 分布:
X-µ
σ
~
N(0,1) 假设检验的 基础
23
均值抽样分布的基本特征( 均值抽样分布的基本特征(续2) )
13
二、参数的区间估计
14
2.1 概念辨析
有关区间估计的几个概念: 有关区间估计的几个概念: 置信区间( 置信区间(confidence interval) ——总体参数的估计范围; 总体参数的估计范围; 总体参数的估计范围 置信度( 置信度(confidence coefficient) ——置信区间估计的可靠性; 置信区间估计的可靠性; 置信区间估计的可靠性 显著性水平( 显著性水平(significance level) ——置信区间估计的不可靠的概率。 置信区间估计的不可靠的概率。 置信区间估计的不可靠的概率
06参数估计与假设检验(医学统计学)

三、总体均数的区间估计
(一) 已知
95%可信区间:
一般情况
其中 为标准正态分布的双侧界值。
(二) 未知
Confidence interval
通常未知,这时可以用其估计量S 代替,但
已不再服从标准正态分布,而是服从
著名的t 分布。
William Gosset
图6-1 不同自由度的 t 分布图
t分布
四、两总体均数差的区间估计
实际中,有时需要计算两个总体均数差值的可信 区间,例如通过计算两种降压药物平均降压的差 值比较两种药物的差别,其双侧 100(1 )%可信 区间的计算公式为 ( X1 X 2 ) t /2, SX1X2 其中, n1 n2 2 为自由度,SX1X2 为两样本均数之 差的标准误。
样本率来代替总体率,其估计值为:
p(1 p)
Sp
n
二、参数估计
点估计: 是使用单一的数值直接作为总体参数的估 计值,如用估计相应的,用估计相应的。该法表 达简单,但未考虑抽样误差的影响,无法评价参 数估计的准确程度。
区间估计(interval estimation)是指按预先给定的概 率,计算出一个区间,使它能够包含未知的总体 均数。事先给定的概率称为可信度,计算得到的 区间称为可信区间(confidence interval,CI)。
n
250
六、两总体率差值的区间估计
在大样本情况下,可采用正态近似法对两总体率 差值进行可信区间估计,其计算公式为:
( p1 p2 ) z S /2 )( n1
1 n2
),pc =
X1 n1
X2 n2
X1和X2分别表示两组中某事件发生的例数。
例6-7 某医院口腔科医生用极固宁治疗牙本质过 敏症,以双氟涂料作对照,进行了1年的追踪观察 ,结果见表6-1所示,试估计两组有效率差别95% 的可信区间。
参数估计

§4 均值的置信区间的分析(2):一对矛盾
区间估计中的一对矛盾
精度
区间长度越长,精度越低 区间长度越短,精度越高 n越大,精度越高
置信度越高,区间长度越长 置信度越低,区间长度越短
置信度
样本容量n固定时,精度与置信度不能同时提高!
先保证置信度,再提高精度
§4 均值的置信区间的分析(3):一个特殊应用
§3 参数的区间估计:引例
抛一枚均匀的硬币10000次, ?问题1:出现正面的次数可能达到5500次吗?
可能。但可能性非常小,与摸彩票(36选7)中特等奖的 概率类似的小。 有68.3%的可能在(4950,5050)之间; 有95.4%的可能在(4900,5100)之间; 有99.7%的可能在(4850,5150)之间;
§3 参数的区间估计
在估计参数 时,构造一个置信区间,其置信系 数为95%,下面哪一种说法最正确( ) A.落在该置信区间的概率为95% B.不落在该区间的风险为5% C. 有95%的随机置信区间会包括 D. 这一估计的误差不超过5%
§4 均值的区间估计——大样本结果
x z / 2 n
在参数估计中利用t分布构造置信区间的条件是 ( ) A. 总体分布需服从正态分布且方差已知 B. 总体分布为正态分布,方差未知 C. 总体不一定是正态分布但须大样本 D. 总体不一定是正态分布,但需要方差已知
§4 正态总体均值的区间估计
为管理的需要,银行要测定在业务柜台上每笔业 务平均所需的时间。假设每笔业务所需时间服从 正态分布,现随机抽取样本量为16,测得平均时 间为13分钟,标准差为5.6分钟,要求以99%的 置信系数确定置信界限。若置信系数改为90%, 其置信界限有何区别?
《卫生统计学》第六章 参数估计基础

二、总体概率可信区间的计算
1.查表法:n≤50,特别是p接近0或100%时,可查 附表6(P478-480),二项分布概率的置信区间表, 例6-4。
注意:附表6中X值只列出了X≤n/2部分,当X>n/2 时,应以n - X值查表,然后用100减去查得的数 值,即为所求的区间。
2.正态近似法**:当n较大且np和n(1-p)均大于5 时,二项分布接近正态分布,则总体率的双侧 (1-α)可信区间为: P ± Ζα/2· Sp
f(t)
0.4
υ=∞
υ=5
0.3
υ=1
0.2
0.1
0.0
t
-5 -4 -3 -2 -1 0 1 2 3 4 5
图6-4 自由度为1、5、∞的t分布
.
t分布的特征:只有一个参数ν 以0为中心,左右对称的单峰分布; t分布是一簇曲线,形态变化与n(即自由度)大
小有关。自由度ν越小,t分布曲线越低平;自 由度ν越大,t分布曲线越接近标准正态分布 (Ζ分布)曲线。 t分布峰部较矮,尾部翘得较高,说明远侧的t值 的个数相对较多,即尾部面积(概率P)较大。 自由度ν越小这种情况越明显,ν渐大时,t分 布渐逼近标准正态分布;当ν=∞时,t分布就成 为标准正态分布了。 附表2,t界值表P467
.
均数的抽样误差——指由抽样而造成的样本均数 与总体均数之间的差异。
x 称标准误,它说明均数抽样误差的大小。
x / n
n越大,标准误越小,样本均数的抽样误差亦越小 实际工作中,σ常未知,而是用样本标准差s来估
计,则有 sx s/ n
常用来说明均数的抽样误差的大小。
.
即使从偏态总体抽样,当n足够大时, 样本均数也近似正态分布(见实验6-2, 观察图6-1及图6-2的变化)。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1总体分布的形态和样本含量对样本均数的抽样分布会产生何种影响?
从正态分布的总体中随机抽样,样本均数呈正态分布;从非正态分布的总体中随机抽样,样本量n较小时,样本均数的分布仍呈非正态分布,当样本量n足够大时,样本均数的分布近似正态哦分布。
计算:σXbar=σ/√n.在实际应用中,总体标准差σ常常未知,需要用样本标准差S来估计。此时,均数标准误的估计值为SXbar=S/√n.由此式可见,若增加样本含量n可减小样本均数的抽样误差。
主要应用:1估计总体均数的置信区间。 2均数的假设检验。
样本频率的抽样分布和抽样误差:频率的标准误用符号σp表示,它反映了样本频率之间以及样本频率与总体概率之间的离散程度,也反映了样本频率抽样误差的大小。
1.点估计:直接用随机样本的样本均数Xbar作为总体均数μ的估计值或用样本频率p作为总体概率π的估计值的方法称为点估计。这是一种没有考虑抽样误差的简单估计方法。
2.区间估计:用已知样本统计量和标准误确定总体参数所在范围的方法称为区间估计。所估计的总体参数的范围通常称为参数的置信区间,,是一个开区间,这一估计可相信的程度称为置信度或置信水平。若标准差不变,置信度由95%提高到99%,置信区间便由窄变宽,估计的精度下降。
计算:σp=√(π(1-π)/n)。在实际应用中,总体概率π常常未知,需要用样本频率p来估计。因此频率标准误的估计值为Sp=√(p(1-p)/n-1)约等于 √(p(1-p)/n)。由此式可见,增加样本含量n可减小样本频率的抽样误差。
主要应用:1估计总体概率的置信区间 2频率指标的假设检验。
置信区间的计算:
1.正态分布总体均数的置信区间:总体均数的置信区间的基本公式是Xbar+-tα/2,ν * SXbar.样本量较大时,可以是Xbar+-Zα/2,ν * SXbar或Xbar+-Zα/2,ν * σXbar(若总体标准差已知)。
实际工作中,估计总体均数参考值范围时,要注意与参考值范围区别。
2样本均数的标准误的意义是什么?与原变量的标准差有何区别与联系?
样本均数的标准误可以反映样本均数之间以及样本均数与总体均数之间的离散程度以及抽样误差的大小。区别:前者是均数变异的指标,后者是表示观察值变异的指标。联系:当样本量n一定时,标准误随标准差的大小而变化。
3与标准正态分布相比较,t分布的特点是什么?
t分布:t=(Xbar-μ)/SXbar=(Xbar-μ)/(S/√n)服从自由度ν=n-1的t分布。
t分布是总体均数的区间估计及假设检验的理论基础。
t分布的图形与特征:
t分布与标准正态分布相比,其分布密度有如下特征:
1)单峰分布,以0为中心,左右对称。
2)ν越小,t值越分散,曲线的峰部越矮,尾部越高。
t分布与标准正态分布相比,其分布密度有如下特征:
1)单峰分布,以0为中心,左右对称。
2)ν越小,t值越分散,曲线的峰部越矮,尾部越高。
3)随着ν逐渐增大,分布逐渐接近标准正态分布;当ν→∞时,t分布趋近标准正态分布,故标准正态分布是t分布的特例。
4用同一个样本统计量分别估计总体参数的95%置信区间和99%置信区间,哪一个估计的精确度更好?为什么?
特点:在服从正态分布的总体中进行随机抽样,样本均数Xbar仍服从正态分布;从非正态分布总体抽样,只要样本量足够大(n>=30),样本均数的分布也近似于正态分布。在抽样研究中,抽样误差是不可避免的。用来描述抽样误差大小的指标称为标准误。
均数标准误常用符号σXbar表示,也称为样本均数的标准差。它反映了样本均数之间,样本均数与总体均数之间的离散程度,也反映了样本均数抽样误差的大小。
第六章 参数估计基础
参数估计:统计学中通过抽样来估计总体参数。
样本均数的抽样分布和抽样误差:从同一总体中反复多次随机抽取样本含量相同的个体,由于个体差异与偶然性的影响,样本统计量之间以及样本统计量与总体参数之间的差异,称为抽样误差。这种由抽样造成的均数之间的差异称为均数的抽样误差,频率之间以及频率与概率之间的差异称为频率的抽样误差。
95%置信区间的精确度更好。因为置信度由95%提高到99%,置信区间便由窄变宽,估计的精度下降。
5满足什么条件时可以采用正态近似法估计总体概率的置信区间?
当n足够大时,且样本频率p不太接近0或1时,如np和n(1-p)均大于5时,可以采用正态近似法估计总体概率的置信区间。
3)随着ν逐渐增大,分布逐渐接近标准正态分布;当ν→∞时,t分布趋近标准正态分布,故标准正态分布是t分布的特例。
按t分布的规律,密度曲线下面积分布规律为: t;=tα,ν)=α.
双侧:P(t<=-tα/2,ν)+P(t>=tα/2,ν)=α.
总体均数及总体概率的估计:参数估计是指用样本指标(统计量)估计总体指标(参数)。参数估计有点估计与区间估计两种。
2.二项分布总体概率的置信区间:根据样本含量n和样本频率p的大小,可采用查表法和正态近似法。重点掌握正态近似法。
查表法:对于小样本资料(n<=50),特别是当p非常接近0或1时,可通过查表来直接确定总体概率π的95%或99%置信区间。但表中仅列出了x<=n/2的部分,当n>=n/2时,应以n-X代替X查表,再用100%-查得的数值,即为所求的置信区间。