统计学第5章 参数估计
统计学课件第5-7章概率分布、抽样分布及参数估计剖析.
![统计学课件第5-7章概率分布、抽样分布及参数估计剖析.](https://img.taocdn.com/s3/m/926587110b4c2e3f572763a4.png)
概率分布、抽样分布及参数估计
Probability Distributions & Sampling Distributions
& Parameter Estimation
Wednesday, January 16, 2019
Statistical Research Office
1
本部分主要研究的问题有:
● 遵循随机性原则 --- 体现在在每一层抽选中;
● 每一层内应包含足够多的个体;
● 在同等条件下,抽样误差要小于简单随机抽 样和系统抽样的抽样误差。
Wednesday, January 16, 2019 Statistical Research Office 12
Wednesday, January 16, 2019
Statistical Research Office
7
●
常用的随机抽样组织方式
► 简单随机抽样(Simple random sampling)
►分层随机抽样(Stratified sampling)
►系统随机抽样(Systematic sampling)
►整群随机抽样 (Cluster sampling) 常用的随机抽样方法: ►重复抽样 (Sampling with replacement) ►不重复抽样(Sampling without replacement)
8
Wednesday, January 16, 2019
Statistical Research Office
★ 简单随机抽样 -定义:从总体中,按照随机的原则,使得总体 中每个个体都有同等被选中的机会,而先后抽 出的n个个体作为一个容量为n的样本。
管理统计学第5章
![管理统计学第5章](https://img.taocdn.com/s3/m/a954d4f69ec3d5bbfd0a7484.png)
总体(累积)概率分布曲线F(x)不一定 是连续的。 例如,有限(累积)概率分布曲线F(x)是 阶跃式的。
随着样本数 n 的增大, 样本分布会越来越接 近 于 总 体 分 布 。
5.1.4 格利文科定理
定理 :设总体X的分布函数为F(x), 样本分布函数
Fn(x),则对于任何实数x,有
n x
研究多指标时,就是多维随机变量,或称随机向量。
2. 总体(母体)
3. 总体分布(母体分布)
取直径为随机变量X,通常服从正态分布。这个分布,就称为 “生产线上生产出来的零件的直径”这个总体的分布。
5.1.2 随机样本与样本观察值 (样本数据) 1. 随机样本
每个个体被抽取到的机会(概率)均等。
F (m, n)
x
5.2.3 由一般正态分布的随机样本构 成的若干重要统计量的分布
例1 从总体 N ( 52,6.32 ) 中随机抽取
一容量为 36 的样本,求样本均值 X 落在
50.8 到 53.8 之间的概率。
X ~ N (0, 1) , 解:n 36, 52, 6.3 。由 / n
解:由题意可知, X1+X2+…+X9~N(0,9×16),
1 2 2 1 ( Y ) ~ ( 16 ) 则 i Yi ~ N (0,1), i 1,2, ,16 i 1 3 3 X1 X 2 X 9 从而 2 2 2
Y1 Y2 Y16 1 ( X1 X 2 X 9 ) 3 4 ~ t (16) 16 1 2 ( Yi ) i 1 3 16
p 0.46 0.5 0.46 P( p 0.5) P( ) 0.0352 0.0352 P( Z 1.136) 1 P( Z 1.136) 1 (1.136 ) 0.128
统计学
![统计学](https://img.taocdn.com/s3/m/4399d9fff705cc175527094c.png)
s n
还可以进一步推断相应总量指标的区间范围。 还可以进一步推断相应总量指标的区间范围。
2、总体比率的区间估计 、
由定理知:在大样本下, 由定理知:在大样本下,样本比率的分 1 布趋近于 N ( P, P(1 − P)) n 给定置信度 1 − α ,查正态表的 Zα , 2 样本比例的抽样极限误差为
2 2 2 2
~ F (n1 − 1, n2 − 1)
得方差比 σ 12 / σ 22 的置信度为1 − α 的置信区间为
1 s12 s12 ( 2 , 2 s2 Fα ( n1 − 1, n2 − 1) s2 F
2 1−
1 ) α ( n1 − 1, n2 − 1)
2
例题:见书 页例11 例题:见书150页例 页例 练习:研究由机器A和机器 生产的钢管的内径, 和机器B生产的钢管的内径 练习:研究由机器 和机器 生产的钢管的内径, 随机抽取A生产的管子 生产的管子18只 测得样本方差0.34 随机抽取 生产的管子 只,测得样本方差 平方毫米,抽取B生产的管子 生产的管子13只 平方毫米,抽取B生产的管子13只,测得样本 方差0.29平方毫米。设两样本相互独立,且设 平方毫米。 方差 平方毫米 设两样本相互独立, 由A、B生产的管子内径分别服从正态分布 、 生产的管子内径分别服从正态分布 2 2 N ( µ1 ,σ 1 ), N ( µ 2 ,σ 2 ) µ i ,σ i 均未知。 均未知。 这里的 试求方差比的置信度为0.90的置信区间。 的置信区间。 试求方差比的置信度为 的置信区间
s 小样本) n (小样本)
综述: 综述:总体均值的置信度为 1 − α 的置信区间 表示为: 表示为:x − ∆ x ≤ µ ≤ x + ∆ x 其中: 其中: σ s ∆ ≈ Zα 大样本下: 大样本下: x = Z α σ ( x) = Z α
卫生统计学七版 第五章参数估计基础电子教案
![卫生统计学七版 第五章参数估计基础电子教案](https://img.taocdn.com/s3/m/85be509852ea551811a68733.png)
P0.05
第三节 总体均数及总体概率的估计
一、参数估计的基础理论
参数估计区 点间 估估 计计
对总体参数估计 称的 为范 置围 信区C间( I , co用 nfidenicneterv)al
表示,其置信1度 )为,(一般取置95信 %,度即为取 为0.05,此区
间的较小值称为 限置 ,信 较下 大值称为 限置 。信 一上 般进行双 区侧 间的估计。
卫生统计学七版 第五ຫໍສະໝຸດ 参数估 计基础第一节 抽样分布与抽样误差
一、样本均数的抽样分布与抽样误差
……
x15 .55 1 sx0.9617
样本均数的标准差越,大抽样误差就越大
样本均数的标准差称标为准误
x
n
sx
s n
sx称为标准误估计值,简也称标准误
标准误与标准差成正比 ,与样本含量成反比
标准误越大,抽样误差越大。
2、正态近似法
当已知时X: u
n
当未知但n足够大时X:u0.05
s n
X1.96 s n
或:X1.96s X
例5-3(P95) 某医生于2000年在某市随机抽取90名 19岁的健康男大学生,测量了他们的身高,得样本均数 为172.2cm,标准差为4.5cm,试估计该市2000年19岁健 康男性大学生平均身高的95%置信区间 。
对任意分布,在样本含量足够大时,其样本均数的分布都 近似正态分布,且样本均数的均数等于原分布的均数。
二、样本频率的抽样分布与抽样误差
总体率的标准误:
p
(1 )
n
率的标准误的估计值:
sp
p(1 p) n
标准误大抽样误差就大。
第二节 t分布
一、t分布的概念
统计学(李荣平)2014-5
![统计学(李荣平)2014-5](https://img.taocdn.com/s3/m/ab2ac206be1e650e52ea996a.png)
P{t>tα(n)}= h(t;n)dt
t (n)
的数tα(n)为t(n)分布的上α分为点。 例:查表求:t0.05(8), t0.95(8)
o
t (n)
第一节 抽样分布
(三)F 分布
设 U ~ 2(n1 ),V ~ 2(n2 ), 且设 U,V 独立,则称随机变量
F U / n1 V / n2
保证质量,规定σ≤0.6mm时,认为生产过程处于良好控制
状态。为此,每隔一定时间抽取20个零件作为一个样本,并
计算样本方差S2。若P{S2≥c } ≤0.01(此时σ=0.6mm),
则认为生产过程失去控制,必须停产检查,问:
(1)C为何值时,S2≥c的概率才小于或等于0.01? (2)若取得的一个样本的标准差S=0.84,生产过程是
第五章 抽样分布与参数估计
主
第一节 抽样分布
要 内
第二节 参数点估计
容
第三节 区间估计
第一节 抽样分布
一、随机样本
总体与个体:试验全部可能的观测值叫总体;试验的 每一个观测值叫个体。
样本容量与样本个数:样本中包含的单位数叫样本容 量;从一个总体中可能抽取多少个样本叫样本个数。
总体容量:总体中所包含的个体数。 有限总体和无限总体:总体容量可数的称有限总体, 不可数的称无限总体。 重置抽样(重复抽样)和无重置抽样(不重复抽样)
X
1 n
n i 1
Xi
为样本均值;称统计量
S 2
1 n1
n i1
(Xi
X )2
为 样本方差 ,称统计量 S
S2
1n
( X X ) 2 为样本标准差 ;统计量
n 1 i1 i
管理统计学第5参数估计
![管理统计学第5参数估计](https://img.taocdn.com/s3/m/f228ca4a6d85ec3a87c24028915f804d2b168730.png)
S2
1 n 1
n i 1
(Xi
X )2
二、极大似然估计法
先考察两个简单的例子。
【例3.4】某同学与一位男猎人一起外出打 猎,只见一只野鸡在前方窜过,只听一声 枪响,野鸡被他们两人中某一位一枪命中, 试推测这一发命中的子弹是谁打的,答案 是简单的,既然只发一枪且命中,而男猎 人的命中的概率一般大于这位同学命中的 概率,因此可以认为这一枪是男猎人射中 的。
直观上觉得P=3/4(即箱子中黑球数为3) 更可信,因为当P=1/4时抽到这样一个具 体样本的概率为1/43/41/4=3/64,当 P=3/4时,抽到这样一个具体样本的概率为 3/41/43/4=9/64,由于9/64>3/64,因 此在观察到上述样本中的三个球的颜色之
后,觉得P=3/4更可信,即你倾向于认为
计量 ˆ(x1, x2,, xn ) ,称为参数 的极大似
然估计量。
由定义3.1可知,求总体参数 的极大似然
估计值ˆ 的问题,就是求似然函数
L( )的极大值问题。在L( )可微时, 要使L( )取极大值 必须满足
dL
d
0
(3.1)
从上式可解得 的极大似然估计值。
由于lnL( )与L( )有相同的极值点,
化中求出相应的 值来,这个值就是 的
一个估计值。于是,我们可以给出极大似 然估计的定义。
定义3. 1 设总体的概率密度为 f (x, ) ,其
中 是未知参数,x1,x2,…,xn为X的
一组样本观察值。若能求得观察值的某个
函数 ˆ (x1, x2, x3,, xn) ,使得似然函数取极大 值,即L(x1, x2,, xn,ˆ) maxL(x1, x2,, xn,),则称ˆ 为 的一个极大似然估计值,其相应的统
《统计学》第5章 假设检验
![《统计学》第5章 假设检验](https://img.taocdn.com/s3/m/1fd5f62c777f5acfa1c7aa00b52acfc788eb9f77.png)
假设不成立时,即拒绝原假设时备以选择的假设,通常用H1 表示。备择
假设和原假设互斥,如在例5.1中,原假设是“2022 年全国城市平均
PM2.5 浓度与2018 年相比没有显著差异”,那么备择假设就是“2022
年全国城市平均PM2.5 浓度与2018 年相比存在显著差异”。相应的统计
小越好。但是,在一定的样本容量下,减少犯第I类错误的概率,就会
使犯第II类错误的概率增大;减少犯第II类错误的概率,会使犯第I类
错误的概率增大。增加样本容量可以使犯第I类错误的概率和犯第II类
错误的概率同时减小,然而现实中资源总是有限的,样本量不可能没有
限制。因此,在给定的样本容量下,必须考虑两类可能的错误之间的权
易被否定,若检验结果否定了原假设,则说明否定的理由是充分的。
第四章 参数估计
《统计学》
16
5.1 假设检验的基本原理
(四) P值法
假设检验的另一种常用方法是利用P值(P-value) 来确定检验决策。P值
指在原假设0 为真时,得到等于样本观测结果或更极端结果的检验统计
量的概率,也被称为实测显著性水平。P值法的决策规则为:如果P值大
1.96) 中。这里−1.96和1.96 称为临界值,区间(−1.96, 1.96) 两侧的
区域则被称为拒绝域。基于样本信息,可以计算得到相应的z检验统计量
值,已知ҧ = 46,0 = 53, = 14 , n = 100 = −5
14/10
第四章 参数估计
《统计学》
14
5.1 假设检验的基本原理
犯第I 类(弃真) 错误的概率 也称为显著性水平(Significance level),
统计学习题05
![统计学习题05](https://img.taocdn.com/s3/m/5f3dffb3c77da26924c5b002.png)
2.下面哪些是影响必要样本容量的因素()。
A.总体各单位标志变异程度B.允许的极限误差大小
C.推断的可靠程度D.抽样方法和抽样组织方式
E.样本均值和样本统计量
答案:ABCD
3.评价估计量是否优良的常用标准有( )。
A.无偏性B.有效性
C.准确性D.一致性
E.随机性
答案:ABC
4.点估计( )。
[参考答案]
28.306
2.现有一大批种子,为了估计其发芽率,随机抽取400粒进行发芽试验。结果有15粒每发芽。试以90%的置信度估计这批种子的发芽率。
[参考答案]
[ 0.95 , 0.97 ]
3.设总体X服从参数 的泊松分布,其概率分布率为 ,
x=0,1,2,……试求参数 的极大似然估计量及矩估计量。
A.求每晚睡眠时间总体均值的点估计。
B.假定总体是正态分布,求总体均值的点估计的95%置信区间。
[参考答案]
A.6.86,B.[6.54 , 7.18]
5.在某地方选举进行以前展开的民意测验表明,在随机抽取的121名居民中有65名支持某候选人,试求该候选人支持率的信赖区间。( =5%)
[参考答案]
0.54-0.089=0.451
答案:C
21.已知σ2的1-α置信区间为,该区间也可表示为()。
(D)以上答案都不正确
答案:B
二、多项选择题
1.在区间估计中,如果其他条件保持不变,置信度与精确度之间存在下列关系( )。
A.前者愈低,后者也愈低B. 前者愈高,后者也愈高
C. 前者愈低,后者愈高D.前者愈高,后者愈低
E. 两者呈相反方向变化
3.在进行参数估计时,我们并不是直接用一个个的具体样本之来估计、推断总体参数,而是根据样本构造出一些特定的量,用这些特定量来估计总体参数,这些根据样本构造的特定量就称为样本统计量。在估计过程中,我们把用来推估总体参数的样本统计量称为估计量。
统计学课件05第5章抽样与参数估计
![统计学课件05第5章抽样与参数估计](https://img.taocdn.com/s3/m/e52d649cc0c708a1284ac850ad02de80d4d806c7.png)
反映样本数据的集中趋势和平均水平。
样本方差
定义
样本方差是每个样本数据与样本均值差的平方和的平均值,即 $s^2 = frac{1}{n} sum_{i=1}^{n} (x_i - overline{x})^2$。
计算方法
先计算每个样本数据与样本均值的差,然后将差平方,最后求和平 均。
作用
反映样本数据的离散程度和波动情况。
样本量的确定
根据调查目的和精度要求确定样 本量:精度要求越高,需要的样
本量越大。
根据总体规模和抽样方法确定样 本量:总体规模越大,需要的样 本量越大;分层或整群抽样较简 单随机抽样需要的样本量更大。
根据调查资源确定样本量:资源 有限时,需要在满足调查目的和 精度要求的前提下,合理确定样
本量。
02 参数估计
大数定律的数学表达
设随机变量X1,X2,...,Xn是相互独立的,且具有相同的分布函数F(x),则对于任意正实数ε,有 lim(n->∞)P(|X1+X2+...+Xn/n-E(X))/ε)=0,其中E(X)是随机变量X的期望值。
大数定律的实例
在抛硬币实验中,随着实验次数的增加,正面朝上的频率将趋近于0.5。
中心极限定理
中心极限定理定义
中心极限定理是指在大量独立同分布的随机变量中,不论 这些随机变量的分布是什么,它们的平均值的分布总是趋 近于正态分布。
中心极限定理的数学表达
设随机变量X1,X2,...,Xn是相互独立的,且具有相同的分布 函数F(x),则对于任意实数x,有lim(n->∞)P(∑Xi≤x)=∫(∞->x)F(t)dt。
样本分布的性质
无偏性
如果样本统计量的数学期 望等于总体参数,则该统 计量是无偏的。
统计学第五章课后题及答案解析
![统计学第五章课后题及答案解析](https://img.taocdn.com/s3/m/8b6f4137b80d6c85ec3a87c24028915f804d84d5.png)
第五章一、单项选择题1.抽样推断的目的在于( )A.对样本进行全面调查 B.了解样本的基本情况C.了解总体的基本情况 D.推断总体指标2.在重复抽样条件下纯随机抽样的平均误差取决于( )A.样本单位数 B.总体方差C.抽样比例 D.样本单位数和总体方差3.根据重复抽样的资料,一年级优秀生比重为10%,二年级为20%,若抽样人数相等时,优秀生比重的抽样误差( )A.一年级较大 B.二年级较大C.误差相同 D.无法判断4.用重复抽样的抽样平均误差公式计算不重复抽样的抽样平均误差结果将( )A.高估误差 B.低估误差C.恰好相等 D.高估或低估5.在其他条件不变的情况下,如果允许误差缩小为原来的1/2,则样本容量( )A.扩大到原来的2倍 B.扩大到原来的4倍C.缩小到原来的1/4 D.缩小到原来的1/26.当总体单位不很多且差异较小时宜采用( )A.整群抽样 B.纯随机抽样C.分层抽样 D.等距抽样7.在分层抽样中影响抽样平均误差的方差是()A.层间方差 B.层内方差C.总方差 D.允许误差二、多项选择题1.抽样推断的特点有()A.建立在随机抽样原则基础上 B.深入研究复杂的专门问题C.用样本指标来推断总体指标 D.抽样误差可以事先计算E.抽样误差可以事先控制2.影响抽样误差的因素有( )A.样本容量的大小 B.是有限总体还是无限总体C.总体单位的标志变动度 D.抽样方法E.抽样组织方式3.抽样方法根据取样的方式不同分为( )A.重复抽样 B.等距抽样 C.整群抽样D.分层抽样 E.不重复抽样4.抽样推断的优良标准是( )A.无偏性 B.同质性 C.一致性D.随机性 E.有效性5.影响必要样本容量的主要因素有( )A.总体方差的大小 B.抽样方法C.抽样组织方式 D.允许误差范围大小E.要求的概率保证程度6.参数估计的三项基本要素有()A.估计值 B.极限误差C.估计的优良标准 D.概率保证程度E.显著性水平7.分层抽样中分层的原则是( )A.尽量缩小层内方差 B.尽量扩大层内方差C.层量扩大层间方差 D.尽量缩小层间方差E.便于样本单位的抽取三、填空题1.抽样推断和全面调查结合运用,既实现了调查资料的_______性,又保证于调查资料的_______性。
统计学习题(抽样分布、参数估计)
![统计学习题(抽样分布、参数估计)](https://img.taocdn.com/s3/m/226a53f55f0e7cd185253658.png)
统计学习题(抽样分布、参数估计)练习题第1章绪论(略)第2章统计数据的描述2.1某家商场为了解前来该商场购物的顾客的学历分布情况,随机抽取了100名顾客。
其学历表示为:1.初中;2.高中/中专;3.大专;4.本科及以上学历。
调查结果如下:4222434414 2244432422 3121441424 2332134344 3312424324 2322212244 2123333334 2343313232 4313434214 2242334121(1)制作一张频数分布表。
(2)绘制一张条形图,反映学历分布。
2.2为了解某电信客户对该电信公司的服务的满意度情况,某调查公司分别对两个地区的电信用户在以下五个方面对受访用户的满意情况进行了问卷调查得到的数据如下(表中数据为平均满意度打分,从1分到10分满意度依次递增):地区企业形象客户期望质量感知价值感知客户总体满意度A 8.269504 7.51773 9.2624117.9148948.411348B 7.447368 8.3684218.9736848.1052637.394737试用条形图反映将两地区的满意度情况。
2.3下面是一个班50个学生的经济学考试成绩:88569179699088718279 988534744810075956092 83646569996445766369 6874948167818453912484628183698429667594(1)对这50名学生的经济学考试成绩进行分组并将其整理成频数分布表,绘制直方图。
(2)用茎叶图将原始数据表现出来。
2.4如下数据反映的是某大学近视度数的情况,共120名受访同学,男女同学各60名。
男149 161761821310 80 951081414 0 144145151515161681882121 0 21211052121211116817521 0 356462121212121312121 0 2121212121375375383838 8 45566065120 30120 7521女120 3334537437538700 90700 60141516212121211517170 0 0 0 0 0 0 0 5 521 0 1752121214043451217517 8 181818518519195196202021 0 21212121212121333335 0 3636363840474865055(1)按近视度数分别对男女学生进行分组。
统计学--假设检验(第五章)-(1)-2
![统计学--假设检验(第五章)-(1)-2](https://img.taocdn.com/s3/m/19b4e4d9846a561252d380eb6294dd88d0d23d92.png)
左侧检验:
×
抽样分布
Region of Rejection
拒绝H0
置信水平
1 -
Region of Non rejection
临界值
H0
观察到的样本统计量
【例3】一家研究机构估计,某城市中家庭拥有汽车的比例超 过30%。为验证这一估计是否正确,该研究机构随机抽取 了一个样本进行检验。试陈述用于检验的原假设与备择 假设。
36.6
36.9
36.7
37.2
36.3
37.1
36.7
36.8
37.0
37.0
36.1
37.0
根据样本数据,计算的平均值为36.8oC,标准差为0.36oC 根据参数估计方法,健康成年人平均体温的95%的置信区
间为(36.7,36.9) 研究人员发现这个区间内并没有包括37oC! 因此,提出了“不应该再把37oC作为正常人体温的一个有
解:研究者抽检的意图是倾向于证实这种洗涤剂的平均
净含量并不符合说明书中的陈述。
建立的原假设和备择假设为:
H0 : 500 H1 : < 500
<提出假设>
【例3】一家研究机构估计,某城市中家庭拥有汽车的比例超 过30%。为验证这一估计是否正确,该研究机构随机抽取 了一个样本进行检验。试陈述用于检验的原假设与备择 假设。
传统上,做出决策所依据的是样本统 计量,现代检验中人们直接使用由统计量
算出的犯第一类错误的概率,即所谓的P
值。
注:假设检验不能证明原假设正确。
① 假设检验只提供不利于原假设的证据。当拒绝原假设时, 表明样本提供的证据证明它是错误的;当没有拒绝原假设时 ,我们也不说“接受原假设”,因为没法证明原假设是正确 的
第5章抽样分布与参数估计
![第5章抽样分布与参数估计](https://img.taocdn.com/s3/m/6a5f461e3a3567ec102de2bd960590c69ec3d809.png)
第5章抽样分布与参数估计在统计学中,抽样分布与参数估计是重要的概念。
抽样分布是指从总体中随机抽取样本,计算样本统计量,然后将这些统计量进行分布的过程。
参数估计是通过样本数据对总体参数进行估计的方法。
首先,我们来了解抽样分布。
在统计学中,我们通常很难直接获得总体数据,因为总体数据往往很大,难以收集。
因此,我们采用抽样的方式来获取样本数据,并通过样本数据来推断总体特征。
抽样分布是指在重复抽取样本的过程中得到的统计量的分布。
抽样分布的中心趋于总体参数,而抽样分布的形状可以通过中心极限定理进行描述。
中心极限定理认为,当样本数量足够大时,样本均值的抽样分布近似服从正态分布,且均值等于总体均值。
这对于统计推断和参数估计具有重要意义。
其次,我们来了解参数估计的概念及其方法。
参数估计是指根据样本数据对总体参数进行估计的统计方法。
常见的参数包括总体均值、总体方差等。
参数估计可以分为点估计和区间估计两种方法。
点估计是指通过样本数据计算得到的单个数值来估计总体参数。
常用的点估计方法包括最大似然估计和矩估计。
最大似然估计是基于样本的观测值选择使得观测值出现的概率最大的参数值作为估计值的方法。
矩估计是通过样本矩与总体矩的对应关系来估计总体参数的方法。
区间估计是指对总体参数给出一个区间估计值,该区间包含了真实参数值的概率。
常用的区间估计方法包括置信区间估计和预测区间估计。
置信区间估计是通过样本数据计算得到的一个区间,可以包含真实参数值的概率。
置信区间的置信水平是指在多次重复抽样中,这个区间包含了真实参数值的概率。
预测区间估计是在给定自变量取值的情况下,通过样本数据对应的因变量的取值的一个区间估计。
总之,抽样分布与参数估计是统计学中重要的概念和方法。
通过抽样分布可以了解样本统计量的分布情况,而参数估计可以通过样本数据对总体参数进行估计。
这些概念和方法对于数据分析和决策具有重要的实际应用价值。
卫生统计学七版 第五章参数估计基础
![卫生统计学七版 第五章参数估计基础](https://img.taocdn.com/s3/m/13bfd7332f60ddccda38a0fa.png)
二、总体均数及总体概率的区间估计
(一)总体均数的置信区间
1、t 分布法
当 未知且 n 较小时,估计双侧置信 区间:
(X
-t
,
s X
,
X
t ,
s X
)
可简写为:
X
t ,
s X
或X t,
s n
总体均数的95%双侧置信区间为:X
t0.05,
s X
例5-2(P95) 已知某地27名健康成年男子血红蛋白 含量的均数为125g/L,标准差为15g/L,试估计该地健康 成年男子血红蛋白平均含量的95%和99%置信区间 。
二项分布 n 31 X 25 n X 6 查附表6,得7 37 改错
该药物治疗脑血管梗塞有效概率的95%置信区间为 63%~93%。
2、正态近似法 适用范围:np>5,且n(1-p)> 5
例5-6(P96) 用某种仪器检查已确诊的乳腺癌患者 120名,检出乳腺癌患者94例,检出率为78.3%,试估计该 仪器乳腺癌总体检出率的95%置信区间。 np 1200.783 93.96 n(1 p) 1200.217 26.04
第三节 总体均数及总体概率的估计
一、参数估计的基础理论
参数估计区 点间 估估 计计
对总体参数估计的范围称为置信区间,用CI(confidence interval)
表示,其置信度为(1 ),一般取置信度为95%,即取为0.05,此区
间的较小值称为置信下限,较大值称为置信上限。一般进行双侧置信区 间的估计。
第五章 参数估计基础
公共卫生学院 邹焰
定量资料
统计描述等级资料(有序分类资 料)
统计学第五章 参数估计作业
![统计学第五章 参数估计作业](https://img.taocdn.com/s3/m/249705533b3567ec102d8ae8.png)
ˆq ˆ ˆq ˆ p p ˆ Z ,p ] 2 n n
0.2 0.8 0.2 0.8 [0.2- 1.96 ,0.2 1.96 ] 400 400 [0.2- 0.0392,0.2 0.0392] [0.16,0.24 ]
3、 解 : 1 0.95,
2
2 ( Z ) 1 0.025 0.975 Z 1.96
2
0.025
代入置信区间公式: S S [ x - Z , x Z ] 2 2 n n 5 5 [4.5 - 1.96 ,4.5 1.96 ] 100 100 [4.5 0.98,4.5 0.98] [3.52,5.48]
作业:
1、设x1,x2,x3为简单随机抽样的3个观测值.如果采用如下不等权的平均值:
2 2 1 x ' x1 x2 x3 5 5 5
作为总体均值的点估计值,试说明它将比采用等权的平均值:
1 1 1 x x1 x2 x3 3 3 3
作为总体均值的点估计值要差.(提示:用点估计值衡量标准来讨论) 2、某居民小区为研究职工上班从家里到单位的距离,抽取了由16个人组成 的一个随机样本,他们到单位的距离(单位:km)分别是:10,3,14,8,6,9,12,11, 7,5,10,15,9,16,13,2.求职工上班 从家里到单位平均距离在95%的置信区间? 3、根据某大学100名学生的抽样调查,每月平均用于购买书籍的费用为4.5元, 标准差为5元,求大学生每月用于购买书籍费用的区间估计(置信度为95%)?
2 2 1 1、 解:D ( x ' ) D ( x1 x2 x3 ) 5 5 5 4 4 1 D( x1 ) D ( x2 ) D( x3 ) 25 25 25 9 D( x) 25 1 1 1 D ( x ) D ( x1 x2 x3 ) 3 3 3 1 1 1 D ( x1 ) D ( x2 ) D ( x3 ) 9 9 9 1 D( x) 3 D ( x ' ) D ( x ),即以等权的平均值作为 总体均值 的点估计值效果要好于 不等权的平均值 .
统计学参数估计
![统计学参数估计](https://img.taocdn.com/s3/m/e2238c27f56527d3240c844769eae009591ba273.png)
用样本的
k
阶中心矩
Bk
1 n
n
X
i 1
X
k
去估计总体
的k阶中心矩 E[ X E( X )]k;
并由此得到未知参数的估计量 .
5-25
设总体 X 的分布函数为F x;1,2, ,m ,
1,2, ,m 是 m 个待估计的未知参数 . 设
m E( X m ) 存在,对任意 k , k 1,2, ,m
i 1
在ˆ ˆ1,ˆ2, ,ˆm 处达到最大,则称ˆ1,ˆ2, ,ˆm
分别为1,2, ,m的极大似然估计量.
5-33
n
由于 ln L ln p xi;
i 1
ln L 与 L 有相同的极大值点 .因此,ˆ 为
极大似然估计的必要条件为
ln L
i
ˆ 0
i 1,2, ,m
称它为似然方程, 其中 1,2,...,m .
5-3
在上例中,假如随机抽取了一个容量为30的样本:
平均年薪
是否参加培训
49094.3
是
53263.9
是
49643.5
否
…
…
根据该样本求得的年薪样本平均数、标准差及参加过 培训计划人数的比例分别为:
x xi / n 1554420/ 30 51814.00
s (xi x)2 /(n 1) 325009260 / 29 3347.72
知参n数, X1,X2, ,Xn 的分布律(或分布密度)
为 p xi; ,当给定样本值 x1,x2, ,xn 后,
i 1
它只是参数 的函数,记为 L ,即 n L p xi; i 1
则称 L 为似然函数,似然函数实质上是样本的
(完整版)统计学习题答案第5章参数估计
![(完整版)统计学习题答案第5章参数估计](https://img.taocdn.com/s3/m/b4b2fbebb4daa58da1114a50.png)
第5章 参数估计• 1.从一个标准差为 5的总体中抽出一个容量为 40的样本,样本均值为 25。
(1) 样本均值的抽样标准差(T x 等于多少? (2)在95%的置信水平下,允许误差是多少?解:已知总体标准差b =5,样本容量n =40,为大样本,样本均值 x =25,(2)已知置信水平1 - a =95%,得Z a /2 =1.96 ,• 2•某快餐店想要估计每位顾客午餐的平均花费金额,在为期 3周的时间里选取 49名顾客组成了一个简单随机样本。
(3) 假定总体标准差为15元,求样本均值的抽样标准误差; (4) 在95%的置信水平下,求允许误差;(5)如果样本均值为120元,求总体均值 95%的置信区间。
解:(1)已假定总体标准差为 b =15元,(2)已知置信水平1 - a =95%,得Z a /2 =1.96 ,(3)已知样本均值为 x =120元,置信水平1- a =95%,得 乙/2 =1.96 ,可知,如果样本均值为 120元,总体均值95%的置信区间为(115.8 , 124.2 )元。
• 3.某大学为了解学生每天上网的时间,在全校 7500名学生中采取不重复抽样方法随机抽 取36人,调查他们每天上网的时间,得到下面的数据(单位:小时):3.3 3.1 6.2 5.8 2.34.15.4 4.5 3.2 4.4 2.0 5.4 2.66.4 1.8 3.5 5.7 2.3 2.11.9 1.2 5.1 4.3 4.2 3.6 0.8 1.5 4.71.41.229352.405362.5(1 )样本均值的抽样标准差=0.7906于是,允许误差是E=Za/2b,n=1.96X 0.7906= 1.5496。
则样本均值的抽样标准误差为(T 15CT - = ----- = ------- =2.1429x..n 49于是,允许误差是 E = Z a /2=1.96X 2.1429=4.2000。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
总体均值的区间估计
(小样本的估计)
【例5-2】一家食品生产企业以生产袋装食品为主,为对产量 质量进行监测,企业质检部门经常要进行抽检,以分析每袋 重量是否符合要求。现从某天生产的一批食品中随机抽取了 25袋,测得每袋重量如下表所示。已知产品重量的分布服从 正态分布,且总体标准差为10克。试估计该批产品平均重量 的置信区间,置信水平为95%
5 - 11
2020-4-8
统计学
STATISTICS (第五版)
区间估计的图示
5 - 12
2020-4-8
统计学
STATISTICS (第五版)
置信水平
(confidence level)
1. 将构造置信区间的步骤重复很多次,置 信区间包含总体参数真值的次数所占的 比例,也称置信度
2. 表示为 (1 -
为是总体参数未在区间内的比例
3. 常用的置信水平值有 99%, 95%, 90%
相应的 为0.01,0.05,0.10
5 - 13
2020-4-8
统计学
STATISTICS (第五版)
置信区间的表述
(confidence interval)
1. 由样本估计量构造出的总体参数在一定置信水平 下的估计区间
32
16
3~6小时
35
17.5
6~9小时
33
16.5
9~12小时
29
14.5
12小时以上
71
35.5
合计
200
100
平均上网时间为8.58小时,标准差为0.69小时。全校学生每周 的平均上网时间是多少?每周上网时间在12小时以上的学生比 例是多少?你做出估计的理论依据是什么?
5-6
2020-4-8
第 5 章 参数估计
5 - 10
2020-4-8
统计学
STATISTICS (第五版)
区间估计
(interval estimate)
1. 在点估计的基础上,给出总体参数估计的一个估计 区间,该区间由样本统计量加减估计误差而得到
2. 根据样本统计量的抽样分布能够对样本统计量与总 体参数的接近程度给出一个概率度量
比如,某班级平均分数在75~85之间,置信水平是95%
统计学
STATISTICS (第五版)
学习目标
参数估计的基本原理 点估计与区间估计 评价估计量优良性的标准 一个总体参数的区间估计方法 两个总体参数的区间估计方法 样本量的确定方法
5-4
2020-4-8
统计学
STATISTICS (第五版)
大学生每周上网花多少时间?
➢ 为了解学生每周上网花费的时间,中国人民大学公 共管理学院的4名本科生对全校部分本科生做了问 卷调查。调查的对象为中国人民大学在校本科生, 调查内容包括上网时间、途径、支出、目的、关心 的校园网内容,以及学生对收费的态度,包括收费 方式、价格等
➢ 问卷调查由调查员直接到宿舍发放并当场回收。对 四个年级中每年级各发60份问卷,其中男、女生各 30份。共收回有效问卷共200份。其中有关上网时 间方面的数据经整理如下表所示
5-5
2020-4-8
统计学
STATISTICS (第五版)
大学生每周上网花多少时间?
回答类别
人数(人)
频率(%)
3小时以下
2
样本统计量
x p s2
2020-4-8
统计学
STATISTICS (第五版)
总体均值区间的一般表达式
1. 总体均值的置信区间是由样本均值加减估计误差 得到的
2. 估计误差由两部分组成:一是点估计量的标准误 差,它取决于样本统计量的抽样分布。二是估计 时所要的求置信水平为时,统计量分布两侧面积 为的分位数值,它取决于事先所要求的可靠程度
3. 总体均值在置信水平下的置信区间可一般性地表 达为
样本均值±分位数值×样本均值的标准误差
5 - 26
2020-4-8
统计学
STATISTICS (第五版)
总体均值的区间估计
(大样本的估计)
1. 假定条件
总体服从正态分布,且方差(2) 已知
如果不是正态分布,可由正态分布来近似 (n 30)
2. 统计学家在某种程度上确信这个区间会包含真正 的总体参数,所以给它取名为置信区间
3. 如果用某种方法构造的所有区间中有95%的区间 包含总体参数的真值,5%的区间不包含总体参数 的真值,那么,用该方法构造的区间称为置信水 平为95%的置信区间。同样,其他置信水平的区 间也可以用类似的方式进行表述
2. 估计量:用于估计总体参数的统计量的名称
如样本均值,样本比例,样本方差等
例如: 样本均值就是总体均值 的一个估计量
3. 参数用 表示,估计量用 ˆ 表示
4. 估计值:估计参数时计算出来的统计量的具体值
如果样本均值 x =80,则80就是 的估计值
5-9
2020-4-8
统计学
STATISTICS (第五版)
10 25
105.36 3.92
101.44,109.28
该食品平均重量的置信区间为101.44g~109.28g
5 - 32
2020-4-8
统计学
STATISTICS (第五版)
总体均值的区间估计
(小样本的估计)
【例5-3】已知某种灯泡的寿命服从正态分布,现从 一批灯泡中随机抽取16只,测得其使用寿命(单位:h) 如下。建立该批灯泡平均使用寿命95%的置信区间
5.2 一个总体参数的区间估计
5.2.1 总体均值的区间估计 5.2.2 总体比例的区间估计 5.2.3 总体方差的区间估计
5.2 一个总体参数估计的区间估计 5.2.1 总体均值的区间估计
统计学
STATISTICS (第五版)
一个总体参数的区间估计
总体参数 均值 比例 方差
5 - 25
符号表示
5.1 参数估计的基本原理
5.1.1 点估计与区间估计 5.1.2 评价估计量的标准
5.1 参数估计的基本原理 5.1.1 点估计与区间估计
统计学
STATISTICS (第五版)
估计量与估计值
(estimator & estimated value)
1. 参数估计(parameter estimation)就是用样本统计 量去估计总体的参数
统计学 数据分析
(方法与案例)
作者 贾俊平
统计学
STATISTICS (第五版)
统计名言
不象其他科学,统计从来不打算使 自己完美无缺,统计意味着你永远 不需要确定无疑。
—— Gudmund R.Iversen
5-2
2020-4-8
第 5 章 数值变量的推断—参数估计
5.1 参数估计的基本原理 5.2 一个总体参数的区间估计 5.3 两个总体参数的区间估计 5.4 样本量的确定
3. 区间估计总是要给结论留点儿余地
5 - 18
2020-4-8
5.1 参数估计的基本原理 5.1.2 评价估计量的标准
统计学
STATISTICS (第五版)
无偏性
(unbiasedness)
无偏性:估计量抽样分布的数学期望等于被 估计的总体参数
5 - 20
2020-4-8
统计学
STATISTICS (第五版)
5 - 14
2020-4-8
统计学
STATISTICS (第五版)
置信区间的表述
(confidence interval)
1. 总体参数的真值是固定的,而用样本构造的区 间则是不固定的,因此置信区间是一个随机区 间,它会因样本的不同而变化,而且不是所有 的区间都包含总体参数
2. 实际估计时往往只抽取一个样本,此时所构造 的是与该样本相联系的一定置信水平(比如95%) 下的置信区间。我们只能希望这个区间是大量 包含总体参数真值的区间中的一个,但它也可 能是少数几个不包含参数真值的区间中的一个
1. 使用一个较大的置信水平会得到一个比较宽的置信区 间,而使用一个较大的样本则会得到一个较准确(较 窄)的区间。直观地说,较宽的区间会有更大的可能 性包含参数
2. 但实际应用中,过宽的区间往往没有实际意义
比如,天气预报说“在一年内会下一场雨”,虽然这很有 把握,但有什么意义呢?另一方面,要求过于准确(过窄) 的区间同样不一定有意义,因为过窄的区间虽然看上去很 准确,但把握性就会降低,除非无限制增加样本量,而现 实中样本量总是有限的
2. 一个特定的区间总是“包含”或“绝对不包含”参数 的真值,不存在“以多大的概率包含总体参数”的问 题
3. 置信水平只是告诉我们在多次估计得到的区间中大概 有多少个区间包含了参数的真值,而不是针对所抽取 的这个样本所构建的区间而言的
4. 正确的表述:计算置信水平为95%的置信区间是一种 方法,该方法使得区间以95%的概率覆盖总体参数
5 - 16
2020-4-8
统计学
STATISTICS (第五版)
点估计值
置信区间的表述
(95%的置信区间)
☺ 我没有抓住参数!
从均值为185的总体中抽出n=10的20个样本构造出的20个置信区间
5 - 17
2020-4-8
统计学
STATISTICS (第五版)
置信区间的表述
(confidence interval)
有效性
(efficiency)
有效性:对同一总体参数的两个无偏点估计 量,有更小标准差的估计量更有效
5 - 21
2020-4-8
统计学
STATISTICS (第五版)
一致性
(consistency)
一致性:随着样本量的增大,估计量的 值越来越接近被估计的总体参数