统计学第四章参数估计
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
思考:
点估计实际上只有一个取值,怎 样的估计会更科学?
引例1
盖洛普公司就消费者对美国产品质量的 看法,对美国、德国、日本的消费者分别进 行调查,结果表明:有55%的美国人相信美国 产品的质量非常好,而持同样看法的德国人 和日本人的比例分别是26%和17%,美联社在 报道这项调查结果时曾提到“抽样误差在正、 负三个百分点之间”,在报道中,“正、负 三个百分点”这句话有什么作用?
1.51
要求: (1)计算这一比值95%的置信区间; (2)得出上述结论时作了什么假设; (3)能否以95%的置信水平说明新酵
素的产出率提高了。
已知: x x 1.268, s 0.228 n
1 95%
1求 :
解 :由1 95%知Z 1.96
2
: x Z
2
S n
1.268
2
S n
N N
n 1
分析:
大样本情形下,当方差未知时,用 样本标准差代替总体标准差
例题5:
某药厂在生产过程中改换了一种新的 酵素,测定了36批的产出率与理论产出率
的比值: 1.28 1.31 1.48 1.10 0.99 1.25 1.22 1.65 1.40 0.95 1.25 1.32 1.23 1.43 1.24 1.73 1.35 1.31 0.92 1.10 1.05 1.39 1.16 1.19 1.41 0.98 0.82 1.22 0.91 1.26 1.32 1.71 1.29 1.17 1.74
理论基础:抽样分布
置信度的图示
均值的抽样分布:
x
x
-1.65 x
+1.65x
90%的样本
在电池寿命的例题中,若样本的平均使用寿命为198 ,标准差为30,以0.9的置信度建立总体均值的置信 区间会如何?
置信度的图示
均值的抽样分布:
x s n 30 25 6
-1.65 x
+1.65x
Z/2=1.96
总体均值区间为:
x Z 2
n
,
x
Z
2
n
26 1.96
6 ,26 1.96 100
6 100
24.824,27.176
结论:我们可以95%的置信度保证平均每天参加 锻炼的时间在24.824 - 27.176 分钟之间
例题4:
某企业购进一批部件,这批部件的质 量取决于平均每件的缺陷数。根据以往的 经验,平均每件产品的缺陷数为1,标准差 为0.2,如果缺陷数超过1就应该拒收。现 随机抽取64件,其平均缺陷数为1.1,要求 以95%的置信系数构造缺陷数的置信界限, 并决定是否拒收。
x
90%的样本
根据抽样分布理论得:抽样分布为正态分布,x 198
按90%的置信度区间半径应为 1.65 x ,即198 1.65 6
每一个可能样本都可以建立一个90%置信度的半径相 同的区间
对置信度的理解
均值的抽样分布:
/2
1-
x源自文库
/2
x x
(1 - ) % 区间包含了, % 的区间未包含
置信度是表示多次抽样得到的区间中大概有多少
2
n
不重复抽样
:
x
Z
2
n
N N
n 1
例题3:
某 大 学 从 该 校 学 生 中 随 机 抽 取 100 人,调查到他们平均每天参加体育锻 炼的时间为26分钟。试以95%的置信 水平估计该大学全体学生平均每天参 加体育锻炼的时间(已知总体方差为 36)。
解:已知 x=26, =6,n=100, 1- = 0.95,
总体平均数在250±3×0.8487克之间的可信度为
99.73%。 总结做区间估计的必要条件
影响区间宽度(半径)的因素
1. 总体数据的离散程度,用 来测度
2.
样本容量,影响
x
n
3. 置信水平 (1 -α),影响 z 的大小
: (x z 2 x )
P z z 1 , z 与1 一一对应.
2
2
如: P z 1 0.6826
P z 2 0.9545
1
2
2
z 0
z
2
2
在标准正态分布下,z 与1一一对应.
2
而在抽样分布N (
,
2 x
)下,由于x与的距离
是对
称的
,若x
为
中心,
距
离为
:z
2
x
,
则
:
z 2
ax
x
a
x
z 2
x
z 2
bx
x
b
x
z 2
x
2 x
1
2
2
x a
x
z
2
x
b
x
z
2
求该产品直径的均值的置信区间。
已知 : x x 14.8 15.3 15.1 15
n
6
0.05
由1 0.95知Z Z 0.025 1.96
2
求:
解 : : x
Z
2
n
15
1.96
0.05 6
14.96,15.04
(二)大样本(总体分布未知) 1、方差已知
重复抽样 : x Z
3. 例如: 总体均值落在50~70之间,置信度为95%
置信区间
样本统计量 (点估计)
置信下限
置信上限
区间估计就是根据样本估计量以 一定可靠程度推断总体参数所在的区 间范围。
P L U 1
L ,U 分别称为置信下限和
置信上限,通称为置信限。 为显 著性水平, 1 则称为置信度。
区间估计中几个常用的概念
均值的抽样分布:
x
- 3x
x
-1.65 x
+1.65x +3x
- 2x
+2x
90%的 x
95.45%的 x
99.73%的 x
例如:教材第16题
(3)若从该种电池中随机抽取25个电池 检验,该样本电池的平均寿命在200小时 左右多大的范围内概率不小于0.9?
(4)若已知该样本电池的平均寿命为 198小时,标准差为30小时,而总体平均 寿命未知,那么总体平均寿命在198左右 多大的范围内可信度不小于0.9呢?
置信度、显著性水平 置信区间、置信限
置信度
1、置信度(置信系数):总体未知参数落在 所估计区间内的可信度(可靠度)
2 、置信度用1-α表示。置信度越大,估计区 间内所包含总体参数的可信度越高。(α称 为显著性水平:与总体参数存在显著差异 的比例)
3 、常用的置信度有 99%, 95%, 90% 95.45%, 99.73%(事先给定的)
区间包含总体参数,也可以理解为某个样本有多大 的概率是这些包含总体参数的区间中的一个
对置信区间的理解
置信区间是由样本统计量所构造的总体参 数的估计区间
用一个具体的样本所构造的区间是一个特 定的区间,我们无法知道这个样本所产生的区间 是否包含总体参数的真值
我们只能希望这个区间是大量包含总体参 数真值的区间中的一个,但它也可能是少数几 个不包含参数真值的区间中的一个
置信区间与置信限
置信区间: 与一个“置信度”相联系的估
计值的取值范围。用 x 表示 x
置信限:与置信区间相联系的界限,包括 上限和下限。
思考: 置信区间与置信度的关系? 置信度与估计的精度的关系?
第二节 一个总体参数的估计
置信区间
均值
比例
大样本
小样本 大大样样本本
方差
【引例】
某食品进出口公司向东南亚出口一批花 生制品,管理人员从中抽取50包作为样本, 计算其平均数为250克。另外,合同规定总 体标准差为6克。 分析: “这个估计量的平均误差是多少?”
1.用于估计总体某一参数的随机变量 – 如样本均值,样本比例、样本中位数等 – 例如: 样本均值就是总体均值的一个估 计量
– 如果样本均值 x = 3 ,则 3 就是对
总体均值的估计值
2、理论基础是抽样分布
二、判断估计量优良性原则
无偏性:估计量的数学期望等于被估计 的总体参数
P( X )
无偏
有偏
A
x
1
68.26% 80% 90% 95% 95.45% 99% 99.73%
Z
2
1 1.28 1.645 1.96 2 2.58
3
总体均值的置信区间
(大样本的估计方法) 1. 假定条件
– 总体服从正态分布,且总体方差(2)已知
– 如果不是正态分布,但为大样本 (n ≥ 30)
2. 使用正态分布统计量Z
引例2
销售经理想估计一下明年的出口总 值,甲估计是53万美元,乙估计是50— 56万美元之间,并可以确切地说“有 95%的把握”。哪一个更可信,为什么?
50—56万美元的范围是如何计算 的?“有95%的把握”是什么意思?
区间估计
1. 根据一个样本的观察值给出总体参数的估计范 围
2. 并给出总体参数落在这一区间的可信度
Z x ~ N (0,1) n
3. 总体均值 在1- 置信水平下的置信区间
即当已知样本均值: x
对于给定的置信度1 就有 : 总体均值的置信区间为:
: x Z
2
n
x Z
2
n
, x Z
2
n
其中抽样极限误差为: Z
2
n
n 5% N n 5% N
: x
Z
2
n
N N
C
X
有效性:一个方差较小的无偏估计量称 为一个更有效的估计量。如:与其他估计 量相比,样本均值是一个更有效的估计 量
P(X ) 均值的抽样分布
B
A
中位数的抽样分布
X
一致性:随着样本容量的增大,估 计量越来越接近被估计的总体参数
较大的样本容量
P(X )
B
A
较小的样本容量
X
三、参数估计的方法
估计方法
“总体平均数可能落入样本平均数 上、下多大范围内?”
“这个估计值的可靠程度是多少?”
解析过程:
(1)确定抽样分布
(2)抽样平均误差 x
n
(3)若用250克这个估计值估计总体平均数,其平
均误差 x 为0.8487。
(4)总体平均数在250±0.8487克之间的可信度为 68.26%。
总体平均数在250±2×0.8487克之间的可信度为 95.45%。
点估计
区间估计
估计方法——点估计
1、从总体中抽取一个样本,根据该样本的统计 量对总体的未知参数作出一个数值点的估计 例如: 用样本均值作为总体未知均值的估计 值就是一个点估计
2、点估计没有给出估计值接近总体未知参数程 度的信息,很难控制误差
3、点估计的方法有矩估计法、顺序统计量法、 最大似然法、最小二乘法等
但实际估计时,情况恰好相反。 x 是已知
的,而 是未知的,也正是我们想要估
计的。由于 x 与 的距离是对称的,
如果某个 x 落在 的1.65倍标准差的
范围之内,那么反过来, 也落在以 x
为中心、两侧1.65倍标准差的范围之内,这 意味着,有90%的样本均值所构造的1.65倍标
准差的区间会包括 。
第四章 参数估计
参数估计在统计方法中的地位
统计方法
描述统计
推断统计
参数估计
假设检验
第一节:参数估计的一般问题 第二节:一个总体参数的区间估计 第三节:两个总体参数的区间估计 第四节:样本容量的选择
第一节 参数估计的一般问题
一、估计量与估计值
二、判断估计量的优良性原则
三、估计方法
一、估计量与估计值
已知: 0.2, n 64 30
x 1.1,1 95%
求 : 1
2
?
1
解 :由1 95%知z 1.96
2
: x
z
2
n
1.1 1.96
0.2 64
1.051,1.149
2 1.051,1.149 1
应该拒收
2、方差未知
重复抽样
: x
Z
2
S n
不重复抽样 : x Z
信区间。
已知: N 1000, n 100 30
1.96
0.228 36
1.194,1.342
(2)假设36批的样本是随机的。 (3)置信区间(1.194,1.342)>1,
说明新酵素的产出率提高了。
例题6:
某企业生产某种产品的工人有1000 人,某日采用非重复抽样 抽取100人调查 他们的当日产量,样本人均产量为35件, 产量的样本标准差为4.5件,试以95.45%的 置信度估计平均产量的抽样极限误差和置
n 1
: x
Z
2
n
Z
2
n
N n N 1
Z
2
n
(一)正态总体、方差已知 (大、小样本)
总体均值 在1- 置信水平下的
置
信区间为:
x Z 2
n
, x Z 2
n
例题1:
某种零件长度服从正态分布,从该 批产品中随机抽取9件,测得其平均长
度 为 21.4 mm 。 已 知 总 体 标 准 差
结论: 我们可以95%的置信度保证该种零件的 平均长度在21.302 - 21.498 mm之间
例题2:
某企业从长期实践得知,其产品直 径X是一随机变量,服从标准差为0.05的正 态分布。从某日产品中随机抽取6个,测得 其直径分别为14.8,15.3, 15.1, 15, 14.7, 15.1 (单位:厘米)。在0.95的置信度下,试
=0.15mm,试建立该种零件平均长度的置 信区间,给定置信水平为0.95。
解:已知X~N(,0.152),x=21.4, n=9, 1- = 0.95
Z/2=1.96
总体均值的置信区间为:
x
Z
2
n
,
x
Z
2
n
21.4 1.96 0.15 ,21.4 1.96 0.15
9
9
21.302,21.498