第二讲——参数估计和假设检验

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
置信区间
置信下限
估计值(点估计)
置信上限
抽样分布 Sampling Distribution



从总体中抽取一个样本量为n的随机样本, 我们可以计算出统计量的一个值。 如果从总体中多次抽取样本量为n的样本, 就可以得到统计量的多个值。 统计量的抽样分布就是这一统计量所有可 能值的概率分布。
抽样分布:几个要点
n N 1
n N 1
关于置信度含义的说明
在所有的置信区间中, 有(1-) *100% 的区间 包含 总体真实值。 对于计算得到的一个具 体区间,这个区间包含 总体真实值要么包含, 要么不包含总体真值。 说“总体均值有95%的概 率落入某一区间”是不 严格的,因为总体均值 是非随机的 。 /2
抽样分布的一个演示:重复抽样 时样本均值的抽样分布(1)
设一个总体含有 4 个个体,分别为 X1=1 、 X2=2 、 X3=3 、X4=4 。总体的均值、方差及分布如下。 均值和方差

总体的频数分布
X
i 1
N
i
N
N
2 .5
2 i1
2 ( X ) i
N
1.25
.3 .2 .1 0 1 2 3 4
2 2
=
(1645) . (45)
2
2
(5)
2
= 219.2≈ 220
向上取整
样本量的确定(实例2)
一家市场调研公司 想估计某地区有电 脑的家庭所占的比 例。该公司希望对 比例 p 的估计误差不 超 过 0.05 , 要 求 的 可 靠 程 度 为 95% , 应抽多大容量的样 本(没有可利用的 p 估计值)?
2 x 0 .625
样本均值的抽样分布_正态总体
一般的,当总体服从 N(μ,σ2 )时,来自该总体 的容量为n的样本的均值X也服从正态分布,X 的 期望为μ,方差为σ2/n。即X~N(μ,σ2/n)。
=10
n=4 x 5 n =16 x 2.5
= 50
X
x 50
ˆ p z ~ N(0 ,1 ) (1) n
关于置信区间的补充说明

置信区间的推导:
x Z 2
x 1 P Z / 2 n


x Z 2 n n

有限总体不重复抽样时,样本均值或比例的方 差需要乘以“有限总体校正系数”(当抽样比 f=n/N小于0.05时可以忽略不计),前面的公 式需要进行相应的修改。 N n ˆ( ˆ) N p 1 p n x ˆ p
解 : 已 知 E=0.05 , =0.05 , Z/2=1.96 , 当 π 未 知 时 取 为 0.5。
n
Z 2 2 (1 )
E2 (1 . 96 ) 2 ( 0 . 5 )( 1 0 . 5 ) ( 0 .5 ) 2 385
实例3
你在美林证券公司的人力资源部工作。你计划 在员工中进行调查以求出他们的平均医疗支出。 你希望有 95% 置信度使得样本均值的误差在
4 1,4 2,4 3,4 4,4
抽样分布的一个演示:重复抽 样时样本均值的抽样分布(3)
各样本的均值如下表,并给出样本均值的抽样分布
16个样本的均值(x) 第一个 观察值
.3 P(x)
第二个观察值
1 2 3 4
.2 .1 0 1.0 1.5 2.0 2.5 3.0 3.5 4.0 x
1
2 3 4
1.0
1.5 2.0 2.5
1.5
2.0 2.5 3.0
2.0
2.5 3.0 3.5
2.5
3.0 3.5 4.0
样本均值的抽样分布
所有样本均值的均值和方差
1 . 0 1 . 5 4 . 0 2 . 5 x M 16
i 1 i
x
n
n
M 2 2 2 ( 1 .02 .5 ) (4 .02 .5 ) 0 .625 16 n 1. 样本均值的均值(数学期望)等于总体均值
大样本(n 30)
小样本
x
X
标准误(Standard Error)

简单随机抽样、重复抽样时,样本均 值抽样分布的标准差等于 ,这
n
个指标在统计上称为标准误。 统计软件在对变量进行描述统计时一 般会输出这一结果。
有限总体校正系数
Finite Population Correction Factor


基本原理 零假设和备择假设 检验统计量和拒绝域 两类错误与显著性水平
实际中的假设检验问题

假设检验: 事先作出关于总体参数、分 布形式、相互关系等的命题(假设), 然后通过样本信息来判断该命题是否 成立(检验) 。
2
/ 2
n
E
2
式中的总体比例π可以通过以下方式估计: 根据历史资料确定 通过试验性调查估计 取为0.5。
不重复抽样时的必要样本量

比重复抽样时的必要样本量要小。
n0 n n0 1 N

式中n0是重复抽样时的必要样本容量。
样本量的确定(实例1)
需要多大规模的样本才能在 90% 的置信 水平上保证均值的误差在 ± 5 之内? 前 期研究表明总体标准差为 45. Z n= E2
总体 样本
参数
统计量
?
算术平均数
x
用来推断总体参数的统计量称为估计量(estimator), 其取值称 为估计值(estimate) 。 同一个参数可以有多个不同的估计量。 参数是唯一的,但估计量(统计量)是随机变量,取值是不确 定的。
点估计及其性质
估计量:设 为总体X的一个未知参数,统计量 ˆ ˆX , ,X 称为 的估计量。
由于在实践中总体参数的真实值是未 知的,因此实际抽样误差是不可知的; 由于样本估计值随样本而变化,因此 实际抽样误差是一个随机变量。

抽样平均误差

抽样平均误差:样本均值的标准差,也就是前面说 的标准误。它反映样本均值(或比例)与总体均值 (比例)的平均差异程度。 2 ˆ
( ) ˆ E
如何确定必要样本量?

必要样本量受以下几个因素的影响:




1、总体标准差。总体的变异程度越大,必 要样本量也就越大。 2、最大允许误差。最大允许误差越大,需 要的样本量越小。 3、置信度1- 。要求的置信度越高,需要 的样本量越大。 4、抽样方式 。其它条件相同,在重复抽样、 不重复抽样;简单随机抽样与分层抽样等不 同抽样方式下要求的必要样本容量也不同。

例如对简单随机抽样中的样本均值有:
x n
或 x
n
N n (不重复抽样) N 1

我们通常说“抽样调查中可以对抽样误差进行控 制”,就是指的抽样平均误差。由上面的公式可知 影响抽样误差的因素包括:总体内部的差异程度; 样本容量的大小;抽样的方式方法。
最大允许误差


最大允许误差(allowable error):在确定 置信区间时样本均值(或样本比例)加减 的量,一般用E来表示,等于置信区间长 度的一半。在英文文献中也称为margin of error。 置信区间= x E 最大允许误差是人为确定的,是调查者在 相应的置信度下可以容忍的误差水平。
简单随机抽样下估计总体均值时 样本容量的确定
E Z /2


Z /2 , n 2 E n
2
2
式中的总体方差可以通过以下方式估计: 根据历史资料确定 通过试验性调查估计
简单随机抽样下估计总体比例时 样本容量的确定
E Z / 2

Z ( 1 ) ( 1 ) ,n

n≥30? 否 是 否
x Z
n
x t
s
2
n
x Z 2

n
增大n?数学 变换?
实际中总体方差总是未知的, 因而这是应用最多的公式。在 大样本时t值可以用z值来近似。
根据中心极限定理得 到的近似结果。 σ未知时用s来估计。
总体比例的置信区间

ˆ ˆ n p 5 ,n ( 1 p ) 5 时总体比例的置 当 信区间可以使用正态分布来进行区间估计。 ˆ ,总体比例记为π) (样本比例记为 p




抽样分布是统计量的分布而不是总体或样本的 分布。 在统计推断中总体的分布一般是未知的,不可 观测的(常常被假设为正态分布)。 样本数据的统计分布是可以直接观测的,最直 观的方式是直方图,可以用来对总体分布进行 检验。 抽样分布一般利用概率统计的理论推导得出, 在应用中也是不能直接观测的。其形状和参数 可能完全不同于总体或样本数据的分布。

指随着样本容量的增大,估计量越来越接 近被估计的总体参数。
P(X )
较大的样本容量
B A
较小的样本容量

X
区间估计


根据事先确定的置信度1 - 给出总体参数 的一个估计范围。 置信度1 - 的含义是:在同样的方法得到 的所有置信区间中,有100(1- % 的区间 包含总体参数。 抽样分布是区间估计的理论基础。
X
总体分布
抽样分布
样本均值的抽样分布_其他总体
任意总体, 随n增大, 样本均值的 分布趋于正 态分布的过 程。
中心极限定理
从均值为 ,方差为 2 的一个任意总体中抽取容量 为 n 的样本,当 n 充分大时,样本均值的抽样分布近 似服从均值为μ、方差为σ2/n的正态分布。
x
f(X)
n
ˆx, ,x 1 n称为
1
n

的估计值。
,x ,x 通过一次具体抽样值 x 1 2 n ,估计 参数 取值的方法称为参数的点估计问题。 例如,在估计总体方差时,

n
i 1
( xi x ) 2 n


n
i 1
( xi x ) 2 n 1
都可以作为估计量。
一个待估参数 ,可以有几个不同的估计量, 这就引出了如何衡量估计量好坏的标准。
$50 以内。 过去的研究表明 约为 $400。需
要多大的样本容量?
Z n= 2 E
2
2
(196) . (400) = 245.86 ≈ 246 = 2 (50)
2
2
2. 假设检验
2.1 假设检验的基本问题 2.2 单个总体参数的检验 2.3 两个总体参数的检验
2.1 假设检验的基本问题


简单随机抽样、不重复抽样时,样本均值 抽样分布的方差略小于重复抽样的方差, 2 等于 N n n N 1
N n N 1

这一系数称为有限总体校正系数。

当抽样比(n/N)<0.05时可以忽略有限总 体校正系数。
1.2 总体均值和比例的区间估计
相关理论
σ2已知?


2
是 总体正态?
2. 样本均值的方差等于总体方差的1/n

2 x
(x )
i 1 i x
2
M为样本数目
样本均值的抽样分布与总体分布的比较
总体分布
.3 .2 .1 0
.3 .2 .1
P(x)
抽样分布Βιβλιοθήκη Baidu
1
2
3
4
0
= 2.5
σ2 =1.25
1.0 1.5 2.0 2.5 3.0 3.5 4.0
样本均值的抽样分布 x 2.5
参数估计与假设检验
1.参数估计 2.假设检验
参数估计:对总体参数运用统计学原理给 出一个估计量或估计区间来。 假设检验:对提出的关于总体或总体参数 的某个陈述进行检验,判断真伪。
1. 参数估计
1.1参数估计的基本概念 1.2总体均值和比例的区间估计 1.3必要样本容量的确定

1.1 参数估计的基本概念
样本均值的 抽样分布
σ_
x
1 -
/2
_
X
x =
1.3 必要样本量的计算
样本量越大抽样误差越小。由于调 查成本方面的原因,在调查中我们总 是希望抽取满足误差要求的最小的样 本量。
关于抽样误差的几个概念


实际抽样误差 抽样平均误差 最大允许误差
实际抽样误差

样本估计值与总体真实值之间的绝对 离差称为实际抽样误差。 | ˆ |
点估计量的常用评价准则:无偏性

无偏性:估计量的数学期望与总体待估参 数的真值相等: E ( ˆ)
P(ˆ ) 无偏 有偏
A
B

ˆ
点估计量的常用评价准则: 有效性

在两个无偏估计量中方差较小的估 计量较为有效。
P(ˆ )
ˆ1 的抽样分布
B A
ˆ 2 的抽样分布

ˆ
估计量的常用评价准则:一致性
抽样分布的一个演示:重复抽样 时样本均值的抽样分布(2)
现从总体中抽取n=2的简单随机样本,在重复 抽样条件下,共有42=16个样本。所有样本的结果 如下表.
所有可能的n = 2 的样本(共16个)
第一个 观察值 1 2 3 4
1 1,1 2,1 3,1 4,1
第二个观察值 2 3 1,2 1,3 2,2 2,3 3,2 3,3 4,2 4,3
相关文档
最新文档