7 参数估计
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3个抽样实验结果图示
均数
均数
5. 15 5. 36 5. 57 5. 77 5. 98 6. 19
频数 100 150 200 250 300 350 400 450 50 0
n = 30; SX = 0.0920
均数
3. 71 3. 92 4. 12 4. 33 4. 54 4. 74 4. 95 5. 15 5. 36 5. 57 5. 77 5. 98 6. 19
t= X −µ X −µ = SX S/ n t变 换
σX
N(0,1) 0 t(ν) (
X
0
t 分布与正态分布的比较
t 分布:形状与 分布:形状与N(0,1)相似, 相似, 相似 分布中间较小, 但t分布中间较小,两侧较大。 分布中间较小 两侧较大。
随着v增大, 分布逼近 随着 增大,t分布逼近 增大 分布逼近N(0,1); ; v ∞时,t分布演变成 时 分布演变成 分布演变成N(0,1)。 。
参数估计
parameter estimation
统计学
统计描述
统计推断
参数估计
假设检验
总体、 总体、个体和样本
总体(population):调查研究的事物或现象的全体 个体(item unit):组成总体的每个元素 样本(sample):从总体中所抽取的部分个体 样本容量(sample size):样本中所含个体的数量
总体参数
µ、σ、π
可信区间(confidence interval, CI) 可信区间
可信区间
均 数
率
方差
σ2 未知
σ2 已知
总体均数的估计
点估计: 点估计:point estimation 区间估计: 区间估计:interval estimation 样本统计量 点估计) (点估计)
可信/ 可信/置信区间 (区间估计) 区间估计)
岁男孩身高估计10万个 析 200个7岁男孩身高估计 万个 岁男孩身高 个 岁男孩身高估计 万个7岁男孩身高 情况,也就是用样本均数估计总体均数。 情况,也就是用样本均数估计总体均数。
抽样误差
抽样误差( 抽样误差(sampling error) :
由于个体差异的存在,导致抽样时样本统计 由于个体差异的存在, 个体差异的存在 量与总体参数间的差别;或同一总体的相同统计 量与总体参数间的差别; 量之间的差别。 量之间的差别。
表7 - 1
正常男子红细胞计数抽样实验结果 (µ=5.00, σ2=0.502 ,n=10) )
样本号
1 2 3 … 100 5.59 4.65 4.56 … 5.16
红细胞计数 (X)
5.11 4.65 4.87 … 4.49
( 12 / L) 10
X
5.55 5.32 4.23 … 4.56 5.04 5.03 4.71 … 4.90
总体:该地2004年10万个 岁男孩身高观察值的全体 万个7岁男孩身高观察值的全体 总体:该地 年 万个 个体:每个7岁男孩 个体:每个 岁男孩 样本:随机抽样所得到的200个 岁男孩身高观察值 样本:随机抽样所得到的 个7岁男孩身高观察值 样本容量:200 样本容量: 抽样实验:通过样本信息了解总体的情况。 抽样实验:通过样本信息了解总体的情况。即:通过分
思考题
1 各样本均数与总体均数相等吗? 各样本均数与总体均数相等吗? 2 各样本均数之间相等吗? 各样本均数之间相等吗? 3 样本均数分布有何规律? 样本均数分布有何规律? 4 样本均数的变异较之原个体观察值的变异范 围有何变化? 围有何变化? 5 比较 比较n=5、10、30“样本均数的标准差”。 、 、 样本均数的标准差” 样本均数的标准差
0
0
71 3. 92 4. 12 4. 33 4. 54 4. 74 4. 95
3. 71 3. 92 4. 12 4. 33 4. 54 4. 74 4. 95 5. 15 5. 36 5. 57 5. 77 5. 98 6. 19
n = 5; SX = 0.2300
n = 10; S X = 0.1586
属于随机误差:无倾向性,不可避免。 属于随机误差:无倾向性,不可避免。
抽样实验
假定正常成年男子的红细胞计数服从正态分 从该总体中随机抽样, 布N(5.00, 0.502),从该总体中随机抽样,样本含 ( 100次 量n=10,计算其均数与标准差;重复抽取100次, = ,计算其均数与标准差;重复抽取100 获得100份样本;计算100份样本的均数与标准差, 获得100份样本;计算100份样本的均数与标准差, 100份样本 100份样本的均数与标准差 并对100份样本的均数作直方图 作直方图。 并对100份样本的均数作直方图。 100 按上述方法再做样本含量n= 、 = 的抽样 按上述方法再做样本含量 =5、n=30的抽样 试验;比较计算结果。 试验;比较计算结果。
S=
标准差 表示个体变异大小
标准误
统计量的标准差, 表 统计量的标准差, 示抽样误差大小
增大样本含量可减少
∑ X − (∑ X )
2
2
/n
算式
n −1
SX = S /
n
用途
求参考值范围
求可信区间
样本均值的分布
1. 来自于同一正态总体的样本均数的分布
总体X~N(µ,σ ) → 样本均数X~N(µ,σ / n)
2 2
σ=10
n=4
n =16
σX = 5
µ=50 总体分布 X
σ X = 2.5
µX = 50
抽样分布
X
2. 来自于同一偏态总体的样本均数的分布 中心极限定理(central limit theorem): 中心极限定理 :
样本均数X~N(µ,σ / n)
2
σ σx = n
任一分布 的总体 足够大, 当n足够大, 足够大 样本均数逐渐 趋于正态分布
已知总体标准差σ 已知总体标准差σ:
σX =σ / n
SX = S / n
未知总体而知样本标准差S: 未知总体而知样本标准差 :
抽样实验小结
正态总体N(µ,σ 2 ) → 样本均数X~N(µ,σ 2 / n)
均数的均数围绕总体均数上下波动。 均数的均数围绕总体均数上下波动。 与总体标准差σ 均数的标准差 σ X 与总体标准差σ相差一 个常数倍数, 个常数倍数,即 σ X = σ / n 。
S 估计值: 估计值: SX = n 4. 小于总体标准差
→= SE
5. 影响抽样误差大小的主要因素是样本量 影响抽样误差大小的主要因素是样本量
年某地20岁应征男青年中随机抽取 例7-3 2003年某地 岁应征男青年中随机抽取 年某地 85人,平均身高为171.2cm,标准差为 人 平均身高为 ,标准差为5.3cm, , 计算当地20岁应征男青年身高的标准误。 计算当地 岁应征男青年身高的标准误。 岁应征男青年身高的标准误
t 界值表
概率 P /α α 0.025 …… 0.05 12.706 4.303 2.228 …… 2.000 …… 1.9600 …… …… …… …… …… …… …… 0.002 0.001 318.309 636.619 22. 31.599 4.587 …… 3.460 …… 3.2905 0.001 0.0005
-1.96
0
1.96
0
1.64
参数估计(estimation of parameter): :
--用样本统计量估计总体参数。 --用样本统计量估计总体参数。 用样本统计量估计总体参数
参 数 估 计
点 估 计
样本统计量 X、S、p
区间估计
利用样本信息 计算一个区间, 计算一个区间,并 给出重复试验时该 给出重复试验时该 区间包含总体参数 的概率
t(df = ∞) 即 (0,1 N )
t (df = 9)
t (df = 1 )
t 0
不同自由度的t分布 不同自由度的 分布
P 323
自由度 υ 1 2 10 …… 60 …… ∞ 单 双 0.25 0.50 1.000 0.816 0.700 …… 0.679 ……
附表 2
0.20 0.40 1.376 1.061 0.879 …… 0.848 …… 0.05 0.10 6.314 2.920 1.812 …… 1.671 ……
SX = S / n = 5.3/ 85 = 0.57(cm)
即本次调查身高均数171.2cm抽样误差的估计 抽样误差的估计 即本次调查身高均数 值为0.57cm 。 值为
标准差 VS 标准误
内容 性质 控制
个体变异或自然变异, 个体变异或自然变异, 不可通过统计方法来控制。 方法 不可通过统计方法来控制。
µx = µ
X
σ X ~N ( µ , σ 2 ) → N (0,1)
u变换 u= X −µ
u=
X −µ
X ~N ( µ , σ X ) → N (0,1)
(用 σ X 的 估 计 值 S X ) X ~ N ( µ , σ X ) t (υ ) →
Student t-分布 分布 ν=n-1 自由度 ν=
第七章 参数估计
第一节 样本均数的标准误
第三节
两均数之差的可信区间
样本均数的标准误
1. 标准误 标准误(Standard Error, SE):统计量的标准差 : 2. 样本均数的标准误:样本均数的标准差,测度样 样本均数的标准误:样本均数的标准差, 本均数的抽样误差,即样本均数的离散程度。 本均数的抽样误差,即样本均数的离散程度。 3. 理论值: σ = σ 理论值: X n
0.6745 0.8416 1.6449
t分布曲线下面积 分布曲线下面积
规律: 同一ν 值增加, 值减小 规律:1. 同一ν下,t值增加,P值减小 值增加 值下, 增加, 值减小 2. 同一P值下,ν增加,t值减小 同一 值下 双侧t 单侧t 双侧t0.05/2,∞=1.96 =单侧t0.025,∞ , ,
均数
X=
∑X
i =1
N
i
N
5.04 + 5.03 + 4.71 + L + 4.90 = ≈ 5.00 = µ 100
SX =
( X − X )2 ∑ N −1
= 0.1586
频数
频数
300 350 400 450
100
150
200
250
50
100
150
200
250
300
350
400
450
50
3.
ˆ µ=X
置信下限 置信上限
置信水平/ 置信水平/可信度
1. 重复试验时该区间包含总体均数 的概率 2. 表示为 1−α 或 100(1−α)% 100(1− 常用的有 99%, 95%, 90% 0.01,0.05, 相应的 α 为0.01,0.05,0.10
S
0.44 0.52 0.33 … 0.29
4.26 5.59 5.21 … 5.26
… … … … …
X i ( i = 1 , L 100 )
450 400 350 300 频数 250 200 150 100 50 0
n =10
3. 71 3. 92 4. 12 4. 33 4. 54 4. 74 4. 95 5. 15 5. 36 5. 57 5. 77 5. 98 6. 19
100份样本抽样计算结果 100份样本抽样计算结果
总体 均数 5.00 5.00 5.00 总体 标准差σ 标准差σ 0.50 0.50 0.50 均数的 均数 4.987 5.011 5.000 均数的标准差
S
n
σ
n
n=5 n=10 n=30
0.2300 0.1586 0.0920
0.2236 0.1581 0.0913
统计推断的过程
参数 总体
统 计 推 断
抽 样 样 本 样本均数、 样本均数、 率、标准差
统计量
案例:研究2004年某地7岁男孩的身高情况。 案例:研究2004年某地7岁男孩的身高情况。 2004年某地 假如该地2004年的7岁男孩有10万人, 假如该地2004年的7岁男孩有10万人,则最直 2004年的 10万人 接的方法就是普查:调查这10万个儿童, 接的方法就是普查:调查这10万个儿童,测量他们 10万个儿童 的身高,然后进行统计分析。但是工作量非常大。 的身高,然后进行统计分析。但是工作量非常大。 我们可以通过随机抽样调查了解7 我们可以通过随机抽样调查了解7岁男孩的身 高情况。如调查200个儿童,测量他们的身高, 高情况。如调查200个儿童,测量他们的身高,通 200个儿童 过分析这200个儿童的身高推断该地10万个7 过分析这200个儿童的身高推断该地10万个7岁男孩 200个儿童的身高推断该地10万个 身高情况。 身高情况。