参数估计基础
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
▪
样本均数的总体标准差
x
资料的总体标准差
n
X ~ N(,x2)
11
正态总体样本均数的分布
❖样本均数的标准差 X ,称为样本均数的标准误 (standard error of mean ,SE),简称均数标 准误 X
❖ 它反映样本均数之间的离散程度,也反映样本均 数抽样误差的大小。
❖误差大小 X ,实质是要估计 X 的分布中的离 散程度特征
72 74 74 73 66 67 80 73 64 75 78 69
70.1 4.4
-2.40
74 80 76 64 66 71 82 78 67 79 56 64 65 4
69 74 64 66 62 75 71 80 83 77 76 71
71.6 7.1
-0.90
75 72 79 74 76 65 80 71 74 75 79 74 73
1
72.8 6.3
76 70 67 63 76 65 78 72 72 78 74 81
0.30
74 61 65 75 67 78 72 70 67 74 74 74 74 2
77 72 69 81 71 60 70 67 78 78 77 64
71.6 5.5
-0.90
73 71 71 67 68 68 67 61 68 66 70 66 71 3
样本量 n=5 n=100
统计量 u t u t
平均值 0.0149031 0.0319309 0.0033231 0.0034704
P2.5 -1.950067 -2.654214 -1.950886 -1.981183
P97.5 1.969157 2.838163 1.971245 2.000407
内容
1
抽样误差
2
抽样分布
3
STATA命令
1
随机抽样的样本是随机的
❖ 对于任何一个随机试验,当完成随机试验后的随 机试验结果是确切的,根本谈不上随机,所以随 机都是指随机试验前而言的。
❖ 在随机抽样前,抽样者是无法知道随机抽样的结 果,当然也无法知道抽到的这个样本的均数。
❖ 任何两个抽样者独立地分别在同一总体进行随机 抽取一个样本,样本量相同,所抽到的这两个样 本的样本均数一般是不同的。
28
t分布的界值
❖ 给定自由度v,t分布曲线的双侧尾部面积为时 对应的t值,记为并称 t/ 2,v为t的双侧界值
❖单侧界值 :一侧尾部面积为时对应的t值 t,v ❖对称性 :单侧曲线下面积=2双侧曲线下面积 ❖ 同样的尾部面积,t分布的界值要大于标准正态分
布的界值
29
t分布的界值
t分布界值示意图,表示阴影的面积 30
1 5
1
X
5
i 1
Xi
(72.4+69.9+ 5
+74.0)=71.52
SDx
5 i 1
(
X
i
X )2
2.40 6.3 2.10
5 1
9
5
样本量和样本均数的离散程度
样本 编号
n=25
样本 样本 抽样 均数 标准差 误差
65 68 68 76 84 64 80 63 84 72 77 73 74
相同
20
中心极限定理及其应用
❖若个体资料X服从正态总体 N(, 2) ,则样本均 数 X 也服从正态分布 X ~ N (, X 2 ) ;
U X X X X / n
U ~ N(0,1)
❖ 个体资料X服从偏态分布,当样本量n较大时,样 本均数 X 近似服从正态分布
X ~ N(, X 2)
21
9
x的平均数 72.54 x的标准差 2.08 6.3/ 9 2.1
x的平均数 72.51
x的标准差 1.25 6.3/ 25 1.26
10
正态总体样本均数的分布
❖从正态分布的总体 N(, 2) 中随机抽取样本含量
为n的样本X1,X2,…,Xn,
❖可以证明:样本均数 X
▪ 服从正态分布,总体均数为 ;
23
t分布
样本含量n=5
样本含量n=100
t统计量的频数图
24
t分布
❖ 结果 ▪ 小样本时,t统计量和U统计量的分布有明显差别 ▪ 大样本时,t统计量和U统计量的分布非常接近。
❖ 频率密度图 ▪ 当样本量较大时, t统计量的频率密度图与标准正态分 布曲线非常接近 ▪ 样本含量较小时,t统计量的峰值比标准正态分布的峰 值略小,双侧尾部的值则较标准正态分布略大
❖已知某地成人男子的脉搏平均数为 72.5次 / 分, 标准差为 6.3次/分 ,将其视为一个总体。
❖ 以上述背景,用计算机随机模拟这个总体,并且 模拟从该总体中进行随机抽样 ▪ 样本含量为n ▪ 每次抽取10000个样本并计算各自的样本均数 ▪ 以10000个样本均数作为一个新的样本制作频 数图
总体均数=1(可以证明:总体标准差=1)
a:指数分布(密度曲线)图
14
非正态总体样本均数的分布
在=1的指数分布总体随机抽取一个样本
b:个体观察值频数图(样本含量n=1000)。 X 0.9994 ,S= 0.9672,中位数M=0.7417
15
Fraction
抽样1
.0675
0 .051759
t分布
❖ X ~ N (, 2 ) ,标准正态分布与t统计量 U X ~ N (0,1) n
❖ 实际研究中未知,用样本的标准差S作为的一个近似
值(估计值)代替,得到变换后的统计量并记为
t X
Sn
22
t分布
❖ 如在正态总体N(168.18,62)中随机抽样,样本量分别取 n =5,n =100,均抽10000个样本,分别计算t值和U 值并作相应t的频数图
12
正态总体样本均数的分布
❖由于实际 X 往往未知,需要用样本 SX 来估计 , 样本 X均数标准误的估计式为
SX
SX n
❖注意区别: S和
SX 和 X
❖ 证明:样本均数的期望值和标准差也为
E(X )
X
Var( X ) X
n
X
X
SX
13
X
Var(X) X n
非正态总体样本均数的分布
❖ 从总体均数为1的指数分布中抽样,样本大小分别为4, 9,100。每次抽10000个样本制作频数分布图
5
73.5 4.4
66 73 75 66 77 76 70 68 79 68 80 73
1.00
X
1 5
5 i 1
Xi
1 (72.8+71.6+ 5
+73.5)=71.92
SDx
5 i 1
(
X
i
X
)2
1.30
6.3
1.26
5 1
25
6
抽样误差
❖ 结果: ▪ 各样本均数不一定等于总体均数 ▪ 样本均数间存在差异 ▪ 样本均数的分布规律:围绕总体均数上下波动 ▪ 样本均数的变异:由样本均数的标准差描述。
7
抽样分布
❖ 样本均数的规律性 ▪ 随机的 ▪ 在概率意义下是有规律的---抽样分布 ▪ 通过大量重复抽样,借助频数表描述 ▪ 样本均数的变异规律(抽样分布)与个体观察值 变异规律有关
❖ 即使只有一个样本资料,也可由样本资料的个体 观察值的变异规律间接得到样本均数的变异规律
8
正态总体样本均数的分布
meanx
2.73185
17
0 .654635
样本含量n=100
x 的平均数 =0.9993 x 的标准差 =0.1001
1 0.1 100
x 的中位数 =0.9958
meanx
1.49848
18
非正态总体样本均数的分布
❖ 从非正态指数分布总体中随机抽样所得样本均 数X: ▪ 在样本含量较小时呈偏态(非指数型) ▪ 样本含量较大时接近正态分布
3
抽样误差
❖从总体均数 为72.5,标准差 为6.3cm的正
态分布总体中随机抽样,样本量n=9,25。
❖ 样本均数的抽样误差=样本均数-总体均数
, 2
n=9,25 X1, S1 X2, S2
… …X 3. , S3
Xn, Sn
4
样本量和样本均数及其离散程度
样本
编号
n=9
样本 样本 抽样 均数 标准差 误差
26
t分布
❖ 三条t分布密度曲线
v=∞ v=5 v=1
27
t分布的图形特征
❖ 分布特征
▪ t分布曲线是单峰的 ▪ 关于t = 0对称 ▪ 自由度越大,t值越小
❖ t分布与正态分布的关系
▪ 自由度v较小时,t分布与标准正态分布相差较大,并且 t分布曲线的尾部面积大于标准正态分布曲线的尾部面 积
▪ 当自由度 时,t分布逼近于标准正态分布。
25
t分布
❖英国统计学家W. S. Gosset(1908)设X ~ N (, 2 )
并给出了统计量t的分布规律,称统计量t的分布 规律为t分布,自由度为v,记为t(v)分布。
t X
S/ n
n 1
❖ 每个自由度v对应一个分布,因此t分布是一簇分 布
❖ t分布仅与总体均数有关,与总体标准差无关
▪ 均数 X 始终在总体均数 1 附近
▪ 均数 X 的标准差 X的总体标准差
n
19
中心极限定理及其应用
❖样本均数 X 总体标准差是个体资料X的总体标准
差的 1/ n
;即理论标准误
x
n
❖ 理论标准误的样本估计值为
SX
SX n
❖样本均数 X 与 个体资料X的集中位置相同,即样
本均数 X 的总体均数与 个体资料X的总体均数
❖ 所以,对于随机抽样前而言,随机抽样的样本均 数是随机的。
2
抽样误差
❖抽样误差Sampling error ▪ 对于随机抽样而言,总体参数的样本统计量估 计值与总体参数间的差异称为抽样误差
❖ 来源: ▪ 个体变异 ▪ 随机抽样
❖ 表现 ▪ 总体参数的样本统计量估计值与其总体参数间 的差异 ▪ 对于总体参数估计,不同随机抽样的样本统计 量之间的差异
1 65 68 68 76 84 64 80 63 84 72.4 8.6 -0.10 2 74 61 65 75 67 78 72 70 67 69.9 5.4 -2.60 3 73 71 71 67 68 68 67 61 68 68.2 3.4 -4.30 4 74 80 76 64 66 71 82 78 67 73.1 6.5 0.60 5 75 72 79 74 76 65 80 71 74 74.0 4.5 1.50
样本含量n=4
x 的平均数 =1.0133 x 的标准差 =0.5031
1 0.5 4
x 的中位数 =0. 9298
meanx
3.79467
16
Fraction
抽样2
.0683
0 .191269
样本含量n=9
x 的平均数 =0.9959 x 的标准差 =0. 3332
1 0.33 9
x 的中位数 =0.9574