(精品)医学统计学课件:抽样误差

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
得无限多个样本,每个样本计算样本均数, 则只要样本含量足够大(n>50),样本均数也近 似服从正态分布。
– 样本均数的均数为 ;

样本均数的标准差为 X
n

15
标准误(standard error)
• 样本统计量的标准差称为标准误。
• 样本均数的标准差称为均数的标准误。
• 均数的标准误表示样本均数的变异度。
– 在样本含量较小时:
• 总体为正态分布时:正态分布 • 总体为非正态分布时:?
18
正态分布的标准化变化

若 X ~ N(,2),

u
X
~ N (0,1)

同理
X
~ N(, X ) ,
则u
X
~
N (0,1)

X
19
t 分布的概念
• 实际工作中,总体标准差未知。所以,用 样本标准差代替总体标准差,
6
0.718 0.906 1.440 1.943 2.447 3.143 3.707 4.317 5.208 5.959
7
0.711 0.896 1.415 1.895 2.365 2.998 3.499 4.029 4.785 5.408
8
0.706 0.889 1.397 1.860 2.306 2.896 3.355 3.833 4.501 5.041
总体参数
未知
样本统计量
统计 推断
已知
风险
3
抽样误差
• 假如事先知道某地七岁男童的平均身高为119.41cm。为了 估计七岁男童的平均身高(总体均数),研究者从所有符 合要求的七岁男童中每次抽取100人,共计抽取了三次。
μ=119.41cm σ= 4.38cm
X 118.21cm s=4.45cm
图 t分布曲线下的面积分布
27
t分布曲线下的面积规律
单侧:
P (t≤-t, )= 或 P (t≥ t, )=
图 t分布曲线下的面积分布
28
t分布曲线下的面积规律
t分布
• t分布的高峰位置比 u 分布低,尾部高。即相 同的尾部面积对应的界 值,比 u 分布大。
• 例 如 : P=0.05, u=1.96,而自 由度为3 的 t分布界值, t = 3.182。
MEDICAL STATISTICS 医学统计学
抽样误差及其规律性 Sampling variability and its attributes
主要内容
抽样误差 模拟实验 标准误 中心极限定理 t分布 抽样误差规律性
2
了解抽样误差规律的重要性
总体
随机 抽样
同质个体、个体变异
样本
代表性、抽样误差
30
双侧:t0.05,10=2.228
P ( |t| ≥2.228 )=0.05
=10
0.025 -2.228
0.025
0
2.228
31 31
t界值释义
双侧t0.05, 10=2.228 表明:从正态分布总体中抽取样本含量 n=11的样本,则由该样本计算的t值大于等于2.228的概率 为0.025,小于等于-2.228的概率亦为0.025。 P(t≤-2.228)+P(t≥2.228)=0.05 或:P(-2.228<t<2.228)=1-0.05=0.95。
12
0.695 0.873 1.356 1.782 2.179 2.681 3.055 3.428 3.930 4.318
13
0.694 0.870 1.350 1.771 2.160 2.650 3.012 3.372 3.852 4.221
14
0.692 0.868 1.345 1.761 2.145 2.624 2.977 3.326 3.787 4.140
– 抽样误差是不可避免的! – 抽样误差是有规律的!
5
模拟试验
• 假设一个已知总体,从该总体中抽样,对 每个样本计算样本统计量(均数、方差等), 观察样本统计量的分布规律--抽样分布 规律。
• 考察:
– 不同的分布 – 不同的样本含量
对统计量的影响。
6
均数的模拟试验
• 从不同总体中进行抽样,观察均数的抽样分布规 律。 – 正态总体 – 偏三角分布总体 – 均匀分布总体 – 指数分布总体 – 双峰分布总体
92
97 -5.7
100 102 95 97 98.2 2.8
95 102 -1.8
8
样本均数的均数和标准差
X
1 10
10 i1
Xi
1 99.4
10
97.8
98.2 98.4 100
n
Xi X
sX
i 1
10 1
6 3
n4
99.4 98.42 98.2 98.42
2.82 10 1
1908年Gosset以笔名 Student 发 表 。 故 又 称Student t 分布。
t分布是一簇分布, 与自由度有关。
自由度: degree of freedom
23
自由度分别为1, 5, ∞时的 t 分布
f(t) =∞(标准正态曲线)
=5
0.3
=1
0.2
0.1
-4 -3 -2 -1 0 1 2 3 4
104 105 90 106 101.2 6.4
90
106 1.2
104 92 103 83 95.6 8.6
83 104 -4.4
99 107 94 97 99.4 4.9
94 107 -0.6
100 103 96 92 97.9 4.1
92 103 -2.1
92 97 94 94 94.3 1.9
标准误的大小与标准差有关,在例数n一定时,从 标准差大的总体中抽样,标准误较大;而当总体 一定时,样本例数越多,标准误越小。说明我们 可以通过增加样本含量来减少抽样误差的大小。
17
抽样误差的规律性(1)
• 均数的抽样误差规律:
– 在样本含量足够大时,无论总体分布如何,其 均数的分布趋于正态分布(大数定律)
15
0.691 0.866 1.341 1.753 2.131 2.602 2.947 3.286 3.733 4.073
1.6449 1.9600
2.5758
26
t分布曲线下的面积规律
双侧:
P (t≤- t, ) + P (t≥ t, )= P (-t, < t < ta, ) = 1-
本的含量为n),可得无限多个样本,每个样 本计算样本均数,则样本均数也服从正态分 布。
– 样本均数的均数为 ;
– 样本均数的标准差为
X
n

14
中心极限定理(central limit theorem)
Case 2:
从非正态(nonnormal)分布总体(均数为,方 差为2)中随机抽样(每个样本的含量为n),可
9
0.703 0.883 1.383 1.833 2.262 2.821 3.250 3.690 4.297 4.781
10
0.700 0.879 1.372 1.812 2.228 2.764 3.169 3.581 4.144 4.587
11
0.697 0.876 1.363 1.796 2.201 2.718 3.106 3.497 4.025 4.437
9
.15
样本均数服从正态分布
.1
.05
0
正态总体分布
80.0
90.0
100.0 Sample Mean
110.0
120.0
从N(100,62)中随机抽样,样本含量为4的 1000个样本均数的频数分布图
10
Sampling distribution for means
n=2 n=4
X Population A
围逐渐缩小。
12
与样本含量的关系
• n 越大,均数的均数就越接近总体均数; • n 越大,变异越小,分布越窄; • 对称分布接近正态分布的速度,大于非对
称分布。分布越偏,接近正态分布所需样 本含量就越大。
13
中心极限定理(central limit theorem)
Case 1:
从正态分布总体N(,2),中随机抽样(每个样
X 120.18cm s=4.90cm
X 120.81cm
s=4.33cm
4
抽样误差
• sampling error,sampling variability
– 由抽样引起的样本统计量与总体参数间 的差别。
– 原因:个体变异+抽样 – 表现:
• 样本统计量与总体参数间的差别 • 不同样本统计量间的差别
• 样本含量较大时:近似正态分布 • 样本含量较小时:?
William Sealey Gosset 1876~1937
34
抽样误差的规律性(3)
Karl Pearson 1857~1936
X
n
• 当总体标准差未知时,用样本标准差代替,
s sX n
• 前者称为理论标准误,后者称为样本标准误。
16
标准误的意义
反映了样本统计量(样本均数,样本率)分布的 离散程度,体现了抽样误差的大小。
标准误越大,说明样本统计量(样本均数,样本 率)的离散程度越大,即用样本统计量来直接估 计总体参数越不精确。反之亦然。
Sampling Distribution of sample means
11
均数的抽样误差之特点
• 各样本均数未必等于总体均数; • 样本均数间存在差异; • 样本均数的分布很有规律,围绕总体均
数,中间多两边少,左右基本对称; • 样本均数的变异范围较之原变量的变异范
围大大缩小; • 随着样本含量的增加,样本均数的变异范
n=4
样本 均数
样本 标准差
最小值
最大值
抽样 误差
98 98 104 97 99.4 2.9
97 104 -0.6
99 98 100 95 97.8 1.7
95 100 -2.2
103 109 109 95 104.1 6.1
95 109 4.1
93 94 99 100 96.4 3.1
93 100 -3.6
• 此时 X 的分布如何? s X
20
.4
.3
.2
.1
0
-20
-10
0
10
20
t
从N(100,62)中随机抽样,样本含量为4的 1000个u值和t值的频数分布图
21
t 分布的概念
• 用样本标准差代替总体标准差,此时
X
s X
不服从正态分布。而服从 t 分布。记为:
tX ~t
s
(n1)
X
22
t分布
25
自由度
n
单侧 双侧
1
2
3
4
5
0.25 0.50 1.000 0.816 0.765 0.741 0.727
0.20 0.40 1.376 1.061 0.978 0.941 0.920
附表2 t 界值表
0.10 0.20 3.078 1.886 1.638 1.533 1.476
概 率,P 0.05 0.025 0.01 0.10 0.05 0.02 6.314 12.706 31.821 2.920 4.303 6.965 2.353 3.182 4.541 2.132 2.776 3.747 2.015 2.571 3.365
24
t分布的性质
t分布为一簇单峰分布曲线。 t分布以0为中心,左右对称。
t分布与自由度v有关,自由度越小,t分布的峰越
低,而两侧尾部翘得越高;自由度逐渐增大时,t 分布逐渐逼近标准正态分布;当自由度为无穷大 时,t分布就是标准正态分布。 每一自由度下的t分布曲线都有其自身分布规律。t 界值表 。
32
样本统计量的抽样分布
任何一个样本统计量均有其分布规律。 从正态分布总体中抽样: • 均数的抽样分布为正态分布;
• 样本方差的分布服从2分布;
• 样本方差之比服从F分布; • t 值服从 t 分布; • ……
33
抽样误差的规律性(2)
• t 的抽样误差规律:
– 总体为正态时:t ~ t 分布 – 总体为非正态时:
n=10
X Population B
X Population C
X Population D
n=25
Sampling Distribution of sample means
Sampling Distribution of sample means
Sampling Distribution of sample means
• 考察: – 样本均数的均数与总体均数有何关系? – 样本均数的标准差与总体标准差有何关系? – 样本均数的分布形状如何?
– 不同的样本含量对上述性质的影响如何?
7
正态分布样本均数的分布
从N(100,62)中随机抽样,样本含量为4的 10份独立样本的 均数、标准差、抽样误差
样本 编号
1 2 3 4 5 6 7 wenku.baidu.com 9 10
-t
0
t
0.005 0.0025 0.001 0.0005 0.01 0.005 0.002 0.001 63.657 127.321 318.309 636.619 9.925 14.089 22.327 31.599 5.841 7.453 10.215 12.924 4.604 5.598 7.173 8.610 4.032 4.773 5.893 6.869
相关文档
最新文档