(卫生统计学)第5章 参数估计基础2-1
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
n=30 mm MIDPOINT PERCENT 30
(c) n 10
图5-1 从正偏峰 总体随机抽样, 样本均数的分布
0
0 0 00 00 0 00 01 1 11 11 1 11 12 2 22 22 22 2 23 33 3 33 33 3 34 44 4 44 44 4 45 . . .. .. . .. .. . .. .. . .. .. . .. .. .. . .. .. . .. .. . .. .. . .. .. . .. 0 1 23 45 6 78 90 1 23 45 6 78 90 1 23 45 67 8 90 12 3 45 67 8 90 12 3 45 67 8 90
组段(cm)
152.6~ 153.2~ 153.8~ 154.4~ 155.0~ 155.6~ 156.2~ 156.8~ 157.4~ 158.0~158.6
合计
频数
1 4 3 19 25 23 18 4 1 2
100
频率(%)
1.0 4.0 3.0 19.0 25.0 23.0 18.0 4.0 1.0 2.0
例5-1 某研究组随机调查了某市50岁 以上的中老年妇女776人, 其中患有骨 质疏松症者322人, 患病率为41.5%, 试估计该样本频率的抽样误差。
p=0.415, n=776, 频率标准误的估计值:
S pp (1 n p )0 .4 1 5 7 7 6 0 .5 8 5 0 .0 1 7 7 1 .7 7 %
Newsday的简单随机样本(SRS, simple random sample)既不受 抽样者偏好左右,也没有回应者 的自行加入,且每个家庭都有相 同的中选机会。
虽然重新抽取一份1 373对父母 的随机样本,几乎可以肯定不会 再获得91%,但如果重复抽取同 样大小的随机样本,所有样本的
变异将会遵循某种规律,借此, 可以实现对总体的无偏估计。
nm=m50MIDPOINT
PERCENT 30
(d) n30
0 0 0 00 00 0 00 01 1 11 11 1 11 12 2 22 22 22 2 23 33 3 33 33 3 34 44 4 44 44 4 45 . . .. .. . .. .. . .. .. . .. .. . .. .. .. . .. .. . .. .. . .. .. . .. .. . .. 0 1 23 45 6 78 90 1 23 45 6 78 90 1 23 45 67 8 90 12 3 45 67 8 90 12 3 45 67 8 90
100.0
正态分布总体,样本均数抽样分布的特点:
①样本均数恰好等于总体均数是极其罕见的;
②样本均数之间存在差异;
③样本均数围绕总体均数,中间多、两边少, 左右基本对称,呈近似正态分布;
④样本均数之间的变异明显小于原始变量值之
间的变异( 5.3 cm)。
样本均数的标准差,称均数的标准误
(standard error of mean,SEM或SE), 用于反映均数抽样误差的大小。
一、样本均数的抽样分布 与抽样误差
实验5-1 正态分布总体样本均数抽样分布 假定某年某地所有13岁女生的身高服从
N 15 .4,5 5 .32。计算机模拟在该总体中随机
抽样,共抽100次。每次抽取30例组成一 份样本,计算每份样本的平均身高并绘制 样本均数的频率分布表。
表5-1 从正态总体 N 15 .4,5 5 .32抽出的100份随机样本的计算结果 ni 30
二、样本频率的抽样分布 与抽样误差
实验5-3 二项分布总体样本频率的分布特征
摸球实验:一个口袋内装有形状、重量完 全相同的黑球和白球,已知黑球的比例为
20%(总体概率 20% )。从口袋中每摸
一次看清颜色后放回去,搅匀后再摸,重 复摸球50次( ni 50 ),计算摸到黑球的百分
比(样本频率 p i )。重复这样的实验100次,
选用恰当的统计量、合适 的统计表与统计图,测定、 描述资料的数量特征及其 分布规律。
统计推断: 在一定的可信程度下,由 样本信息推断总体特征。
参数估计: 由样本统计量(statistic)估 计总体参数(parameter)。
假设检验: 由样本差异推断总体之间 是否可能存在差异。
第一章 绪论 第二章 定量变量的统计描述 第三章 定性变量的统计描述 第四章 常用概率分布 第五章 参数估计基础 第六章 假设检验基础
第一节 抽样分布 与抽样误差
由于个体变异的存在,从某一总体 中随机抽取一个样本,所得样本统 计量与相应的总体参数之间的差异 称为抽样误差(sampling error)。
从同一总体中随机抽取若干份样本, 所得样本统计量之间也不尽相同, 这也是抽样误差的表现。
在医学抽样研究中,抽样误差是 不可避免的,但抽样误差是有规 律的,而且是可以被认识的。
mm MIDPOINT
(e) n50
对任意分布,在样本含量足够大
时,其样本均数的分布近似于正
态分布,且样本均数的均数等于 原分布的均数,均数的标准误为
X
n
。
图5-2 非正态分布的总体:
总体A:均匀分布;
总体B:双峰分布;
总体C:指数分布;
总体D:三角分布。
从各总体中抽取若干个n=2, 5, 30 的样本,计算各样本的均数并绘 制样本均数的抽样分布图。
已经学习了描述性统计,实际研究 中,统计推断更有价值。
总体往往是无穷大的抽象概念,个体 之间存在差异,以样本为基础,进行 关于总体特征或参数的推断或估计。
美国的父母们对孩子的态度究竟是什么?
美国专栏作家Ann Landers问她的读者:“如果 可以重新选择,你还要孩子吗?”,她收到了近 1万份读者来信。于是,Landers在她的专栏中写 下了“将近70%的父母后悔要孩子”的标题。
每次得到黑球的比例见表5-3。
表5-3 20%时的随机抽样结果( ni 50)
样本频率p i (%)
频数
百分比(%)
8
2
2.00
10
4
4.00
12
8
8.00
14
7
7.00
16
11
11.00
18
13
13.00
20
19
19.00
22
11
11.00
24
11
11.00
26
6
6.00
28
3
3.00
30
4
4.00
7
154.9
1.12
152.6~157.1
8
156.5
0.74
154.9~158.0
9
155.0
1.09
152.8~157.2
10
155.9
0.98
153.9~157.9
…
…
…
…
表5-2 从正态总体 N15 .4,5 5 .32 中随机抽样求得的100个
样本均数(平均身高cm)的频率分布ni 30
样本号 (1)
样本均数 (2)
标准误 (3)
95%置信区间 (4)
1
156.7
0.91
154.8~158.6
*2
158.1
0.95
156.2~160.1
3
155.6
1.16
153.3~158.0
4
155.2
1.03
153.1~157.3
5
155.0
1.01
152.9~157.0
6
156.4
1.08
154.2~158.6
32 合计
1
1.00
100
100.00
在100份样本中, 黑球比例为 20%的频率最大,其次是黑球 比例为18%;样本频率围绕总
体概率呈近似对称分布,多数 样本频率离20%较近,少数样 本频率离20%较远。
样本频率与样本频率之间、 样本频率与总体概率之间的 差异是由抽样造成的。
若随机变量
X~Bn, ,
该频率标准误的估计值较小,说明用 样本患病率41.5%来估计总体患病率 的可靠性较好。
第二节 t 分布 (学生 t 分布)
(Student’s t distribution)
一、t 分布( t ~t() )的概念
Z X ~N0,1
X t X X
SX S/ n
( X :正态变量)
( X 未知时)
则率的标准误:
p
1
n
频率的标准误愈小,用样本频率 估计总体概率的可靠性愈好; 频率的标准误愈大,用样本频率 估计总体概率的可靠性愈差。
实际工作中,总体概率一般未知, 常用样本频率来近似地代替。
频率标准误的估计值:
Sp
p(1p) n1
p(1p) n
频率的标准误与样本含量的平 方根成反比,增加样本含量可 以减少样本频率的抽样误差。
n=5 x MIDPOINT PERCENT 30
(a) 原始数据
0 0 0 00 00 0 00 01 1 11 11 1 11 12 2 22 22 22 2 23 33 3 33 33 3 34 44 4 44 44 4 45 . . .. .. . .. .. . .. .. . .. .. . .. .. .. . .. .. . .. .. . .. .. . .. .. . .. 0 1 23 45 6 78 90 1 23 45 6 78 90 1 23 45 67 8 90 12 3 45 67 8 90 12 3 45 67 8 90
(卫生统计学)第5章 参数估计基础2-1
统计分析: 1. 统计描述(statistical description) 2. 统计推断(statistical inference) ➢ 参数估计(estimation of parameter) ➢ 假设检验(hypothesis test)
统计描述:
X
n
均数标准误的估计值:
SX
S n
均数标准误与原变量的标准差成正 比,与样本含量的平方根成反比。 可通过增加样本含量来减小均数的 标准误,从而降低抽样误差。
实验5-2 非正态总体样本均数抽样分布
图5-1(a):总体的原始数据呈正偏峰分 布,从中抽取n =5,10,30和50的样本 各1 000份,计算其样本均数并绘制相应 的频率分布图。
mm MIDPOINT n=10
PERCENT 30
(b) n 5
0
0 0 00 00 0 00 01 1 11 11 1 11 12 2 22 22 22 2 23 33 3 33 33 3 34 44 4 44 44 4 45 . . .. .. . .. .. . .. .. . .. .. . .. .. .. . .. .. . .. .. . .. .. . .. .. . .. 0 1 23 45 6 78 90 1 23 45 6 78 90 1 23 45 67 8 90 12 3 45 67 8 90 12 3 45 67 8 90
总体A X 的分布
1 n 2时X 的分布
总体B
n =n 2=n 时5= 时3 0 时
2
总体C 3
1 n 5时X 的分布
2
3
总体D
4 4
1
2
3
4
n30时X 的分布
1
2
3
4
图5-2 四种总体分布、不同样本含量时样本均数的抽样分布
均数的抽样分布的均数与 原分布均数是相同的,抽 样分布的变异随样本含量 的增加而减少。
tXX~t分 布 ,n1
SX S/ n
二、t 分布的图形与特征
实验5-4 t 分布的计算机模拟实验。
从前述的13岁女生身高这个正态总体 中分别作n=3和50的随机抽样,各抽 取1000份样本,分别得到1000个样本 均数和1000个均数的标准误,再对其 分别作 t 变换,并将 t 值绘制成2个频 率分布图。
图5-1(b)~ (e)显示:当n较小时,样本均 数的分布呈非正态分布,当n足够大时 (如 n30),样本均数的分布就近似服 从正态分布了。
PERCENT 30
0
0 0 00 00 0 00 01 1 11 11 1 11 12 2 22 22 22 2 23 33 3 33 33 3 34 44 4 44 44 4 45 . . .. .. . .. .. . .. .. . .. .. . .. .. .. . .. .. . .. .. . .. .. . .. .. . .. 0 1 23 45 6 78 90 1 23 45 6 78 90 1 23 45 67 8 90 12 3 45 67 8 90 12 3 45 67 8 90
Newsday针对同样的问题开展了全美范围的专业 调查,获得了一份包含1373对父母的随机样本, 发现,91%的父母对当初的选择无怨无悔。
只要样本能够代表
全美5 491.7万个家庭这个总体, 就可以用样本的 “事实”估计总 体
的真实信息。
Landers获得的只是一份自发性回应 的便利样本,有高度偏差(对某个 议题有强烈感觉尤其是有负面感觉 的人更容易不厌其烦地回应),导 致她的样本中宁愿不要孩子的百分 比远高于全体父母(总体)中宁愿 不要孩子的百分比。
(c) n 10
图5-1 从正偏峰 总体随机抽样, 样本均数的分布
0
0 0 00 00 0 00 01 1 11 11 1 11 12 2 22 22 22 2 23 33 3 33 33 3 34 44 4 44 44 4 45 . . .. .. . .. .. . .. .. . .. .. . .. .. .. . .. .. . .. .. . .. .. . .. .. . .. 0 1 23 45 6 78 90 1 23 45 6 78 90 1 23 45 67 8 90 12 3 45 67 8 90 12 3 45 67 8 90
组段(cm)
152.6~ 153.2~ 153.8~ 154.4~ 155.0~ 155.6~ 156.2~ 156.8~ 157.4~ 158.0~158.6
合计
频数
1 4 3 19 25 23 18 4 1 2
100
频率(%)
1.0 4.0 3.0 19.0 25.0 23.0 18.0 4.0 1.0 2.0
例5-1 某研究组随机调查了某市50岁 以上的中老年妇女776人, 其中患有骨 质疏松症者322人, 患病率为41.5%, 试估计该样本频率的抽样误差。
p=0.415, n=776, 频率标准误的估计值:
S pp (1 n p )0 .4 1 5 7 7 6 0 .5 8 5 0 .0 1 7 7 1 .7 7 %
Newsday的简单随机样本(SRS, simple random sample)既不受 抽样者偏好左右,也没有回应者 的自行加入,且每个家庭都有相 同的中选机会。
虽然重新抽取一份1 373对父母 的随机样本,几乎可以肯定不会 再获得91%,但如果重复抽取同 样大小的随机样本,所有样本的
变异将会遵循某种规律,借此, 可以实现对总体的无偏估计。
nm=m50MIDPOINT
PERCENT 30
(d) n30
0 0 0 00 00 0 00 01 1 11 11 1 11 12 2 22 22 22 2 23 33 3 33 33 3 34 44 4 44 44 4 45 . . .. .. . .. .. . .. .. . .. .. . .. .. .. . .. .. . .. .. . .. .. . .. .. . .. 0 1 23 45 6 78 90 1 23 45 6 78 90 1 23 45 67 8 90 12 3 45 67 8 90 12 3 45 67 8 90
100.0
正态分布总体,样本均数抽样分布的特点:
①样本均数恰好等于总体均数是极其罕见的;
②样本均数之间存在差异;
③样本均数围绕总体均数,中间多、两边少, 左右基本对称,呈近似正态分布;
④样本均数之间的变异明显小于原始变量值之
间的变异( 5.3 cm)。
样本均数的标准差,称均数的标准误
(standard error of mean,SEM或SE), 用于反映均数抽样误差的大小。
一、样本均数的抽样分布 与抽样误差
实验5-1 正态分布总体样本均数抽样分布 假定某年某地所有13岁女生的身高服从
N 15 .4,5 5 .32。计算机模拟在该总体中随机
抽样,共抽100次。每次抽取30例组成一 份样本,计算每份样本的平均身高并绘制 样本均数的频率分布表。
表5-1 从正态总体 N 15 .4,5 5 .32抽出的100份随机样本的计算结果 ni 30
二、样本频率的抽样分布 与抽样误差
实验5-3 二项分布总体样本频率的分布特征
摸球实验:一个口袋内装有形状、重量完 全相同的黑球和白球,已知黑球的比例为
20%(总体概率 20% )。从口袋中每摸
一次看清颜色后放回去,搅匀后再摸,重 复摸球50次( ni 50 ),计算摸到黑球的百分
比(样本频率 p i )。重复这样的实验100次,
选用恰当的统计量、合适 的统计表与统计图,测定、 描述资料的数量特征及其 分布规律。
统计推断: 在一定的可信程度下,由 样本信息推断总体特征。
参数估计: 由样本统计量(statistic)估 计总体参数(parameter)。
假设检验: 由样本差异推断总体之间 是否可能存在差异。
第一章 绪论 第二章 定量变量的统计描述 第三章 定性变量的统计描述 第四章 常用概率分布 第五章 参数估计基础 第六章 假设检验基础
第一节 抽样分布 与抽样误差
由于个体变异的存在,从某一总体 中随机抽取一个样本,所得样本统 计量与相应的总体参数之间的差异 称为抽样误差(sampling error)。
从同一总体中随机抽取若干份样本, 所得样本统计量之间也不尽相同, 这也是抽样误差的表现。
在医学抽样研究中,抽样误差是 不可避免的,但抽样误差是有规 律的,而且是可以被认识的。
mm MIDPOINT
(e) n50
对任意分布,在样本含量足够大
时,其样本均数的分布近似于正
态分布,且样本均数的均数等于 原分布的均数,均数的标准误为
X
n
。
图5-2 非正态分布的总体:
总体A:均匀分布;
总体B:双峰分布;
总体C:指数分布;
总体D:三角分布。
从各总体中抽取若干个n=2, 5, 30 的样本,计算各样本的均数并绘 制样本均数的抽样分布图。
已经学习了描述性统计,实际研究 中,统计推断更有价值。
总体往往是无穷大的抽象概念,个体 之间存在差异,以样本为基础,进行 关于总体特征或参数的推断或估计。
美国的父母们对孩子的态度究竟是什么?
美国专栏作家Ann Landers问她的读者:“如果 可以重新选择,你还要孩子吗?”,她收到了近 1万份读者来信。于是,Landers在她的专栏中写 下了“将近70%的父母后悔要孩子”的标题。
每次得到黑球的比例见表5-3。
表5-3 20%时的随机抽样结果( ni 50)
样本频率p i (%)
频数
百分比(%)
8
2
2.00
10
4
4.00
12
8
8.00
14
7
7.00
16
11
11.00
18
13
13.00
20
19
19.00
22
11
11.00
24
11
11.00
26
6
6.00
28
3
3.00
30
4
4.00
7
154.9
1.12
152.6~157.1
8
156.5
0.74
154.9~158.0
9
155.0
1.09
152.8~157.2
10
155.9
0.98
153.9~157.9
…
…
…
…
表5-2 从正态总体 N15 .4,5 5 .32 中随机抽样求得的100个
样本均数(平均身高cm)的频率分布ni 30
样本号 (1)
样本均数 (2)
标准误 (3)
95%置信区间 (4)
1
156.7
0.91
154.8~158.6
*2
158.1
0.95
156.2~160.1
3
155.6
1.16
153.3~158.0
4
155.2
1.03
153.1~157.3
5
155.0
1.01
152.9~157.0
6
156.4
1.08
154.2~158.6
32 合计
1
1.00
100
100.00
在100份样本中, 黑球比例为 20%的频率最大,其次是黑球 比例为18%;样本频率围绕总
体概率呈近似对称分布,多数 样本频率离20%较近,少数样 本频率离20%较远。
样本频率与样本频率之间、 样本频率与总体概率之间的 差异是由抽样造成的。
若随机变量
X~Bn, ,
该频率标准误的估计值较小,说明用 样本患病率41.5%来估计总体患病率 的可靠性较好。
第二节 t 分布 (学生 t 分布)
(Student’s t distribution)
一、t 分布( t ~t() )的概念
Z X ~N0,1
X t X X
SX S/ n
( X :正态变量)
( X 未知时)
则率的标准误:
p
1
n
频率的标准误愈小,用样本频率 估计总体概率的可靠性愈好; 频率的标准误愈大,用样本频率 估计总体概率的可靠性愈差。
实际工作中,总体概率一般未知, 常用样本频率来近似地代替。
频率标准误的估计值:
Sp
p(1p) n1
p(1p) n
频率的标准误与样本含量的平 方根成反比,增加样本含量可 以减少样本频率的抽样误差。
n=5 x MIDPOINT PERCENT 30
(a) 原始数据
0 0 0 00 00 0 00 01 1 11 11 1 11 12 2 22 22 22 2 23 33 3 33 33 3 34 44 4 44 44 4 45 . . .. .. . .. .. . .. .. . .. .. . .. .. .. . .. .. . .. .. . .. .. . .. .. . .. 0 1 23 45 6 78 90 1 23 45 6 78 90 1 23 45 67 8 90 12 3 45 67 8 90 12 3 45 67 8 90
(卫生统计学)第5章 参数估计基础2-1
统计分析: 1. 统计描述(statistical description) 2. 统计推断(statistical inference) ➢ 参数估计(estimation of parameter) ➢ 假设检验(hypothesis test)
统计描述:
X
n
均数标准误的估计值:
SX
S n
均数标准误与原变量的标准差成正 比,与样本含量的平方根成反比。 可通过增加样本含量来减小均数的 标准误,从而降低抽样误差。
实验5-2 非正态总体样本均数抽样分布
图5-1(a):总体的原始数据呈正偏峰分 布,从中抽取n =5,10,30和50的样本 各1 000份,计算其样本均数并绘制相应 的频率分布图。
mm MIDPOINT n=10
PERCENT 30
(b) n 5
0
0 0 00 00 0 00 01 1 11 11 1 11 12 2 22 22 22 2 23 33 3 33 33 3 34 44 4 44 44 4 45 . . .. .. . .. .. . .. .. . .. .. . .. .. .. . .. .. . .. .. . .. .. . .. .. . .. 0 1 23 45 6 78 90 1 23 45 6 78 90 1 23 45 67 8 90 12 3 45 67 8 90 12 3 45 67 8 90
总体A X 的分布
1 n 2时X 的分布
总体B
n =n 2=n 时5= 时3 0 时
2
总体C 3
1 n 5时X 的分布
2
3
总体D
4 4
1
2
3
4
n30时X 的分布
1
2
3
4
图5-2 四种总体分布、不同样本含量时样本均数的抽样分布
均数的抽样分布的均数与 原分布均数是相同的,抽 样分布的变异随样本含量 的增加而减少。
tXX~t分 布 ,n1
SX S/ n
二、t 分布的图形与特征
实验5-4 t 分布的计算机模拟实验。
从前述的13岁女生身高这个正态总体 中分别作n=3和50的随机抽样,各抽 取1000份样本,分别得到1000个样本 均数和1000个均数的标准误,再对其 分别作 t 变换,并将 t 值绘制成2个频 率分布图。
图5-1(b)~ (e)显示:当n较小时,样本均 数的分布呈非正态分布,当n足够大时 (如 n30),样本均数的分布就近似服 从正态分布了。
PERCENT 30
0
0 0 00 00 0 00 01 1 11 11 1 11 12 2 22 22 22 2 23 33 3 33 33 3 34 44 4 44 44 4 45 . . .. .. . .. .. . .. .. . .. .. . .. .. .. . .. .. . .. .. . .. .. . .. .. . .. 0 1 23 45 6 78 90 1 23 45 6 78 90 1 23 45 67 8 90 12 3 45 67 8 90 12 3 45 67 8 90
Newsday针对同样的问题开展了全美范围的专业 调查,获得了一份包含1373对父母的随机样本, 发现,91%的父母对当初的选择无怨无悔。
只要样本能够代表
全美5 491.7万个家庭这个总体, 就可以用样本的 “事实”估计总 体
的真实信息。
Landers获得的只是一份自发性回应 的便利样本,有高度偏差(对某个 议题有强烈感觉尤其是有负面感觉 的人更容易不厌其烦地回应),导 致她的样本中宁愿不要孩子的百分 比远高于全体父母(总体)中宁愿 不要孩子的百分比。