(卫生统计学)第5章 参数估计基础2-1

合集下载

医学统计学05参数估计

医学统计学05参数估计

(n 1) s 2

2
2
12 / 2,( n 1) ) 1
2
P(
(n 1)s
2

2 1 /2,( n 1)Βιβλιοθήκη (n 1)s2
/2,( n1)
) 1
23
发锌含量方差的可信区间

2 L 2 U
( n 1) s
2
12 / 2,( n1)
9
4 可信区间估计的理论基础:均数的抽样分布
P(t , t t , ) 1
1-
P( t t , )
/2
/2
-t, v
0
t, v
10
5 均数的(1-)100%可信区间构建方法
均数的(1-)100%的可信区间:
( X t ,v sX ,
X P ( u u )=1- sX
P( X u sX X u sX )=1-
此时,均数的(1-)100%的可信区间:
( X u sX , X u sX )
13
6 均数之差的(1-)100%可信区间
例4.3
正常人:n1=12, X 1 271.89,
“均数之差”与“均数之差的标准误”之比, 服从自由度 = n1+n2 -2的 t 分布。
( X 1 X 2 ) ( 1 2 ) t s X1 X 2
( X 1 X 2 ) ( 1 2 ) t s X1 X 2
~ t n1 n2 2
样本含量较大时,服从标准正态分布。
( n 1) s 2
11 94.152 21.9201=66.702

第5章参数估计基础

第5章参数估计基础

fX2fX2/f
sX
f 1
X / n (标准误的理论值)
标准误的大小与σ的大小成正比,与n成反比,而 σ为定值,说明可以通过增加样本例数来减少标准误, 以降低抽样误差。
σ未知,用样本标准差S来估计总体标准差σ。
SX S/ n (标准误的估计值)
用 S X 来表示均数抽样误差的大小。
例5-1 2000年某研究所随机调查某地健康成 年男子27人,得到血红蛋白的均数为125g/L,标 准差为15g/L 。试估计该样本均数的抽样误差。
X
/
n
100个样本均数的频数表与标准误的计算表
身高组段 频数 组中值 fX
fX2
152.6~
1
153.2~
4
153.8~
4
154.4~
22
155.0~
25
155.6~
21
156.2~
17
156.8 ~
3
157.4 ~
2
158.0 ~
1
合计
100
152.9 153.5 154.1 154.7 155.3 155.9 156.5 157.1 157.7 158.3
S X S / n 1/5 2 7 2 .8g 9 /l
二 、样本频率的抽样分布与抽样误差
从同一总体中随机抽出观察单位相等的多个样本, 样本率与总体率及各样本率之间都存在差异,这种差 异是由于抽样引起的,称为频率的抽样误差。
表示频率的抽样误差大小的指标叫频率的标准误。
据数理统计的原理,率的标准误用 P 表示
案例(case)
在本学期末一次批改试卷的过程中,负责选择 题的老师在试卷的标准答案中把一道正确答案 为A的选择题,错误的做成了C;负责批改最后 一道论述题的老师,在给两份答案完全相同的 试卷打分时,给上午批改的一份试卷打了8分, 下午该老师上班迟到,被主任批评,相同的答 案打了7分;最后,在进行试卷评价时,全班同 学平均成绩为87.5分,及格率为95%,某老师随 机抽取了5份试卷,发现平均成绩为84.3分,及 格率为100%,再次随机抽取5份试卷,平均成绩 为71.7分,及格率为80%。

医学统计学 第五讲 参数估计基础 公开课课件

医学统计学  第五讲  参数估计基础 公开课课件

标准差 2.74 6.57 5.36 4.81 5.41 4.50 4.04 5.71 8.26 5.24
…… 4.15
95%CL 165.45 169.37 160.86 170.26 164.37 172.03 163.24 170.11 161.02 168.76 163.14 169.58 163.27 169.05 165.02 173.19 161.27 173.08 162.38 169.87 …… …… 167.42 173.35
正态分布的特征
➢=Me=M0;偏度系数=0;峰度系数=3
温医大公卫学院预防医学系/附属眼视光医院临床研究中心
正态分布
➢当正态分布的参数=0,=1时,称为标准正态分布
z x
温医大公卫学院预防医学系/附属眼视光医院临床研究中心
样本均数的抽样分布与抽样误差
温医大公卫学院预防医学系/附属眼视光医院临床研究中心
表3-1 N(167.7, 5.32)总体中100个随机样本的均数、标准差和95%CI
ID 1 2 3 4 5 6 7 8 9 10 …… 50
均数 167.41 165.56 168.20 166.67 164.89 166.36 166.16 169.11 167.17 166.13 …… 170.39
概率与概率分布
➢概率(Probability)
随机事件发生的可能性,是对某一随机事件发生可能性的度量。取 值范围在[0,1]之间。 如果某一事件不可能发生,其概率为0,称为不可能事件;如果某 一事件肯定发生,其概率为1,称为肯定事件。 概率的基本性质
1≥P(A)≥0;P(Ω)=1;若AB=Ф,则P(A∪B)=P(A)+P(B)。 推论1:不可能事件的概率为0,即:P(Ф)=0。 推论2:P( A )=1-P(A), 表示A的对立事件,即它们二者必有一事件发 生但又不能同时发生。

05参数估计基础共16页

05参数估计基础共16页

第五章参数估计基础[教学要求]了解:通过电脑实验了解抽样分布及t分布的特征,了解查表法估计总体概率的置信区间。

熟悉:理解抽样误差的概念;熟悉标准误的意义及其应用。

掌握:会计算均数及频率的标准误;掌握总体均数95%和99%置信区间的计算及适用条件;掌握正态近似法计算总体概率的95%和99%置信区间及适用条件;阐述标准差与均数标准误的区别。

[重点难点]第一节抽样误差与标准误一、均数(频率)的抽样分布及抽样误差基本概念:在同一总体中反复多次随机抽取样本含量相同的若干样本,由于个体差异与偶然性的影响,样本统计量之间以及样本统计量与总体参数之间的差异,称为抽样误差。

这种由抽样造成的均数之间的差异称为均数的抽样误差,频率之间以及频率与概率之间的差异称为频率的抽样误差。

特点:从正态分布N(μ,σ2)总体中抽样,样本均数X仍服从正态分布;从非正态分布总体抽样,只要样本量足够大(n≥ 50),样本均数的分布也近似于正态分布。

在抽样研究中,抽样误差是不可避免的。

用来表示抽样误差大小的指标称为标准误。

二、标准误(一)均数标准误意义:均数标准误用符号σ表示,也称样本均数的标准差。

它反映了样X本均数之间、样本均数与总体均数之间的离散程度,也反映了样本均数抽样误差的大小。

计算:可按公式X σ=计算。

在实际应用中,总体标准差σ 常常未知,需要用样本标准差s 来估计。

此时,均数标准误的估计值为 nS S x =。

由此式可见,若增加样本含量n 可以减小样本均数的抽样误差。

主要应用:①估计总体均数的置信区间;②均数的假设检验。

在指标的意义、计算及结果解释方面注意与标准差区别,不能将两者混淆。

(二) 频率的标准误意义:频率的标准误用符号σp 表示,它反映了样本频率与样本频率之间、样本频率与总体概率之间的离散程度,也反映了样本频率抽样误差的大小。

计算:可按公式 σp 计算。

在实际应用中,总体概率π 常常未知,需要用样本频率p 作为总体概率 π 的估计值 ,因此频率的标准误的估计值为 np p n p p S p )1(1)1(-≈--=。

统计学第五章参数估计

统计学第五章参数估计

统计学第五章参数估计目录2第五章参数估计3第一节统计推断的基本问题、概念和原理3一、简单随机抽样和抽样误差6二、统计量及其抽样分布8三、参数估计的主要内容9第二节总体参数的点估计9一、矩估计10二、极大似然估计11三、点估计的评价标准12第三节正态总体均值的区间估计12一、总体参数的区间估计的概念和基本思想13二、单正态总体均值的区间估计17三、两正态总体均值之差的区间估计19*四、单侧区间估计问题21第四节一般总体均值和成数的大样本区间估计21一、非正态总体均值的大样本区间估计22二、总体成数(比例)的大样本区间估计24*三、单侧区间估计25*第五节正态总体方差的区间估计25一、单正态总体方差的区间估计26二、两正态总体方差之比的区间估计28第六节样本容量的确定28一、总体均值估计的必要样本容量29二、总体成数估计的必要样本容量30三、影响必要样本容量的因素31英文摘要和关键词32习题第五章参数估计通过本章的学习,我们应该知道:统计推断的基本问题、概念与原理参数点估计的方法与评价正态总体均值、方差的区间估计一般总体的均值、成数的区间估计参数估计所需的样本容量的确定统计抽样推断是统计学研究的重要内容,它包括两大核心内容:参数估计(Parameter Estimation)和假设检验(Hypothesis Testing)。

两者都是根据样本资料,运用科学的统计理论和方法对总体的参数进行推断;参数估计对所要研究的总体参数,进行合乎数理逻辑的推断;假设检验对提出的关于总体或总体参数的某个陈述进行检验,判断真伪。

2005年中国消费者协会的主题是“健康·维权”。

想象你是中国消费者协会的官员,负责治理缺斤少两的不法行为。

假如你知道可口可乐公司,他们生产的一种瓶装雪碧,包装上标明其净含量是500ml,在市场上随机抽取了25瓶,测得到其平均含量为499.5ml,标准差为2.63ml。

你拿着这些数据可能做两件事:一是你做一个估计:该种包装的雪碧平均含量在498.03-500.97ml之间,然后向消协写份报告;二是你做一个裁决:说“可口可乐公司有欺骗消费者的行为”的证据不足。

卫生统计学七版 第五章参数估计基础电子教案

卫生统计学七版 第五章参数估计基础电子教案

P0.05
第三节 总体均数及总体概率的估计
一、参数估计的基础理论
参数估计区 点间 估估 计计
对总体参数估计 称的 为范 置围 信区C间( I , co用 nfidenicneterv)al
表示,其置信1度 )为,(一般取置95信 %,度即为取 为0.05,此区
间的较小值称为 限置 ,信 较下 大值称为 限置 。信 一上 般进行双 区侧 间的估计。
卫生统计学七版 第五ຫໍສະໝຸດ 参数估 计基础第一节 抽样分布与抽样误差
一、样本均数的抽样分布与抽样误差
……
x15 .55 1 sx0.9617
样本均数的标准差越,大抽样误差就越大
样本均数的标准差称标为准误
x
n
sx
s n
sx称为标准误估计值,简也称标准误
标准误与标准差成正比 ,与样本含量成反比
标准误越大,抽样误差越大。
2、正态近似法
当已知时X: u
n
当未知但n足够大时X:u0.05
s n
X1.96 s n
或:X1.96s X
例5-3(P95) 某医生于2000年在某市随机抽取90名 19岁的健康男大学生,测量了他们的身高,得样本均数 为172.2cm,标准差为4.5cm,试估计该市2000年19岁健 康男性大学生平均身高的95%置信区间 。
对任意分布,在样本含量足够大时,其样本均数的分布都 近似正态分布,且样本均数的均数等于原分布的均数。
二、样本频率的抽样分布与抽样误差
总体率的标准误:
p
(1 )
n
率的标准误的估计值:
sp
p(1 p) n
标准误大抽样误差就大。
第二节 t分布
一、t分布的概念

统计学--参数估计 ppt课件

统计学--参数估计  ppt课件
误差是Δ,即:


PPT课件
5
• 极限误差是根据研究对象的变异程度和分析任务的性质来 确定的在一定概率下的允许误差范围。
• 参数估计的两个要求:
– 精度:估计误差的最大范围,通过极限误差来反映。显然,Δ越小, 估计的精度要求越高,Δ越大,估计的精度要求越低。极限误差的 确定要以实际需要为基本标准。
• 3.上面的公式计算结果如果带小数,这时样本容量不 按四舍五入法则取整数,取比这个数大的最小整数代 替。例如计算得到:n=56.03,那么,样本容量取57, 而不是56。
PPT课件
32
例:对某批木材进行检验,根据以往经验,木材长度的标准 差为0.4米,而合格率为90%。现采用重复抽样方式,要 求在95.45%的概率保证程度下,木材平均长度的极限误 差不超过0.08米,抽样合格率的极限误差不超过5%,问 必要的样本单位数应该是多少?
PPT课件
22
总体成数估计区间估计总结
• 总体成数估计区间的上下限
只考虑大样本情况(请记住大样本条件)
P1 P
P z 2
n
P1 P N n
P z 2
n
N 1
PPT课件
23
对总量指标的区间估计
• 在对总体平均数进行区间估计的基础 上,可进一步推断相应的总量指标, 即用总体单位总数N分别乘以总体平均 数的区间下限和区间上限,便得到相 应总量(Nμ)的区间范围。
P

91 100

91%
P
p(1 n
p)
(总体成数未知,用样本成数代替)

P(1 n
P)

2.86%
F(z) 95%,z 1.96 zP 1.962.86%5.61%

医学统计 任 参数估计 20171010

医学统计  任 参数估计 20171010
第五章 参数估计
卫生统计学教研室 任艳峰
教务号:07027
1
学习ቤተ መጻሕፍቲ ባይዱ标
掌握均数抽样误差、均数标准误、参数估计以 及区间估计的概念;标准差和标准误以及参考 值范围和置信区间的区别与联系。
熟悉t分布的特征及其与正态分布的关系;总体 均数置信区间的估计方法。
了解率的抽样误差及总体率、两总体参数之差 的置信区间的估计方法。
2
第一节 抽样误差
从总体均数为155.4cm,标准差为5.3cm的正态分布总体 中随机抽样,抽取100个例数为30的样本。
, 2
n=30
X1, S1
X 2, S2
X 3, S3

X n , Sn
4
表 1 从正态总体 N (155.4, 5.32)抽到的 100 份随机样本的计算结果(n =30)
样本号 均数 标准误 95%置信区间 样本号 均数 标准误 95%置信区间 样本号 均数 标准误 95%置信区间 样本号 均数 标准误 95%置信区间
1 156.7 0.91 154.8 158.6 26 154.6 0.93 152.7 156.5 51 155.7 0.97 153.7 157.7 76 155.4 0.90 153.5 157.2 2 158.1 0.95 156.2 160.1 27 156.1 1.14 153.8 158.5 52 153.7 0.80 152.1 155.4 77 156.6 1.05 154.4 158.7 3 155.6 1.16 153.3 158.0 28 155.7 0.97 153.7 157.7 53 154.8 0.89 153.0 156.6 78 155.6 0.83 153.9 157.4 4 155.2 1.03 153.1 157.3 29 155.1 1.08 152.9 157.3 54 155.6 0.92 153.7 157.5 79 156.8 1.03 154.7 158.9 5 155.0 1.01 152.9 157.0 30 156.1 0.93 154.2 158.0 55 154.8 0.83 153.1 156.5 80 155.3 0.80 153.7 156.9 6 156.4 1.08 154.2 158.6 31 156.3 1.16 153.9 158.6 56 155.6 0.96 153.6 157.6 81 154.9 0.85 153.2 156.6 7 154.9 1.12 152.6 157.1 32 155.2 1.07 153.0 157.4 57 158.2 0.97 156.2 160.2 82 154.6 1.05 152.4 156.7 8 156.5 0.74 154.9 158.0 33 156.0 1.10 153.7 158.3 58 154.9 1.06 152.7 157.1 83 154.6 0.72 153.1 156.1 9 155.0 1.09 152.8 157.2 34 155.6 0.88 153.8 157.4 59 153.4 0.91 151.5 155.3 84 157.5 1.07 155.3 159.7 10 155.9 0.98 153.9 157.9 35 156.5 0.88 154.7 158.3 60 156.4 0.98 154.4 158.4 85 155.9 0.85 154.2 157.7 11 156.9 0.98 155.0 158.9 36 155.3 0.88 153.5 157.1 61 153.6 0.94 151.6 155.5 86 156.5 0.72 155.0 158.0 12 154.0 0.94 152.1 156.0 37 155.2 0.87 153.4 157.0 62 155.6 0.96 153.6 157.5 87 156.4 1.04 154.3 158.6 13 154.4 0.93 152.4 156.3 38 155.5 1.19 153.1 158.0 63 155.2 0.91 153.4 157.1 88 154.7 1.08 152.4 156.9 14 156.5 1.03 154.3 158.6 39 155.0 0.70 153.5 156.4 64 156.7 1.06 154.5 158.8 89 156.2 0.82 154.5 157.8 15 155.9 1.07 153.7 158.1 40 155.5 1.02 153.4 157.6 65 154.7 1.02 152.6 156.8 90 154.6 1.05 152.5 156.8 16 155.5 0.96 153.6 157.5 41 155.1 1.00 153.1 157.2 66 155.1 0.97 153.1 157.1 91 155.1 0.90 153.2 156.9 17 156.9 0.88 155.1 158.7 42 155.3 1.00 153.2 157.3 67 155.7 0.86 153.9 157.5 92 156.6 1.03 154.5 158.7 18 156.9 1.04 154.8 159.1 43 156.3 0.97 154.4 158.3 68 156.4 0.69 155.0 157.8 93 156.0 1.08 153.8 158.2 19 153.4 1.04 151.3 155.5 44 156.6 0.88 154.8 158.4 69 155.1 0.91 153.2 156.9 94 155.8 0.93 153.9 157.7 20 154.8 0.99 152.8 156.8 45 155.4 0.83 153.7 157.1 70 154.9 1.09 152.7 157.2 95 156.1 0.83 154.4 157.8 21 156.1 1.00 154.0 158.1 46 155.9 1.03 153.8 158.0 71 155.8 1.11 153.5 158.1 96 152.7 0.75 151.1 154.2 22 155.0 1.09 152.7 157.2 47 155.3 0.89 153.5 157.1 72 153.9 0.95 152.0 155.9 97 155.1 0.93 153.2 157.0 23 154.7 1.25 152.2 157.3 48 154.6 1.09 152.3 156.8 73 156.2 0.94 154.2 158.1 98 155.3 0.90 153.5 157.2 24 154.5 1.22 152.0 157.0 49 156.1 0.81 154.5 157.8 74 156.0 0.86 154.3 157.8 99 154.6 0.71 153.2 156.1 25 155.2 0.92 153.3 157.1 50 154.7 1.04 152.6 156.8 75 154.2 0.93 152.3 156.1 100 156.6 1.16 154.2 159.0

《卫生统计学》PPT课件:05 参数估计基础

《卫生统计学》PPT课件:05  参数估计基础

(二)、总体概率的置信区间
总体概率的置信区间与样本含量n,阳性频率p的
大小有关,可根据n和p的大小选择以下两种方法。
1. 正态近似法
当样本含量足够大,且p和1-p不太小,则样本率
的分布近似正态分布。
公式为:
P
Z
2S P
,P
Z
2S P
P为样本率, 为率的标准误的估计值,
例5-7 用某种仪器检查已确诊的乳腺癌患者 94例,检出率为78.3%。估计该仪器乳腺癌总体检 出率的95%置信区间。 分析:本例样本例数较大,且样本率p不太小,可 用正态近似法:
通式:
tа/2,ν 是按自由度ν=n-1,由附表2查得的t值。
例5-3 已知某地27例健康成年男性血红蛋白量的均数

,标准差S=15g/L ,试问该地健康成年男
性血红蛋白量的95%和99%置信区间。
本例n=27,S=15
95%CI:
99%CI:
置信区间的两个要素
1. 准确度:反映置信度1-α的大小,即区间包
152.6~
1
153.2~
4
153.8~
4
154.4~
22
155.0~
25
155.6~
21
156.2~
17
156.8 ~
3
157.4 ~
2
158.0 ~
1
合计
100
152.9 153.5 154.1 154.7 155.3 155.9 156.5 157.1 157.7 158.3
(标准误的理论值)
个样本,样本均数 服从正态分布;即使是从偏态 总体中随机抽样,当n足够大时(如n>50), 也近 似正态分布。

【卫生统计学】10 第五章 参数估计基础

【卫生统计学】10 第五章 参数估计基础
28
一、定量资料的抽样分布
• 采用原始的样本均数数据(100次抽样),利用统计 软件SAS、SPSS分析的结果:
• 样本均数的均数:155.492 • 样本均数的标准差(标准误):0.9562
N (155.4,5.32 )
综合比较后,得到样本均数的抽样分布特点:
29
一、定量资料的抽样分布 Distribution of sample mean 样本均数的分布
Z
X
X Z X
unknown
How to transform into z value?
44
Z X t X
X
SX
X
45
n
SX
S n
Population and sample
sample1 X1 163cm, S1 5.7cm
Population μ=165cm σ=5cm
sample2 X 2 167 cm, S2 5.1cm
一、定量资料的抽样分布
conclusion: Distribution of sample mean 样本均数的分布
形状随着样本含量n的增大而趋向正态分布(normal distribution); 样本均数的抽样分布只与样本量n有关系。
17
The second question is
2、要了解这个新样本数据的离散情况,用什么指标来表达?
Z (X )
X
~
N
(
,
2 X
)
Z (X ) X
X
~
N
(
,
2 X
)
t (X )
SX
t分布于1908年由英国统计学家W.S.Gosset以 “Student”笔名发表,故又称Student t 分布 (Students’ t-distribution)。

卫生统计学七版 第五章参数估计基础

卫生统计学七版 第五章参数估计基础

二、总体均数及总体概率的区间估计
(一)总体均数的置信区间
1、t 分布法
当 未知且 n 较小时,估计双侧置信 区间:
(X
-t
,
s X
,
X
t ,
s X
)
可简写为:
X
t ,
s X
或X t,
s n
总体均数的95%双侧置信区间为:X
t0.05,
s X
例5-2(P95) 已知某地27名健康成年男子血红蛋白 含量的均数为125g/L,标准差为15g/L,试估计该地健康 成年男子血红蛋白平均含量的95%和99%置信区间 。
二项分布 n 31 X 25 n X 6 查附表6,得7 37 改错
该药物治疗脑血管梗塞有效概率的95%置信区间为 63%~93%。
2、正态近似法 适用范围:np>5,且n(1-p)> 5
例5-6(P96) 用某种仪器检查已确诊的乳腺癌患者 120名,检出乳腺癌患者94例,检出率为78.3%,试估计该 仪器乳腺癌总体检出率的95%置信区间。 np 1200.783 93.96 n(1 p) 1200.217 26.04
第三节 总体均数及总体概率的估计
一、参数估计的基础理论
参数估计区 点间 估估 计计
对总体参数估计的范围称为置信区间,用CI(confidence interval)
表示,其置信度为(1 ),一般取置信度为95%,即取为0.05,此区
间的较小值称为置信下限,较大值称为置信上限。一般进行双侧置信区 间的估计。
第五章 参数估计基础
公共卫生学院 邹焰

定量资料

统计描述等级资料(有序分类资 料)

卫生统计学:参数估计基础

卫生统计学:参数估计基础

第五章 参数估计基础【内容精要】1. 抽样误差的概念及其特点(重点)从同一总体中反复多次地随机抽取样本含量相同的若干份样本,由于受个体差异和偶然性的影响,样本统计量与总体参数之间可存在差异,这种差异称为抽样误差(sampling error)。

从同一总体中随机抽取样本含量相同的若干份样本,所得样本统计量之间也不尽相同,这也是抽样误差的表现。

在抽样研究中,抽样误差是不可避免的。

反映抽样误差大小的指标是标准误。

增加样本含量可以降低抽样误差。

2. 均数的标准误与频率的标准误(重点)样本均数的标准差称为均数的标准误(standard error of mean ,SEM 或SE),用于反映均数抽样误差的大小。

其计算公式为nX σσ=。

实际应用中,总体标准差σ常常未知,需要用样本标准差S 来估计,此时,均数标准误的估计值为nS S X =。

频率的标准误用于反映频率抽样误差的大小,可按公式()np ππσ-=1计算。

实际应用中,总体概率π常常未知,需要用样本频率p 来估计,因此,频率标准误的估计值为np p n p p S p )1(1)1(-≈--=。

3. t 分布当X 服从均数为μ的正态分布时,统计量 XX t S μ-=服从自由度为1-=n ν的t 分布。

ν不同, t 分布的形态也不同;ν趋于∞时,t 分布趋近标准正态分布。

4. 参数估计方法(重点)参数估计有两种方法:一种是直接利用样本统计量的值来估计总体参数,称为点估计(point estimation);另一种是区间估计(interval estimation),即按一定的置信度来估计总体参数所在的范围,该范围称为总体参数的置信区间(confidence interval ,CI),最常用的是95%置信区间。

由于考虑了抽样误差的大小,区间估计优于点估计。

5. 总体均数及总体概率的区间估计(重点)根据资料的已知条件及样本含量n 的不同,总体均数置信区间的计算公式亦不同(见表5-1)。

卫生统计学客件: 参数估计基础

卫生统计学客件: 参数估计基础

p和1-p不太小)
公式為:
SP
p1 p
n
:率的標準誤的估計值,p:樣本率。
例5-2 某市隨機調查了50歲以上的中老年婦女 776人,其中患有骨質疏鬆症者322人,患病率為 41.5%,試計算該樣本頻率的抽樣誤差。
第二節 t 分佈
2021-10-12
1
一、t 分佈的概念
在統計應用中,可以把任何一個均數為µ, 標準差為σ的正態分佈N(µ,σ2)轉變為µ=0,σ=1的 標準正態分佈,即將正態變數值X用 Z X
mm MIDPOINT
0
0 0 00 00 0 00 01 1 11 11 1 11 1 22 2 2 22 22 22 3 33 3 33 33 3 34 4 44 4 44 4 4 45 . . .. .. . .. .. . .. .. . .. . .. . . .. .. .. . .. . .. .. . .. . .. . .. . . .. 0 1 23 45 6 78 90 1 23 45 6 78 9 01 2 3 45 67 89 0 12 3 45 67 8 90 1 23 4 56 7 8 90
二、總體均數置信區間的計算
2021-10-12
1
(1)σ已知,按標準正態分佈原理計算
由z分佈,標準正態曲線下有95%的z值在±1.96之間。
95%的雙側置信區間: X 1.96 X , X 1.96 X
99%的雙側置信區間: X 2.58 X , X 2.58 X
通式:
(雙側)
(2)σ未知但樣本例數n足夠大(n>50)時 由t分佈可知,自由度越大,t分佈越逼近標準正態 分佈,此時t曲線下約有95%的t值在±1.96之間,即

卫生统计学课件第五章 参数估计基础

卫生统计学课件第五章 参数估计基础

第二节 t 分布 (t-distribution)
一、t 分布的概念 1908年英国统计学家W.S.Gosset 以笔名“student ”发表了著名的t分布
设: X ~ N 0 , 1 , Y ~ 2 n , 且X与Y相互独立,称随机变量
t
X
Y /
n
服从自由度为n
的学生氏分布(student
t
表5-1 从N(155.4 , 5.32) 抽到的100份随机样本的计算结果(n=30)
样本号 1 2 3 4 … 52 53 … 57 … 59 … 96 99
100
均数 156.7 158.1 155.6 155.2
… 153.7 154.8
… 158.2
… 153.4
… 152.7 154.6 156.6
黑球比例% 5.0~ 8.0~ 11.0 ~ 14.0~ 17.0~ 20.0~ 22.0~ 25.0~ 28.0~ 31.0~ 34.0~ 40.0~ 合计
频数 3 7 5 8 16 22 15 7 7 5 3 2
100
% 3.0 7.0 5.0 8.0 16.0 22.0 15.0 7.0 7.0 5.0 3.0 2.0 100.0
标准误 0.91 0.95 1.16 1.03 … 0.80 0.89 … 0.97 … 0.91 … 0.75 0.71 1.16
95%置信区间
154.8
158.6
156.2
160.1*
153.3
158.0
153.1
157.3


152.1
155.4*
153.0
156.6


156.2
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
n=30 mm MIDPOINT PERCENT 30
(c) n 10
图5-1 从正偏峰 总体随机抽样, 样本均数的分布
0
0 0 00 00 0 00 01 1 11 11 1 11 12 2 22 22 22 2 23 33 3 33 33 3 34 44 4 44 44 4 45 . . .. .. . .. .. . .. .. . .. .. . .. .. .. . .. .. . .. .. . .. .. . .. .. . .. 0 1 23 45 6 78 90 1 23 45 6 78 90 1 23 45 67 8 90 12 3 45 67 8 90 12 3 45 67 8 90
组段(cm)
152.6~ 153.2~ 153.8~ 154.4~ 155.0~ 155.6~ 156.2~ 156.8~ 157.4~ 158.0~158.6
合计
频数
1 4 3 19 25 23 18 4 1 2
100
频率(%)
1.0 4.0 3.0 19.0 25.0 23.0 18.0 4.0 1.0 2.0
例5-1 某研究组随机调查了某市50岁 以上的中老年妇女776人, 其中患有骨 质疏松症者322人, 患病率为41.5%, 试估计该样本频率的抽样误差。
p=0.415, n=776, 频率标准误的估计值:
S pp (1 n p )0 .4 1 5 7 7 6 0 .5 8 5 0 .0 1 7 7 1 .7 7 %
Newsday的简单随机样本(SRS, simple random sample)既不受 抽样者偏好左右,也没有回应者 的自行加入,且每个家庭都有相 同的中选机会。
虽然重新抽取一份1 373对父母 的随机样本,几乎可以肯定不会 再获得91%,但如果重复抽取同 样大小的随机样本,所有样本的
变异将会遵循某种规律,借此, 可以实现对总体的无偏估计。
nm=m50MIDPOINT
PERCENT 30
(d) n30
0 0 0 00 00 0 00 01 1 11 11 1 11 12 2 22 22 22 2 23 33 3 33 33 3 34 44 4 44 44 4 45 . . .. .. . .. .. . .. .. . .. .. . .. .. .. . .. .. . .. .. . .. .. . .. .. . .. 0 1 23 45 6 78 90 1 23 45 6 78 90 1 23 45 67 8 90 12 3 45 67 8 90 12 3 45 67 8 90
100.0
正态分布总体,样本均数抽样分布的特点:
①样本均数恰好等于总体均数是极其罕见的;
②样本均数之间存在差异;
③样本均数围绕总体均数,中间多、两边少, 左右基本对称,呈近似正态分布;
④样本均数之间的变异明显小于原始变量值之
间的变异( 5.3 cm)。
样本均数的标准差,称均数的标准误
(standard error of mean,SEM或SE), 用于反映均数抽样误差的大小。
一、样本均数的抽样分布 与抽样误差
实验5-1 正态分布总体样本均数抽样分布 假定某年某地所有13岁女生的身高服从
N 15 .4,5 5 .32。计算机模拟在该总体中随机
抽样,共抽100次。每次抽取30例组成一 份样本,计算每份样本的平均身高并绘制 样本均数的频率分布表。
表5-1 从正态总体 N 15 .4,5 5 .32抽出的100份随机样本的计算结果 ni 30
二、样本频率的抽样分布 与抽样误差
实验5-3 二项分布总体样本频率的分布特征
摸球实验:一个口袋内装有形状、重量完 全相同的黑球和白球,已知黑球的比例为
20%(总体概率 20% )。从口袋中每摸
一次看清颜色后放回去,搅匀后再摸,重 复摸球50次( ni 50 ),计算摸到黑球的百分
比(样本频率 p i )。重复这样的实验100次,
选用恰当的统计量、合适 的统计表与统计图,测定、 描述资料的数量特征及其 分布规律。
统计推断: 在一定的可信程度下,由 样本信息推断总体特征。
参数估计: 由样本统计量(statistic)估 计总体参数(parameter)。
假设检验: 由样本差异推断总体之间 是否可能存在差异。
第一章 绪论 第二章 定量变量的统计描述 第三章 定性变量的统计描述 第四章 常用概率分布 第五章 参数估计基础 第六章 假设检验基础
第一节 抽样分布 与抽样误差
由于个体变异的存在,从某一总体 中随机抽取一个样本,所得样本统 计量与相应的总体参数之间的差异 称为抽样误差(sampling error)。
从同一总体中随机抽取若干份样本, 所得样本统计量之间也不尽相同, 这也是抽样误差的表现。
在医学抽样研究中,抽样误差是 不可避免的,但抽样误差是有规 律的,而且是可以被认识的。
mm MIDPOINT
(e) n50
对任意分布,在样本含量足够大
时,其样本均数的分布近似于正
态分布,且样本均数的均数等于 原分布的均数,均数的标准误为
X
n

图5-2 非正态分布的总体:
总体A:均匀分布;
总体B:双峰分布;
总体C:指数分布;
总体D:三角分布。
从各总体中抽取若干个n=2, 5, 30 的样本,计算各样本的均数并绘 制样本均数的抽样分布图。
已经学习了描述性统计,实际研究 中,统计推断更有价值。
总体往往是无穷大的抽象概念,个体 之间存在差异,以样本为基础,进行 关于总体特征或参数的推断或估计。
美国的父母们对孩子的态度究竟是什么?
美国专栏作家Ann Landers问她的读者:“如果 可以重新选择,你还要孩子吗?”,她收到了近 1万份读者来信。于是,Landers在她的专栏中写 下了“将近70%的父母后悔要孩子”的标题。
每次得到黑球的比例见表5-3。
表5-3 20%时的随机抽样结果( ni 50)
样本频率p i (%)
频数
百分比(%)
8
2
2.00
10
4
4.00
12
8
8.00
14
7
7.00
16
11
11.00
18
13
13.00
20
19
19.00
22
11
11.00
24
11
11.00
26
6
6.00
28
3
3.00
30
4
4.00
7
154.9
1.12
152.6~157.1
8
156.5
0.74
154.9~158.0
9
155.0
1.09
152.8~157.2
10
155.9
0.98
153.9~157.9




表5-2 从正态总体 N15 .4,5 5 .32 中随机抽样求得的100个
样本均数(平均身高cm)的频率分布ni 30
样本号 (1)
样本均数 (2)
标准误 (3)
95%置信区间 (4)
1
156.7
0.91
154.8~158.6
*2
158.1
0.95
156.2~160.1
3
155.6
1.16
153.3~158.0
4
155.2
1.03
153.1~157.3
5
155.0
1.01
152.9~157.0
6
156.4
1.08
154.2~158.6
32 合计
1
1.00
100
100.00
在100份样本中, 黑球比例为 20%的频率最大,其次是黑球 比例为18%;样本频率围绕总
体概率呈近似对称分布,多数 样本频率离20%较近,少数样 本频率离20%较远。
样本频率与样本频率之间、 样本频率与总体概率之间的 差异是由抽样造成的。
若随机变量
X~Bn, ,
该频率标准误的估计值较小,说明用 样本患病率41.5%来估计总体患病率 的可靠性较好。
第二节 t 分布 (学生 t 分布)
(Student’s t distribution)
一、t 分布( t ~t() )的概念
Z X ~N0,1
X t X X
SX S/ n
( X :正态变量)
( X 未知时)
则率的标准误:
p
1
n
频率的标准误愈小,用样本频率 估计总体概率的可靠性愈好; 频率的标准误愈大,用样本频率 估计总体概率的可靠性愈差。
实际工作中,总体概率一般未知, 常用样本频率来近似地代替。
频率标准误的估计值:
Sp
p(1p) n1
p(1p) n
频率的标准误与样本含量的平 方根成反比,增加样本含量可 以减少样本频率的抽样误差。
n=5 x MIDPOINT PERCENT 30
(a) 原始数据
0 0 0 00 00 0 00 01 1 11 11 1 11 12 2 22 22 22 2 23 33 3 33 33 3 34 44 4 44 44 4 45 . . .. .. . .. .. . .. .. . .. .. . .. .. .. . .. .. . .. .. . .. .. . .. .. . .. 0 1 23 45 6 78 90 1 23 45 6 78 90 1 23 45 67 8 90 12 3 45 67 8 90 12 3 45 67 8 90
(卫生统计学)第5章 参数估计基础2-1
统计分析: 1. 统计描述(statistical description) 2. 统计推断(statistical inference) ➢ 参数估计(estimation of parameter) ➢ 假设检验(hypothesis test)
相关文档
最新文档