卫生统计学教学课件参数估计基础
医学统计学教学课件》第四章参数估计基础(研究生)
介绍线性回归模型在最小二乘法估计中的使 用。
2 最小二乘估计
掌握最小二乘法估计法及其优势和不足。
置信区间
1 置信区间的概念和意义
了解置信区间的定义和在参数估计中的重要性。
2 构造置信区间
学习如何构造合适的置信区间。
3 置信区间的意义及应用
了解置信区间在统计决策中的作用。
样本量计算
1 样本容量的确定方法
点估计和区间估计
1 点估计
掌握点估计的概念、方法和性质。
2 区间估计
了解区间估计的定义、方法和性质。
极大似然估计
1 似然函数
理解似然函数在极大似然 估计中的作用。
2 极大似然估计
掌握使用极大似然估计法 进行参数估计的步骤和原 理。
3 举例
通过实际案例,了解极大 似然估计的应用。
最小二乘法估计
1 线性回归模型
医学统计学教学课件第四 章
本章将介绍医学统计学中的参数估计基础,包括参数估计的概念、点估计和 区间估计、极大似然估计、最小二乘法估计、置信区间和样本量计算。
参数估计的概念
1 什么是参数
了解医学统计学中的参数 及其定义。
了解参数估计中的误差来 源与影响因素。
掌握确定样本容量的常用方法。
3 相关性样本量计算
学习相关性研究中的样本量计算方法。
2 跨组设计的样本量计算
了解跨组设计中的样本量计算方法。
4 非劣效性试验的样本量计算
掌握非劣效性试验中的样本量计算方法。
总结
1 本章重点知识点回顾
总结本章重点内容和要点。
3 参考文献
列出本章学习所需的参考文献。
2 课后作业
医学统计学 第五讲 参数估计基础 公开课课件
标准差 2.74 6.57 5.36 4.81 5.41 4.50 4.04 5.71 8.26 5.24
…… 4.15
95%CL 165.45 169.37 160.86 170.26 164.37 172.03 163.24 170.11 161.02 168.76 163.14 169.58 163.27 169.05 165.02 173.19 161.27 173.08 162.38 169.87 …… …… 167.42 173.35
正态分布的特征
➢=Me=M0;偏度系数=0;峰度系数=3
温医大公卫学院预防医学系/附属眼视光医院临床研究中心
正态分布
➢当正态分布的参数=0,=1时,称为标准正态分布
z x
温医大公卫学院预防医学系/附属眼视光医院临床研究中心
样本均数的抽样分布与抽样误差
温医大公卫学院预防医学系/附属眼视光医院临床研究中心
表3-1 N(167.7, 5.32)总体中100个随机样本的均数、标准差和95%CI
ID 1 2 3 4 5 6 7 8 9 10 …… 50
均数 167.41 165.56 168.20 166.67 164.89 166.36 166.16 169.11 167.17 166.13 …… 170.39
概率与概率分布
➢概率(Probability)
随机事件发生的可能性,是对某一随机事件发生可能性的度量。取 值范围在[0,1]之间。 如果某一事件不可能发生,其概率为0,称为不可能事件;如果某 一事件肯定发生,其概率为1,称为肯定事件。 概率的基本性质
1≥P(A)≥0;P(Ω)=1;若AB=Ф,则P(A∪B)=P(A)+P(B)。 推论1:不可能事件的概率为0,即:P(Ф)=0。 推论2:P( A )=1-P(A), 表示A的对立事件,即它们二者必有一事件发 生但又不能同时发生。
医学统计学课件:单个样本数据的参数估计
某研究者欲研究经常在街头小餐点就餐的中 学生是否乙肝病毒的感染率高,在某地随机 抽取了200名中学生,询问是否经常在小餐 点就餐,并检查了乙肝病毒感染情况,结果 发现经常在小餐点就餐者89人,乙肝感染率 6.74%,不经常者111人,感染率4.60%,试 计算两类中学生乙肝感染率的标准误及总体 乙肝感染率可能所在的范围(95%)。
——均数的抽样误差和标准误
﹡表示方法:标准误(Standard error) 标准误为样本均数的标准差,是说
明样本均数抽样误差的大小的指标,反 映了样本均数与总体均数的差异。
﹡计算公式
x
n
SS
x
n
总体标准误
样本标准误,
为σχ的估计值
• 某市随机抽取了12岁男孩100人,测得平
均身高139.6cm,标准差为6.85cm,计算
—— 总体率的区间估计
正态近似法:
当总体率未知时,若 np 5和 n (1-p) 5,则 总体率(1- )可信区间为:
p USp = P - USp ~ P + USp
即:总体率95%可信区间为 P 1.96Sp 总体率99%可信区间为 P 2.58Sp
查表法:n≤50时, p ≥1%(见书)
X
X
n
s sX n
: x t / 2sX
p x n
(1 )p ຫໍສະໝຸດ np(1 p)sp
n
: p u / 2s p
特征:以0为中心,左右对称(与标准正态分布比较)
t-分布曲线的形状与自由度有关 t-分布曲线下面积为1 t-分布曲线下面积分布可由t值表中查出
f(t) = (χ-μ) / σχ -
= ∞(u-d) = 5 =1
《卫生统计学》教学课件
假设检验
单样本t检验
介绍单样本t检验的原理、方法和应用实 例。
A 假设检验的基本思想
阐述假设检验的原理、步骤和注意 事项。
B
C
D
方差分析
阐述方差分析的基本原理、方法和应用实 例,包括单因素和多因素方差分析。
两样本t检验
详细解释两样本t检验的原理、方法和应 用实例,包括独立样本和配对样本的t检 验。
推断性统计在卫生领域的应用
01
假设检验
在卫生研究中,经常需要比较两组或多组数据的差异是否具有统计学意
义。通过假设检验,可以对研究假设进估计
利用样本数据对总体参数进行估计时,置信区间可以提供估计的精确度
和可信度。在卫生研究中,置信区间常用于估计发病率、死亡率等指标
随机区组设计 将实验对象按某种特征(如性别、年龄等)分成若干区组, 然后在每个区组内随机分配处理组,适用于存在明显个体 差异或需要控制某些非处理因素的情况。
析因设计 研究多个因素对实验结果的影响,通过全面组合各因素的 不同水平进行实验,适用于探索多因素交互作用的情况。
实验数据的分析
描述性统计分析 对数据进行整理、概括和描述,包括数 据的集中趋势、离散程度和分布形态等。
方差分析
比较不同处理组间的均数差异是否有 统计学意义,适用于完全随机设计和
随机区组设计的数据分析。
推断性统计分析 通过样本数据推断总体特征,包括参 数估计和假设检验等方法。
回归分析 探讨自变量和因变量之间的数量关系, 建立回归方程并进行预测和控制。
06
卫生统计应用实例
描述性统计在卫生领域的应用
1 2 3
卫生统计学的研究方法
描述性研究
通过收集和整理数据,用统计指标和 图表描述人群健康现象的数量特征和 分布规律。
卫生统计学七版 第五章参数估计基础电子教案
P0.05
第三节 总体均数及总体概率的估计
一、参数估计的基础理论
参数估计区 点间 估估 计计
对总体参数估计 称的 为范 置围 信区C间( I , co用 nfidenicneterv)al
表示,其置信1度 )为,(一般取置95信 %,度即为取 为0.05,此区
间的较小值称为 限置 ,信 较下 大值称为 限置 。信 一上 般进行双 区侧 间的估计。
卫生统计学七版 第五ຫໍສະໝຸດ 参数估 计基础第一节 抽样分布与抽样误差
一、样本均数的抽样分布与抽样误差
……
x15 .55 1 sx0.9617
样本均数的标准差越,大抽样误差就越大
样本均数的标准差称标为准误
x
n
sx
s n
sx称为标准误估计值,简也称标准误
标准误与标准差成正比 ,与样本含量成反比
标准误越大,抽样误差越大。
2、正态近似法
当已知时X: u
n
当未知但n足够大时X:u0.05
s n
X1.96 s n
或:X1.96s X
例5-3(P95) 某医生于2000年在某市随机抽取90名 19岁的健康男大学生,测量了他们的身高,得样本均数 为172.2cm,标准差为4.5cm,试估计该市2000年19岁健 康男性大学生平均身高的95%置信区间 。
对任意分布,在样本含量足够大时,其样本均数的分布都 近似正态分布,且样本均数的均数等于原分布的均数。
二、样本频率的抽样分布与抽样误差
总体率的标准误:
p
(1 )
n
率的标准误的估计值:
sp
p(1 p) n
标准误大抽样误差就大。
第二节 t分布
一、t分布的概念
统计学参数估计PPT课件
在应用参数估计时,需要注意样本的代表性、数据的准确性和可靠性等问题, 以保证估计的准确性和可靠性。
对未来研究的建议
01
进一步探讨参数估计的理论基础
可以进一步探讨参数估计的理论基础,如大数定律和中心极限定理等,
以更好地理解和掌握参数估计的方法和原理。
02
探索新的估计方法
随着统计学的发展,可以探索新的参数估计方法,以提高估计的准确性
指导决策
评估效果
基于参数估计结果,制定科学合理的 决策。
利用参数估计,评估政策、项目等实 施效果。
预测未来
通过参数估计,预测未来的趋势和变 化。
02
参数估计的基本概念
点估计
定义
点估计是用一个单一的数值来估 计未知参数的值。
举例
在调查某班级学生的平均身高时, 我们可能使用所有学生身高的总 和除以人数来估计平均身高,这 里的总和除以人数就是点估计。
最小二乘法的缺点是假设误差项独立 同分布,且对异常值敏感,可能影响 估计的稳定性。
最小二乘法的优点是简单易行,适用 于线性回归模型,且具有优良的统计 性质。
贝叶斯估计法
贝叶斯估计法是一种基于贝叶 斯定理的参数估计方法,通过 将先验信息与样本数据相结合 来估计参数。
贝叶斯估计法的优点是能够综 合考虑先验信息和样本数据, 给出更加准确的参数估计。
高维数据的参数估计问题
1 2 3
高维数据对参数估计的影响
随着数据维度的增加,参数估计的复杂度和难度 也会相应增加,容易出现维度诅咒等问题。
高维数据参数估计的方法
针对高维数据,可以采用降维、特征选择、贝叶 斯推断等方法进行参数估计,以降低维度对估计 的影响。
医学统计学课件:参数估计
医学统计学课件:参数估计xx年xx月xx日contents •参数估计概述•参数估计方法•参数估计在医学中的应用•参数估计的优缺点•参数估计的相关计算•医学统计学的未来发展目录01参数估计概述定义与意义参数估计利用样本信息对总体参数进行推断和估计。
意义通过参数估计,利用样本信息对总体特征进行推断、解释和预测,为研究设计和医学实践提供重要依据。
参数估计与点估计的关系参数估计包括点估计和区间估计。
点估计:用样本统计量估计总体参数的方法,是参数估计的基础。
区间估计:在点估计的基础上,给出总体参数的估计区间,是参数估计的拓展。
确定研究问题和研究假设。
设计研究方案和收集数据。
对样本数据进行分析,得到样本统计量和样本信息。
根据样本统计量和样本信息,构造合适的统计量(点估计)或区间估计量(区间估计)。
对所构造的统计量或区间估计量进行假设检验,判断其是否具有统计意义和实际意义。
根据参数估计的结果,进行推断分析和决策。
参数估计的基本步骤02参数估计方法1点估计23点估计是一种对总体参数的数值近似,通常用一个单一的数值来表示。
定义常见的点估计方法包括最大似然估计和矩估计。
方法点估计的优点是简单、直观,但可能存在精度不足的问题。
特点03特点区间估计的优点是能够给出总体参数的精度范围,但可能存在精度不足的问题。
区间估计01定义区间估计是一种对总体参数的区间范围的估计,通常用一个置信区间来表示。
02方法基于样本统计量和样本容量的信息,利用置信区间的计算公式来得到总体参数的置信区间。
定义贝叶斯估计是一种基于贝叶斯定理的参数估计方法,通常将总体参数看作是一个随机变量。
方法首先需要建立一个关于总体参数的先验分布,然后结合样本信息进行后验分布的计算,最后利用后验分布进行参数的估计。
特点贝叶斯估计的优点是能够充分利用先验知识和样本信息,从而得到更加精确的参数估计结果。
但是,贝叶斯估计方法需要更多的主观判断和计算成本。
贝叶斯估计03参数估计在医学中的应用样本均数和标准差估计通过分析临床试验数据,可以估计治疗组和对照组的均数和标准差,从而了解治疗效果和病情变化情况。
医学统计学ppt课件第4章参数估计pptx
二项分布参数估计
样本比例
用于估计二项分布中的成功概率。
置信区间
构建关于成功概率的置信区间,以评估估计的准确性。
假设检验
基于二项分布的参数估计结果进行假设检验,以验证 研究假设。
泊松分布参数估计
样本均值
用于估计泊松分布中的平均发生率。
置信区间
构建关于平均发生率的置信区间,以评估估计 的准确性。
假设检验
医学统计学ppt课件第4章参 数估计pptx
contents
目录
• 参数估计基本概念 • 参数估计方法 • 参数估计应用举例 • 区间估计原理及方法 • 非参数Bootstrap方法简介 • 参数估计软件实现及结果解读
01
参数估计基本概念
参数与统计量
参数
描述总体特征的数,如总体均数、总 体率等。
SAS
功能强大的统计分析软件,支持多种复杂统计模型的参数估计。操作指南涉及程序编写、数据导入、模型运行、结果查看 等环节。
R语言 开源的统计计算和图形展示软件,具有强大的数据处理和参数估计能力。操作指南涵盖数据导入、数据 处理、模型拟合、结果可视化等方面。
结果解读与注意事项
结果解读
关注参数估计值、标准误、置信区间、假设检验等关键结果,理解各指标的含义和统计意义。
单个正态总体均值和方差区间估计
单个正态总体均值区间估计
未知方差时,使用t分布进行区间 估计。
使用卡方分布进行区间估计;
已知方差时,使用z分布进行区间 估计;
单个正态总体方差区间估计
需要考虑样本量对区间估计的影 响。
两个正态总体均值差和方差比区间估计
01
两个正态总体均值差区间估计
02
两总体方差已知且相等时,使用z分布进行区间估计;
《卫生统计学》PPT课件:05 参数估计基础
(二)、总体概率的置信区间
总体概率的置信区间与样本含量n,阳性频率p的
大小有关,可根据n和p的大小选择以下两种方法。
1. 正态近似法
当样本含量足够大,且p和1-p不太小,则样本率
的分布近似正态分布。
公式为:
P
Z
2S P
,P
Z
2S P
P为样本率, 为率的标准误的估计值,
例5-7 用某种仪器检查已确诊的乳腺癌患者 94例,检出率为78.3%。估计该仪器乳腺癌总体检 出率的95%置信区间。 分析:本例样本例数较大,且样本率p不太小,可 用正态近似法:
通式:
tа/2,ν 是按自由度ν=n-1,由附表2查得的t值。
例5-3 已知某地27例健康成年男性血红蛋白量的均数
为
,标准差S=15g/L ,试问该地健康成年男
性血红蛋白量的95%和99%置信区间。
本例n=27,S=15
95%CI:
99%CI:
置信区间的两个要素
1. 准确度:反映置信度1-α的大小,即区间包
152.6~
1
153.2~
4
153.8~
4
154.4~
22
155.0~
25
155.6~
21
156.2~
17
156.8 ~
3
157.4 ~
2
158.0 ~
1
合计
100
152.9 153.5 154.1 154.7 155.3 155.9 156.5 157.1 157.7 158.3
(标准误的理论值)
个样本,样本均数 服从正态分布;即使是从偏态 总体中随机抽样,当n足够大时(如n>50), 也近 似正态分布。
【卫生统计学】10 第五章 参数估计基础
一、定量资料的抽样分布
• 采用原始的样本均数数据(100次抽样),利用统计 软件SAS、SPSS分析的结果:
• 样本均数的均数:155.492 • 样本均数的标准差(标准误):0.9562
N (155.4,5.32 )
综合比较后,得到样本均数的抽样分布特点:
29
一、定量资料的抽样分布 Distribution of sample mean 样本均数的分布
Z
X
X Z X
unknown
How to transform into z value?
44
Z X t X
X
SX
X
45
n
SX
S n
Population and sample
sample1 X1 163cm, S1 5.7cm
Population μ=165cm σ=5cm
sample2 X 2 167 cm, S2 5.1cm
一、定量资料的抽样分布
conclusion: Distribution of sample mean 样本均数的分布
形状随着样本含量n的增大而趋向正态分布(normal distribution); 样本均数的抽样分布只与样本量n有关系。
17
The second question is
2、要了解这个新样本数据的离散情况,用什么指标来表达?
Z (X )
X
~
N
(
,
2 X
)
Z (X ) X
X
~
N
(
,
2 X
)
t (X )
SX
t分布于1908年由英国统计学家W.S.Gosset以 “Student”笔名发表,故又称Student t 分布 (Students’ t-distribution)。
(卫生统计学)第5章 参数估计基础2-1
(c) n 10
图5-1 从正偏峰 总体随机抽样, 样本均数的分布
0
0 0 00 00 0 00 01 1 11 11 1 11 12 2 22 22 22 2 23 33 3 33 33 3 34 44 4 44 44 4 45 . . .. .. . .. .. . .. .. . .. .. . .. .. .. . .. .. . .. .. . .. .. . .. .. . .. 0 1 23 45 6 78 90 1 23 45 6 78 90 1 23 45 67 8 90 12 3 45 67 8 90 12 3 45 67 8 90
组段(cm)
152.6~ 153.2~ 153.8~ 154.4~ 155.0~ 155.6~ 156.2~ 156.8~ 157.4~ 158.0~158.6
合计
频数
1 4 3 19 25 23 18 4 1 2
100
频率(%)
1.0 4.0 3.0 19.0 25.0 23.0 18.0 4.0 1.0 2.0
例5-1 某研究组随机调查了某市50岁 以上的中老年妇女776人, 其中患有骨 质疏松症者322人, 患病率为41.5%, 试估计该样本频率的抽样误差。
p=0.415, n=776, 频率标准误的估计值:
S pp (1 n p )0 .4 1 5 7 7 6 0 .5 8 5 0 .0 1 7 7 1 .7 7 %
Newsday的简单随机样本(SRS, simple random sample)既不受 抽样者偏好左右,也没有回应者 的自行加入,且每个家庭都有相 同的中选机会。
虽然重新抽取一份1 373对父母 的随机样本,几乎可以肯定不会 再获得91%,但如果重复抽取同 样大小的随机样本,所有样本的
卫生统计学-第六章 参数估计基础
SX
0.37 140
0.03 1012 / L
区别 统计符号
计算公式 统计学意 义
用途 联系
标准差
均数的标准误
总体标准差σ表示 均数的标准误 X
样本标准差S表示 其估计值用 S X
S (X X )2 n 1
标准差越小,个 体值相对越集中 ,均数对数据的 代表性越好。
(1)称为可信度或置信度(confidence level)
,常取95%。
置信区间通常两个数值即置信限(confidence limit,CL)构成,
较小的称为置信下限(lower limit,L), 较大的称为置信上限(upper limit,U)
总体均数95%的可信区间表示该区间包括总 体均数的概率为95%。若作100次抽样算得 100个可信区间,平均有95个可信区间包括 总体均数,只有5%的可信区间不包括总体 均数,但是,错误概率为5%的事件为小概 率事件,仅仅在一次实验中出现错误的可能 性很小。
( 2)
-5.0
-4.0
-3.0
-2.0
-1.0
0.0
1.0
2.0
3.0
4.0
5.0
t
图2 不同自由度下的t 分布图
t分布特征
-5 -4 -3 -2 -1
0
1
2
3
4
5
以0为中心,左右对称的单峰分布;
t分布曲线是一簇曲线,其形态变化与自由
度的大小有关。
自由度越小,则t值越分散,曲线越低平;
自由度逐渐增大时,t分布逐渐逼近正态分布( 标准正态分布);当趋于∞时,t分布即为态分 布。
t界值
卫生统计学七版 第五章参数估计基础
二、总体均数及总体概率的区间估计
(一)总体均数的置信区间
1、t 分布法
当 未知且 n 较小时,估计双侧置信 区间:
(X
-t
,
s X
,
X
t ,
s X
)
可简写为:
X
t ,
s X
或X t,
s n
总体均数的95%双侧置信区间为:X
t0.05,
s X
例5-2(P95) 已知某地27名健康成年男子血红蛋白 含量的均数为125g/L,标准差为15g/L,试估计该地健康 成年男子血红蛋白平均含量的95%和99%置信区间 。
二项分布 n 31 X 25 n X 6 查附表6,得7 37 改错
该药物治疗脑血管梗塞有效概率的95%置信区间为 63%~93%。
2、正态近似法 适用范围:np>5,且n(1-p)> 5
例5-6(P96) 用某种仪器检查已确诊的乳腺癌患者 120名,检出乳腺癌患者94例,检出率为78.3%,试估计该 仪器乳腺癌总体检出率的95%置信区间。 np 1200.783 93.96 n(1 p) 1200.217 26.04
第三节 总体均数及总体概率的估计
一、参数估计的基础理论
参数估计区 点间 估估 计计
对总体参数估计的范围称为置信区间,用CI(confidence interval)
表示,其置信度为(1 ),一般取置信度为95%,即取为0.05,此区
间的较小值称为置信下限,较大值称为置信上限。一般进行双侧置信区 间的估计。
第五章 参数估计基础
公共卫生学院 邹焰
定量资料
统计描述等级资料(有序分类资 料)
卫生统计学:参数估计基础
第五章 参数估计基础【内容精要】1. 抽样误差的概念及其特点(重点)从同一总体中反复多次地随机抽取样本含量相同的若干份样本,由于受个体差异和偶然性的影响,样本统计量与总体参数之间可存在差异,这种差异称为抽样误差(sampling error)。
从同一总体中随机抽取样本含量相同的若干份样本,所得样本统计量之间也不尽相同,这也是抽样误差的表现。
在抽样研究中,抽样误差是不可避免的。
反映抽样误差大小的指标是标准误。
增加样本含量可以降低抽样误差。
2. 均数的标准误与频率的标准误(重点)样本均数的标准差称为均数的标准误(standard error of mean ,SEM 或SE),用于反映均数抽样误差的大小。
其计算公式为nX σσ=。
实际应用中,总体标准差σ常常未知,需要用样本标准差S 来估计,此时,均数标准误的估计值为nS S X =。
频率的标准误用于反映频率抽样误差的大小,可按公式()np ππσ-=1计算。
实际应用中,总体概率π常常未知,需要用样本频率p 来估计,因此,频率标准误的估计值为np p n p p S p )1(1)1(-≈--=。
3. t 分布当X 服从均数为μ的正态分布时,统计量 XX t S μ-=服从自由度为1-=n ν的t 分布。
ν不同, t 分布的形态也不同;ν趋于∞时,t 分布趋近标准正态分布。
4. 参数估计方法(重点)参数估计有两种方法:一种是直接利用样本统计量的值来估计总体参数,称为点估计(point estimation);另一种是区间估计(interval estimation),即按一定的置信度来估计总体参数所在的范围,该范围称为总体参数的置信区间(confidence interval ,CI),最常用的是95%置信区间。
由于考虑了抽样误差的大小,区间估计优于点估计。
5. 总体均数及总体概率的区间估计(重点)根据资料的已知条件及样本含量n 的不同,总体均数置信区间的计算公式亦不同(见表5-1)。
卫生统计学客件: 参数估计基础
p和1-p不太小)
公式為:
SP
p1 p
n
:率的標準誤的估計值,p:樣本率。
例5-2 某市隨機調查了50歲以上的中老年婦女 776人,其中患有骨質疏鬆症者322人,患病率為 41.5%,試計算該樣本頻率的抽樣誤差。
第二節 t 分佈
2021-10-12
1
一、t 分佈的概念
在統計應用中,可以把任何一個均數為µ, 標準差為σ的正態分佈N(µ,σ2)轉變為µ=0,σ=1的 標準正態分佈,即將正態變數值X用 Z X
mm MIDPOINT
0
0 0 00 00 0 00 01 1 11 11 1 11 1 22 2 2 22 22 22 3 33 3 33 33 3 34 4 44 4 44 4 4 45 . . .. .. . .. .. . .. .. . .. . .. . . .. .. .. . .. . .. .. . .. . .. . .. . . .. 0 1 23 45 6 78 90 1 23 45 6 78 9 01 2 3 45 67 89 0 12 3 45 67 8 90 1 23 4 56 7 8 90
二、總體均數置信區間的計算
2021-10-12
1
(1)σ已知,按標準正態分佈原理計算
由z分佈,標準正態曲線下有95%的z值在±1.96之間。
95%的雙側置信區間: X 1.96 X , X 1.96 X
99%的雙側置信區間: X 2.58 X , X 2.58 X
通式:
(雙側)
(2)σ未知但樣本例數n足夠大(n>50)時 由t分佈可知,自由度越大,t分佈越逼近標準正態 分佈,此時t曲線下約有95%的t值在±1.96之間,即
卫生统计学课件第五章 参数估计基础
第二节 t 分布 (t-distribution)
一、t 分布的概念 1908年英国统计学家W.S.Gosset 以笔名“student ”发表了著名的t分布
设: X ~ N 0 , 1 , Y ~ 2 n , 且X与Y相互独立,称随机变量
t
X
Y /
n
服从自由度为n
的学生氏分布(student
t
表5-1 从N(155.4 , 5.32) 抽到的100份随机样本的计算结果(n=30)
样本号 1 2 3 4 … 52 53 … 57 … 59 … 96 99
100
均数 156.7 158.1 155.6 155.2
… 153.7 154.8
… 158.2
… 153.4
… 152.7 154.6 156.6
黑球比例% 5.0~ 8.0~ 11.0 ~ 14.0~ 17.0~ 20.0~ 22.0~ 25.0~ 28.0~ 31.0~ 34.0~ 40.0~ 合计
频数 3 7 5 8 16 22 15 7 7 5 3 2
100
% 3.0 7.0 5.0 8.0 16.0 22.0 15.0 7.0 7.0 5.0 3.0 2.0 100.0
标准误 0.91 0.95 1.16 1.03 … 0.80 0.89 … 0.97 … 0.91 … 0.75 0.71 1.16
95%置信区间
154.8
158.6
156.2
160.1*
153.3
158.0
153.1
157.3
…
…
152.1
155.4*
153.0
156.6
…
…
156.2
雷静《卫生统计学》第六章 参数估计基础ppt课件
P( x t0.05 / 2, sx x t0.05 / 2, sx ) 0.95
故总体均数μ的95%可信区间为:
(
x t0.05 / 2, sx
,
x t0.05 / 2, sx )
2.正态近似法: 1)σ已知时,正态曲线下有95%的Ζ值在±1.96之间, 即:
x
常用来说明均数的抽样误差的大小。
即使从偏态总体抽样,当n足够大时, 样本均数也近似正态分布(见实验6-2, 观察图6-1及图6-2的变化)。
二、样本频率的抽样分布与抽样误差
实验6-3,摸球实验。观察二项分布总体中样本频 率的分布特征。 一个口袋内装有形状、重量完全相同的黑球和白 球,其中黑球比例为20%(π=20%),从中重复 摸球50次(ni=50),计算摸到黑球的频率(样本 率pi)。这样的实验重复进行100次,将每次得到 黑球的频率列成频率分布表即表6-3,观察表中 的频率分布特征。
样本均数抽样分布的特点:
① ② ③
④
样本均数恰好等于总体均数的情况很少; 样本均数之间亦存在差异; 样本均数的分布围绕总体均数左右基本对称, 呈近似正态分布; 样本均数之间的变异明显小于原始变量值之 间的变异;
已证明: 从正态总体N( μ,σ2 )中,随机抽取例 数为n的样本,样本均数 x也服从正态分布,
一、样本均数的抽样分布与抽样误差
实验6-1:假定某年某地13岁女生身高服从正态分 布N(155.4,5.32)(cm)。利用计算机在该总 体中随机抽取100个样本,每个样本n=30,即可 求得如表6-1第(2)列中的100个样本均数。由 这100个样本均数,可绘成样本均数的频率分布 表(表6-2)。 观察样本均数抽样分布的特点
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一、样本均数的抽样分布与抽样误差
实验5-1 假定某年某地所有13岁女学生身高服从
总体均数 =155.4cm, 总体标准差 =5.3cm的正 态分布N(,2)。在这样一个总体中随机抽
样,每次均抽取30例组成一份样本; 共抽100次; 算出每一份样本的平均身高: 153.6, 153.1, 154.9,····157.7
表5-1从N (155.4, 5.32) 抽到的100份随机样本的计算结果(n =30)
样本号 均数 标准误95%置信区间样本号 均数 标准误95%置信区间 1 156.7 0.91 154.8 158.6 51 155.7 0.97 153.7 157.7 2 158.1* 0.95 156.2 160.1 52 153.7* 0.80 152.1 155.4 3 155.6 1.16 153.3 158.0 53 154.8 0.89 153.0 156.6 4 155.2 1.03 153.1 157.3 54 155.6 0.92 153.7 157.5 5 155.0 1.01 152.9 157.0 55 154.8 0.83 153.1 156.5 6 156.4 1.08 154.2 158.6 56 155.6 0.96 153.6 157.6 7 154.9 1.12 152.6 157.1 57 158.2* 0.97 156.2 160.2 8 156.5 0.74 154.9 158.0 58 154.9 1.06 152.7 157.1 9 155.0 1.09 152.8 157.2 59 153.4* 0.91 151.5 155.3 10 155.9 0.98 153.9 157.9 60 156.4 0.98 154.4 158.4 11 156.9 0.98 155.0 158.9 61 153.6 0.94 151.6 155.5 12 154.0 0.94 152.1 156.0 62 155.6 0.96 153.6 157.5 13 154.4 0.93 152.4 156.3 63 155.2 0.91 153.4 157.1 14 156.5 1.03 154.3 158.6 64 156.7 1.06 154.5 158.8 15 155.9 1.07 153.7 158.1 65 154.7 1.02 152.6 156.8 16 155.5 0.96 153.6 157.5 66 155.1 0.97 153.1 157.1 17 156.9 0.88 155.1 158.7 67 155.7 0.86 153.9 157.5
样本号 均数 标准误95%置信区间样本号 均数 标准误95%置信区间 18 156.9 1.04 154.8 159.1 68 156.4 0.69 155.0 157.8 19 153.4 1.04 151.3 155.5 69 155.1 0.91 153.2 156.9 20 154.8 0.99 152.8 156.8 70 154.9 1.09 152.7 157.2 21 156.1 1.00 154.0 158.1 71 155.8 1.11 153.5 158.1 22 155.0 1.09 152.7 157.2 72 153.9 0.95 152.0 155.9 23 154.7 1.25 152.2 157.3 73 156.2 0.94 154.2 158.1 24 154.5 1.22 152.0 157.0 74 156.0 0.86 154.3 157.8 25 155.2 0.92 153.3 157.1 75 154.2 0.93 152.3 156.1 26 154.6 0.93 152.7 156.5 76 155.4 0.90 153.5 157.2 27 156.1 1.14 153.8 158.5 77 156.6 1.05 154.4 158.7 28 155.7 0.97 153.7 157.7 78 155.6 0.83 153.9 157.4 29 155.1 1.08 152.9 157.3 79 156.8 1.03 154.7 158.9 30 156.1 0.93 154.2 158.0 80 155.3 0.80 153.7 156.9 31 156.3 1.16 153.9 158.6 81 154.9 0.85 153.2 156.6 32 155.2 1.07 153.0 157.4 82 154.6 1.05 152.4 156.7 33 156.0 1.10 153.7 158.3 83 154.6 0.72 153.1 156.1 34 155.6 0.88 153.8 157.4 84 157.5 1.07 155.3 159.7
样本号 均数 标准误95%置信区间样本号 均数 标准误95%置信区间 35 156.5 0.88 154.7 158.3 85 155.9 0.85 154.2 157.7 36 155.3 0.88 153.5 157.1 86 156.5 0.72 155.0 158.0 37 155.2 0.87 153.4 157.0 87 156.4 1.04 154.3 158.6 38 155.5 1.19 153.1 158.0 88 154.7 1.08 152.4 156.9 39 155.0 0.70 153.5 156.4 89 156.2 0.82 154.5 157.8 40 155.5 1.02 153.4 157.6 90 154.6 1.05 152.5 156.8 41 155.1 1.00 153.1 157.2 91 155.1 0.90 153.2 156.9 42 155.3 1.00 153.2 157.3 92 156.6 1.03 154.5 158.7 43 156.3 0.97 154.4 158.3 93 156.0 1.08 153.8 158.2 44 156.6 0.88 154.8 158.4 94 155.8 0.93 153.9 157.7 45 155.4 0.83 153.7 157.1 95 156.1 0.83 154.4 157.8 46 155.9 1.03 153.8 158.0 96 152.7* 0.75 151.1 154.2 47 155.3 0.89 153.5 157.1 97 155.1 0.93 153.2 157.0 48 154.6 1.09 152.3 156.8 98 155.3 0.90 153.5 157.2 49 156.1 0.81 154.5 157.8 99 154.6 0.71 153.2 156.1 50 154.7 1.04 152.6 156.8 100 156.6 1.16 154.2 159.0
第五章 参数估计基础
抽样研究:用样本信息推断总体特征 常用统计推断方法:参数估计和假设检验
本章: 参数估计的基本概念 样本统计量的分布规律; 总体均数和总体概率的估计方取一份样本,计算均数。 这个均数不同于总体均数!为什么?
再从该总体中随机抽取一份样本,再计算均数。 前后两个均数不等,为什么?