定量资料的统计推断
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
围,标准误结合样本均数可估计总体的可信区间。
(4)标准差可用于计算变异系数,标准误。标准误用于计算可 信区间和进行均数间比较的假设检验。
标准差与标准误的联系:标准差和标准误
都是描述变异程度的指标,标准误的大小与标
准差成正比,即个体差异越大,抽样误差越大。
总体均数的估计
总体均数的估计,即用样本均数估计总体均数,有以下两种方法: (1)点估计:直接用统计量 X 估计总体参数μ。 例:于2000年测得某地 27例健康成年男性血红蛋白量的样 本均数为125g/L,试估计其总体均数。 X →μ,即认为2000年 该地所有健康成年男性血红蛋白量的总体均数为125g/L 。 ( 2 )区间估计:即按一定的概率估计总体均数可能的数值范 围,统计学称这一范围为被估计参数的可信区间(CI),预先给 定的概率水准称为可信度1-α,常取95%CI或99%CI。
f( t)
自由度为1的t分布 自由度为9的t分布 标准正态分布
t 分布有如下性质:
①单峰分布,曲线在t=0 处最高,并以t=0为中心 左右对称 ②与正态分布相比,曲线 最高处较矮,两尾部翘得 高(见绿线) ③ 随自由度增大,曲线逐 渐接近正态分布;分布的 极限为标准正态分布。
t 分布的特征
通过以上学习, t 分布是由标准正态分布派 生出来的,其形态变化与自由度v的大小有关, 因此t值的符号是 t ,v 。自由度v=n-1。当v和α确 定时,可查 t界值表(附录3p327),表中数字表 示对应的t界值。
而在实际工作中只有用样本标准差S估 计总体标准差σ,故标准误的估计值计算 公式为:
SX
S n
例:某市110名12岁健康男孩平均身高为 144.67cm,标准差为6.42cm,求其标准误。
S 6.42 sX 0.612(cm) n 110
标准误的作用
表示抽样误差的大小,衡量样本均数的 可靠性,标准误越小则用样本均数估计 总体均数越可靠; 结合样本均数和正态分布曲线下的面积 分布规律,可用于估计总体均数的可信 区间(后述); 用于均数的假设检验(后述)。
3
抽样误差的概念
均数的抽样误差: 均数的抽样误差是因抽样产生的样本均数与总体均数之间的 差异。由于存在个体差异,样本均数一般不恰好等于总体均数, 例如从同一个总体中随机抽取100次样本含量为n的样本,可以 计算出100个样本均数,这些样本均数与总体均数不一定相等, 样本均数之间彼此也不一定相等,这种由个体变异产生的、由 抽样误差造成的样本均数与样本均数之间以及样本均数与总体 均数之间的差异称为均数的抽样误差。 抽样误差在抽样研究中是不可避免的。但有一定的规律可循, 我们可以用特定的指标来描述抽样误差的大小。
23
本例n=5, =4,双侧t0.05,4=2.776
x t ,v s x =2.44±2.776×0.33/ 5 =2.03~2.85(L)
该地17岁女中学生肺活量均数的95%可信区间为2.03L~2.85L。
练习: 101名30~49岁健康男子血清总 胆固醇 X 4.735mmol· L-1,S=0.88 mmol· L-1,求该地健康男子血清总胆 固醇值均数的95%可信区间。
假设检验的基本步骤
(2)确定检验水准:检验水准又称显著性水准,符号 为α,是判断差异有无统计学意义的概率水准,即小概 率事件的水准。其大小应根据分析的要求来确定,通 常取α=0.05或0.01,同时要确定是单侧还是双侧检验。 本例检验水准可写成:α=0.05。
假设检验的基本步骤
(3)确定检验方法,计算统计量。 根据研究目的、资料类型、分布类型、研究设计方 案及样本含量大小等,选择适应的统计方法,计算相 应的统计量。 本例为样本均数(代表未知总体均数μ)与已知总体 均数μ0比较的t检验,目的是推断样本所代表的总体均 数μ与已知总体均数μ0是否相等,建议带入t公式: x 74.2 72
假设检验的基本步骤
(1)建立检验假设
假设有两种:
一是假设总体相同μ=μ0,称为无效假设,又称零假 设,用H0表示。
二是假设总体不同μ≠μ0,称备择假设,用H1表示。
本例建立检验假设可写成:
H0 :山区健康成年男子的脉搏均数与一般健康成年男 子的脉搏均数相等,即μ=μ0 。
H1 :山区健康成年男子的脉搏均数与一般健康成年男 子的脉搏均数不相等,即μ≠μ0 。
统计学中认为无效假设H0成立的可能性小,就可以拒 绝H0,可以认为数字上的差别不是由抽样误差引起的, 而是数字代表的总体指标本身存在差别。反之,接受 H0,认为数字间的差别是由抽样误差引起的,数字代 表的总体指标间没有差别。
假设检验的一般步骤
(1)建立检验假设 (2)确定检验水准 (3)确定检验方法 ,计算统计量 (4)判断概率P值 (5)做出统计推断
样本均数的分布特点:
1.各样本均数未必等于总体均数;
2.样本均数之间也不一定相等;
3.样本均数的分布很有规律,围绕着总体 均数,中间多,两边少,左右基本对称,也服 从正态分布。
标准误的概念
标准误:为了与反映观察值离散程度的 标准差相区别,统计学上把样本均数的标 准差称为均数的标准误,简称为标准误, 统计符号 X,标准误的估计值符号 S X , 其值 越大就说明样本均数的离散程度越大,也 就是样本均数与总体均数间的抽样误差越 大,反之,抽样误差越小。
t分布曲线下面积(附表2)
双侧t0.05,9=2.262 =单侧t0.025,9 单侧t0.05,9=1.833 双侧t0.01,9=3.250 =单侧t0.005,9
单侧t0.01,9=2.821
双侧t0.05,∞=1.96 =单侧t0.025,∞ 单侧t0.05,∞ =1.64
查P327,t 界值表
2 ) X
X
X
~N(0, 1 );
由于总体标准差σ往往未知或样本含量n较小(n≤50) 时,常用样本标准差s作为σ的估计值,则此时称为对变 量采用t变换,t变换后样本均数服从ν=n-1的t分布:
X t sX
t变换
随机变量X
u X
N(,2)
均数 X
u变换
标准正态分布
N(0,12)
本例已知总体均数μ0=72次/分,而来自于总体为 μ的样本均数 X =74.2次/分,与μ0不等,其产生 的可能原因有两种: ①总体相同μ=μ0,差别由抽样误差造成。 ②总体不同μ≠μ0 ,差异是本质上的差异,即二 者来自不同总体。 要直接判断μ≠μ0是不可能的,但我们可以利 用无效假设H0: μ=μ0(即差别由抽样误差造成) 成立的可能性大小即概率来判断,若算出的概 率小,则按小概率原理拒绝H0,从而得出μ≠μ0 的结论,否则接受H0: μ=μ0。
t s n 6.5 30 1.854
假设检验的基本步骤
(4)判断概率P值
假设检验中的 P值是指在由无效假设所规定的总体中 做随机抽样,获得现有统计量的概率,即各样本统计量 的差异来自抽样误差的概率,是判断H0成立与否的依据。 确定P值的方法主要是查表法。根据检验水准α,样本自 由度ν查询相应的界值表,得到相应的界值,再比较计算 所得的统计量与相应界值的大小关系来判断概率 P 值。 若统计量│t │≥ 界值tα,ν , 则 p≤α。
数理统计证明
从正态分布N(μ,σ2)中随机抽取例数为n的样
本,其样本均数的分布仍服从正态分布;即使 总体不呈正态分布,只要n>100,X 的分布也 2 X 近似服从正态分布N(μ, )。 抽样误差的大小取决于总体中个体差异的 大小和抽样样本含量的大小,所以,均数标准 误的计算公式为:
X n
可信区间的计算
(1) 当总体标准差 σ 已知或样本含量 n 足够大( n>50 )时:
x sx
(2)当总体标准差σ未知或样本含量n较小(n≤50)时:
x t ,v s x
复习两个概念:
▲ 正态分布
▲ 标准正态分布
N (0,1)
u x
14
样本均数的分布
样本均数 X 的分布服从正态分布N (μ, ,按照标准 正态分布变换方法,也可变换成标准正态分布N(0,1):
万州疾控中心 陈春蓉
统计推断:用样本信息来推断相应总体的特征,这一 过程称为统计推断。统计推断包括两方面的内容:参数估 计和假设检验
随机抽样
总体
参数?
( 、、)
(一锅)
样本
(一勺)
统计量
(X、s、p)
统计推断
参数估计 假设检验
2
参数估计的概念
参数估计是统计推断中的一个重要内容。 在实际工作中,总体参数常是未知的或不可能 对总体进行研究,故需要用样本指标(统计量) 推断总体指标(参数),如用样本均数 X 估计 总体均数 等。 由于存在个体差异,抽样研究必然有抽样 误差,所以统计推断必须考虑抽样误差的大小。
思考!
标准差与标准误的区别:
(1)标准差表示各个观察值间的变异程度,即个体差异的大小。
标准误表示同质样本均数间的变异程度,即抽样误差的大小。
(2)标准差越小,样本均数的平均水平代表性越好,反之则越 差。标准误越小,由样本均数估计总体均数的可靠性越大,反 之则可靠性越小。 (3)标准差结合样本均数可确定正态分布资料的医学参考值范
例:某产科医生统计正常妇女骨盆x线的资料40例, 得到骨盆入口前后径均数12.0cm,标准差0.9cm, 求正常妇女骨盆入口前后径的95%可信区间。 应用条件:样本量小于100,已知均数和标准差。
可用公式:
x t ,v s x
22
练习:5名17岁女中学生肺活量资料得均数为2.44 L, 标准差为0.33L,试估计该地17岁女中学生肺活量 的95%的可信区间。
举例:
① 10,单 =0.05, t0.05,10 1.812 ,则有
P(t 1.812) 0.05 或 P(t 1.812) 0.05
② 10,双 =0.05,t0.05 / 2,10 2.228 ,则有
P (t 2.228) P (t 2.228) 0.05
25
应用条件:样本量大于100,已知均数和标准差。 可用公式:
x 1.96sx =4.735±1.96×0.88/
101
Fra Baidu bibliotek
=4.563~4.907( mmol· L-1 )
置信区间的两个要素 1. 可信度:反映置信度的大小,即区间包含 总体均数的概率大小。 2. 精度:反映区间的长度。 在可信度确定的情况下,增加样本例数,
假设检验的基本原理
基本原理:假设检验的基本思想是反证法和小概率的思想。 即预先设定数字上的差别是由抽样误差引起的,即假 设H0 是成立的。在此假设的前提下,通过适当的统计方法 计算相应的统计量,来判断此假设成立的概率,即此假设 成立的可能性大小。若算出的概率较小,小于设定的检验 水准(如 =0.05),则认为无效假设H0 是小概率事件,
计算上:
置信区间用标准误,参考值范围用标准差。
假设检验的概念
假设检验:过去称显著性检验,是根据样本信 息对样本所属的总体特征提出一个假设 H0(无 效假设),然后通过样本数据推算出概率 P值, 根据概率P值对假设H0做出拒绝或不拒绝的判定 过程。
例: 根据大量调查健康成年男子脉搏的均 数为72次/分,某医生在山区随机调查了30 名健康成年男子,其脉搏的均数为74.2次/ 分,标准差为6.5次/分,能否认为该山区成 年男子的脉搏与一般健康成年男子的脉搏 均数不相等?
会减小 tα,ν 和
精度。
,可减少区间长度,提高
思考!
均数可信区间与参考值范围的区别 意义:
95%的参考值范围是指同质总体内包括95%个体值的估计 范围。若总体为正态分布,常按 X 1.96S 计算。 95%的可信区间是指按95%的可信度估计的总体参数落在
该区间的概率。若为大样本,按 X 1.96S X 计算。
标准正态分布
N ( , n)
2
X u n
N(0,12)
Student t分布
X X t , v n 1 SX S n
自由度:n-1
17
t分布曲线
0.4 0.4 0.3 0.3 0.2 0.2 0.1 0.1 -4 -3 -2 0.0 -1 0 t 1 2 3 4