医学统计学抽样误差和t分布
标准误、t 分布
2021/5/9
7
教学内容
标准误 t分布
二、 t 分布: 三)、应用:
2、t 检验
假设检验一般步骤:
1)、建立假设,确定检验水准α及单双侧
H0:无效假设:两总体相同 H1:备择假设:两总体不同
α=0.05 (或0.01)
双侧:考虑两总体指标不同(包括大于和小于两种情况)时。
单侧:仅考虑一总体指标大于另一总体指标或仅考虑一总体
《医学统计学》------
标准误、t-分布及其应用
湖州师范学院医学院临床医学教研室
王春生
2021/5/9
1
教学要求
理解并计算标准误;熟识t-分布规律;正确进行 均数的区间估计与t检验;正确理解假设检验注意事项 ;掌握t检验的条件。
2021/5/9
2
均数的抽样误差:
抽样研究中样本均数与总体均数的差别或样本均数 与样本均数的差别是均数的抽样误差。
(X - t0.05,vSX , X + t0.05,vSX) = (5.0 - 1.96 0.0245 ,
5.0 - 1.96 0.0245 ) = (4.95 ,5.05) (1012/L)
2021/5/9
6
教学内容 标准误 t分布
二、 t 分布:
三)、应用: 1、均数的区间估计; 2、t 检验 假设检验:先对样本所属特征作出假设,然后根据 样本信息推断其是否成立。 以t分布的原理进行假设检验称为t检验。
医学统计学重点知识总结 (2)
一、平均数应用的注意事项
1.同质的资料计算平均数才有意义。
2.均数适用于:单峰对称分布的资料
3.几何均数适用于:对数变换后单峰对称的资料:等比资料、滴度资料、对数正态分布资料
4.中位数:理论上可用于任何分布资料,但当资料适合计算均数或几何均数时,不宜用中位数:偏态分布、分布不明资料、有不确定值的资料
二、抽样误差
1.由抽样引起的样本统计量与总体参数间的差别。
2.原因:个体变异+抽样
3.表现:样本统计量与总体参数间的差别;不同样本统计量间的差别
4.抽样误差是不可避免的!
5.抽样误差是有规律的!
三、中心极限定理(central limit theorem)
1.Case 1:从正态分布总体N(,2),中随机抽样(每个样本的含量为n),可得无限多个样本,每个样本计算样本均数,则样本均数也服从正态分布。
2.Case 2:从非正态(nonnormal)分布总体(2)中随机抽样(每个样本的含量为n),可得无限多个样本,每个样本计算样本均数,则只要样本含量足够大(n>50),样本均数也近似服从正态分布。
四、统计推断的内容
1.参数估计:由样本统计量估计总体参数 (1)点估计
(2)区间估计:按一定的概率或可信度(1- α )用一个区间估计总体参数所在范围,这个范围称作可信度为1- α的可信区间(confidence interval, CI),又称置信区间 。这种估计方法称为区间估计。 2.假设检验
五、正确理解可信区间的涵义
1.可信区间一旦形成,它要么包含总体参数,要么不包含总体参数,二者必居其一,无概率可言。所谓95%的可信度是针对可信区间的构建方法而言的。
抽样误差和可信区间
均数的抽样误差 x -μ的分布
3. 标准误的定义
❖ 抽 样 误 差 的 标 准 差 称 为 标 准 误 (standard error)。
❖ 样本统计量的标准差反映了从某个总体中随机 抽样所得样本之均数分布的离散程度。
Medical statistics
医学统计学
抽样误差和可信区间
Sampling Error & Confidence Intervals
主要内容(Content)
❖ 抽样误差及其规律性 ❖ 标准误 ❖ 抽样分布与t分布 ❖ 统计推断与参数估计 ❖ 总结
一.均数的抽样误差(sampling error) 与标准误(standard error, SE)
❖ 均数的(1-α)可信区间为
(X
t / 2,
s ,X X
t / 2,
s X
)
则其宽度为
L
2t
/
2,
s X
2t / 2,
s n
可信区间的宽度
❖ 可信度越大,可信区间越宽,说明用 该区间来估计总体参数(总体均数) 越可靠。
❖ 标准差越小,可信区间就越窄,意味 着如果总体内变异程度较小时,在相 同的可信度下,只需要一个比较窄的 可信区间就可以估计总体均数。
总体均数估计与假设检验
总体均数估计方法
总体均数的估计:
点值估计(point estimation):例,120名成 年男子血清铁含量的均数是18.57。那么,该总体 范围(这个地区)的成年男子血清铁含量的均数就 是18.57。这种方法虽简单,但未考虑抽样误差, 一般不用。
假设检验(Hypothesis test)
假设检验的推断原理 假设检验的基本步骤 t检验和Z检验 两样本总体方差齐性检验 正态性检验 假设检验的两类错误 注意事项
一、假设检验的推断原理
上面介绍过的区间估计方法是统计 推断的内容之一,假设检验是统计推 断的另一重要内容。正是应用统计推 断的理论和方法,人们才能顺利地通 过有限的样本信息去把握总体特征, 实现抽样研究的目的。
配对样本t检验
Paired design t-test
小。
均数的标准误(standard error of mean):
样本均数之间的差异,反映了样本均数 的离散程度,即为抽样误差。这时的样本均 数的标准差,称为样本均数的标准误,简称 标准误。
标准误的概念
X S X S.E
抽样的样本量越大,标准误就越小; 原来总体变异度小,标准误就越小。 标准误反映了样本均数间的离散程度,也反映了样本均 数与总体均数之间的差异。当标准误大时,用样本均 数对总体均数的估计的可靠程度就小;反之亦然。
医学统计学重点概要
第一章 绪论
总体:根据研究目的确定的同质的所有观察单位某种变量值的集合。
总体包括有限总体和无限总体。
样本:从总体中随机抽取的部分观察单位,其实测值的集合。
获取样本仅仅是手段,通过样本信息来推断总体特性才是研究的目的。 资料的类型计量资料、计数资料和等级资料。
误差包括随机误差、系统误差和非系统误差。
抽样误差:由抽样造成的样本统计量和总体参数之间的差异或者是各个样本统计
量之间的差异称为抽样误差。
概率:是描述随机事件发生可能性大小的一个度量。取值范围0≤P ≤1。
小概率事件:表示在一次实验或观察中该事件发生的可能性很小,可以认为很可
能不发生。P ≤0.05或P ≤0.01。
医学统计学的步骤:设计、收集资料、整理资料和分析资料。
统计分析包括:统计描述和统计推断。
统计推断包括:参数估计和假设检验。
第二章计量资料的统计描述
频数表和频数分布图的用途:
(1)描述频数分布的类型,以便选择相应的统计指标和分析方法。对称分布:
集中位置在中间,左右两侧頻数基本对称。偏态分布:正、负偏态分布正偏态集中位置偏向值小一侧,负偏态反之。
(2)描述頻数分布的特征;
(3)便于发现资料中的可疑值;
(4)便于进一步计算统计指标和进行统计分析。
计量资料集中趋势包括算术均数、几何均数和中位数。
算术均数:直接法(样本小):n x x ∑=;頻数表法(样本大)x =n
fx ∑ 几何均数:直接法:)lg (lg 1n x G ∑-=;頻数表法)lg (lg )lg (lg 11n x f f
x f G ∑∑∑--==(常用于等比资料或对数正态分布资料)
[医学]医学统计学总体均数估计1603
样本均数的分布仍服从正态分布,样本均数
的总体均数仍为m,样本均数的标准差为 X
• 2.即使是从偏态分布总体抽样,只要n足够 大,样本均数的分布也近似正态分布;
• 3.随着样本量的增大, 样本均数的变异范围 也逐渐变窄。
11
样本均数的标准误
• 为了与个体的标准差相互区别,样本均数的标 准差又称为样本均数的标准误( SE),或理论 标准误
5 164.1 166.6 169.6 169.6 173.8 173.2 164.3 166.6 182.1 165.4 169.53
5
样本均数的特点
• 各个样本均数之间都不相同——抽样误差表 现形式之一
• 各个样本均数都不等于总体均数,有的比总 体均数大,有的比它小——抽样误差表现形 式之二
• 相对于各样本的个体值,样本均数间的变异 程度较小
13
均数标准误的估计值
由于在实际研究中,我们往往只抽一次样,得到
一个样本均数,而且大多数情况下未知,此时常用样
本标准差S估计总体标准差,这样我们就得到样本
均数标准误的估计值 S x
Sx =
S n
抽样误差越小,表示样本均数与总体均数越接近,用
样本均数估计总体均数的可靠性越高;反之则越低
14
• 例6.1随机抽取某地正常成年男性200名, 测得其血清胆固醇的均数为3.64mmol/L, 标准差为1.20mmol/L,试估计抽样误差:
医学统计学总体均数的估计与假设检验
3)当已知时。
x u /2 x , x u /2 x
•关于可信区间的准确性和精密度 准确度反映在可信度(1 - )的大小上; 精密度反映在可信区间的长度上。
四、 假设检验的一般步骤
例: 据大量调查知,健康成年男子脉搏的均数为72 次分,某医生在山区随机调查了25名健康男子,其 脉搏均数为74.2次/分,标准差为6.0次/分,能否认 为该山区成年男子的脉搏高于一般人群?
(2)样本均数的总均数等于原始总体均数。
一、 均数的抽样误差与标准误( x , sx )
均数的抽样误差: 抽样引起的样本均数与总体均数之间或样本均数 之间的差别。
标准误: 即样本均数的标准差。表示样本均数对总体均数的离散程度。
x 2
N
2
S xx n 1
2
x
x
百度文库
K
n
S
S
x
n
例4.1某市随机抽查12岁男孩100人, 得身高均数139.6cm,标准差6.85cm, 资料,求标准误?
结论:按照 = 0.05水准,拒绝H0 ,故可 认为该山区健康成年男子脉搏高于一般人群。
上例如用双侧检验,查表得双侧 t0.05,24 = 2.064
则: t =1.833< t0.05,24 , P > 0.05。 结论相反。
单侧检验效率要高于双侧检验。 如何选择单侧或双侧检验? 主要根据专业知识而定。 如某指标只高不低或只低不高。
医学统计学-知识梳理
均数
方差
标准差
均数标准差/标准误 样本 X
2S S
估计值 X
S
总体
μ
2σ
σ
X σ
均数±2.58标准差:表示集中位置、离散程度 均数±2.58标准误:表示平均水平、抽样误差大小P 75 一、标准差的主要作用是估计正常值的范围
实际应用中,估计观察值正常值范围应该用标准差(s ),表示为“Mean ±SD”。此写法综合表达一组观察值的集中和离散特征的变异情况,说明样本平均数对观察值的代表性。s 的大或小说明数据取值的分散或集中。s 与样本均数合用, 主要是在大样本调查研究中, 对正态或近似正态分布的总体正常值范围进行估计。如果不是为了正常值范围估计,一般不用。当数据与正态分布相差很大,或者虽为正态分布, 但样本容量太小(小于30 或100),也不宜用估计正常值范围。 二、标准差还可用来计算变异系数(CV )
当两组观察值单位不同, 或两均数相差较大时,不能直接用标准差比较其变异程度的大小, 须用变异系数系数来做比较。: 2.2 标准误的正确使用
一、标准误用来衡量抽样误差的大小和了解用样本平均数来推论总体平均数的可靠程度。 在抽样调查中,往往通过样本平均数来推论总体平均数,样本标准误 适用于正态或近似正态分布的数据, 是主要描述小样本试验中,样本容量相同的同质的多个样本平均均数间的变异程度的统计量。即如果多次重复同一个试验, 它们之间的变异程度用。显然它越小,样本平均数变异越小,越稳定,用样本平均数估计总体均数越可靠。因此,为说明它的稳定性、可靠性或通过几个对几组数据进行比较(这是科研论文中最常见的),应当用描述数据。实际应用中应该写成“平均数±标准误”或而英文表示为“Mean ±SE”的形式。 二、标准误还可以进行总体平均数的区间估计与点估计(置信区间)。
医学统计学重点
医学统计学重点
第一章 绪论
1.基本概念:
总体:根据研究目的确定的性质相同或相近的研究对象的某个变量值的全体。
样本:从总体中随机抽取部分个体的某个变量值的集合。
总体参数:刻画总体特征的指标,简称参数。是固定不变的常数,一般未知。
统计量:刻画样本特征的指标,由样本观察值计算得到,不包含任何未知参数。
抽样误差:由随机抽样造成的样本统计量与相应的总体参数之间的差异。
频率:若事件A在n次独立重复试验中发生了m次,则称m为频数。称m/n为事件A在n次试验中出现的频率或相对频率。
概率:频率所稳定的常数称为概率。
统计描述:选用合适统计指标(样本统计量)、统计图、统计表对数据的数量特征及其分布规律进行刻画和描述。
统计推断:包括参数估计和假设检验。用样本统计指标(统计量)来推断总体相应指标(参数),称为参数估计。用样本差别或样本与总体差别推断总体之间是否可能存在差别,称为假设检验
2.样本特点:足够的样本含量、可靠性、代表性。
3.资料类型:
(1)定量资料:又称计量资料、数值变量或尺度资料。是对观察对象测量指标的数值大小所 得的资料,观察指标是定量的,表现为数值大小。每个个体都能观察到一个观察指标的 数值,有度量衡单位。
(2)分类资料:包括无序分类资料(计数资料)和有序分类资料(等级资料)
①计数资料:是将观察单位按某种属性或类别分组,清点各组观察单位的个数(频数),由 各分组标志及其频数构成。包括二分类资料和多分类资料。
二分类:将观察对象按两种对立的属性分类,两类间相互对立,互不相容。
多分类:将观察对象按多种互斥的属性分类
医学统计学:抽样误差和 t 分布
0.0025 0.005
127.321 14.089 7.453 5.598 4.773
0.001 0.002
318.309 22.327 10.215 7.173 5.893
0.0005 0.001
636.619 31.599 12.924 8.610 6.869
100
0.677 0.845 1.290 1.660 1.984 2.364 2.626 2.871 3.174 3.390
-t
0
t
0.005 0.01
63.657 9.925 5.841 4.604 4.032
0.0025 0.001
0.005 0.002
127.321 318.309
14.089 7.453 5.598 4.773
22.327 10.215 7.173 5.893
0.0005 0.001
636.619 31.599 12.924 8.610 6.869
每一自由度下的t分布曲线都有其自身分布规律
t分布表明,从正态分布总体中随机抽取的样本,由样本计算的t值接近 0的可能性较大,远离0的可能性较小。t0.05,10=2.228,表明,从正态 分布总体中抽取样本含量为n=11的样本,则由该样本计算的t值大于等 于2.228的概率为0.025,小于等于-2.228的概率亦为0.025。 P(t≤-2.228)+P(t≥2.228)=0.05 或:P(-2.228<t<2.228)=1-0.05=0.95。
标准误、t 分布
教 学 内 容 标准误 t分布
二、 t 分布:
三)、应用: 2、t 检验:两总体均数的比较可用t分布的原理进行假设 检验,即t 检验。共有三种形式: 1)、样本均数与总体均数比较: v=n-1 例: t = (X-μ 0)/SX 已知总体: μ 0=72次/分 根据大量调查,已知健康成 年男子脉搏的均数为72次/分钟。 某护士在一山区随机测量了25名健 康成年男子脉搏数,求得其均数为 74.2次/分,标准差为6.5次/分, 能否认为该山区成年男子的脉搏数 与一般健康成年男子的脉搏数不同 ? 已知样本: X =72次/分 问题: 样本所属 总体(未知总体)与 已知总体是否相同 ?(即μ =μ 0是否 成立 ?)
4、正确理解结论的概率性,不能绝对化。
P 值含义 与
两类错误
5、正确理解差别有无显著性的统计含义;P>α ,H0成立 ,表示统计学上拒绝H0的理由(证据)不足! 要推断组间 差别大小有无实际(专业)意义,需采用等效检验。
t检验条件:
1、研究设计要严密,资料具有可比性;
2、样本来自正态分布(需对资料进行正态性检验);
配对(对子):将条件一致的 两个个体配成一对,所获得 的两个数据即为一个对子。
已知样本1 已知样本2 ==问题: 对子差值 所属总体均数是否 为0?μ d=0是否成 立 ?)
问题: 两样本所属总体(治疗前与治疗后,均为未知总体) 是否相同?(即μ 1=μ 2是否成立 ?)
医学统计学(李琳琳)6-2t检验
思考
两独立样本t检验和校正t检验的适用条件分别是什 么? 该采用校正t检验时,却误用t检验,会对结果产生 什么样的影响?
配对设计是研究者为了控制可能存在的非 处理因素,增加两组的可比性而采用的一种 实验设计方法,当总样本量一定时,采用配 对设计往往会获得较高的检验效能。
配对设计实施的主要形式: ①异体配对。将受试对象按一定条件配成对子(同种属、同体 重、同年龄、同性别等),再随机分配每对中的两个受试对 象到不同的处理组; ②自身配对。同一受试对象分别接受两种不同处理,其目的是 推断两种处理的效果有无差别。
0.4 0.4
思考1 t / 2, 与统计量t的区别? P与的区别和联系?
思考2:上例中,可 能会犯哪类统计学错 误,概率是多少?
0.3
0.3 0.2 0.2 0.1 0.1 0.0
-4
-3
-2
-1
0
t
1
2
3
4
图1 自由度等于100时的t分布
两独立样本资料抽样过程
方案一
总体1
随机抽样
样本1 研究对象 样本2
史及神经系统疾病的新生儿作为对照。获
得如下资料,请进行统计分析。
表 6-4 新生儿缺氧缺血性脑病患者与对照人群血浆 SOD 浓度(Nu/mg) 患者 106.31 112.36 对照 144.42 138.44 91.28 97.50 138.67 126.48 113.58 89.36 126.72 142.94 94.87 109.35 136.09 116.02 119.90 101.36 145.70 144.83 96.15 111.03 131.38 128.30 104.56 103.02 153.86 146.41 99.05 92.21 134.58 136.77 110.28 117.71 128.21 134.08 102.56 95.62 147.32 158.95
医学统计学:5总体均数的估计与假设检验
不同自由度下的t 分布图
f(t)
ν─>∞ (标准正态曲线) ν =5
ν =1
-5.0
-4.0
-3.0
-2.0
-1.0
0.0
1.0
2.0
3.0
4.0
5.0
t
t 分布性质
①单峰分布,曲线在t=0 处最高,并以t=0为中心 左右对称。 ②是一簇曲线,自由度越小,曲线的峰越低,尾部 越高,说明t值越分散。 ③随自由度增大,曲线逐渐接近正态分布;分布的 极限为标准正态分布。
t分布
样本含量n=5 样本含量n=100
t统计量的频数图
t分布的界值
双侧界值:给定自由度ν,双侧尾部面积为时对应的t值,记 为 t /2,v 单侧界值 :给定自由度ν,一侧尾部面积为时对应的t值,记 为 t ,v 对称性得:同一界值对应的双侧P值为单侧P值的两倍。 同样的尾部面积,t分布的界值要大于标准正态分布的界值。 t0.05/2,20=2.086> u0.05/2 =1.96
概念:给定置信度1-α,利用样本统计量和标准误,计算一个包含未知 总体参数的区间范围,称参数的可信区间。 表示:通常用两个数值表示:置信下限及置信上限。 意义:从总体中作随机抽样,作100次抽样,每个样本可算得一个可信 区间,得100个可信区间,平均有95个可信区间包括μ(估计正确),只有5 个可信区间不包括μ(估计错误)。 计算: μ: μ:
医学统计学-t检验
3 实例分析
例如,一个商家想知道提高广告投入是否会对销售额有所影响。在这种情况下,商家可 以使用回归分析来检查两个变量之间的关系。
t检验和非参数检验
非参数检验
t检验的假设检验
零假设
t检验的零假设通常是指两个组的平均值相等,即组 之间没有显著差异。这意味着任何观察到的差异可 能都是由于随机抽样误差造成的。
备选假设
如果零假设不成立,则t检验的备选假设通常是指两 个组的平均值不相等,即组之间存在显著差异。
什么情况下选择使用t检验?
样本数量
如果样本数量很小,其他的检验方法可能具有更 高的能力。
t检验和方差分析
方差分析
方差分析是一种用于比较三个或 更多群体之间差异的方法。它可 以用于比较顺序数据、类别数据 和等间隔数据。
t检验和方差分析的不同
t检验是用于比较两个群体之间差 异的方法,适用于均值分布差异 较小、样本较小的数据。而方差 分析适合适用于比较多个群体之 间差异的情况、以及数据间的交 互作用。
方差的同质性
如果两个样本的方差存在着显著的不同,那么两 样本的平均值之间的差异可能不是真实的。
样本分布
如果样本对不满足正态分布的要求,那么t检验 可能不是一个好的选择。
医学统计学:04 抽样误差与区间估计
只 有 了 解 抽 样 分 布 规 律 , 才 能 深 刻 理 解统计推断的内涵。
24 魏永越
x 表示总体均数的标准误。( )
sx 表示样本均数的标准误。( )
同一批数值变量资料的标准差不会比标准误大。( ) 即使变量X偏离正态分布,只要每次抽样的样本数足
29 魏永越
简答题
请简述标准差与标准误的区别和联系。 区别: 联系:
30 魏永越
由于个体变异的存在,由抽样引起的样本统计量与总 体参数间的差别。
原因:个体变异+抽样
表现:
不同样本统计量间的差别
样本统计量与总体参数间的差别
抽样误差是不可避免的! 抽样误差是有规律的!
ຫໍສະໝຸດ Baidu
8 魏永越
均数的抽样误差之特点
各样本均数未必等于总体均数; 样本均数间存在差异; 样本均数的分布很有规律;
抽样误差 与区间估计
从一个例子来谈抽样误差
假如事先知道某地七岁男童的平均身高为 119.41cm。研究者从所有符合要求的七岁男 童中每次抽取100人,共计抽取了五次。
2 魏永越
μ=119.4cm σ = 4.38cm
魏永越
119.4 u
122.7 121.0 118.1 108.3 124.5 121.1 115.8 120.9 117.9 ……
医学统计学:第四章 抽样误差与参数估计
3
§1 均数的抽样误差和总体均数的估计
由于变异的存在,抽样研究所造成的样本均数与总体均数 的差异,以及各样本均数间的差异称为均数的抽样误差。 抽样误差在抽样研究中是不可避免的,但只要严格遵循随 机化抽样的原则,就能估计抽样误差的大小。
n随机抽样时,样本均数 X 的分布仍服从正态分布。同
理,对正态变量 X 进行u变换(u (X ) X )后,也可
将正态分布N (
,
2 X
)
变换为标准正态分布 N(0,1)
19
由于实际工作中, 往往是未知的,常用s作
为 的估计值,此时不再是统计量u,而是统 计量t,统计量t的分布为t分布。
u (X
在实际工作中,可通过适当增加样本含量和 减少观察值的离散程度(选择同质性较好的 样本)来减少抽样误差。
18
§2 t 分布和总体均数的估计
一、t分布的概念
为了应用方便,常将正态变量进行变换,即,
u X
可将一般的正态分布变换为标准正态分布。
根据中心极限定理,在正态分布总体N (, 2 ) 中以固定
05
总体标准差 10 15 20 25 30 35 40 45
样本均数的标准差与总体标准差的关系
14
样本均数的分布规律:
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
-4
-3
-2
-1
0
1
2
3
4
图3.2 自由度分别为1、5、∞时的t分布
t分布的特征
• t分布为一簇单峰分布曲线 • t分布以0为中心,左右对称
• t分布与自由度有关,自由度越小,t分布的峰越
低,而两侧尾部翘得越高,;自由度逐渐增大时, t分布逐渐逼近标准正态分布;当自由度为无穷大 时,t分布就是标准正态分布。
P(t≤-2.228)+P(t≥2.228)=0.05 或:P(-2.228<t<2.228)=1-0.05=0.95。
t , t0.05,10 2.228
-2.228
2.228
中心极限定理(central limit theorem)
• 从均数为、标准差为 的总体中独立随机抽样,
当样本含量n增加时,样本均数的分布将趋于正态
分布,此分布的均数为,标准差为x
X
n
标准误(standard error,SE)
• 样本统计量的标准差称为标准误,用来衡量抽样 误差的大小。
3.抽样误差和 t 分布
Sampling error and t distribution
抽样误差的概念
• 由抽样引起的样本统计量与总体参数间的差异 • 两种表现形式
–样本统计量与总体参数间的差异 –样本统计量间的差异
抽样误差产生的条件
• 抽样研究 • 个体变异
均数的抽样误差及标准误
• 表现一:样本均数与总体均数之差值 • 表现二:多个样本均数间的离散度
反映统计量的变异。 –当n不变时,标准差↑,标准误↑
s sX
n
区别
s
意义
描述原始数据的离散程度,
衡量均数对原始数据的代表性
计算
直接法、加权法
与均数的关系s 越小, X 对样本数据的代表性好
s X
反映抽样误差的大小, 衡量样本均数估计总体均数的可靠 性s
sX n
s X 越小, X 估计的可靠性大
和标准差分别为 和s,设:
X
X X
t
sX
sn
• 则t值服从自由度为n-1的t分布(t-distribution)。Gosset于
1908年在《生物统计》杂志上发表该论文时用的是笔名
“Student”,故t分布又称Student t分布。
f(t)
=∞(标准正态曲线)
=5
=1 0.3
0.2
0.1
四个非正态分布的总体抽样结果
(A偏三角分布、B均匀分布、C指数分布、D双峰分布)
• 图3.1描述了来自不同总体的样本均数之抽样误差和 抽样分布规律。事实上,任何一个样本统计量均有其 分布。统计量的抽样分布规律是进行统计推断的理论 基础。
标准差与标准误的联系和区别
• 联系
–都是变异指标。S反映个体观察值的变异;
t分布的特征
• 每一自由度下的t分布曲线都有其自身分布规律
• t分布表明,从正态分布总体中随机抽取的样本,由样本计算的t值接 近0的可能性较大,远离0的可能性较小。t0.05,10=2.228,表明,从 正态分布总体中抽取样本含量为n=11的样本,则由该样本计算的t值
大于等于2.228的概率为0.025,小于等于-2.228的概率亦为0.025。
与 n 的关系 n →∞,s →
n →∞, s → 0 X
应用
表示观察值波动的大小
表示抽样误差的大小
用于计算变异系数
用于均数的假设检验
计算标准误
结合样本均数和正态分布的规律, 结合样本均数和正态分布的规律,
ห้องสมุดไป่ตู้
估计参考值范围
估计参数的可信区间
t分布
• 设从正态分布N(, )中随机抽取含量为n的样本,样本均数
• 样本均数的标准差称为标准误。此标准误与个体
变异 成正比,与样本含量n的平方根成反比。
• 实际工作中, 往往是未知的,一般可用样本标准差s
代替 :
sX s n
• 因为标准差s随样本含量的增加而趋于稳定,故增加样
本含量可以降低抽样误差。
• 中心极限定理表明,即使从非正态总体中随 机抽样,只要样本含量足够大,样本均数的 分布也趋于正态分布 ,见图3.1 。