均数的抽样误差分布参数估计

合集下载

抽样分布与参数估计

抽样分布与参数估计

三、t分布曲线下的面积分布规律
自由度为 的t分布曲线
t 分布曲线下 的整个面积为1, t 分布曲线下从a到b 的面积为t值分布 在此范围内的百分 比,即t值落在此 范围内的概率P。
双侧:由于t分布以0为中心对称,即 P(t≤- t, )= P(t≥ t, )= /2 于是有P(- t, ≤t≤ t, )=1-
sx
u X
X
t X =n-1
s X
u分布 t分布
二、t分布图形的特点
• 1. t分布是一簇曲线。 t分布有一个参数, 即自由度 ,与标准差的自由度一致。
• 2. t分布曲线以0为中心,左右对称; 越小, t变量值的离散程度越大,曲线越扁平。
• 3. t分布曲线较标准正态曲线要扁平些(高 峰低些,两尾部翘得高些), 逐渐增大, t分布曲线逐渐的逼近于标准正态曲线,若 =,则t分布曲线和标准正态曲线完全吻 合。
参数估计在统计方法中的地位
统计方法
描述统计
推断统计
点值估计
参数估计
假设检验
区间估计
一、基本概念
➢ 参数估计:用样本统计量来估计总体参数。
点值估计:不计抽样误差,直接用样本均数来 估计μ。
区间估计:根据抽样误差的规律,按一定的概 率估计总体均数的所在范围。统计上习惯用95% 或99%可信区间表示总体均数可能所在范围。
第一节 均数的抽样误差 第二节 t分布 第三节 总体均数可信区间的估计
一、抽样研究:从总体中随机抽取部分 观察单位构成样本,用样本信息去 推断总体特征的研究方法。
统计推断的过程
总体

样本统计量

例如:样本均
值、比例
二、抽样误差:在抽样研究中,因抽样造 成的样本统计量与样本统计量、样本统计 量与总体参数的差值。

抽样误差和可信区间-幻灯片(1)

抽样误差和可信区间-幻灯片(1)

均数之差可信区间的计算
正常组
肝炎组
1=?
2=? 1- 2 =?
均 数:273.18ug/dL 标准差:9.77ug/dL
均 数: 231.86ug/dL 标准差:12.17ug/dL
X1X242.32
合并方差与均数之差的标准误
❖ 合并方差(方差的加权平均)
sC 2 (n11n)1s 12 n2(n 221)s22
❖ 每一自由度下的t分布曲线都有其自身分布规律。t界值 表。
t分布曲线下的面积
f (x)
nn21n1
x2 n
n12
2
-t 0 t
t界值表
单侧:
P(t <-tα,ν)= α或 P(t >tα,ν)= α 双侧:
-t 0 t
P(t <-tα/2,ν)+ P(t >tα/2,ν)= α 即:P(-tα/2,ν<t <tα/2,ν)= 1-α [例] 查t界值表得t值表达式
可信区间的定义
❖ 按一定的概率或可信度(1-α)用一个区间 来估计总体参数所在的范围,该范围通 常称为参数的可信区间或者置信区间 (confidence interval,CI),预先给定的概 率(1-α)称为可信度或者置信度 (confidence level),常取95%或99%。
❖ 可信区间(CL, CU )是一开区间 CL、CU 称 为可信限
❖ 这里的95%,指的是方法本身!而不
是某个区间! ❖ 总体参数虽未知,但却是固定的值,
而不是随机变量值 。
95%可信区间的含义
按这种方法 构建的可信区 间,理论上平 均每100次,有 95 次 可 以 估 计 到总体参数。

4 第四章 均数的抽样误差与t分布

4 第四章  均数的抽样误差与t分布
数值变量资料的统计推断
统计推断包括两个方面: 统计推断包括两个方面: 参数估计( 1、参数估计(总体均数的可信区 间估计) 间估计) 假设检验(均数的假设检验) 2、假设检验(均数的假设检验) 两样本均数必较( 检验、 ⑴、两样本均数必较(u检验、 检验) t检验) 多样本均数必较( 检验) ⑵、多样本均数必较(F检验)
t分布
(t - distribution) distribution)
从正态总体中随机抽取含量为n 从正态总体中随机抽取含量为n的若 干样本,由样本算得样本均数x 干样本,由样本算得样本均数x,x服从 正态分布, 则称为正态变量。若已知µ 正态分布,x则称为正态变量。若已知µ, 但未知σ 为了应用方便,可用s代替σ 但未知σ,为了应用方便,可用s代替σ, 求得σ 的估计值S 正态变量x 求得σx的估计值Sx,正态变量x可作变量 变换:t=(x变量变成t变量。 变换:t=(x-µ)/Sx, x变量变成t变量。每 个样本x可算得一个t变量, 个样本x可算得一个t变量,所有可能含量 的样本的t值构成t变量总体, 分布。 为n的样本的t值构成t变量总体,即t分布。
可信区间的两个要素
1.准确度 反映在可信度1 1.准确度:反映在可信度1–α的大 准确度: 小上,即区间包含总体均数的概率大小。 小上,即区间包含总体均数的概率大小。 概率越大越准确。 概率越大越准确。 2.精度 反映在可信区间的长度上。 2.精度:反映在可信区间的长度上。 精度: 长度越小越精密。 长度越小越精密。 在 n 确定的情况下,二者是矛盾的。 确定的情况下,二者是矛盾的。 (α ↓, tα.ν ↑) 如提高可信度 ,则区间变 在可信度确定的情况下, 长。在可信度确定的情况下,增加样本 减小区间长度, 例数 (SX ↓, tα,减小区间长度,提高 ↓) .ν 精度。 精度。

均数的抽样误差和总体均数估计

均数的抽样误差和总体均数估计
应用领域
在医学、生物学、经济学和社会科学 等领域中,均数的抽样误差和总体均 数估计都是重要的统计工具,用于指 导研究和决策。
02
均数的抽样误差
抽样误差的定义
抽样误差是由于从总体中随机抽取样本而产生的误差,它反映了样本均数 与总体均数之间的差异。
抽样误差是不可避免的,因为每个样本都是独特的,不可能完全复制总体。
研究结论
01
抽样误差是衡量样本均数与总体均数接近程度的重要
指标,其大小直接影响到总体均数的估计精度。
02
在大样本条件下,样本均数的抽样误差通常较小,能
够较好地反映总体均数的真实情况。
03
通过增加样本量或提高样本代表性,可以减小抽样误
差,提高总体均数估计的准确性。
对未来研究的建议
01
进一步研究不同抽样方法对均数抽样误差的影响,以便在实际 应用中选择合适的抽样方法。
市场调研
市场调研中,企业通过抽样调查了解 消费者需求、市场趋势等信息,进而 估计总体均数,制定营销策略。
医学研究中均数估计的应用
临床试验
在临床试验中,研究者通过随机抽样方 法选取一定数量的患者作为样本,根据 样本数据估计总体均数,进而评估药物 疗效。
VS
流行病学研究
流行病学研究中,研究者通过抽样调查方 法了解疾病在人群中的分布情况,估计总 体均数,为制定疾病防控策略提供依据。
均数的抽样误差和总体均 数估计
• 引言 • 均数的抽样误差 • 总体均数的估计 • 样本大小与均数估计精度 • 实际应用案例 • 结论与展望
01
引言
主题简介
均数的抽样误差
指通过样本均数来估计总体均数时所存在的误差范围。
总体均数估计

统计学课堂练习题4

统计学课堂练习题4

一、名词解释抽样误差、均数的抽样误差、标准误、可信区间二、填空题1.参数估计可分为_____点估计____ 和__区间估计______ 。

2. 在抽样研究中,当样本含量趋向无穷大时,X 趋向等于__μ___,S 趋向等于__0__,t(0.05,v) 趋向等于________ 。

3、定量资料常用的假设检验方法有 t 检验 、 u 检验 、 方差分析 。

4、方差分析可用于两个或两个以上样本均数的比较,其应用时要求,(1)正态分布;(2)方差齐。

5、标准误是 均数 的标准差,与标准差的关系可用公式 n s表示。

6、假设检验时根据检验结果作出的判断, 可能发生两种错误, 第一类错误的概率为 α,第二类错误的概率为 β , 同时减少两类错误的唯一方法是 增加样本含量 。

7、t 检验的应用条件是 正态分布 和 方差齐 。

8. 配对设计差值的t 检验无效假设是 d =0 。

9、两样本比较t 检验要求资料(1) 正态分布 ;(2) 方差齐 。

10、样本量较小的二组数值变量资料进行t 检验时,要求二组资料呈 正态分布; 方差齐。

11、数值变量数据常用的参数统计方法有 t 检验、u 检验和方差分析。

三、是非题1.在假设检验中,无论是否拒绝H 0,都有可能犯错误。

( V )2.同类研究的两组资料,n 1=n 2,则标准差大的那一组 ,μ的95%可信区间范围也一定小。

( X )3.两个同类资料的t 检验,其中P 1<0.01, 0.01﹤P 2<0.05,说明前者两样本均数之差大于后者。

( X )4.均数比较的u 检验的应用条件是n 较大或n 虽小但σ已知。

(V )5.标准误越小,表示用样本均数估计总体均数的可靠性越大。

( V )6.统计的假设是对总体特征的假设,其结论是概率性的,不是绝对的肯定或否定。

( V )7.成组设计的两样本几何均数的比较;当n 足够大时,也可以用u 检验。

(V )8.在配对T 检验中,用药前数据减去用药后的数据和用药后的数据减去用药前的数据,作T 检验后的结论是相同的。

医学统计学计量资料的统计推断

医学统计学计量资料的统计推断

医学统计学计量资料的统计推断主要内容:标准误t 分布总体均数的估计假设检验均数的 t检验、u 检验、方差分析几个重要概念的回顾:计量资料:总体:样本:统计量:参数:统计推断:参数估计、假设检验第一节均数的抽样误差与总体均数的估计欲了解某地2000年正常成年男性血清总胆固醇的平均水平,随机抽取该地200名正常成年男性作为样本。

由于存在个体差异,抽得的样本均数不太可能恰好等于总体均数。

一、均数的抽样误差与标准误一、均数的抽样误差与标准误抽样误差:由于抽样引起的样本统计量与总体参数之间的差异X数理统计推理和中心极限定理表明:1、从正态总体N(??,??2)中,随机抽取例数为n的样本,样本均数??X 也服从正态分布;即使从偏态总体抽样,当n足够大时??X也近似正态分布。

2、从均数为??,标准差为??的正态或偏态总体中抽取例数为n的样本,样本均数??X的总体均数也为??,标准差为X标准误含义:样本均数的标准差计算:(标准误的估计值)注意: X 、S??X均为样本均数的标准误标准误意义:反映抽样误差的大小。

标准误越小,抽样误差越小,用样本均数估计总体均数的可靠性越大。

标准误用途:衡量抽样误差大小估计总体均数可信区间用于假设检验二 t 分布对正态变量样本均数??X做正态变换(u变换):X 常未知而用S??X估计,则为t变换:二、 t 分布t值的分布即为t分布t 分布的曲线:与??有关t分布与标准正态分布的比较1、二者都是单峰分布,以0为中心左右对称2、t分布的峰部较矮而尾部翘得较高说明远侧的t值个数相对较多即尾部面积(概率P值)较大。

当ν逐渐增大时,t分布逐渐逼近标准正态分布,当ν→??时,t分布完全成为标准正态分布t 界值表(附表9-1 )t??/2,??:表示自由度为??,双侧概率P为??时t的界值t分布曲线下面积的规律:中间95%的t值:- t0.05/2,?? ?? t0.05/2,??中间99%的t值:- t0.01/2,?? ?? t0.01/2,??单尾概率:一侧尾部面积双尾概率:双侧尾部面积(1) 自由度(ν)一定时,p与t成反比;(2) 概率(p)一定时,ν与t成反比;三总体均数的估计统计推断:用样本信息推论总体特征。

医学统计:均数的抽样误差与总体均数估计

医学统计:均数的抽样误差与总体均数估计
05
的标准差与总体标准差的关系
样本均数的分布规律:
①以特定的样本量 n 从正态总体 N(,2)中抽取样本,所得样
本均数 x 的分布为正态分布。 ②样本均数的均数等于原正态分布的总体均数,即 x 。
③样本均数的变异程度小于原变量的变异程度,即 x 。
④样本均数的标准差为: x / n
中心极限定理和正态分布推理
中心极限定理:也称大数定理,从正态分布 N(, 2 ) X
总体中以固定 n 抽样时,样本均数 X 的分布仍服从正态
分布 N (, 2 ) 。
X
~
N


,
2
n

正态分布推理:当样本含量 n 足够大时,即使从偏态分
样本均数(cm) 从正态总体N(1554,53)中以n=20抽样10000次
样本均数的分布
从正态总体N(155.4,5.3)中以样本量n=20抽样10000次样本均数 X 的描述结果
样本个数 10000
X 的均值 155.4102561
X 的标准差 1.2028796
最小值 150.2155347
最大值 160.9946597
抽样误差在抽样研究中是不可避免的,但只要严格遵循 随机化抽样的原则,就能估计抽样误差的大小。
第一节 均数的抽样误差和总体均数的估计
由于变异的存在,抽样研究所造成的样本均数与总体均数 的差异,以及各样本均数间的差异称为均数的抽样误差。
抽样误差在抽样研究中是不可避免的,但只要严格遵循随 机化抽样的原则,就能估计抽样误差的大小。
6 10000
2000
1500
1000
500
0
149 150 151 152 153 154 155 156 157 158 159 160 161

医学统计学总体均数的估计和假设检验

医学统计学总体均数的估计和假设检验

3.106
3.055
3.012 2.977 2.947 2.921 2.898 2.878 2.861 2.845 2.750 2.704 2.678 2.626
2.58
3.497
3.428
3.372 3.326 3.286 3.252 3.222 3.197 3.174 3.153 3.030 2.971 2.937 2.871 2.8070
t x
sX
统计量是t的分布就是t分布。
t分布的特征: ① 以0为中心,左右对称呈单峰分布; ② t分布是一簇曲线,分布参数为自由度υ。 ③ t分布的形状与样本例数n有关,高峰比正态分
布略低,两侧尾部翘得比正态分布略高。越大, 曲线越近正态分布,当ν=∞时,t分布即为z分布。 由于t分布是一簇曲线,为了便于应用,统计学 家编制了表4-4-1 t界值表。
3)与例数的关系不同:当样本含量足够大时,标准 差趋向稳定。而标准误随例数的增大而减小,甚至趋 向于0。若样本含量趋向于总例数,则标准误接近于0。
联系;二者均为变异指标,如果把总体中各样本均 数看成一个变量,则标准误可称为样本均数的标准差。 当样本含量不变时,均数的标准误与标准差成正比。 两者均可与均数结合运用,但描述的内容各不相同。
活量的95%的可信区间。
本例n=5, =4,t0.05,4=2.776
x t0.05sx =2.44±2.776×0.33/ 5 =2.03~2.85(L)
该地17岁女中学生肺活量均数的95%可信区间为2.03L~2.85L。
例4-4-3 由例4-2-1 101名30~49岁健康男子血清总 胆固醇 X 4.735mmol·L-1,S=0.88 mmol·L-1,求该 地健康男子血清总胆固醇值均数的95%可信区间。

5.1样本均数的抽样分布与抽样误差(精)

5.1样本均数的抽样分布与抽样误差(精)
n均数抽样误差
n由固然存在的个体变异和抽样造成的样本均数与样本均数及样本均数与总体均
数之间的差异称为均数的抽样误差。
小结
1.抽样分布和抽样误差n样本统计量抽样分布误差含义及误差产生原因n
2.样本均数抽样分布和抽样误差n正态分布总体样本均数抽样分布规律非正态分布总体样本均数抽样分布规律n
n抽样分布
n由于抽样误差存在,从同一总体中随机抽取若干份样本,所得样本统计量是不
一致的,差异无法避免但其存在一定的分布规律。
2.样本均数抽样分布和抽样误差n正态分布总体样本均数抽样分布的电脑试验n
假定某年某地所有13岁女生的身高服从总体均数为155.4 cm,总
155.4,5.32)。用计算机从该总体中体标准差为5.3cm的正态分布N(
n非正态分布总体样本均数抽样分布的电脑实验n图(a)是正偏峰分布原始数据对应的直方图,用计算机随机抽取样本量分别为5, 10, 30和50的样本各1000份,计算样本均数并绘8
9
n中心极限定理表明
n 2 N m, s从正态总体()中随机抽取例数为n的多个样本,样本均数服从正态分布;即使是从偏态总体中随机抽样,当n足够大时(如n>30),样本均数也近似正态分布,且样本均数的均数等于原分布的均数。
第五章参数估计基础
一、样本均数的抽样分布与抽样误差
内容
1.抽样误差和抽样分布
2.样本均数抽样分布和抽样误差
1.抽样误差和抽样分布
n误差泛指实测值和真实值之差。按其产生原因与性质分两大类:系统误差和随
机误差。抽样误差是一种随机误差。n抽样误差
由于生物固有的个体变异,从某一总体中随机抽取一个样本,所得样本统计量与
随机抽样,每次抽取30例组成一份样本,重复抽样100次,计算每份样本的平均身高。

总体均数

总体均数

第三单元总体均数的估计和假设检验第一节均数的抽样误差与标准误1.均数的抽样误差例如:在北京市估计10岁男孩身高。

样本均数与总体均数之间的差异或样本均数之间的差异都是由于抽样引起的,称为均数的抽样误差。

影响均数的抽样误差大小的因素有两个:总体内各个个体间的变异程度;样本的含量n的大小。

与样本量的关系:S 一定,n↑,标准误↓。

2.标准误描写抽样误差大小的统计量称为标准误。

对计量资料,其计算公式为:例1、测量140名正常人的空腹血糖,得试计算标准误。

第二节t分布1.概念William Sealey GossetBorn: 13 June 1876 in Canterbury, EnglandDied: 16 Oct 1937 in Beaconsfield, England2.图形特征(1)以0为中心,左右对称;(2)形状与自由度有关,自由度越小,曲线的峰部越低,尾部越高;(3)随自由度增大逼近标准正态分布,当自由度为∞时,t分布就是标准正态分布。

3.曲线下面积特点与t临界值表t 值表(附表1)横坐标:自由度,υ。

纵坐标:概率p, 即曲线下阴影部分的面积;表中的数字:相应的 |t| 界值。

第三节总体均数的估计参数估计:用样本指标值(统计量)估计总体指标值(参数)。

统计推断的任务就是用样本信息推论总体特征。

参数估计,用样本均数估计总体均数。

1、点(值)估计(近似值)2、区间估计(近似范围)▲概念:根据样本均数,按一定的可信度计算出总体均数很可能在的一个数值范围,这个范围称为总体均数的可信区间(confidence interval, CI)。

区间估计:1.当n足够大时,总体均数的区间估计:总体均数的95%的置信区间:总体均数的99%的置信区间:140名正常人的空腹血糖的95%与99%的区间估计为:(88.55-1.96×1.096,88.55+1.96×1.096)即:(86.40, 90.70)(88.55-2.58×1.096,88.55+2.58×1.096)即:(85.72,91.38)2.当n较小且总体方差未知时,总体均数的区间估计例2、测得25名1岁婴儿血红蛋白均数为123.7g/L,标准差为11.9g/L。

中医药统计学与软件应用-参数估计与假设检验

中医药统计学与软件应用-参数估计与假设检验
32
第二节 假设检验——引言
参数估计可以用于推断某个未知总体参数取值 的可能范围,在实际工作中还会遇到这样的问 题:某种药物中有效成分含量是否符合国家规 定的标准值?两种药物治疗某种疾病的有效率 是否存在差异?某个变量的分布是否服从某种 理论分布等等。要回答这类问题,需要使用统 计推断的另一类重要方法——假设检验 (hypothesis test)来解决。
27
第一节 参数估计——区间估计
模拟重复抽样分布实验的95%可信区间示意图
28
置信区间与参考值范围的区别
1. 意义不同: ① 置信区间:按预先给定的概率所确定的总体参
数的可能范围。 ② 参考值范围:指同质总体内包括百分之多少个
体值的估计范围。常用于“正常人”的解剖、生理、 生化指标等个体值的波动范围。 2. 应用不同:
5
N (4.5, 0.22 )
总体
样本
100
样本


随机抽样
样本

100次
样本
6
100个样本均数的频数分布
7
第一节 参数估计——均数的抽样误差与标准误
样本均数的抽样分布具有以下特点 ➢ 各样本均数未必均等于总体均数; ➢ 样本均数之间存在差异; ➢ 样本均数的分布规律: 围绕着总体均数,中间多两边 少,左右对称,基本服从正态分布; ➢ 样本均数的变异较原变量的变异范围小; ➢ 随着样本含量的增加,样本均数的变异范围逐渐缩小。
查表法:当 n 50 时,可根据样本阳性例数 X 及样本含量n,直接查二项分布百分率的可信区 间
正态近似法:当n足够大,且p和1-p均不太小时
p Z / 2Sp p Z / 2Sp
【例6-5】 某医生欲了解某新药治疗老年慢性支气管 炎合并肺气肿的疗效,共治疗患者40例,其中18人有效, 试估计该药有效率的95%可信区间。

《卫生统计学》第六章 参数估计基础

《卫生统计学》第六章  参数估计基础
.
二、总体概率可信区间的计算
1.查表法:n≤50,特别是p接近0或100%时,可查 附表6(P478-480),二项分布概率的置信区间表, 例6-4。
注意:附表6中X值只列出了X≤n/2部分,当X>n/2 时,应以n - X值查表,然后用100减去查得的数 值,即为所求的区间。
2.正态近似法**:当n较大且np和n(1-p)均大于5 时,二项分布接近正态分布,则总体率的双侧 (1-α)可信区间为: P ± Ζα/2· Sp
f(t)
0.4
υ=∞
υ=5
0.3
υ=1
0.2
0.1
0.0
t
-5 -4 -3 -2 -1 0 1 2 3 4 5
图6-4 自由度为1、5、∞的t分布
.
t分布的特征:只有一个参数ν 以0为中心,左右对称的单峰分布; t分布是一簇曲线,形态变化与n(即自由度)大
小有关。自由度ν越小,t分布曲线越低平;自 由度ν越大,t分布曲线越接近标准正态分布 (Ζ分布)曲线。 t分布峰部较矮,尾部翘得较高,说明远侧的t值 的个数相对较多,即尾部面积(概率P)较大。 自由度ν越小这种情况越明显,ν渐大时,t分 布渐逼近标准正态分布;当ν=∞时,t分布就成 为标准正态分布了。 附表2,t界值表P467
.
均数的抽样误差——指由抽样而造成的样本均数 与总体均数之间的差异。
x 称标准误,它说明均数抽样误差的大小。
x / n
n越大,标准误越小,样本均数的抽样误差亦越小 实际工作中,σ常未知,而是用样本标准差s来估
计,则有 sx s/ n
常用来说明均数的抽样误差的大小。
.
即使从偏态总体抽样,当n足够大时, 样本均数也近似正态分布(见实验6-2, 观察图6-1及图6-2的变化)。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
间越低,两边越高;随自由度增大, t分布 曲线逐渐逼近于标准正态分布曲线。 ❖ 当自由度无穷大时, t分布就是标准正态分 布曲线。 ❖ 每一条t分布曲线,都对应于相应的自由度。 ❖ t分布模拟试验
t分布曲线下的面积规律 ❖ 与标准正态曲线下的面积规律相似:
❖ 在某一个自由度下,两侧外部总面积为5%的界 限的t值称为t0.05/2(υ),把两侧外部总面积为1% 的界限的t值称为t0.01/2(υ)。
450 400 350 300 250 200 150 100 50
0
均数
500 450 400 350 300 250 200 150 100
50 0 2.08 2.34 2.61 2.87 3.14 3.40 3.66 3.93 4.19 4.46 4.72 4.98 5.25 均数
3.93
4.19
❖样本均数的标准差是什么?…….. •标准误
❖ 100个样本均数构成一个新的分布,也是正态分 布。
❖ 即使原分布为偏态分布,当样本含量足够大时,
新分布也近似正态分布)。新分布的集中趋势用
均数的均数来表示,离散趋势用标准误表示
N(,Βιβλιοθήκη 2 X)。❖ 各样本均数的均数等于总体均数。
正态总体中抽样(样 本量5)
❖ 与标准差的区别: ❖ 标准差:表示一般个体值的离散程度; ❖ 标准误:特别说明统计量的离散程度。
再思考一个问题:
v 其它的统计量有抽样误差吗? v 它们的计算公式怎样?
X
n
SX
S n
标准误的应用
1、用来衡量抽样误差的大小: 标准误越小,样本均数与总体均数越接近, 样本均数的可信度越高;
2、结合标准正态分布与 t 分布曲线下的面积规 律,估计总体均数的置信区间。
❖ 即:
N(,X 2)N(0,1)
u X X
v 实际工作中,总体标准差往往未知,常用S代替σ 计 算标准误,因此:为了和u分布区别,就变为:
t X X
SX S/ n
均数的分布也是这样
❖ 如果我们采用另一个正态变量:
X
u
X
u x
❖ 于是,均数的分布变成了标准正态分布:
N(,X 2)N(0,1)
❖ 医学现象许多呈正态分布,或近似正态分布:如 正常人的生理,生化指标变量,等
❖ 正态分布的密度函数:式中μ为均数;σ为标
准差;π为圆周率;е为自然对数的底,即
2.71828。以上均为常数,仅x为变量。
f(x)
1
(1)[(x )]2
e2
2
(1
)
x
❖ 标准正态分布: ❖ 为了应用方便,常将式进行变量变换,即:u
变换. 所得到的新变量u的分布即为标准正态 分布。
❖ u的含义:变量到均数间的距离相当于标准差 的倍数。
u x
x
标准正态分布的概率密度函数:
(u)
1
(u2 )
e2
2
(2 )
u
❖ 正态分布的特征和分布规律:
❖ (1)曲线在x轴的上方,与x轴不相交,当x=μ 时,曲线位于最高点。 f(u=0)=0.3989
4.46
4.72
4.98
5.25
抽样时样本量大小 决定了样本均数分 布的形状,当样本 量足够大时,均数 分布趋向正态分布。
二、t 分布(t-distribution)
还记得吗?
u x
❖ u转换将正态分布转换为标准正态, N(0, 1)。
❖ 同理:将样本均数的分布也可以转换为标准正态 分布 。
请思考:
❖抽样? ❖统计量? ❖抽样分布?
一、均数的抽样误差和标准误
均数的抽样误差sampling error of mean
由于总体中存在个体变异,抽样研究中
所抽取的样本,只包含总体中一部分个体, 因而样本均数(或率)往往不等于总体均数 (或率),样本均数之间也互不相等,这种 由抽样引起的差异称为均数的抽样误差的体 现。
但是,条件发生了变化
❖ 我们通常用 S X
代替 X
u X X
X X
t
SX S/ n
❖ 然而,S X 随着样本量的变化而变化,所以,我
们称之为 t-分布,虽然它是正态分布,但只有 当样本量(自由度)无穷大的时候,它才是标
准正态分布,此时,u=t
t分布曲线
❖ t分布是一簇对称于0的单峰分布曲线。 ❖ 自由度越小(相当于标准差大),曲线的中
即: X i
Xi Xj
❖如何估计抽样误差?
❖ 标准误 standard error,SE
❖ 以样本均数为例:
X
n
SX
S n
❖ SE 越大,均数的抽样误差越大,样本均数与 总体均数间的差异越大。
❖ 当样本例数一定时,样本均数的标准误与原 始数据的标准差成正比;当标准差一定时, 标准误与样本含量 n 的平方根成反比。增加 样本含量可以减小抽样误差。
3、用于假设检验。
抽样分布
❖ 假定2003年汕头市15岁女学生的身高服从均 数155.4cm、标准差5.3cm的正态分布。用计 算机做抽样模拟试验,从N(155.4, 5.32)的总 体中,每次抽出10个数字(样本含量为10), 组成一个样本,求出样本均数 X 、样本标 准差 S。 再求得此100个样本均数的均数、 样本均数的标准差。
❖ (2)曲线关于直线x=μ左右对称。 ❖ (3)正态分布有两个参数:均数,标准差;标准正
态的参数分别为:0, 1 ❖ (4)正态分布的面积分布有一定规律。
正态分布和标准正态分布曲线下面积分布规律
双侧概率
(-1,1),68.27%
(-1.96,1.96),95%
(-2.58,2.58),99%
单侧概率
主要内容
❖ 均数的抽样误差
❖ t分布 ❖ 参数估计
回顾:正态分布(normal distribution)
❖ 概念: 频数分布以均数为中心,左右两侧基本对称, 靠近均数两侧频数较多,离均数愈远,频数愈少, 形成一个中间多,两侧逐渐减少的对称分布。
❖ 是一种连续型分布。又称高斯分布.
❖ 正态分布用N(µ, 2 )表示,其位置与均数有关, 形状与标准差有关。
正态总体中抽样(样 本量10)
正态总体中抽样(样 本量30)
频数
频数
频数
2.08
2.34
2.61
2.87
3.14
3.40
3.66
450 400 350 300 250 200 150 100
50 0 2.08 2.34 2.61 2.87 3.14 3.40 3.66 3.93 4.19 4.46 4.72 4.98 5.25 均数
相关文档
最新文档