-抽样误差与假设检验
第三章抽样误差与假设检验详解演示文稿
态分布N (0,1)。
(二)t分布
由于在实际工作中,往往σ是未知 的,常用s作为σ的估计值,为了与Z变 换区别,称为t 变换t = x ,统计量 t 值的分布称为t 分布。 sx
t分布有如下特征
1.以0为中心,左右对称的单峰分布;
2.t分布是一簇曲线,其形态变化与n(确切地 说与自由度ν)大小有关。自由度ν越小,t分布曲 线越低平;自由度ν越大,t分布曲线越接近标准 正态分布(u分布)曲线,如图4.1。
从什么分布,X 的抽样分布均近似正态。
抽样分布
图 抽样分布示意图
二.均数的抽样误差
如上所述,数理统计研究表明,抽样 误差具有一定的规律性,可以用特定的指 标来描述。这个指标称为标准误 (standard error SE)。
标准误除了反映样本统计量之间的离 散程度外,也反映样本统计量与相应总体 参数之间的差异,即抽样误差大小。
标准误的计算公式:
x / n
sx
s n
•意义:反映抽样误差的大小。标准误越小, 抽样误差越小,用样本均数估计总体均数的 可靠性越大。
•与样本量的关系:S 一定,n↑,标准误↓
例4.1 在某地随机抽查成年男子140人, 计算得红细胞均数4.77×1012/L,标准差 0.38 ×1012/L ,试计算均数的标准误。
第三章抽样误差与假 设检验详解演示文稿
优选第三章抽样误差 与假设检验
第三章 抽样误差与假设检验
熟悉: 1、抽样误差的概念 2、引起抽样误差的原因 3、均数的标准误的计算 4、标准差和标准误的区别
第一节 抽样分布与抽样误差
一.抽样研究 (一)抽样研究的意义
总体
抽样误差与假设检验(ppt 43页)
假设检验的基本思想—利用反证法的思想
利用小概率反证法思想,从问题的对立面(H0)出发间 接判断要解决的问题(H1)是否成立。然后在H0成立的条
件下计算检验统计量,最后获得P值来判断。当P小于或等 于预先规定的概率值α,就是小概率事件。根据小概率事件
的原理:小概率事件在一次抽样中发生的可能性很小,如果 他发生了,则有理由怀疑原假设H0,认为其对立面H1成立
判断观察对象的某
项指标正常与否
• 某地调查100人得收缩压均数为18.62kPa, 标准差为1.33kPa。试估计:
• 该地95%的人收缩压在什么范围? • 该地所有人收缩压的均数可能在什么范围?
假设检验的意义和步骤
(Hypothesis Test)
要求: 掌握:假设检验的基本思想和基本步
骤,样本均数与总体均数的比较,配对 资料的比较,两个样本均数的比较,假 设检验应注意的问题。
4 .7, 7 S0 .3, 8 n 140
下限: X - u /2 . S X 4 . 7 1 . 9 7 0 . 3 6 /1 8 4 . 7 ( 1 0 1 1 /L 2 0 ) 上限: X u / 2 . S X 4 . 7 1 . 9 7 0 . 3 6 /1 8 4 . 8 ( 1 0 3 1 / L 2 0 )
24
1.711 2.064 2.492 2.797
25
1.708 2.060 2.485 2.787
2①6 自由度1相.7同06时,2│.0t5│6值越2.4大79,概2率.77P9越小;
2②7 t值相同1.时70,3 t0.025/.20,2522= t02.0.2457,223=2.20.7747。1
假设检验
假设检验是用来判断样本与样本,样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。
其基本原理是先对总体的特征作出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受作出推断。
生物现象的个体差异是客观存在,以致抽样误差不可避免,所以我们不能仅凭个别样本的值来下结论。
当遇到两个或几个样本均数(或率)、样本均数(率)与已知总体均数(率)有大有小时,应当考虑到造成这种差别的原因有两种可能:一是这两个或几个样本均数(或率)来自同一总体,其差别仅仅由于抽样误差即偶然性所造成;二是这两个或几个样本均数(或率)来自不同的总体,即其差别不仅由抽样误差造成,而主要是由实验因素不同所引起的。
假设检验的目的就在于排除抽样误差的影响,区分差别在统计上是否成立,并了解事件发生的概率。
在质量管理工作中经常遇到两者进行比较的情况,如采购原材料的验证,我们抽样所得到的数据在目标值两边波动,有时波动很大,这时你如何进行判定这些原料是否达到了我们规定的要求呢?再例如,你先后做了两批实验,得到两组数据,你想知道在这两试实验中合格率有无显著变化,那怎么做呢?这时你可以使用假设检验这种统计方法,来比较你的数据,它可以告诉你两者是否相等,同时也可以告诉你,在你做出这样的结论时,你所承担的风险。
假设检验的思想是,先假设两者相等,即:μ=μ0,然后用统计的方法来计算验证你的假设是否正确。
假设检验的基本思想1.小概率原理如果对总体的某种假设是真实的,那么不利于或不能支持这一假设的事件A(小概率事件)在一次试验中几乎不可能发生的;要是在一次试验中A竟然发生了,就有理由怀疑该假设的真实性,拒绝这一假设。
2.假设的形式H0——原假设,H1——备择假设双尾检验:H0:μ = μ0,单尾检验:,H1:μ < μ0,H1:μ > μ0假设检验就是根据样本观察结果对原假设(H0)进行检验,接受H0,就否定H1;拒绝H0,就接受H1。
假设检验
假设检验亦称“显著性检验(Test of statistical significance)”,是假设检验用来判断样本与样本,样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。
其基本原理是先对总体的特征作出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受作出推断。
生物现象的个体差异是客观存在,以致抽样误差不可避免,所以我们不能仅凭个别样本的值来下结论。
当遇到两个或几个样本均数(或率)、样本均数(率)与已知总体均数(率)有大有小时,应当考虑到造成这种差别的原因有两种可能:一是这两个或几个样本均数(或率)来自同一总体,其差别仅仅由于抽样误差即偶然性所造成;二是这两个或几个样本均数(或率)来自不同的总体,即其差别不仅由抽样误差造成,而主要是由实验因素不同所引起的。
假设检验的目的就在于排除抽样误差的影响,区分差别在统计上是否成立,并了解事件发生的概率。
在质量管理工作中经常遇到两者进行比较的情况,如采购原材料的验证,我们抽样所得到的数据在目标值两边波动,有时波动很大,这时你如何进行判定这些原料是否达到了我们规定的要求呢?再例如,你先后做了两批实验,得到两组数据,你想知道在这两试实验中合格率有无显著变化,那怎么做呢?这时你可以使用假设检验这种统计方法,来比较你的数据,它可以告诉你两者是否相等,同时也可以告诉你,在你做出这样的结论时,你所承担的风险。
假设检验的思想是,先假设两者相等,即:µ=µ0,然后用统计的方法来计算验证你的假设是否正确。
用的假设检验有Z检验、T检验、配对检验、比例检验、秩和检验、卡方检验等。
编辑本段意义假设检验是抽样推断中的一项重要内容。
它是根据原资料作出一个总体指标是否等于某一个数值,某一随机变量是否服从某种概率分布的假设,然后利用样本资料采用一定的统计方法计算出有关检验的统计量,依据一定的概率原则,以较小的风险来判断估计数值与总体数值(或者估计分布与实际分布)是否存在显著差异,是否应当接受原假设选择的一种检验方法。
06参数估计与假设检验
当两总体方差相同时
S X1 X 2 1 1 S n1 n2
2 c
2 (n1 1) S12 (n2 1) S2 S n1 n2 2 , 2 c
其中 Sc2 为两样本的合并方差。当两样本的样本含量 均较大时,上述计算可信区间中的 t 2, 可用相应的 代替, z 2 而且无论两总体的方差是否相同,有
大,均数的标准误越小。均数的标准误反映了样
本均数间的离散程度,也反映了样本均数与总体
均数的差异。
实际中,总体标准差往往未知,因而通常用样本
标准差代替,求得样本均数标准误的估计值,计
算公式为:
SX
S n
例6-1 在某地随机抽查成年男子140人,得红细胞均 数 X 4.77 ,标准差 S 0.38 ,试计算其标准误。 按公式计算得:
可信区间的计算:原理与前完全相同,仅仅是两 侧概率的界值有些差别。即
可信区间:
需要注意:在小样本情况下,应用这一公式的条 件是原始变量服从正态分布。在大样本下可以用 替换 。
Confidence interval
例6-2 某医生测得25名动脉粥样硬化患者血浆纤维 蛋白原含量的均数为3.32 g/L,标准差为0.57g/L,
三、总体均数的区间估计
(一) 已知
95%可信区间:
一般情况
其中
为标准正态分布的双侧界值。
Confidence interval
(二) 未知
通常未知,这时可以用其估计量S 代替,但 已不再服从标准正态分布,而是服 从著名的t 分布。
William Gosset
图6-1 不同自由度的 t 分布图
抽样误差与假设检验
Preventive Medicine
预防医学教研室 2004.06
第十五章 数值变量的统 计推断
蔡泳
均数的抽样误差和标准误
一、 均数的抽样误差 抽样研究的目的就是要用样本信
息来推断总体特征。由于存在变异, 样本均数往往不等于总体均数,因 此抽样后各个样本均数也往往不等于 总体均数,且各个样本均数间也不一 定都相等。这种由抽样造成的样本均 数与总体均数的差异或各样本均数之 间的差异称为抽样误差,抽样误差是 不可避免的。
一般情况下未知,常用 SX
估计抽样误差的大小。SX 作为 X
的估计值。
总体均数的 可信区间
参数估计(parameter estimation) 是指用样本指标(统计量)估计总体指标 (参数),有两种常用方法:点估计和区 间估计。 1.点估计(point estimation):样本均数 就是总体均数的点估计值。
2. 选定检验方法和计算统计量 要根据研究设计的类型、统计
推断的目的,选用适当的统计量。 如成组设计的两样本均数比较选用 t检验,大样本时可选用近似的u检 验。不同的检验统计量有不同的公 式。
3. 确定检验用的临界值:如t α
4. 用算得的统计量与相应的界值 作比较,作出判断结论
根据P值大小作出拒绝或不拒绝 H0的结论。P值是指由H0所规定的 总体作随机抽样,获得等于及大于 (或等于及小于)现有统计量的概率。
2.由于环境条件的影响,两个均数间 有本质差异,即山区男子脉搏总体 均数与一般男子的脉搏总体均数不 同。现在所得样本均数74.2与总体 均数72的有本质性差别,不完全是 抽样误差的原因。为了判断可能性 是第一种还是第二种,或者说为了 判断差别是否本质性的,必须通过 假设检验来回答这个问题。假设检
第四章抽样误差与假设检验
分布的界值
t分布的界值
t分布界值示意图,表示阴影的面积
习题
一、名词解释
1.抽样误差 2.均数标准误 3.置信区间
习题
3.σ未知且n较小时,按t分布计算总 体均数的可信区间
双侧 1 可信区间为:
X t 2, SX
思考
总体均数可信区间与 参考值范围的区别和联系?
第三节 t 分布
X ~ N,(标,准正2 )态分布与U统计量
U X ~ N (0,1) n
实际研究中未知,用样本的标准差S作为
的一个近似值(估计值)代替,得到变换后的 统计量并记为
4.30
154.1-
94
9.40
13.70
154.7-
191
19.10
32.80
155.3-
255
25.50
58.30
155.9-
216
21.60
79.90
156.5-
116
11.60
91.50
157.1-
63
6.30
97.80
157.7-
20
2.00
99.80
158.3-158.9
2
0.20
100.00
注意区别:
SX
SX n
S 和S X
和 X
第二节 总体均数的估计
参数的估计
点估计:将样本统计量作为 总体参数的估计
区间估计:按预先给定的概率确定 一个包含未知总体参数的范围,称 为参数的可信区间或置信区间 (confidence interval,CI)
医学统计学总体均数的估计和假设检验
3.106
3.055
3.012 2.977 2.947 2.921 2.898 2.878 2.861 2.845 2.750 2.704 2.678 2.626
2.58
3.497
3.428
3.372 3.326 3.286 3.252 3.222 3.197 3.174 3.153 3.030 2.971 2.937 2.871 2.8070
t x
sX
统计量是t的分布就是t分布。
t分布的特征: ① 以0为中心,左右对称呈单峰分布; ② t分布是一簇曲线,分布参数为自由度υ。 ③ t分布的形状与样本例数n有关,高峰比正态分
布略低,两侧尾部翘得比正态分布略高。越大, 曲线越近正态分布,当ν=∞时,t分布即为z分布。 由于t分布是一簇曲线,为了便于应用,统计学 家编制了表4-4-1 t界值表。
3)与例数的关系不同:当样本含量足够大时,标准 差趋向稳定。而标准误随例数的增大而减小,甚至趋 向于0。若样本含量趋向于总例数,则标准误接近于0。
联系;二者均为变异指标,如果把总体中各样本均 数看成一个变量,则标准误可称为样本均数的标准差。 当样本含量不变时,均数的标准误与标准差成正比。 两者均可与均数结合运用,但描述的内容各不相同。
活量的95%的可信区间。
本例n=5, =4,t0.05,4=2.776
x t0.05sx =2.44±2.776×0.33/ 5 =2.03~2.85(L)
该地17岁女中学生肺活量均数的95%可信区间为2.03L~2.85L。
例4-4-3 由例4-2-1 101名30~49岁健康男子血清总 胆固醇 X 4.735mmol·L-1,S=0.88 mmol·L-1,求该 地健康男子血清总胆固醇值均数的95%可信区间。
抽样误差与假设检验培训课件(PPT 49页)
区间估计(interval estimation)
也称置信区间。利用样本信息给出一个区间,并 同时给出按预先给定的概率估计该区间包含总体 均数的可能范围。 可信度:给定的概率称为可信度。用 1 表 示。通常取99%、95%。
山区男子脉搏的总体均数与一般成年男子的脉搏均 数不相等,差异可能是由地域等因素引起的——提 示山区男子与一般男子是两个不同的总体。
假设检验
——通过对假设作出取舍抉择来达到解决问题的目的
A.山区男子脉搏的总体均数与一般成年男子的脉搏均数
相等
无差异假设、零假设 H0(null hypothesis)
3. 确定P值,下结论。
P 值的概念
指从H0规定的总体中随机抽样抽得等于或大于 (或等于或小于)现有样本统计量的概率。
-2.045
2.045
本章总结
conclusion
样本均数的分布:
由中心极限定理及大数定理得出:
若原变量X服从正态分布,随机抽取样本含 量为n的样本均数 X 也服从正态分布。
即使从偏态总体中随机抽样,当n足够大( n>50),样本均数也近似服从正态分布。
这个定理不仅具有理论价值,而且具有很 高的实用价值。因为在实际工作当中,许多医 学测量结果并不知道它的确切分布,有了这个 性质,就可以利用正态分布的原理对其特征进 行统计推断。
t分布方法
应用条件:总体方差未知,样本量小
例4.2 某医师测的40名老年性慢性支气管炎病人尿中17-酮类固 醇排出量均数为15.19umol/d,标准差为5.03umol/d,试估计该 种病人尿17-酮类固醇排出量总体均数的95%可信区间。
第4章抽样误差与假设检验ppt课件
治疗前后血清甘油三酯疗效的无效假设和备择假
设分别为
H : 0
0
d
H : 0
1
d
检验水准 是预先规定的拒绝域的概率值,实
际中一般取 0.05 。
[说明] :备择假设有双侧和单侧两种情况。双侧
检验指不论正方向还是负方向的误差,若显著地超出
检验水准则拒绝H0,H1
:
μ d
0即为双侧检验;单侧
检验指仅在出现正方向或负方向误差超出规定的水准
第一节 均数的抽样误差与标准误
一、均数的抽样误差
在医学研究中,绝大多数情况是由样本信息研 究总体。由于个体存在差异,因此通过样本推论 总体时会存在一定的误差,如样本X均数 往往不 等于总体 均数 ,这种由抽样造成的样本均数与总 体均数的差异称为抽样误差。对于抽样研究,抽 样误差不可避免。
二、抽样误差的分布
对上面问题可以作如下考虑:
治疗前后甘油三
酯的变化(差值)
d
样本
n 30 S 0.76 d 1.38 d
0? d
问题归纳: 样本疗效
药物作用 + 机遇
d 1.38
μ 0? d
问题:| d 0 | 究竟多大能够下“有效”的结论?
假定治疗前后血清甘油三酯检测结果的差值服从正态分
布,若 H : 0 则 t d 0 服从t 分布。
上限: X u/2.SX 4.77 1.96 0.38/ 140 4.83(1012 / L)
ቤተ መጻሕፍቲ ባይዱ
三、模拟实验
模拟抽样成年男子红细胞数。设定:
4.75, 0.39,n 140
产生100个随机样本,分别计算其95%的可信区间, 结果用图示的方法表示。从图可以看出:绝大多数 可信区间包含总体参数 4.75 ,只有6个可信区间 没有包含总体参数(用星号标记)。
医学统计学练习题及答案
练习题答案第一章医学统计中的基本概念简答题常见的三类误差是什么?应采取什么措施和方法加以控制?[参考答案]常见的三类误差是:(1)系统误差:在收集资料过程中,由于仪器初始状态未调整到零、标准试剂未经校正、医生掌握疗效标准偏高或偏低等原因,可造成观察结果倾向性的偏大或偏小,这叫系统误差。
要尽量查明其原因,必须克服。
(2)随机测量误差:在收集原始资料过程中,即使仪器初始状态及标准试剂已经校正,但是,由于各种偶然因素的影响也会造成同一对象多次测定的结果不完全一致。
譬如,实验操作员操作技术不稳定,不同实验操作员之间的操作差异,电压不稳及环境温度差异等因素造成测量结果的误差.对于这种误差应采取相应的措施加以控制,至少应控制在一定的允许范围内。
一般可以用技术培训、指定固定实验操作员、加强责任感教育及购置一定精度的稳压器、恒温装置等措施,从而达到控制的目的.(3)抽样误差:即使在消除了系统误差,并把随机测量误差控制在允许范围内,样本均数(或其它统计量)与总体均数(或其它参数)之间仍可能有差异。
这种差异是由抽样引起的,故这种误差叫做抽样误差,要用统计方法进行正确分析。
抽样中要求每一个样本应该具有哪三性?[参考答案]从总体中抽取样本,其样本应具有“代表性”、“随机性”和“可靠性”。
(1)代表性: 就是要求样本中的每一个个体必须符合总体的规定。
(2)随机性: 就是要保证总体中的每个个体均有相同的几率被抽作样本。
(3)可靠性: 即实验的结果要具有可重复性,即由科研课题的样本得出的结果所推测总体的结论有较大的可信度.由于个体之间存在差异,只有观察一定数量的个体方能体现出其客观规律性。
每个样本的含量越多,可靠性会越大,但是例数增加,人力、物力都会发生困难,所以应以“足够"为准。
需要作“样本例数估计"。
什么是两个样本之间的可比性?[参考答案]可比性是指处理组(临床设计中称为治疗组)与对照组之间,除处理因素不同外,其他可能影响实验结果的因素要求基本齐同,也称为齐同对比原则.(马斌荣)第二章集中趋势的统计描述二、计算与分析1。
03总体均数的估计及假设检验
●统计推断(statistical inference):通过样本指标来说明总体特征,这种从样本获取有关总体信息的过程称为统计推断。
●抽样误差(sampling error):由个体变异产生的,随机抽样造成的样本统计量与总体参数的差异,称为抽样误差。
●标准误(standard error of mean,SEM )及X s :通常将样本统计量的标准差称为标准误。
许多样本均数的标准差X s称为均数的标准误,它反映了样本均数间的离散程度,也反映了样本均数与总体均数的差异,说明均数抽样误差的大小。
可通过增加样本含量,设计减少标准差来降低标准误。
●可信区间(confidence interval,CI):按预先给定的概率确定的包含未知总体参数的可能范围。
该范围称为总体参数的可信区间。
它的确切含义是:可信区间包含总体参数的可能性是1- a ,而不是总体参数落在该范围的可能性为1-a 。
●参数估计:指用样本指标值(统计量)估计总体指标值(参数)。
参数估计有两种方法:点估计和区间估计。
●假设检验中P 的含义:指从H0 规定的总体随机抽得等于及大于(或等于及小于)现有样本获得的检验统计量值的概率。
●I 型和II 型错误:I 型错误(type I error ),指拒绝了实际上成立的H0,这类“弃真”的错误称为I 型错误,其概率大小用a 表示;II 型错误(type II error),指接受了实际上不成立的H0,这类“存伪”的误称为II 型错误,其概率大小用b 表示。
●检验效能:1- b 称为检验效能(power of test),它是指当两总体确有差别,按规定的检验水准a 所能发现该差异的能力。
●检验水准:是预先规定的,当假设检验结果拒绝H0,接受H1,下“有差别”的结论时犯错误的概率称为检验水准(level ofa test),记为a 。
●抽样误差:由个体变异和抽样造成的样本统计量与总体参数的差异为★标准差与标准误的区别标准差与标准误的意义、作用和使用范围均不同。
第5章抽样估计和假设检验
第5章 抽样估计和假设检验
• §5.1.1 • 2.总体和样本 • 总体也称全及总体,指所要认识研究对象的全体。
它是由所研究范围内具有某种共同性质的全体单 位所组成的集合体。总体的单位数通常是很大的, 甚至是无限的,一般用N表示总体的单位数。 • 样本又称子样,它是从全及总体中随机抽取出来 的们作为代表这一总体的哪部分单位组成的集合 体,样本的单位数是有限的,相对值或标志属性 决定的。
• 1. 抽样平均误差的计算方法
• 样本平均数的抽样平均误差
• ⑴ 重复抽样: • ⑵ 不重复抽样:
x
2
nn
x
2 N n
n N 1 n
1 n N
第5章 抽样估计和假设检验
• 2. 样本比例的抽样平均误差
• ⑴ 重复抽样:
p
P
n
P(1 P) n
• ⑵ 不重复抽样: p
• §5.2.1 抽样分布 • 3. 样本方差的分布
• 当总体服从正态分布 N , 2 时,
n 1S 2 2
• 服从 2 分布(将在下一节中介绍),其中
样本方差为
s2 1 n n 1 i1
2
xi x
第5章 抽样估计和假设检验
• §5.2.1 抽样分布
• 4. 样本比例的分布
• 总体中具有某种属性的单位数与总体全部单位数 之比称为总体的比例,记作。而样本中具有某种 属性的单位数与样本总数之比称为样本比例,记 作。
第5章 抽样估计和假设检验
• §5.2.1 抽样分布
• 2. 样本均值的抽样分布
• 若 则从总总体服体从中均抽值取为出的,样方本差均为值仍2的然正服态从分正布,
态分布,即。
X
统计学--第三章总体均数的估计与假设检验
总体均数的估计 与假设检验
课件
1
统计推断的目的:
用样本的信息去推论总体。
医学研究中大多数是无限总体, 即使是有限总体,但也经常受各种条 件的限制,不可能直接获得总体的信 息。
课件本科生卫生学(5)
2
第一节 均数的抽样误差与标准误
• 抽样误差(sampling
error):因各样本 包含的个体不同,所得的各个样本统计量 (如均数)往往不相等,这种由于个体差 异和抽样造成的样本统计量与总体参数的 差异,称为抽样误差。
均数的95%可信区间为3.47~ 3.81(mmol / L) 95%参考值范围为1.29~ 5.99(mmol / L)
S 1.20 X u / 2 S X X 1.96 3.64 1.96 n 200 (3.47, 3.81)
X 1.96S 3.64 1.961.20 (1.29, 5.99) 32 课件本科生卫生学(5)
t分布的应用: 总体均数的区间估计 t检验
课件本科生卫生学(5) 18
第三节 总体均数的置信区间估计 confidence interval
可信区间的概念 总体均数可信区间的计算 均数可信区间与参考值范围的区别
课件本科生卫生学(5)
19
一、可信区间的概念
统计推断:参数估计与假设检验。 参数估计: parametric estimation,用样本统 计量估计总体参数的方法。 点(值)估计:point estimation,直接用样 本统计量作为总体参数的估计值。方法简 单但未考虑抽样误差大小。 区间估计:interval estimation,按预先给定 的概率95%,或(1-),确定的包含未知总 体参数的可能范围。考虑了抽样误差。
医药数理统计第六章习题(检验假设和t检验)
第四章抽样误差与假设检验练习题一、单项选择题1。
样本均数的标准误越小说明A. 观察个体的变异越小B. 观察个体的变异越大C. 抽样误差越大 D。
由样本均数估计总体均数的可靠性越小E。
由样本均数估计总体均数的可靠性越大2。
抽样误差产生的原因是A。
样本不是随机抽取 B. 测量不准确C. 资料不是正态分布 D。
个体差异E. 统计指标选择不当3. 对于正偏态分布的的总体,当样本含量足够大时, 样本均数的分布近似为A. 正偏态分布 B。
负偏态分布C. 正态分布D. t分布E。
标准正态分布4. 假设检验的目的是A. 检验参数估计的准确度 B。
检验样本统计量是否不同C. 检验样本统计量与总体参数是否不同D. 检验总体参数是否不同E. 检验样本的P值是否为小概率5. 根据样本资料算得健康成人白细胞计数的95%可信区间为7.2×109/L~9.1×109/L,其含义是A. 估计总体中有95%的观察值在此范围内B。
总体均数在该区间的概率为95%C。
样本中有95%的观察值在此范围内D。
该区间包含样本均数的可能性为95%E. 该区间包含总体均数的可能性为95%答案:E D C D E 二、计算与分析1. 为了解某地区小学生血红蛋白含量的平均水平,现随机抽取该地小学生450人,算得其血红蛋白平均数为101。
4g/L ,标准差为1.5g/L ,试计算该地小学生血红蛋白平均数的95%可信区间. [参考答案]样本含量为450,属于大样本,可采用正态近似的方法计算可信区间。
101.4X =, 1.5S =,450n =,0.07X S === 95%可信区间为下限:/2.101.4 1.960.07101.26X X u S α=-⨯=-(g/L ) 上限:/2.101.4 1.960.07101.54X X u S α+=+⨯=(g/L)即该地成年男子红细胞总体均数的95%可信区间为101。
26g/L~101。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
南昌大学公共卫生学院卫生统计学教研室
2020年7月8日星期三
抽样误差与假设检验
抽样分布
从正态总体N (155.4, 5.32)抽样得到的100个样本均数的频数分布(ni =30)
组段下限值(cm)
频数
频率%
152.6~ 153.2~ 153.8~ 154.4~ 155.0~ 155.6~ 156.2~ 156.8~ 157.4~ 158.0~
合计
南昌大学公共卫生学院卫生统计学教研室
1
1.0
4
4.0
4
4.0
22
22.0
25
25.0
21
21.0
17
17.0
3
3.0
2
2.0
1
1.0
100
100.0
2020年7月8日星期三
抽样误差与假设检验
抽样分布
理论上可以证明:若从正态总体 N( , 2 ) 中,反复多次
随机抽取样本含量固定为n 的样本,那么这些样本均数
抽样误差与假设检验
抽样分布与参数估计
南昌大学公共卫生学院 李悦
南昌大学公共卫生学院卫生统计学教研室
2020年7月8日星期三
抽样误差与假设检验
抽样分布与抽样误差
总体
随机抽取部分观察单位 样本
?
推断
X
抽样研究的目的是用样本信息推断总体特
征,即用样本统计量推断总体参数。
常用的统计推断方法有:参数估计和假设检验
u X
X
实际工作中,当 X 未知时,常用 S X 来代替
对正态变量 X 采用的不是u变换, 而是t变换:
X X
t
s X
sn
南昌大学公共卫生学院卫生统计学教研室
2020年7月8日星期三
抽样误差与假设检验
t分布
英国统计学家W.S.Gosset于1908年以
“Student”笔名发表论X 文 ,证明
南昌大学公共卫生学院卫生统计学教研室
2020年7月8日星期三
抽样误差与假设检验
t分布分布函数
P (tt1)F(t1) t1 f(t)d(t)
南昌大学公共卫生学院卫生统计学教研室
2020年7月8日星期三
抽样误差与假设检验
自由度
单侧 双侧
1
2 3 4 5
0.25 0.50
1.000 0.816 0.765 0.741 0.727
(随机变量)也服从正态分布,即总体均数仍为 ,样
本均数的标准差为 / n 。
抽样分布
抽样分布示意图
南昌大学公共卫生学院卫生统计学教研室
2020年7月8日星期三
抽样误差与假设检验
ห้องสมุดไป่ตู้
抽样分布
中心极限定理: 当样本含量很大的情况下,无论原始测量变量
服从什么分布,X 的抽样分布均近似正态分布。
抽样分布
南昌大学公共卫生学院卫生统计学教研室
南昌大学公共卫生学院卫生统计学教研室
2020年7月8日星期三
抽样误差与假设检验
抽样误差
抽样误差:由抽样引起的样本统计量与总体参数间的差异。 两种表现形式:
样本统计量与总体参数间的差异 样本统计量间的差异
通过研究样本均数的分布来研究抽样误差的大小。
南昌大学公共卫生学院卫生统计学教研室
2020年7月8日星期三
( 1)
2
n
1
t2
1 2
2
( t )
横轴为t值, 纵轴为t的概率密度函数f(t),
t υ为自由度。
图4-2自由度分别为1、5、∞时的t分布
南昌大学公共卫生学院卫生统计学教研室
2020年7月8日星期三
抽样误差与假设检验
t 分布的特征
t分布为一簇单峰分布曲线 t分布以0为中心,左右对称 t分布与自由度υ有关,自由度越小, t分布的峰越低,而两侧尾部翘得越 高;自由度逐渐增大时, t分布逐渐 逼近标准正态分布;当自由度无穷 大时, t分布就是标准正态分布(u 分 布)。
抽样误差与假设检验
抽样分布
样本均数的抽样分布与抽样误差
假定某年某地所有13岁女学生身高服从总体均 数 =155.4cm, 总体标准差 =5.3cm的正态分布。 在这样一个有限的总体中作随机抽样,共抽100次,每 次均抽取30例(ni = 30,i=1,2,…100)组成一份样本, 可以算出每一份样本的平均身高。最终计算得到100 个样本均数。现将这100个样本均数看成新的随机变 量绘制频数分布表,如表所示 。
服从自由度
= n-1的t分布,即 s n
t X X ~ t分布, = n-1
s X
sn
t分布又称Student t分布。实际上,t分布十分有用, 它是总体均数的区间估计和假设检验的理论基础。
南昌大学公共卫生学院卫生统计学教研室
2020年7月8日星期三
抽样误差与假设检验
t 分布的图形
f (t )
南昌大学公共卫生学院卫生统计学教研室
2020年7月8日星期三
抽样误差与假设检验
标准差与标准误的联系和区别
联系
都是变异指标。S反映个体观察值的变异;
s X
反映统计量的变异。
当n不变时,标准差↑,标准误↑
s
s
X
n
南昌大学公共卫生学院卫生统计学教研室
2020年7月8日星期三
抽样误差与假设检验
标准差与标准误的联系和区别
区别 意义
s 描述原始数据的离散程度,
s X
反映抽样误差的大小,
衡量均数对原始数据的代表性 衡量样本均数估计总体均数的可靠性
计算
直接法、加权法
sX s n
与均数的关系 s 越小, X 对样本数据的代表性好 sX 越小, X 估计的可靠性大
与 n 的关系 n →∞,s →
n →∞, s → 0 X
应用
2020年7月8日星期三
抽样误差与假设检验
抽样误差
三、标准误(Standard Error)
样本均数的标准差称为标准误。样本均数
的变异越小说明估计越精确,因此可以用标准
误表示抽样误差的大小:
X
n
实际中总体标准差往往未知,故只能求
s 得样本均数标准误的估计值:
X
s n
南昌大学公共卫生学院卫生统计学教研室
表示观察值波动的大小
表示抽样误差的大小
用于计算变异系数
用于均数的假设检验
计算标准误
估计参考值范围
估计参数的可信区间
南昌大学公共卫生学院卫生统计学教研室
2020年7月8日星期三
抽样误差与假设检验
t分布
t分布的概念 从正态分布N(,2)抽得样本的均数也服从
正态分布,记为N( ,X2 )。对正态变量X 作变换 :
2020年7月8日星期三
抽样误差与假设检验
抽样误差
例4.1 试计算均数的标准误。在某地随机 抽查成年男子140人,计算得红细胞均数 4.77×1012/L,标准差0.38 ×1012/L ,
S S0.380.032(1012/L) X n 140
标准误是抽样分布的重要特征之一,可用于 衡量抽样误差的大小,更重要的是可以用于参数 的区间估计和对不同组之间的参数进行比较。