统计学：总体均数的估计

合集下载

统计学教案习题04总体均数的估计和假设检验

第四章总体均数的估计和假设检验一、教学大纲要求（一）掌握内容1．抽样误差、可信区间的概念及计算； 2．总体均数估计的方法；3．两组资料均数比较的方法，理解并记忆应用这些方法的前提条件； 4．假设检验的基本原理、有关概念（如I 、II 类错误）及注意事项。

（二）熟悉内容两样本方差齐性检验。

（三）了解内容1． t 分布的图形与特征；2．总体方差不等时的两样本均数的比较； 3．等效检验。

二、教学内容精要（一）基本概念 1．抽样误差抽样研究中，样本统计量与总体参数间的差别称为抽样误差（sampling error ）。

统计上用标准误（standard error ，SE ）来衡量抽样误差的大小。

不同的统计量，标准误的表示方法不同，如均数的标准误用X S 表示，率的标准误用S P 表示，回归系数的标准误用S b 表示等等。

均数的标准误与标准差的区别见表4-1。

表4-1 均数的标准误与标准差的区别均数的标准误标准差意义反映的抽样误差大小反映一组数据的离散情况记法X σ（样本估计值X S ）σ（样本估计值S ）计算X σ=nσ X S =nSσ =nX 2)(∑-μS=1)(2--∑n X X控制方法增大样本含量可减小标准误。

个体差异或自然变异，不能通过统计方法来控制。

2．可信区间（1）定义、涵义：即按预先给定的概率确定的包含未知总体参数的可能范围。

该范围称为总体参数的可信区间（confidence interval ，CI ）。

它的确切含义是：CI 是随机的，总体参数是固定的，所以，CI 包含总体参数的可能性是1-α。

不能理解为CI 是固定随机的，总体参数是随机固定的，总体参数落在CI 范围内可能性为1-α。

当0.05α=时，称为95%可信区间，记作95%CI 。

当0.01α=时，称为99%可信区间，记作99%CI 。

（2）可信区间估计的优劣：一定要同时从可信度（即1-α的大小）与区间的宽度两方面来衡量。

医用统计学-总体均数的估计与假设检验练习题

医用统计学-总体均数的估计与假设检验练习题一、名词解释1.抽样误差2.标准误3.置信区间4.第一类错误5.第二类错误二、是非题1．即使变量偏离正态分布，只要样本含量相当大，样本均数也近似正态分布。

（）2．同一批计量资料的标准差不会比标准误大。

（）3．两次t检验都是对两样本均数的差别做统计检验，一次P<0.01，另一次0.01<P<0.05，就表明前者两样本均数差别大，后者两样本均数差别小。

（）4．对两样本均数的差别做统计检验，两组数据具有方差齐性，但与正态分布相比略有偏离，样本含量都较大，因此仍可做t检验。

（）5．t检验可用于同一批对象的身高与体重均数差别的统计检验。

（）三、最佳选择题1、（）小，表示用该样本均数估计总体均数的可靠性大。

D、RE、四分位间距A、CVB、SC、x2、两样本均数比较的t检验，差别有统计学意义时，P越小，说明（）。

A、两样本均数差别越大B、两总体均数差别越大C、越有理由认为两总体均数不同D、越有理由认为两样本均数不同E、越有理由认为两总体均数不同3、甲乙两人分别随机数字表抽得30个（各取两位数字）随机数字作为两个样本，求得X1和S12，X2和S22，则理论上（）。

A、X1=X 2B、S12= S22C、作两样本均数的t检验，必然得出无差别的结论D、作两方差齐性的F检验，必然方差齐E、由甲、乙两样本均数之差求出的总体均数的95%可信区间，很可能包括04、在参数未知的正态总体中随机抽样，∣X-μ∣≥（）的概率为5%。

A、1.96σB、1.96C、2.58D、t0.05，v SE、t0.05，vsx5、某地1992年随机抽取100名健康女性，算得其血清总蛋白含量的均数为74g/L，标准差为4g/L，则其95%的参考值范围（）。

A、74±4×4B、74±1.96×4C、74±2.58×4D、74±2.58×4÷10E、74±1.96×4÷106、关于以0为中心的t 分布，错误的是（）。

总体均数的估计和t检验

它不受样本大小和样本变异性的影响，是衡量数据分布中心位
03
置的重要参数。
总体均数的点估计
点估计（Point Estimation）：使用样本统计量来估计总体参数的方法。
样本均数（Sample Mean）：作为总体均数的点估计量，它是从样本数据中计算得出的平均值。
总体均数的区间估计
要点一
区间估计（Interval Estimation）
根据t统计量的显著性，得出配对观测值之间是否存在显著差异的结论。
配对样本t检验的应用
01
比较同一受试者在不同时间点的生理指标或心理指标是否存在显著差异。
02
比较同一受试者在不同条件下的行为表现是否存在显著差异。
03
比较不同治疗方法的效果是否存在显著差异。
04
CHAPTER
两独立样本t检验
两独立样本t检验的概念
它适用于在实验设计时将观测值配对的情况，例如同一受试者在不同时间点或不同条件下获得的观测值。
配对样本t检验的目的是检验两组配对观测值的均值是否存在显著差异。
配对样本t检验的步骤
1. 数据收集
收集两组配对观测值的数据，确保数据来源可靠、准确。
2. 数据整理
将数据整理成适合进行t检验的表格形式，包括配对观测值的编号、观测值、差值等。
两独立样本t检验是用来比较两个独立样本的总体均数是否
有显著差异的统计方法。
它适用于两个独立样本，且每个样本的观察值相互独立，
不受其他因素的影响。
两独立样本t检验的前提假设是：两个样本的总体均数相等，且每个样本的观察值服从正态
分布。
两独立样本t检验的步骤
01
02
03

均数的抽样误差和总体均数估计

应用领域
在医学、生物学、经济学和社会科学等领域中，均数的抽样误差和总体均数估计都是重要的统计工具，用于指导研究和决策。
02
均数的抽样误差
抽样误差的定义
抽样误差是由于从总体中随机抽取样本而产生的误差，它反映了样本均数与总体均数之间的差异。
抽样误差是不可避免的，因为每个样本都是独特的，不可能完全复制总体。
研究结论
01
抽样误差是衡量样本均数与总体均数接近程度的重要
指标，其大小直接影响到总体均数的估计精度。
02
在大样本条件下，样本均数的抽样误差通常较小，能
够较好地反映总体均数的真实情况。
03
通过增加样本量或提高样本代表性，可以减小抽样误
差，提高总体均数估计的准确性。
对未来研究的建议
01
进一步研究不同抽样方法对均数抽样误差的影响，以便在实际应用中选择合适的抽样方法。
市场调研
市场调研中，企业通过抽样调查了解消费者需求、市场趋势等信息，进而估计总体均数，制定营销策略。
医学研究中均数估计的应用
临床试验
在临床试验中，研究者通过随机抽样方法选取一定数量的患者作为样本，根据样本数据估计总体均数，进而评估药物疗效。
VS
流行病学研究
流行病学研究中，研究者通过抽样调查方法了解疾病在人群中的分布情况，估计总体均数，为制定疾病防控策略提供依据。
均数的抽样误差和总体均数估计
• 引言 • 均数的抽样误差 • 总体均数的估计 • 样本大小与均数估计精度 • 实际应用案例 • 结论与展望
01
引言
主题简介
均数的抽样误差
指通过样本均数来估计总体均数时所存在的误差范围。
总体均数估计

总体均数的估计和假设检验

无统计学意义，按 0.05检验水
准，不拒绝H0，尚不能认为两种
方法的检查结果不同。
成组设计的两样本均数的检验
01
完全随机设计（又称成组设计）：将受试对象完全随机地分配到各个处理组中或分别从不同总体中随机抽样进行研究。
02
01
若n1 ，n2 较小，且σ12=σ22
02
两独立样本的t检验(例3.7）；
01
方差分析法。
02
单侧检验和双侧检验（根据研究目的和专业知识选择）
假设检验（1）双侧检验：如要比较A、B两个药物的疗效，无效假设为两药疗效相同(H0：μA=μB)，备择假设是两药疗效不同(H1：μA≠μB)，可能是A药优于B药，也可能B药优于A药，这就是双侧检验。
01
02
单侧检验：若实际情况是A药的疗效不劣差于B药，则备择假设为A药优于B药(H1：μA>μB)，此时，备择假设成立时只有一种可能（另一种可能已事先被排除了），这就是单侧检验。
01
备注：单侧检验和双侧检验中计算统计量t的过程是一样的，但确定概率时的临界值是不同的。
01
统计推断应包括统计结论和专业结论两部分。统计结论只说明有统计学意义(statistical significance) 或无统计学意义，而不能说明专业上的差异大小。只有将统计结论和专业知识有机地相结合，才能得出恰如其分的专业结论。
A，B处理。
2
0.05
H0：μd =0 H1：μd ≠0
其中
式中d为每对数据的差值，为差值的样本均数， Sd为差值的标准差，为差值样本均数的标准误， n为对子数。
开机：进入统计状态：清除内存：
SHIFT
b. 近似t检验，即t＇检验（n1，n2 较小，且σ12≠σ22）

医学统计学总体均数的估计与假设检验

均数的抽样误差：抽样引起的样本均数与总体均数之间或样本均数之间的差别。标准误：即样本均数的标准差。表示样本均数对总体均数的离散程度。
一、均数的抽样误差与标准误（）
例4.1某市随机抽查12岁男孩100人，得身高均数139.6cm，标准差6.85cm，资料，求标准误？
第三章总体均数的估计与假设检验
添加副标题
汇报人姓名
均数的抽样误差与标准误
t分布
总体均数的估计
假设检验的一般步骤
ｔ检验
u 检验
两均数的等效检验
正态性检验
两样本方差齐性检验
假设检验时应注意的问题
利用总体均数的可信区间进行假设检验
课堂讨论
第三章总体均数的估计与假设检验
一、均数的抽样误差与标准误（）
等效检验的假设
七、两均数的等效检验
H0: | 1- 2| H1: | 1- 2|< 为等效界值，若两总体均数差值在范围内为等效，超过则为不等效。是推断两种处理效果是否相近或相等的统计方法。为什么推断两种处理效果是否相近或相等不能用前面所述的假设检验方法？
检验水准、自由度及结果判断同t检验。
＝ｎ－ 1＝25 －１＝24 查t界值表（P804），得单侧 t0.05，24 = 1.711 因: t =1.833> t0.05，24 所以：P < 0.05
结论：按照 = 0.05水准，拒绝H0 ，故可认为该山区健康成年男子脉搏高于一般人群。
1
上例如用双侧检验，查表得双侧 t0.05，24 = 2.064
样本含量一定时，增大，则减少，减少则增大，所以，的确定并不是越小越好，一般取0.05较合理。
结论时，尽可能明确相结合。
02

总体均数的估计和运算法则

与标准正态分布曲线下面积的算法一样，都是采用微积分的方法
其含义也与标准正态分布曲线下面积接近，表示某个样本含量（自由度）的样本均数经t 转换后t值落在某个区间的概率有多大
与标准正态分布不同，t分布曲线下面积为 95%或99%的界值不是一个常量，因为对于不同的自由度取值，就有不同的t分布曲线
xi
t分布的概率密度函数*
若随机变量t满足以下概率密度函数，则称
t满足自由度为v的t分布：
f (t)
(v -1)! 2
v ( v - 2
)!
1
t2 v
- v1 2

2
t分布曲线是单峰的，且关于t = 0对称，这一特征与标准正态分布很相似
0.4
(标准正态分布)
3
从标准误的计算公式中看出它与原先个体观察值的总体标准差有关，同时也和样本含量n有关
通过扩大样本含量减少标准误；从而减少抽样误差
样本均数标准误的估计值
由于在实际研究中，我们往往只抽一次样，得
到一个样本均数，而且大多数情况下是未知
的，此时常用样本标准差S估计总体标准差，
这样我们就得到样本均数标准误的估计值 S
统计推断(statistical inference)
统计推断包括两个重要的方面：一是利用样本统计量的信息对相应总体参数
值做出估计，如用样本均数估计总体均数，用样本标准差估计总体标准差等，称之为参数估计另一个是利用样本统计量来推断我们是否接受一个事先的假设，称之为假设检验
统计推断过程中的一些问题
差；但是在实际的情况下，并没有对总体中所有
的个体进行观察，所以无法得知；而且通常我
们也只作一次抽样研究，只能得到s ，只能用样本

医学统计学总体均数的估计和假设检验

3.106
3.055
3.012 2.977 2.947 2.921 2.898 2.878 2.861 2.845 2.750 2.704 2.678 2.626
2.58
3.497
3.428
3.372 3.326 3.286 3.252 3.222 3.197 3.174 3.153 3.030 2.971 2.937 2.871 2.8070
t x
sX
统计量是t的分布就是t分布。
t分布的特征： ① 以0为中心，左右对称呈单峰分布； ② t分布是一簇曲线，分布参数为自由度υ。 ③ t分布的形状与样本例数n有关，高峰比正态分
布略低，两侧尾部翘得比正态分布略高。越大，曲线越近正态分布，当ν=∞时，t分布即为z分布。由于t分布是一簇曲线，为了便于应用，统计学家编制了表4-4-1 t界值表。
3）与例数的关系不同：当样本含量足够大时，标准差趋向稳定。而标准误随例数的增大而减小，甚至趋向于0。若样本含量趋向于总例数，则标准误接近于0。
联系；二者均为变异指标，如果把总体中各样本均数看成一个变量，则标准误可称为样本均数的标准差。当样本含量不变时，均数的标准误与标准差成正比。两者均可与均数结合运用，但描述的内容各不相同。
活量的95%的可信区间。
本例n=5， =4，t0.05，4=2.776
x t0.05sx =2.44±2.776×0.33/ 5 =2.03~2.85（L）
该地17岁女中学生肺活量均数的95%可信区间为2.03L~2.85L。
例4-4-3 由例4-2-1 101名30~49岁健康男子血清总胆固醇 X 4.735mmol·L-1，S=0.88 mmol·L-1，求该地健康男子血清总胆固醇值均数的95%可信区间。

第6章思考与练习-总体均数的估计(卫生统计学)

第六章总体均数的估计【思考与练习】一、思考题1．什么是均数的抽样误差？决定均数的抽样误差大小的因素有哪些？ 2．样本均数的抽样分布有何特点？ 3．阐述标准差与标准误的区别与联系。

4．如何运用抽样分布规律估计总体均数？5．阐述总体均数的置信区间与医学参考值范围的区别。

二、案例辨析题2005年随机抽取某市400名7岁男孩作为研究对象, 计算得其平均身高为122.5 cm, 标准差为5.0 cm 。

请估计该市7岁男孩身高的总体均数。

某学生的回答如下：“该市2005年7岁男孩平均身高的点估计值为122.5 cm ，按公式),(2/2/S Z X S Z X αα+-计算得到其总体均数的95％置信区间为(112.7, 132.3) cm ”。

请指出学生回答中的不恰当之处。

三、最佳选择题1．表示均数抽样误差大小的统计指标是 A ．R B ．S C ．X SD ．CVE ．四分位数间距2．关于t 分布，下列叙述错误的是A ．t 分布是以0为中心，左右对称的一簇单峰曲线B ．自由度越小，曲线越低平C ．当自由度为∞时，t 分布就是标准正态分布D ．自由度相同时，||t 越大，概率P 值越小E ．自由度越大，相同概率的t 界值越大3．从同一总体中随机抽取多个样本，分别估计总体均数的95%置信区间，则精确度高的是 A ．均数大的样本 B ．均数小的样本 C ．标准差小的样本 D ．标准误大的样本 E ．标准误小的样本4．关于置信区间，下列叙述中错误的是 A ．99%置信区间优于95%置信区间 B ．置信区间的精确度反映在区间的长度C ．当样本含量确定时，准确度与精确度是矛盾的D ．置信区间的准确度反映在置信度(1)α-的大小上E ．当置信度(1)α-确定时，增加样本含量可提高精确度 5．总体均数的95%置信区间的含义是 A ．总体95%的个体值在该区间内 B ．样本95%的个体值在该区间内C ．平均每100个总体均数，有95个在该区间内D ．平均每100个样本(样本含量相同)均数，有95个在该区间内E ．平均每100个样本(样本含量相同)，有95个样本所得的区间包含总体均数 6．假设某地35岁以上正常成年男性的收缩压的总体均数120.2mmHg ，标准差为11.2 mmHg ，后者反映的是 A ．个体变异的大小 B ．抽样误差的大小 C ．系统误差的大小 D ．总体的平均水平 E ．样本的平均水平7．上述第6题中，从该地随机抽取20名35岁以上正常成年男性，测得其平均收缩压为112.8 mmHg ，又从该地随机抽取10名7岁正常男孩，测得其平均收缩压为90.5mmHg ，标准差为10.4 mmHg ，则下列说法正确的是 A ．112.8mmHg 与120.2mmHg 不同是由于系统误差B ．112.8mmHg 与120.2mmHg 不同是由于两总体均数不同C ．90.5mmHg 与112.8mmHg 不同是由于抽样误差D ．90.5mmHg 与120.2mmHg 不同是由于抽样误差E ．90.5mmHg 与112.8mmHg 不同是因为两总体均数不同8．上述第7题中，7岁正常男孩收缩压的总体均数的95%置信区间为 A ．90.5 1.9610.4±⨯B ．0.05/2,990.5t ±⨯C ．120.2 1.9610.4±⨯D ．0.05/2,9120.210.4t ±⨯E ．0.05/2,9120.2t ±⨯四、综合分析题1．从某疾病患者中随机抽取25例，其红细胞沉降率(mm/h)的均数为9.15，标准差为 2.13。

总体均数与总体率的估计研

介绍一个具体的样本量对估计影响的实例，包括不同样本量下的估计结果比较、样本量对估计精度的影响等方面的分析和讨论。
05
总结与展望
研究总结
研究方法
本研究采用文献综述和实证分析相结合的方法，对总体均数与总体率的估计进行了系统研究。通过收集相关文献，梳理了估计方法的发展历程和现状，并对典型案例进行了实证分析。
研究结果
研究发现，总体均数与总体率的估计是统计学中的重要内容，对于了解总体特征和推断总体情况具有重要意义。目前，估计方法多样，包括直接法、抽样法、回归法等。这些方法在不同情况下各有优劣，适用范围也不同。此外，研究发现不同估计方法在精度和可靠性方面存在差异，需根据实际情况选择合适的方法。
样本量对总体率估计的偏倚影响较大
当样本量较小时，即使随机抽样，样本率也可能偏离总体率，因此样本量对估计的偏倚影响较大。
04 实例分析
实例一：总体均数估计实例
总结词
通过实例说明总体均数估计的方法和步骤。
详细描述
介绍一个具体的总体均数估计实例，包括研究背景、数据来源、样本选择、数据处理和结果分析等步骤，以及在估计过程中需要注意的问题和解决方法。
实例二：总体率估计实例
总结词
通过实例说明总体率估计的方法和步骤。
详细描述
介绍一个具体的总体率估计实例，包括研究背景、数据来源、样本选择、数据处理和结果分析等步骤，以及在估计过程中需要注意的问题和解决方法。
实例三：样本量对估计的影响实例
总结词
通过实例说明样本量对总体均数和总体率估计的影响。
详细描述
样本量越大，估计的总体均数的精度越高
随着样本量的增加，样本均数的波动范围逐渐缩小，更接近总体均数。

统计学中的总体均值估计方法

统计学中的总体均值估计方法统计学是一门研究数据收集、分析和解释的学科。

在统计学中，总体均值是一个重要的概念，它代表了总体中所有个体的平均值。

然而，由于很难获得总体的全部数据，我们通常需要使用样本数据来估计总体均值。

本文将介绍统计学中常用的总体均值估计方法。

一、点估计方法点估计方法是一种通过样本数据来估计总体均值的方法。

最简单的点估计方法是样本均值，即将样本中所有观测值的平均值作为总体均值的估计值。

这种方法的优点是简单易懂，但它只能提供一个估计值，并不能告诉我们这个估计值的准确程度。

为了解决点估计方法的不足，统计学家发展了置信区间估计方法。

二、置信区间估计方法置信区间估计方法是一种通过样本数据来估计总体均值的方法，它提供了一个区间范围，该区间范围内有一定的概率包含真实的总体均值。

置信区间的计算依赖于样本的大小和样本的标准差。

当样本的大小较大时，可以使用正态分布的性质来计算置信区间。

当样本的大小较小时，可以使用t分布来计算置信区间。

置信区间的计算公式为：置信区间 = 样本均值 ±标准误差 ×临界值其中，标准误差是样本标准差除以样本大小的平方根，临界值是根据置信水平和自由度来确定的。

置信区间估计方法的优点是可以提供一个区间范围，告诉我们估计值的准确程度。

但它也有一定的局限性，因为置信区间只提供了一个范围，并不能告诉我们这个范围内的哪个值更接近真实的总体均值。

三、区间估计方法区间估计方法是一种通过样本数据来估计总体均值的方法，它提供了多个区间范围，每个区间范围内有一定的概率包含真实的总体均值。

区间估计方法的计算依赖于样本的大小和样本的标准差，类似于置信区间估计方法。

不同之处在于，区间估计方法使用一系列的置信区间来覆盖可能的总体均值。

区间估计方法的优点是可以提供多个区间范围，告诉我们估计值的不确定性。

但它的计算复杂度较高，需要考虑多个置信区间，并且对于样本较小的情况，可能会导致区间范围过宽。

03总体均数的估计及假设检验

●统计推断（statistical inference）：通过样本指标来说明总体特征，这种从样本获取有关总体信息的过程称为统计推断。

●抽样误差（sampling error）：由个体变异产生的，随机抽样造成的样本统计量与总体参数的差异，称为抽样误差。

●标准误（standard error of mean，SEM ）及X s ：通常将样本统计量的标准差称为标准误。

许多样本均数的标准差X s称为均数的标准误，它反映了样本均数间的离散程度，也反映了样本均数与总体均数的差异，说明均数抽样误差的大小。

可通过增加样本含量，设计减少标准差来降低标准误。

●可信区间（confidence interval，CI）：按预先给定的概率确定的包含未知总体参数的可能范围。

该范围称为总体参数的可信区间。

它的确切含义是：可信区间包含总体参数的可能性是1- a ，而不是总体参数落在该范围的可能性为1-a 。

●参数估计：指用样本指标值（统计量）估计总体指标值（参数）。

参数估计有两种方法：点估计和区间估计。

●假设检验中P 的含义：指从H0 规定的总体随机抽得等于及大于（或等于及小于）现有样本获得的检验统计量值的概率。

●I 型和II 型错误：I 型错误（type I error ），指拒绝了实际上成立的H0，这类“弃真”的错误称为I 型错误，其概率大小用a 表示；II 型错误（type II error），指接受了实际上不成立的H0，这类“存伪”的误称为II 型错误，其概率大小用b 表示。

●检验效能：1- b 称为检验效能（power of test），它是指当两总体确有差别，按规定的检验水准a 所能发现该差异的能力。

●检验水准：是预先规定的，当假设检验结果拒绝H0，接受H1，下“有差别”的结论时犯错误的概率称为检验水准（level ofa test），记为a 。

●抽样误差：由个体变异和抽样造成的样本统计量与总体参数的差异为★标准差与标准误的区别标准差与标准误的意义、作用和使用范围均不同。

总体均数估计和假设检验

THANKS
感谢观看
检验的步骤与逻辑
步骤
提出假设、选择合适的统计量、计算P值、根据P值做出决策。
逻辑
基于样本信息推断总体特征，利用统计量进行假设检验，并根据P值判断假设是否成立。
03
常见假设检验方法
t检验
t检验是一种常用的参数检验方法，用于比较两组数据的均值是否存在显著差异。
t检验基于假设和样本数据计算t统计量，并根据临界值判断假设是否成立。通常用于小样本数据或已知总体分布的情况。
当实际无差异时，由于误差率较高或检验效能不足，错误地判断出差异，导致得出阳性结论。
多重比较与校正
多重比较问题
在多个样本或组别的比较中，如果没有采取适当的校正措施，会导致假阳性结论增多。
校正方法
为控制多重比较导致的假阳性风险，可以采用Bonferroni校正、Holm-Bonferroni校正等校正方法，对显著性水平进行调整。
卡方检验
卡方检验是一种非参数检验方法，用于比较实际观测频数与期望频数之间的差异。
卡方检验基于卡方统计量，通过比较实际观测频数与期望频数，评估分类变量之间是否存在显著关联。
04
假设检验中的问题与注意事项
样本选择与偏差
样本选择偏差
在选择样本时，如果未能遵循随机抽样的原则，或者存在选择偏见，会导致样本不能代表总体，从而影响估计的准确性。
Z检验
Z检验是用来检验比例或比率是否显著不同于预期值。
Z检验基于正态分布理论，通过计算Z 统计量来评估样本比例或比率与预期值之间的差异程度。
方差分析
方差分析（ANOVA）用于比较两个或多个组间的均值是否存在显著差异。
方差分析通过比较组间和组内方差，评估各组均值是否存在显著差异，适用于多组数据的比较。

医学统计学第3章

均数的抽样示意图
X1 S1
μσ
X2 S2 XI Si Xn Sn
σx
X服从什么分布？
例3-1 若某市1999年18岁男生身高服从均数 =167.7cm、标准差 =5.3cm的正态分布。从该正态分布N(167.7，5.32)总体中随机抽样 100次即共抽取样本g=100个，每次样本含量nj=10人，得到每个样本均数及标准差Sj 如图3-1和表3-1所示。
95%CL 175.72 173.44 174.31 170.90 171.04 170.83 173.11 171.90 172.52 172.00 169.40 171.56 171.53 172.94
171.21 170.33 169.03 167.63 168.66 168.84 169.31 168.46 168.60 168.47 165.68 165.68 168.03 169.37
171.00 170.10 170.47 175.98 169.97 171.91 173.37
样本号 61 62 63 64 65 66 67 68 69 70 71 72 73 74
x
j
Sj 6.30 4.34 7.38 4.58 3.33 2.78 5.31 4.81 5.48 5.05 5.19 8.22 4.89 5.00 166.70 167.23 163.75 164.36 166.27 166.85 165.51 165.02 164.88 164.86 161.97 159.80 164.53 165.79
抽样误差：样本统计量与参数之间的差异，称抽样误差。样本统计量是一个随机变量，在随机的原则下从同一总体抽取不同的样本，即使每个样本的样本含量n相同,它们的结果也会不同。

统计学--第三章总体均数的估计与假设检验

第三章
总体均数的估计与假设检验
课件
1
统计推断的目的：
用样本的信息去推论总体。
医学研究中大多数是无限总体，即使是有限总体，但也经常受各种条件的限制，不可能直接获得总体的信息。
课件本科生卫生学（5)
2
第一节均数的抽样误差与标准误
• 抽样误差（sampling
error）:因各样本包含的个体不同，所得的各个样本统计量（如均数）往往不相等，这种由于个体差异和抽样造成的样本统计量与总体参数的差异，称为抽样误差。
均数的95%可信区间为3.47~ 3.81（mmol / L） 95%参考值范围为1.29~ 5.99（mmol / L）
S 1.20 X u / 2 S X X 1.96 3.64 1.96 n 200 (3.47, 3.81)
X 1.96S 3.64 1.961.20 (1.29, 5.99) 32 课件本科生卫生学（5)
t分布的应用：总体均数的区间估计 t检验
课件本科生卫生学（5) 18
第三节总体均数的置信区间估计 confidence interval
可信区间的概念总体均数可信区间的计算均数可信区间与参考值范围的区别
课件本科生卫生学（5)
19
一、可信区间的概念
统计推断：参数估计与假设检验。参数估计: parametric estimation，用样本统计量估计总体参数的方法。点（值）估计:point estimation，直接用样本统计量作为总体参数的估计值。方法简单但未考虑抽样误差大小。区间估计:interval estimation，按预先给定的概率95%，或(1-)，确定的包含未知总体参数的可能范围。考虑了抽样误差。

医学统计学--第三章总体均数的估计与假设检验

的 95%可信区间。
32
本例 n=10，按公式(3-2)算得样本均数的标准误为
S1=101=9,双尾 =0.05，
查附表 2 的 t 界值表得 t0.05 2,9 2.262 。按公式(3-5) (166.95 2.262 1.1511) 即(164.35, 169.55)cm 故该地 18 岁男生身高均数的 95%可信区间为(164.35, 169.55)cm。
X
2 X
、
) ,则通
过同样方式的 u 变换( X
2
)也可将其转换为
标准正态分布 N (0 , 1 )，即 u 分布。
17
3．实际工作中，由于 X 未知，用S X 代替，
则(X
) / SX
不再服从标准正态分布，而
服从t 分布。
t X SX X S n , n 1
2
第一节均数的抽样误差与标准误
3
统计推断：由样本信息推断总体特征。
样本统计指标（统计量）
总体统计指标（参数）
2
正态（分布）总体：N 说明！
~ ( , )
推断！
为说明抽样误差规律，先用一个实例，后引出理论。
4
例 3-1 若某市 1999 年 18 岁男生身高服从均数μ =167.7cm、标准差 =5.3cm 的正态分布。对该总体进行随机抽样，每次抽 10 人， n =10）（，共抽得 100 个样本（ g =100），计算得每个样本均数 X 及标准差 S 如图 3-1 和表 3-1 所示。

1 2 3 4 5 6 7 8 9 10 21 22 23 24 25
单侧双侧

研究生统计学讲义第3讲总体均数估计和假设检验

19
所谓小概率原理，就是“在一次试验中，概率很小 (接近于零)的事件认为是实际上不可能发生的事件” 。例如，假设在1000支复方大青叶注射液针剂中只有一支是失效的，现在从中随机抽取一支，则取得“失效的那支”概率为1/1000，这个概率是很小的，因此，可以认为在一次抽取中是不会发生的，若从中任取一支恰好为“失效的那支”，我们就有理由怀疑“失效概率为1/1000”的假设不成立，而认为失效率不是 1/1000，从而否定假设。否定假设的依据就是小概率原例理4.3。已知正常成年男子脉博平均为72次/分，现随机检查20名慢性胃炎所致脾虚男病人，其脉博均数为75次/分，标准差为6.4次/分，能否认为此类脾虚男病人的脉博快于健康成年男子的脉博？
13
4.单个总体均数的估计样本均数是总体均数μ的一个点估计。σ已知时，按（式4-3）计算的统计量服从标准正态分布，根据标准正态分布的规律
P（-uα/2< u <uα/2） =1-α ，有
σ已知时，正态总体均数μ的双侧（1－α）可信区间计算公式为（4-7）
而σ往往未知
σ未知时，按（式4-4）计算的统计量服从 t 分布，由t 分布的规律 P（-tα/2<t<tα/2） =1-α
14
有了抽样分布，对任何样本，在预先不知道总体特性
的任何知识时，利用抽样分布可以产生总体均数的置
信区间．
C
t
0
X
s/ n
t0
1
t0=tα/2
解这个不等式，把关心的参数μ从中间分离出来，就
得到置信度为1－α的总体均数的置信区间为：
X t0 s X t0 s （4-8）
n
n
S
注意－t 0和t 0由自由度n－1和置信水平确定，X 和 n

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

N（0，12）
Student t分布
t X X ,
S n SX
v n 1 自由度：n-1
f(t)
ν─>∞(标准正态曲线)
ν=5
ν=1
f (t) ( 1) 2 (1 t 2 / )( 1) 2
( 2)
-5.0
-4.0
-3.0
-2.0
-1.0
0.0
用希腊字母分别记为μ、
参数推断inference 统计量 σ。固定的常数
统计量：样本的统计指标，如样本均数、标准差，采用拉
丁字母分别记为
X、。S参数附近波动的随机变量。
第一节均数的抽样误差与标准误
例如，从总体均数 =4.83×1012/L、标准差 =0.52×1012/L 的正态分布总体
单侧t0.05，9＝1.833 双侧t0.01/2，9＝3.250
＝单侧t0.005，9 单侧t0.01，9＝2.821 双侧t0.05/2，∞＝1.96
＝单侧t0.025，∞ 单侧t0.05，∞ ＝1.64
第三节总体均数的可信区间估计
总体均数的点估计（point estimation）与区间估计
20
15
10
5
0 4.2~ 4.3~ 4.4~ 4.5~ 4.6~ 4.7~ 4.8~ 4.9~ 5.0~ 5.1~ 5.2~ 红细胞数（×1012/L）
图4-1 随机抽样所得100个样本均数的分布
100个样本均数的抽样分布特点：
① 4.83 X 4.8276
② 100个样本均数中，各样本均数间存在差异，但各样本均数在总体均数周围波动。
M
第100个样本S X
S 0.39 =0.123 n 10
0.52 0.1644
X n 10
3个抽样实验结果图示
频数
450
400 350
n 5; SX 0.2212
300
250
200
150
100
50
0 3.71 3.92 4.12 4.33 4.54 4.74 4.95 5.15 5.36 5.57 5.77 5.98 6.19
SX
S n
通过增加样本
含量n来降低抽
样误差。
表4-1计算了100个样本的标准差S，由此可计算每一样本的抽样误差大小。
第1个样本S X
S 0.38 =0.120 n 10
第2个样本S X
S 0.45 =0.142 n 10
第3个样本S X
S 0.49 =0.155 n 10
统计学：总体均数的估计
随机抽样 random sampling
为了保证样本的可靠性和代表性，需要采用随机的方法抽取样本（在总体中每个个体具有相同的机会被抽到）。
参数与统计量
parameter and statistic
参数：总体的统计指标，
总体
抽取部分观察单位样本
如总体均数、标准差，采
（P406，附表2）
问单侧t0.05,10 ?
✓ 举例：
f (t) ν=10的t分布图
t
1.812 -t , t0.05,10 1.812 ，则有
P(t 1.812) 0.05 或 P(t 1.812) 0.05
1.0
2.0
3.0
4.0
5.0
t
图4-2 不同自由度下的t 分布图
t分布的特征
①以0为中心，左右对称的单峰分布；
②t分布曲线是一簇曲线，其形态变化与自
由度的大小有关。
自由度越小，则t值越分散，曲线越低平；自由度逐渐增大时，t分布逐渐逼近Z分布(标准正态分布)；当趋于∞时，t分布即为Z分布。
t 界值表
=样本标准差/ 样本含量＝S n
从正态总体N(,2)中抽取样本，获得
均数的分布仍近似呈正态分布N(,2/n) 。
第二节 t 分布(t-distribution)
随机变量X N（，2）
Z X
Z变换
标准正态分布
N（0，12）
均数 X
N(, 2 n)
Z X n
标准正态分布
③样本均数的分布曲线为中间高，两边低，左右对称，近似服从正态分布。
④样本均数的标准差明显变小：

0.52
SX
0.1772
0.52 10
0.1644 X
标准误(standard error, SE)
即样本均数的标准差，可用于衡量抽样误
差的大小。

X
n
因通常σ未知，计算标准误采用下式：
N(4.83, 0.522)中，随机抽取 10 人为一个样本（n=10），并计算该样本的均数、标
准差。如此重复抽取 100 次（ g =100），可得到 100 份样本，可得到 100 对均数
X 和标准差 S ，见表 4-1 所示。
正态总体
=4.83 =0.52
100份样本的均数和标准差
XS
0 3.71 3.92 4.12 4.33 4.54 4.74 4.95 5.15 5.36 5.57 5.77 5.98 6.19
均数
抽样实验小结
均数的均数围绕总体均数上下波动。
均数的标准差即标准误 X 与总体标
准差样相本差均一数个的常标数准的误倍（数St，an即dardX
/ n
Error)
1. 4.58, 0.38 2. 4.90, 0.45 3. 4.76, 0.49
┆
100 个
样本含 99. 4.87, 0.59 量 n =10 100. 4.79, 0.39
频数
将这100份样本的均数看成新变量值，按第二章的频数分布方法，得到这100个样本均数得直方图见图4-1。
30
25
② 10，双 =0.05，t 2, t0.05/ 2,10 2.228 ，则有
P(t 2.228) P(t 2.228) 0.05 t t 0.05/ 2,10 0.025,10
t分布曲线下面积（附表2）
双侧t0.05/2，9＝2.262 ＝单侧t0.025，9
均数
n 30; SX 0.0920
频数
频数
450
400 350 300
n 10; SX
0.1580
250
200
150
100
50
0 3.71 3.92 4.12 4.33 4.54 4.74 4.95 5.15 5.36 5.57 5.77 5.98 6.19
均数
450 400 350 300 250 200 150 100 50