第四章 总体均数的估计
医学统计学
第一章绪论(一)名词解释1.总体与样本2. 随机抽样3. 变异4. 等级资料5. 概率与频率6. 随机误差7. 系统误差8. 随机变量9.参数10. 统计量(二)单项选择题1.观察单位为研究中的( )。
A.样本B. 全部对象C.影响因素D. 个体2.总体是由()。
A.个体组成B. 研究对象组成C.同质个体组成D. 研究指标组成3.抽样的目的是()。
A.研究样本统计量B. 由样本统计量推断总体参数C.研究典型案例研究误差D. 研究总体统计量4.参数是指()。
A.参与个体数B. 总体的统计指标C.样本的统计指标D. 样本的总和5.关于随机抽样,下列那一项说法是正确的()。
A.抽样时应使得总体中的每一个个体都有同等的机会被抽取B.研究者在抽样时应精心挑选个体,以使样本更能代表总体C.随机抽样即随意抽取个体D.为确保样本具有更好的代表性,样本量应越大越好(三)是非题1.研究人员测量了100例患者外周血的红细胞数,所得资料为计数资料。
2.统计分析包括统计描述和统计推断。
3.计量资料、计数资料和等级资料可根据分析需要相互转化。
(四)简答题某年级甲班、乙班各有男生50人。
从两个班各抽取10人测量身高,并求其平均身高。
如果甲班的平均身高大于乙班,能否推论甲班所有同学的平均身高大于乙班?为什麽?第二章计量资料的统计描述(一)名词解释1.频数表2.算术均数3.几何均数4.中位数5.极差6.百分位数7.四分位数间距8.方差9.标准差10.变异系数(二)单项选择题1.各观察值均加(或减)同一数后()。
A.均数不变,标准差改变B.均数改变,标准差不变C.两者均不变D.两者均改变2.比较身高和体重两组数据变异度大小宜采用()。
A.变异系数B.差C.极差D.标准差3.以下指标中()可用来描述计量资料的离散程度。
A.算术均数B.几何均数C.中位数D.标准差4.偏态分布宜用()描述其分布的集中趋势。
A.算术均数B.标准差C.中位数D.四分位数间距5.各观察值同乘以一个不等于0的常数后,()不变。
4 第四章 均数的抽样误差与t分布
统计推断包括两个方面: 统计推断包括两个方面: 参数估计( 1、参数估计(总体均数的可信区 间估计) 间估计) 假设检验(均数的假设检验) 2、假设检验(均数的假设检验) 两样本均数必较( 检验、 ⑴、两样本均数必较(u检验、 检验) t检验) 多样本均数必较( 检验) ⑵、多样本均数必较(F检验)
t分布
(t - distribution) distribution)
从正态总体中随机抽取含量为n 从正态总体中随机抽取含量为n的若 干样本,由样本算得样本均数x 干样本,由样本算得样本均数x,x服从 正态分布, 则称为正态变量。若已知µ 正态分布,x则称为正态变量。若已知µ, 但未知σ 为了应用方便,可用s代替σ 但未知σ,为了应用方便,可用s代替σ, 求得σ 的估计值S 正态变量x 求得σx的估计值Sx,正态变量x可作变量 变换:t=(x变量变成t变量。 变换:t=(x-µ)/Sx, x变量变成t变量。每 个样本x可算得一个t变量, 个样本x可算得一个t变量,所有可能含量 的样本的t值构成t变量总体, 分布。 为n的样本的t值构成t变量总体,即t分布。
可信区间的两个要素
1.准确度 反映在可信度1 1.准确度:反映在可信度1–α的大 准确度: 小上,即区间包含总体均数的概率大小。 小上,即区间包含总体均数的概率大小。 概率越大越准确。 概率越大越准确。 2.精度 反映在可信区间的长度上。 2.精度:反映在可信区间的长度上。 精度: 长度越小越精密。 长度越小越精密。 在 n 确定的情况下,二者是矛盾的。 确定的情况下,二者是矛盾的。 (α ↓, tα.ν ↑) 如提高可信度 ,则区间变 在可信度确定的情况下, 长。在可信度确定的情况下,增加样本 减小区间长度, 例数 (SX ↓, tα,减小区间长度,提高 ↓) .ν 精度。 精度。
总体均数的估计和假设检验PPT课件
5、t’检验
当方差不齐时,两小样本均数的比较用t’
检验。 检验统计量:t'
x1 x2 s12 s22 n1 n2
临界值:
t'
s2 x1
t ,v1
s2
s2 x2
s2
t ,v2
x1
x2
如果t’ >t’α,则P<α,则拒绝原假设。
6、z检验
当样本含量较大时,可用z检验来进行
两样本均数的比较。它是用于两大样本均 数的比较,目的是推断两总体均数是否相 同。所用公式:
4、成组t检验
(3) 资料要求:两样本来自正态或近似正态 分布,并且两组总体方差相等。
(4) 对数正态分布的资料,在进行t检验时,
要先把数据进行对数转换,用对数值作为
新变量进行成组t检验。
4、成组t检验
(4) 公式: H0: μ1= μ2 H1:μ1 ≠ μ2
t x1 x2 s
x1 x2
(1) 小样本资料的估计(未知)
P(t ,<t<t , ) 1
由1-αx时 t,,计( 算sn )总<体<均x数的t,可( 信sn区)可间得的到通当式可为信:度
即:x
t
,
s x
例2:试求例1中该地1岁婴儿血红蛋白平 均值的95%的可信区间。
s
由ν于 =nn= -215=,24s=,11α.取9g双/L尾, 0s.x 05,n查t2界.3值8 g表/ L得:
准差s2=1.626 mg/dl,配对t检验结果,t =-
3.098,P<0.05,故认为脑病病人尿中类固醇排出 量高于正常人。
表3 正常人和脑病病人尿中类固醇排出量 (mg/dl)
正常人
2.90 5.41 5.48 4.60 4.03 5.10 4.97 4.24 4.37 3.05 2.78脑ຫໍສະໝຸດ 病人差别是由抽样误差引起的。
统计学教案习题04总体均数的估计和假设检验
第四章 总体均数的估计和假设检验一、教学大纲要求(一) 掌握内容1. 抽样误差、可信区间的概念及计算; 2. 总体均数估计的方法;3. 两组资料均数比较的方法,理解并记忆应用这些方法的前提条件; 4. 假设检验的基本原理、有关概念(如I 、II 类错误)及注意事项。
(二) 熟悉内容 两样本方差齐性检验。
(三) 了解内容1. t 分布的图形与特征;2. 总体方差不等时的两样本均数的比较; 3. 等效检验。
二、教学内容精要(一) 基本概念 1. 抽样误差抽样研究中,样本统计量与总体参数间的差别称为抽样误差(sampling error )。
统计上用标准误(standard error ,SE )来衡量抽样误差的大小。
不同的统计量,标准误的表示方法不同,如均数的标准误用X S 表示,率的标准误用S P 表示,回归系数的标准误用S b 表示等等。
均数的标准误与标准差的区别见表4-1。
表4-1 均数的标准误与标准差的区别均数的标准误标准差意义 反映的抽样误差大小 反映一组数据的离散情况 记法X σ(样本估计值X S )σ(样本估计值S )计算X σ=nσ X S =nSσ =nX 2)(∑-μS=1)(2--∑n X X控制方法增大样本含量可减小标准误。
个体差异或自然变异,不能通过统计方法来控制。
2.可信区间(1)定义、涵义:即按预先给定的概率确定的包含未知总体参数的可能范围。
该范围称为总体参数的可信区间(confidence interval ,CI )。
它的确切含义是:CI 是随机的,总体参数是固定的,所以,CI 包含总体参数的可能性是1-α。
不能理解为CI 是固定随机的,总体参数是随机固定的,总体参数落在CI 范围内可能性为1-α。
当0.05α=时,称为95%可信区间,记作95%CI 。
当0.01α=时,称为99%可信区间,记作99%CI 。
(2)可信区间估计的优劣:一定要同时从可信度(即1-α的大小)与区间的宽度两方面来衡量。
医学统计学-实习二定量资料的统计推断
a. Lilliefors Significance Correction
Sig. .466 .482
2.方差齐性检验、
两样本比较的t 检验:
结果输出:
Independent Samples Test
Levene's Test for
Equality of Variances
t-test for Equality of Means
95%置信区间
结果输出:
二、定量资料的 差异性检验
有关样本资料的差异性比较
数据类型
定量资料
设计类型
不满足t 检验/方 差分析条件的
定性资料
设计
类型
设计类型
单 样 本
配 对 设 计
两 独 立 样
多 独 立 样
本本
随析重 机因复 区设测 组计量 资资资 料料料
单 样 本
配 对 设 计
两 多 独 立 样 本
a. Not corrected for ties.
b. Grouping Variable: group
【例6.4】为研究某种抗癌新药对小白鼠移植性肉瘤S180 的抑瘤效果,将20只小白鼠按性别、体重、窝别配成对子。 每对中随机抽取一只服用抗癌新药,另一只作为阴性对照, 服用生理盐水,观察其对小白鼠移植性肉瘤S180的抑瘤效 果,经过一定时间,测得小白鼠瘤重如表4所示。问小白 鼠服用抗癌新药和生理盐水后平均瘤重有无不同?
Std. Error M ea n 184.699
140.079
Pair 1 甲 组 - 乙 组
Paired Samples Test
M ea n 795.000
Paired Differences
总体均数估计与假设检验
t 检验
t-test
三、t检验和Z检验(参数检验)
以t分布为基础的检验称为t检验。 t分布的发现使得小样本统计推断成为 可能。因而,它被认为是统计学发展历 史中的里程碑之一。
在医学统计学中,t检验是重要的 假设检验方法之一。常用于两个均数之 间差别的比较,并根据资料的分布情况 及设计类型,选择不同的t检验方法。
配对样本t检验
Paired design t-test
关系:随着样本含量增加,都减小。
联系:都是表示变异度的指标,当样本量一定时,两者成正比。
标准误用途
衡量样本均数的可靠性:标准误越小,表明 样本均数越可靠;
参数估计:估计总体均数的置信区间(区 域);
假设检验:用于总体均数的假设检验(比 较)。
二、t分布:
标准正态分布
开创了小样本统计的新纪元,t分布主要用于总体均数的 区间估计和t检验!
假设检验(Hypothesis test)
假设检验的推断原理 假设检验的基本步骤 t检验和Z检验 两样本总体方差齐性检验 正态性检验 假设检验的两类错误 注意事项
一、假设检验的推断原理
上面介绍过的区间估计方法是统计 推断的内容之一,假设检验是统计推 断的另一重要内容。正是应用统计推 断的理论和方法,人们才能顺利地通 过有限的样本信息去把握总体特征, 实现抽样研究的目的。
s / n 25.74 36
在H0成立的前提下,当前t值出现的概率有多 大???
如何给出这个量的界限?
小概率事件在一次试验 中基本上不会发生 !
从附表2中查出在显著性水平 =0.05(双侧),自由度为35所 对应的t界值=2.318,即为拒绝 域与接受域的界限。如果计算
均数的抽样误差与总体均数的估计
总体均数的估计和t检验
它不受样本大小和样本变异性的影响,是衡量数据分布中心位
03
置的重要参数。
总体均数的点估计
点估计(Point Estimation):使用 样本统计量来估计总体参数的方法。
样本均数(Sample Mean):作为总 体均数的点估计量,它是从样本数据 中计算得出的平均值。
总体均数的区间估计
要点一
区间估计(Interval Estimation)
根据t统计量的显著性,得出配对观测值之 间是否存在显著差异的结论。
配对样本t检验的应用
01
比较同一受试者在不同时间点的生理指标或心理指 标是否存在显著差异。
02
比较同一受试者在不同条件下的行为表现是否存在 显著差异。
03
比较不同治疗方法的效果是否存在显著差异。
04
CHAPTER
两独立样本t检验
两独立样本t检验的概念
它适用于在实验设计时将观测值配对的情况,例如同一受试者在不同时间 点或不同条件下获得的观测值。
配对样本t检验的目的是检验两组配对观测值的均值是否存在显著差异。
配对样本t检验的步骤
1. 数据收集
收集两组配对观测值的数据,确保数据来源可靠、准确。
2. 数据整理
将数据整理成适合进行t检验的表格形式,包括配对观测值的编 号、观测值、差值等。
两独立样本t检验是用来比较 两个独立样本的总体均数是否
有显著差异的统计方法。
它适用于两个独立样本,且 每个样本的观察值相互独立,
不受其他因素的影响。
两独立样本t检验的前提假设 是:两个样本的总体均数相等, 且每个样本的观察值服从正态
分布。
两独立样本t检验的步骤
01
02
03
总体均数的估计和假设检验
无统计学意义,按 0.05检验水
准,不拒绝H0,尚不能认为两种
方法的检查结果不同。
成组设计的两样本均数的检验
01
完全随机设计(又称成组设计):将受试对象完全随机地分配到各个处理组中或分别从不同总体中随机抽样进行研究。
02
01
若n1 ,n2 较小,且σ12=σ22
02
两独立样本的t检验(例3.7);
01
方差分析法。
02
单侧检验和双侧检验(根据 研究目的和专业知识选择)
假设检验(1)双侧检验:如要比较A、B两个药物的疗效,无效假设为两药疗效相同(H0:μA=μB),备择假设是两药疗效不同(H1:μA≠μB),可能是A药优于B药,也可能B药优于A药,这就是双侧检验。
01
02
单侧检验:若实际情况是A药的疗效不劣差于B药,则备择假设为A药优于B药(H1:μA>μB),此时,备择假设成立时只有一种可能(另一种可能已事先被排除了),这就是单侧检验。
01
备注:单侧检验和双侧检验中计算统计量t的过程是一样的,但确定概率时的临界值是不同的。
01
统计推断应包括统计结论和专业结论两部分。统计结论只说明有统计学意义(statistical significance) 或无统计学意义,而不能说明专业上的差异大小。只有将统计结论和专业知识有机地相结合,才能得出恰如其分的专业结论。
A,B处理。
2
0.05
H0:μd =0 H1:μd ≠0
其中
式中d为每对数据的差值, 为差值的样本均数, Sd为差值的标准差, 为差值样本均数的标准误, n为对子数。
开机: 进入统计状态: 清除内存:
SHIFT
b. 近似t检验,即t'检验(n1,n2 较小,且σ12≠σ22)
医学统计学重点
医学统计学重点第一章 绪论1.基本概念:总体:根据研究目的确定的性质相同或相近的研究对象的某个变量值的全体。
样本:从总体中随机抽取部分个体的某个变量值的集合。
总体参数:刻画总体特征的指标,简称参数。
是固定不变的常数,一般未知。
统计量:刻画样本特征的指标,由样本观察值计算得到,不包含任何未知参数。
抽样误差:由随机抽样造成的样本统计量与相应的总体参数之间的差异。
频率:若事件A在n次独立重复试验中发生了m次,则称m为频数。
称m/n为事件A在n次试验中出现的频率或相对频率。
概率:频率所稳定的常数称为概率。
统计描述:选用合适统计指标(样本统计量)、统计图、统计表对数据的数量特征及其分布规律进行刻画和描述。
统计推断:包括参数估计和假设检验。
用样本统计指标(统计量)来推断总体相应指标(参数),称为参数估计。
用样本差别或样本与总体差别推断总体之间是否可能存在差别,称为假设检验2.样本特点:足够的样本含量、可靠性、代表性。
3.资料类型:(1)定量资料:又称计量资料、数值变量或尺度资料。
是对观察对象测量指标的数值大小所 得的资料,观察指标是定量的,表现为数值大小。
每个个体都能观察到一个观察指标的 数值,有度量衡单位。
(2)分类资料:包括无序分类资料(计数资料)和有序分类资料(等级资料)①计数资料:是将观察单位按某种属性或类别分组,清点各组观察单位的个数(频数),由 各分组标志及其频数构成。
包括二分类资料和多分类资料。
二分类:将观察对象按两种对立的属性分类,两类间相互对立,互不相容。
多分类:将观察对象按多种互斥的属性分类②等级资料:将观察单位按某种属性的不同程度、档次或等级顺序分组,清点各组观察单 位的个数所得的资料。
4.统计工作基本步骤:统计设计、资料收集、资料整理、统计分析。
第二章 实验研究的三要素1.实验设计三要素:被试因素、受试对象、实验效应2.误差分类:随机误差(抽样误差、随机测量误差)、系统误差、过失误差。
医学统计学总复习(刘桂芬主编-研究生使用) (1)
b. t 检验 c. 用 r 检验来代替。 ④ 作结论:如 P≤0.05, 说明方程成立,列出回归方程;如 P>0.05, 说明方程不成立,不列回归方程。 5. 直线相关的概念 6. 直线相关的主要用途:用于分析两变量是否有相关关系及其方 向
观察人数
期内死亡人数
- 14 -
x~
nx
Dx
0~
25
10
1~
22
20
2~
10
9
3~
11
7
4~
10
1
5~
8
4
6~
4
0
7~
4
1
8~
3
0
9~
3
0
10~
2
0
11~
1
0
第三部分 期末成绩评定
一、成绩评定方法 总评(100%)=平时作业 10%+基础理论知识考试(笔试)60%+操作 技能考试(上机)30% 二、考试题型 (一)基础理论知识考试(笔试)(考试时间:100 分钟) 1、最佳选择题(单选)(30%,30 小题,每题 1 分) 2、辨析题(30%,10 小题,每题 3 分) 3、简答题(10%,2 小题,每题 5 分) 4、分析应用题(30%,5-6 题)
第十六章 生存分析
1.生存资料的特点 2.生存分析的几个基本概念(生存时间、死亡概率与生存概率、生存 率、中位生存期) 3.生存分析的用途 4.生存率计算方法:(1)K-M 法:例数少,且为未分组;(2)寿命表 法:例数多,且为频数表资料(注意:生存概率与生存率的结果) 5.生存率曲线比较:(1)log-rank test:两组或多组;(2)Gehan Score test:两组 6.Cox 模型(不要求) 第二十二章 医学论文统计结果报告
总体均数估计
16
一、参数估计
用样本统计量推断总体参数。 总体均数估计:用样本均数(和
标准差)推断总体均数。
1
1.点估计(point estimation):就是用 相应样本统计量直接作为其总体参数的 估计值。如用 X 估计 、S 估计 等。其 方法虽简单,但未考虑抽样误差的大小。
2
2.区间估计(interval estimation):
• 在可信度确定的情况下,增加样本含量可 减小区间宽度,提高精确度。
14
四、总体均数可信区间 与参考值范围的区别
15
表3-2 总体均数的可信区间与参考值范围的区别
区别点 总体均数可信区间 按预先给定的概率,确定的未知参数 的可能范围。实际上一次 含 抽样算得的可信区间要么包含了总体均数,要么不包含。但可以说: 当=0.05 时,95%CI 估计正确的概率为 0.95,估计错误的概率小于或 “正常人”的解剖,生理,生化某项指标的波 义 等于 0.05,即有 95%的可能性包含了总体均数。 总体均数的可能范围 计算 公式 动范围。 个体值的波动范围
P25,15号样本
8
例3-3 某地抽取正常成年人200名,测得
其血清胆固醇的均数为3.64 mmol/L,标准差 为1.20mmol/L,估计该地正常成年人血清胆
固醇均数的95%可信区间。9来自三、可信区间的确切涵义
10
• 1. 95%的可信区间的理解: • (1)所要估计的总体参数有95%的可能在我们所估计的 可信区间内。
X 166.95 (cm),标准差S 3.64 (cm),求其总体均数
的 95%可信区间。
7
本例 n=10,按公式 (3-2)算得样本均数的标准误为
=n 1=10 1=9,双尾 =0.05,
03总体均数的估计及假设检验
●统计推断(statistical inference):通过样本指标来说明总体特征,这种从样本获取有关总体信息的过程称为统计推断。
●抽样误差(sampling error):由个体变异产生的,随机抽样造成的样本统计量与总体参数的差异,称为抽样误差。
●标准误(standard error of mean,SEM )及X s :通常将样本统计量的标准差称为标准误。
许多样本均数的标准差X s称为均数的标准误,它反映了样本均数间的离散程度,也反映了样本均数与总体均数的差异,说明均数抽样误差的大小。
可通过增加样本含量,设计减少标准差来降低标准误。
●可信区间(confidence interval,CI):按预先给定的概率确定的包含未知总体参数的可能范围。
该范围称为总体参数的可信区间。
它的确切含义是:可信区间包含总体参数的可能性是1- a ,而不是总体参数落在该范围的可能性为1-a 。
●参数估计:指用样本指标值(统计量)估计总体指标值(参数)。
参数估计有两种方法:点估计和区间估计。
●假设检验中P 的含义:指从H0 规定的总体随机抽得等于及大于(或等于及小于)现有样本获得的检验统计量值的概率。
●I 型和II 型错误:I 型错误(type I error ),指拒绝了实际上成立的H0,这类“弃真”的错误称为I 型错误,其概率大小用a 表示;II 型错误(type II error),指接受了实际上不成立的H0,这类“存伪”的误称为II 型错误,其概率大小用b 表示。
●检验效能:1- b 称为检验效能(power of test),它是指当两总体确有差别,按规定的检验水准a 所能发现该差异的能力。
●检验水准:是预先规定的,当假设检验结果拒绝H0,接受H1,下“有差别”的结论时犯错误的概率称为检验水准(level ofa test),记为a 。
●抽样误差:由个体变异和抽样造成的样本统计量与总体参数的差异为★标准差与标准误的区别标准差与标准误的意义、作用和使用范围均不同。
总体均数估计和假设检验
THANKS
感谢观看
检验的步骤与逻辑
步骤
提出假设、选择合适的统计量、计算P值、根据P值做出决策。
逻辑
基于样本信息推断总体特征,利用统计量进行假设检验,并根据P值判断假设是否成立。
03
常见假设检验方法
t检验
t检验是一种常用的参数检验方法,用 于比较两组数据的均值是否存在显著 差异。
t检验基于假设和样本数据计算t统计 量,并根据临界值判断假设是否成立。 通常用于小样本数据或已知总体分布 的情况。
当实际无差异时,由于误差率较高或检验效能不足,错误地判断 出差异,导致得出阳性结论。
多重比较与校正
多重比较问题
在多个样本或组别的比较中,如果没有采取适当的校正措施,会导致假阳性结论增多。
校正方法
为控制多重比较导致的假阳性风险,可以采用Bonferroni校正、Holm-Bonferroni校 正等校正方法,对显著性水平进行调整。
卡方检验
卡方检验是一种非参数检验方法,用于比较实际观测频数 与期望频数之间的差异。
卡方检验基于卡方统计量,通过比较实际观测频数与期望 频数,评估分类变量之间是否存在显著关联。
04
假设检验中的问题与注意 事项
样本选择与偏差
样本选择偏差
在选择样本时,如果未能遵循随机抽 样的原则,或者存在选择偏见,会导 致样本不能代表总体,从而影响估计 的准确性。
Z检验
Z检验是用来检验比例或比率是否显 著不同于预期值。
Z检验基于正态分布理论,通过计算Z 统计量来评估样本比例或比率与预期 值之间的差异程度。
方差分析
方差分析(ANOVA)用于比较两个或多个组间的均值是否存 在显著差异。
方差分析通过比较组间和组内方差,评估各组均值是否存在 显著差异,适用于多组数据的比较。
4-总体均数的估计
x1 , s1
7
x2 , s2 x3 , s3
…………
x 1 , x 2 , x 3 ,...... x k ~ N ( µ ,
《医学基础统计》第四章总体均数的估计
σ
2
x k , sk
)
2010.09.21
n
1.1
抽样误差 sampling error
o 由于个体差异的存在,在抽样过程中产 生的样本统计量与相应的总体参数之间的 差异称为抽样误差; o 由于生物间的个体差异客观存在,故在 抽样研究中抽样误差无法避免; o 数理统计表明,抽样误差有规律可循。
2010.09.21
2.2
U值-标准正态变换
前提条件为,当σ x已知, u =
U值 ≥1.64 ≥1.96 ≥2.58 & & & ≤-1.64 ≤-1.96 ≤-2.58
x −μ
σx
正态分布曲线下面积 10% 5% 1%
P425,附表1 标准正态分布曲线下面积的分布表
21
《医学基础统计》第四章总体均数的估计
o总体均数的点估计为:104.89 o总体均数的95%可信区间为: 以 95 %的把握保证总 体 均 值 在 104.26 ~ 104.89 ± 1.980 × 0.32 105.52之间 = (104.26,105.52)
以 99 %的把握保证总 o总体均数的99%可信区间为: 体 均 值 在 104.05 ~ 104.89 ± 2.617 × 0.32 105.73之间 = (104.05,105.73)
30
《医学基础统计》第四章总体均数的估计 2010.09.21
四、总体均数估计的SAS编程
31
《医学基础统计》第四章总体均数的估计
卫生统计学题库
《卫生统计学》考试题库目录第一章绪论第二章定量资料的统计描述第三章正态分布第四章总体均数的估计和假设检验第五章方差分析第六章分类资料的统计描述第七章二项分布与Poisson分布及其应用第八章χ2检验第九章秩和检验第十章回归与相关第十一章常用统计图表第十二章实验设计第十三章调查设计第十四章医学人口统计与疾病统计常用指标第十五章寿命表第十六章随访资料的生存分析附录:单项选择题参考答案第一章绪论一、名词解释1. 参数(parameter) 2。
统计量(statistic) 3. 总体 (population)4。
样本 (sample) 5。
同质 (homogeneity) 6。
变异 (variation)7. 概率 (probability) 8。
抽样误差 (sampling error)二、单选题1.在实际工作中,同质是指:A。
被研究指标的影响因素相同 B。
研究对象的有关情况一样C.被研究指标的主要影响因素相同D.研究对象的个体差异很小E.以上都对2. 变异是指:A。
各观察单位之间的差异 B.同质基础上,各观察单位之间的差异C。
各观察单位某测定值差异较大 D.各观察单位有关情况不同 E。
以上都对3.统计中所说的总体是指:A.根据研究目的而确定的同质的个体之全部B.根据地区划分的研究对象的全体C。
根据时间划分的研究对象的全体 D.随意想象的研究对象的全体E.根据人群划分的研究对象的全体4。
统计中所说的样本是指:A。
从总体中随意抽取一部分 B.有意识地选择总体中的典型部分C。
依照研究者的要求选取有意义的一部分 D。
从总体中随机抽取有代表性的一部分E.以上都不是5.按随机方法抽取的样本特点是:A.能消除系统误差 B。
能消除随机测量误差 C。
能消除抽样误差D.能减少样本偏性E.以上都对6.统计学上的系统误差、测量误差、抽样误差在实际工作中:A。
均不可避免 B.系统误差和测量误差不可避免C。
测量误差和抽样误差不可避免 D。
研究生统计学讲义第3讲总体均数估计和假设检验
所谓小概率原理,就是“在一次试验中,概率很小 (接近于零)的事件认为是实际上不可能发生的事件” 。例如,假设在1000支复方大青叶注射液针剂中只有 一支是失效的,现在从中随机抽取一支,则取得“失 效的那支”概率为1/1000,这个概率是很小的,因此 ,可以认为在一次抽取中是不会发生的,若从中任取 一支恰好为“失效的那支”,我们就有理由怀疑“失 效概率为1/1000”的假设不成立,而认为失效率不是 1/1000,从而否定假设。否定假设的依据就是小概率 原例理4.3。已知正常成年男子脉博平均为72次/分,现随 机检查20名慢性胃炎所致脾虚男病人,其脉博均数 为75次/分,标准差为6.4次/分,能否认为此类脾虚 男病人的脉博快于健康成年男子的脉博?
13
4.单个总体均数的估计 样本均数是总体均数μ的一个 点估计。σ已知时,按(式4-3)计算的统计量服从标 准正态分布,根据标准正态分布的规律
P(-uα/2< u <uα/2) =1-α ,有
σ已知时,正态总体均数μ的双侧(1-α)可信 区间计算公式为(4-7)
而σ往往未知
σ未知时,按(式4-4)计算的统计量服从 t 分布,由t 分布的规律 P(-tα/2<t<tα/2) =1-α
14
有了抽样分布,对任何样本,在预先不知道总体特性
的任何知识时,利用抽样分布可以产生总体均数的置
信区间 .
C
t
0
X
s/ n
t0
1
t0=tα/2
解这个不等式,把关心的参数μ从中间分离出来,就
得到置信度为1-α的总体均数的置信区间为:
X t0 s X t0 s (4-8)
n
n
S
注意-t 0和t 0由自由度n-1和置信水平确定,X 和 n
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
抽样误差与区间估计
一、均数的抽样误差
抽样的目的是用样本信息来推断总体特征,因此要 保证样本的可靠性和代表性,使样本能够充分地反映总 体的真实情况。这就要求严格遵循独立性和随机化的原 则,并保证足够的样本含量。 为了解某地成年男子红细胞的总体均数,随机抽样 调查了200人,计算得到 - =4.95 1012 / L 这是一个点估计值,可以用来估计总体均数μ。但此时 样本均数不太可能等于总体均数。
在实际工作中,总体标准差常是未知的而是用样本 s 标准差s 来代替, x 的估计值记作 x 。
sx S n
从 N(4.83, 0.522)的总体中作随机抽样,n=10, 重复100次的抽样结果见P31。计算得到:
=4.282 =
100
-
S - 0.18
GG
20
10
Frequency
S 0.57 1012 / L
估计其抽样误差:
S
0.57 200
0.040(1012 / L )
标准误的用途
标准误是反映样本均数变异程度的指标,常用来 表示抽样误差的大小。标准误大反映样本均数抽样误 差大,其对总体均数的代表性差;标准误小,样本均 数抽样误差就小,其对总体均数的代表性就好。
–
–
二者都是单峰分布,以0为中心,左右两侧对称。
t 分布的峰部较矮而尾部翘得较高,说明远侧 t 值的个 数相对较多,即尾部面积(概率P)较大。自由度越小 这种情况越明显。 t分布不是一条曲线,而是由一簇随自由度改变而变化 的曲线所组成。当逐渐增大时,t 分布逐渐逼近标准 正态分布;当 = 时,t分布就完全成为标准正态分布 了。
10.9 2.093 3.86/ 20 9.112.7
所以该人群皮试的平均浸润直径的95%可信 区间为9.1~12.7mm 。
可信区间的两个要素
准确度:反映在可信度1-的大小,即区间包含总体 均数的概率的大小,当然愈接近1愈好; 精度:反映在区间的长度,当然长度愈小愈好。
在样本例数确定的情况下,二者是矛盾的。一般情 况下,在可信度确定的情况下,增加样本例数,可 减少区间长度,提高精度。
总体均数的估计
参数估计是通过样本指标(统计量)来估计总体指标 (参数)。它包括两种方法:
–
点(值)估计(point estimation):即把样本统计 量直接作为总体参数的估计值,如用样本均数来估计 总体均数。这种方法虽然很简单,但是未涉及随机误 差,而随机误差在抽样研究中是不可忽视的。 区间估计(interval estimation)即按一定的概率估 计总体均数在哪个范围,它把抽样误差引入估计量, 确定具有特定概率意义的区间。
标准差和标准误的区别 用途
–
标准差表示观察值间波动的大小,如精密度的大小, 当资料服从正态或近似正态分布时,可结合均数估 计正常值范围:
x u s
–
标准误表示抽样误差的大小,用于估计总体参数的 可信区间:
x t , s x
标准差、标准误与样本含量的关系
标准差随着样本量的增多,逐渐趋于稳定,如同地 区、同年龄、同性别儿童的身高、体重的标准差,当样 本含量达到约200以上时,基本趋于稳定。 标准误随着样本量的增多而减小,如均数的标准误, 当标准差不变时,与样本量的平方根呈反比。 当样本含量趋近于总体例数时,则样本标准差趋于 稳定,近似等于总体标准差;标准误则趋近于0,抽样误 差几乎消失。
Std. Dev = .18 Mean = 4.83 0 4.31 4.44 4.56 4.69 4.81 4.94 5.06 5.19 4.38 4.50 4.63 4.75 4.88 5.00 5.13 5.25 N = 100.00
GG
随机抽样调查了200人,计算得到 :
-
=4.95 1012 / L
–
可信区间与参考值范围
可信区间是从总体中作随机抽样,每个样本可以算出 一个可信区间,如95%可信区间,意味着100次抽样,算 得100个可信区间,平均有95个可信区间包括总体均数 (估计正确),只有5个可信区间不包括总体均数(估计 错误)。5%是小概率事件,实际发生的可能性小,因此, 在实际应用中就认为总体均数在算得的可信区间内, 这种 估计方法会冒5%犯错误的风险。 参考值范围是指同质总体中大多数个体变量值的分布 范围。95%参考值范围指同质总体中95%的个体值分布在 此范围内。它与标准差有关,各个体值变异越大,该范围 越宽,分布也越分散。
标准误可用于计算总体均数的可信区间,也是进 行假设检验的基础。
标准差和标准误的区别
意义: – 标准差描述个体值间的变异程度,即观察值间的离 散度,标准差小,表示观察值围绕均数的波动较小。 当观察值呈正态或近似正态分布时,可将均数及标 准差同时写出,如 。 xs
–
标准误描述统计量的抽样误差的大小,即样本统计 量与总体参数的接近程度。标准误小,表示抽样误 差小,则统计量较稳定,与参数较接近。
如由表查出单侧t0.05,10=1.812,表示从正态总体 作样本例数为11的随机抽样,其t 值服从=n-1=111=10的t 分布,理论上 P(t≤-1.812)=0.05,或P(t≥1.812)=0.05 用更一般的表示法为 – 单侧:P(t≤-tα,ν)=α,或P(t≥tα,ν)=α – 双侧:P(t≤-tα,ν)+P(t≥tα,ν)=α 反之 P(-tα,ν<t<tα,ν)=1-α
x
n
若上式中的 是未知的,可用样本标准差s代替 总体标准差 ,此时采用的不是 u 变换而是 t 变换了, 即:
x x t s sx n
其结果就不再服从标准正态分布了,而是服从自 由度为n-1 的 t 分布。
t 分布也是一种对称分布,它只有一个参数,即自由度。 t 分布与标准正态分布相比有以下特征:
可信区间和可信限
可信限(CL)分别指两个点值。 可信区间(常简记为CI)是以上、下可信限为界 的一个范围。
–
比如可信区间(5.31, 5.45)1012/L的下限是 5.311012/L,上限是5.451012/L 。
区间估计
设有一正态总体N(μ,2),现从中随机抽取一个
样本,该样本的均数和标准差分别用 和s表示,样 x 本均数的标准t离差服从t分布,则可信度为(1- ) 的t值满足: P(-tα,ν< t < tα,ν)=1- 将
小结
在正态总体N(μ,2)中作随机抽样,样本均数的 分布呈正态分布,当总体标准差未知,用 sx 作为标准误 的估计值,样本均数的分布呈t分布,t分布是随自由度 的改变而变化的一簇曲线,因此应注意自由度的大小。 参数估计是通过样本指标来估计总体指标。 点(值)估计:即把样本统计量直接作为总体参数的 估计值。 区间估计即按一定的概率估计总体均数在哪个范围。 它把抽样误差引入估计量,是确定具有特定概率意义的 区间。
从均数为μ,标准差为的正态或偏态总体中,抽取 例数为n的样本,样本均数的均数 x ,标准差 为 。 x
–
x 是样ቤተ መጻሕፍቲ ባይዱ均数的标准差也称为标准误,它反映了样
本均数与总体均数之间的离散程度,常用以说明均数 抽样误差的大小。
标准误的计算公式如下: x
n
该式反映了标准误 x 的大小与标准差 呈正比, 与样本量的平方根呈反比。因此,在抽样研究中,可 适当增加样本含量,控制和减小抽样误差。
未知时。一般用t分布的原理作区间估计。
x t , s / n x t , s / n
x u / n x u / n
已知
未知,但n足够大
x u s / n x u s / n
例:对某人群随机抽取20人,用某批号的结 核菌素作皮试,平均浸润直径为10.9mm,标准差 为3.86mm。问这批结核菌素在该人群中使用时, 皮试的平均浸润直径的95%可信区间是多少? 查附表,t0.05,19=2.093
–
t 界值
统计学家已将各种自由度对应的t分布曲线下的 尾部面积(概率)的百分界值编制成t界值表。 由于t分布是以0为中心的对称分布,故表中只 列出正值,所以查表时,不管t 值正负只用绝对值。
表右上角插图中阴影部分,表示tα,ν以外尾部面 积占总面积的百分数,即概率P。
随着自由度的增大,t界值逐渐减小,当自由度 无穷大时,双侧t0.05=1.96,单侧t0.05,=1.645,即为u 分布的界值。
这种由个体变异产生的、随机抽样而引起的统计 量与总体参数间的差异称为的抽样误差(sampling error),在抽样研究中抽样误差是不可避免的,只要 抽样就会有抽样误差存在,但是抽样误差的分布有一 定的规律性,并且可以通过一定的方法来估计。
根据数理统计原理,样本均数抽样结果具有如下特点:
–
从正态总体N(μ,2)中,随机抽取例数为n的样本, 样本均数也服从正态分布,即使是从偏态总体中抽样, 当n足够大时,样本均数的分布也服从正态分布;
t x s n
代入不等式,即: t , x t , s n
于是得可信度为1- 时,计算总体均数可信区间 的通式为:
x t , s / n x t , s / n
习惯上,常取1- =0.95, 即95%可信区间;或取 1- =0.99, 即99%可信区间。
二、均数抽样误差的分布-t分布
在总体均数为,标准差为的正态总体中,独立 随机的抽取样本含量为n的样本,则样本均数服从正 态分布 N ( , 2 ) :
x x
x
其中的分母称为均数的标准误,如果变量是正态 的或近似正态的,则标准化的变量服从或近似服从N (0,1)分布,即u分布。
x u 将样本均数标准化,则: x