正态分布参考值抽样误差
正态分布参考值抽样误差
百分位数法: 适用于偏态分布资料
例如白细胞数的95%参考值范围:因为白细胞数
25
20
15
10
5
0 3.8 4 4.2 4.4 4.6 4.8 5 5.2 5.4 5.6 5.8 红细胞计数(1012/L) 140名正常男子红细胞计数直方图
f(x)=(fi/n)
0.25
相 对 频 0.20 率
0.15
以频率为纵坐标
0.10
0.05
0.00
3.8 4 4.2 4.4 4.6 4.8 5 5.2 5.4 5.6 5.8
数值变量的参数估计
一、均数的抽样分布与抽样误差
抽样研究的目的就是要用样本信息来推断 总体特征。由于存在个体变异,样本均数 (X)往往不等于总体均数(),因此抽 样后各个样本均数也往往不等于总体均数, 且各个样本均数间也不一定都相等。这种 由抽样造成的样本均数与总体均数的差异 或各样本均数之间的差异称为抽样误差, 抽样误差是不可避免的。
红细胞计数(1012/L) 140名正常男子红细胞计数直方图
随着组段不断分细和观察人数的增多,直条顶端将逐渐接近于
一条光滑的曲线,如下图。这条曲线称为频率密度曲线,呈中
间高、两边低、左右对称,形状似座钟。类似于数学上的正态
分布曲线。
因为频率的总和等于1,故横轴上曲线下的面积等于1。
0.14 0.12
组中值 3.90 4.10 4.30 4.50 4.70 4.90 5.10 5.30 5.50 5.70 5.90
正态分布参考值抽样误差
数值变量的参数估计
一、均数的抽样分布与抽样误差
抽样研究的目的就是要用样本信息来推断 总体特征。由于存在个体变异,样本均数 (X)往往不等于总体均数(),因此抽 样后各个样本均数也往往不等于总体均数, 且各个样本均数间也不一定都相等。这种 由抽样造成的样本均数与总体均数的差异 或各样本均数之间的差异称为抽样误差, 抽样误差是不可避免的。
100个样本均数频数分布直方图
样本均数的抽样分布具有以下特点:
1. 各样本均数未必等于总体均数;
2. 样本均数之间存在差异;
3. 样本均数的分布很有规律,围绕着总体 均数,中间多、两边少,左右基本对称, 也服从正态分布;
4. 样本均数的变异较之原变量的变异大大 缩小。
抽样,样 本量为n
总体均数为μ,标准差σ
频率密度 f(x)=(fi/n)/i
0.1
(i=0.1)
0.08
0.06
0.04
0.02
0
3.8
4 4.2 4.4 4.6 4.8
5 5.2 5.4 5.6 5.8
这条所描述的分布,便近似于我们通常所说 的正态概率分布,简称正态分布。
正态分布是自然界最常见的一 种分布,例如,测量的误差、 人体的身高、体重、许多生化 指标的值(例如血压、血红蛋 白含量、红细胞数等等)等都 属于正态分布或近似正态分布。 还有些偏态资料可经数据转换 成正态或近似正态分布,例如 抗体滴度、血铅值等。
用 X 表示,或SE、SEM。
x
n
4.09 1.29(cm) 10
由于在实际抽样研究中往往未知,通
常用某一样本标准差s来替代,得标准误
的估计值 sX (通常也简称为标准误),其计
算公式为:
医学统计学名词解释及问答题
医学统计学名词解释及问答题1、总体(population ):是根据研究目的确定的同质研究对象的全体。
2、样本(sample):从总体中抽取的一部分有代表性的个体。
3、同质(homogeneity):是指所研究的观察对象具有某些相同的性质或特征。
4、变异(variation ):指同质个体的某项指标之间的差异。
5、参数(parameter):反映总体特征的指标称为参数。
6、统计量(statistic ):通过样本资料计算出来的相应指标称为统计量。
7、抽样误差(sampling error ):由随机抽样造成的样本指标与总体指标之间、样本指标与样本指标之间的差异。
8、概率(probability ):某事件发生的可能性大小。
9、正态分布(normal distribution ):高峰位于均数处,中间高两边低,左右完全对称地下降,但永远不与横轴相交的钟形曲线。
10、平均数(average):是描述一组同质变量值的平均水平或集中趋势的指标。
11、中位数(median):将一组数据由小到大排列,位于中间位置的观测值。
12、医学参考值范围(medical referenee range):又称正常值范围,医学上常将包括绝大多数正常人的某项指标的波动范围称为该指标的正常值范围。
13、方差(varianee ):是各个数据与平均数之差的平方的平均数。
14、标准差(standard deviation ):是各数据偏离平均数的距离的平均数,它是离均差平方和平均后的方根,用b 表示。
15、标准误(standard error ):样本均数的标准差,等于原变量总体标准差除以例数的平方根,用以说明均数抽样误差的大小。
16、均数的抽样误差(sampling error of mean ):由个体差异和抽样所导致的样本均数与样本均数之间,样本均数与总体均数之间的差异。
17、假设检验(hypothesis testing ):先对总体做出某种假设,然后根据样本信息来推断其是否成立的一类统计方法的总称。
卫生统计学--离散趋势的统计描述(衡量离散程度的指标、正态分布及应用、医学参考值范围)
课后习题:
3、将一组计量资料整理成频数表的目的( ) A、化为计数资料 B、便于计算 C、提供原始数据 D、为能够更精确的检验 E、描述数据的分布特征
4、6人接种流感疫苗一个月后,测定抗体 滴度为1:20、1:40、1:80、1:80、1:160、 1:320,求平均滴度应选用的指标是( )
表2-7 282名正常人尿汞值( g/L )测量结果
尿汞值
频 数f
累计频数 f
累计频率(%)
0~
45
45
16.0
8.0~
64
109
38.6
16.0~
96
205
72.7
24.0~
38
243
86.2
32.0~
20
263
93.3
40.0~
11
274
97.2
48.0~
5
279
98.9
56.0~
2
281
99.6
统计学方法是( )
A、用均数评价 B、用中位数评价 C、用几何均数评价D、用变异系数评价 E、用医学参考值范围评价
2.用于计算变异系数 3.用于计算标准误 4.结合均值与正态分布的规律,估计参考值范
围
第一节 衡量离散程度的指标 (五)变异系数(coefficient of variation)
变异系数常用于比较度量单位不同或均数相 差悬殊的两组(或多组)资料的变异程度。
S CV 100%
X
例题:某地7岁男孩身高的均数为 123.10cm,标准差为4.71cm;体重 均数为22.29kg,标准差为2.26kg, 比较其变异度?
随机变量X N(,2)
拓展
Z X
正态分布及其应用、抽样误差
置信区间是一种表示抽样误差的方法,它表示总体参数的可能取值范围。置信区间越窄,说明样本统计量与总体 参数的偏差越小,即抽样误差越小。
减少抽样误差的方法
增加样本量
增加样本量可以减小每个样本的代表性误差,从而减 小抽样误差。
改进抽样方法
采用更科学的抽样方法,如分层抽样、系统抽样等, 可以提高样本的代表性,从而减小抽样误差。
重复抽样
通过多次抽取样本并计算其统计量,可以减小抽样误 差。
05
抽样误差的影响因素
总体与样本的差异程度
总体与样本的差异程度越大,抽样误 差越大。
当总体分布与样本分布差异较大时, 需要采取更严格的抽样方法来减小误 差。
样本容量大小
样本容量越大,抽样误差越小。
在实际应用中,需要根据研究目的和资源情况合理确定样本容量,以减小误差。
在市场调查中,抽样误差可能导致对市场趋势的误判。例如,如果某品牌在目标消费群体中的实际市场份 额为30%,而由于抽样误差,调查结果显示其市场份额为25%,那么该品牌可能会错过扩大市场份额的机 会。因此,市场调查需要综合考虑抽样误差和其他不确定性因素,以做出明智的决策。
质量控制
在质量控制中,抽样误差可能导致对 产品质量的误判。如果某批次产品的 不合格率高于标准,但实际是由于抽 样误差造成的,那么这可能导致不必 要的生产成本和产品退货。因此,质 量控制需要采用合适的抽样方案和统 计分析方法,以减小抽样误差的影响。
04
抽样误差的概念
定义与产生原因
定义
抽样误差是由于从总体中随机抽取样本而产生的误差,它反映了样本统计量与总体参数之间的偏差。
产生原因
由于每个样本都是随机抽取的,因此每个样本的统计量都可能不同,从而导致抽样误差的产生。
正态分布与统计推断
信区间或99%可信区间。 计算方法有三种,可依据资料的具体条件选定。
阿 尔 法 数 值 分 析
STATISTICS
一、 未知且n较小:按t分布的原理用下 式计算可信区间。
X t / 2( ) S X
或者
阿
(X t / 2( ) S X , X t S / 2( ) X )
法 则拒绝该假设;若不属小概率事件,则不拒绝该假设。
数 值 分 析
STATISTICS
单、双侧检验
阿 尔 法 数 值 分 析
STATISTICS
两类错误
尽管假设检验帮助我们回答了与0是否相等的问题,但 它是建立在小概率原理上的判断,无论接受无效假设H0、 拒绝备择假设H1,还是接受备择假设H1、拒绝无效假设H0 都有可能犯错误。统计学中将拒绝了正确的无效假设H0称 为Ⅰ类错误(type I error),犯Ⅰ类错误的概率用表示,通
仅进行一次抽样,即只有一个样本均数 X ,故可用样本
标准差S估计抽样误差的大小。
抽样误差小,表示样本均数与总体均数越接近,即用样 本均数估计总体均数的可靠性越大;抽样误差大,样本 均数离总体均数就越远,用样本均数估计总体均数的可 靠性就越小。
阿 尔 法 数 值 分 析
STATISTICS
均数抽样误差的分布-t分布
阿 尔 法 数 值 分 析
STATISTICS
STATISTICS
正态分布和统计推断
• 正态分布和标准正态分布的概念
• 正态分布的特征和曲线下面积分布规律
• 医学参考值的估计
• 样本均数的抽样误差
阿
• 统计推断的假设检验
尔
医学统计学习题二
医学统计学习题二一、名词解释:1、参数2、统计量3、检验水准4、概率5、抽样误差6、医学参考值范围7、统计推断8、标准误9、可信区间10、Ⅰ型错误11、Ⅱ型错误12、标准化死亡比13、非参数检验14、回归系数15、相关系数二、简答题1、医学统计学工作的步骤。
2、正态分布有什么基本特征?有哪几个参数?3、医学正常值范围与可信区间有何区别?4、假设检验中应注意哪些问题?6、应用相对数时应注意的事项?8、非参数检验的适用条件、优缺点?三、是非题1、对数正态分布资料最好计算几何均数以表示其平均水平。
2、不论数据呈什么分布,用算术均数和用中位数表示平均水平都一样合理。
3、理论上只有服从正态分布条件的变量的算术均数等于中位数。
4、随机抽样就是指在抽样研究中不要主观挑选研究个体。
8、同一总体中随机抽样,样本含量越大,则样本标准差越小。
9、只要单位相同,用s和用CV来比较两套变量值的离散度,结论是完全一样的。
10、从同一总体随机抽取的两组数据中,平均数大的组标准差也大。
11、同一批计量数据的标准差不会比标准误大。
12、t检验是对两样本均数的差别作统计检验的方法之一。
13、当总体方差已知时,检验样本均数和某个已知总体均数差别有无统计意义只能用t检验。
14、在配对t检验中,用药前数据减去用药后数据和用药后数据减去用药前数据,作t检验后的结论是相同的。
15、方差分析中均方就是方差。
16、随机区组设计和完全随机设计方差分析的统计效能总是一样的。
17、4个均数作差别的统计检验,可以分别作两两比较的6次t检验以作详细分析。
18、回归系数越大,两变量的数量关系越密切。
19、双变量正态分布资料,样本回归系数小于零,可认为两变量呈负相关。
20、某事物内部某一部分所占的比重就是比例,患病率也是一种比例。
21、要消除甲乙两地各年龄组死亡率不同的影响而对两总的死亡率作比较,可以计算标准化死亡率后再作比较。
22、非参数统计方法不对特定分布的参数作统计推断,但仍要求数据服从正态分布。
心理测量学知识-新教材-2014年秋
三、 标准分常模
线性转换:当原始分数是常态分布时
是将原始分与平均数的距离,以标准差为单位表示出来的量表
(见373页正态分布图)
Z分是最基本的标准分
T分=50+10(Z)(T分广泛使用,人格测验中常用) 标准20=10+3(Z) (如韦氏量表中各分测验成绩) 标准10=5.5+1.5(Z) 标准9=5+2(Z)
标准差(亦称单数标准差) 一般用s 表示,是表示个体间变异大小的
指标,反映了整个样本对样本平均数的离散程度,是数据精密度的衡量指标; 而标准误一般用s…x 表示,反映样本平均数对总体平均数的变异程度,从 而反映抽样误差的大小,是量度结果精密度的指标。 随着样本数(或测量次数) n 的增大, 标准差趋向某个稳定值,即样本 标准差s 越接近总体标准差σ ,而标准误则随着样本数(或测量次数) n 的 增大逐渐减小,即样本平均数越接近总体平均数μ ;故在实验中也经常采用 适当增加样本数(或测量次数) n 减小s…x 的方法来减小实验误差,但样 本数太大意义也不大。
第二节
测验的常模
第一单元
常模团体
一、 常模团体的性质
由共同特征的人(或者其代表)所组成的群体, 用一个标准的分数表示,作为比较的基础。(如 SCL90常模中的男性大学生) 在制定常模时,首先要确定常模团体;在对常模参 考分数作解释时,也必须考虑常模团体的组成。 常模团体的选择一般包括:确定一般总体、确定目 标总体、确定样本
三、 测量量表
这个连续体称为量表
根据某一法则在一个定有单位和参照点的连续体上把事物的属性表现出来,
1.命名量表
用数字来标记-代号和分类(1代表男、2代表女)(不能做数量化分析)
2.顺序量表
医学统计学知识点
第一章绪论1、统计学,是关于数据收集、整理、分析、表达和解释的普遍原理和方法。
2、研究对象:具有不确定性结果的事物.3、统计学作用:能够透过偶然现象来探测其规律性,使研究结论具有科学性。
4、统计分析要点:正确选用统计分析方法,结合专业知识作出科学的结论。
5、医学统计学基本内容:统计设计、数据整理、统计描述、统计推断。
6、医学统计学中的基本概念(1)同质与变异同质,指根据研究目的所确定的观察单位其性质应大致相同。
变异,指总体内的个体间存在的、绝对的差异。
统计学通过对变异的研究来探索事物。
(2)变量与数据类型变量,是反映实验或观察对象生理、生化、解剖等特征的指标。
变量的观测值,称为数据分为三种类型:定量数据,也称计量资料,指对每个观察单位某个变量用测量或其他定量方法准确获得的定量结果.(如身高、体重、血压、温度等)定性数据,也称计数资料,指将观察单位按某种属性分组计数的定性观察结果。
包括二分类、无序多分类。
(进一步分为二分类和多分类,如性别分为男和女,血型分为A、B、O、A B等)有序数据,也称半定量数据或等级资料,指将观察单位按某种属性的不同程度或次序分成等级后分组计数的观察结果,具有半定量性质。
统计方法的选用与数据类型有密切的关系。
(3)总体与样本总体,指根据研究目的确定的所有同质观察单位的全体,包括所有定义范围内的个体变量值。
样本,是从研究总体中随机抽取部分有代表性的观察单位,对变量进行观测得到的数据。
抽样,是从研究总体中随机抽取部分有代表性的观察单位。
参数,指描述总体特征的指标。
统计量,指描述样本特征的指标。
(4)误差误差,指观测值与真实值、统计量与参数之间的差别。
可分为三种:系统误差,也称统计偏倚,是某种必然因素所致,不是偶然机遇造成的,误差的大小通常恒定,具有明确的方向性。
随机测量误差,是偶然机遇所致,误差没有固定的大小和方向。
抽样误差,是抽样引起的统计量与参数间的差异。
抽样误差主要来源于个体的变异。
抽样误差
t分布界值示意图,α表示阴影的面积 分布界值示意图, 分布界值示意图
t分布曲线下面积 分布曲线下面积
规律: 值增加, 规律:1. 同一ν下,t值增加,P值减小 值下, 增加, 反向关系 2. 同一P值下,ν增加,t值减小 双侧t 单侧t 双侧 0.05/2,∞=1.96 =单侧 0.025,∞ , ,
抽 样 实 验
表1 正常成年男子红细胞计数抽样实验结果
样本号 1 2 3 4 : 100 5.16 4.49 5.59 4.65 4.56 4.08 5.11 红细胞计数 4.26 5.11 5.70 4.53 4.88 4.74 … 5.55 4.46 … 5.32 4.53 … 4.23 4.65 … 5.33 : 5.02 :
抽 样 误 差
由于抽样而引起的样本指标(统计量) 由于抽样而引起的样本指标(统计量)与 样本指标 总体指标(参数)的差异。 总体指标(参数)的差异。 属随机误差: 属随机误差:
特点: 无倾向性; 不可避免。 特点:①无倾向性;②不可避免。
统计学的分析思路
总体 population sampling inferring
标准差
内容 性质 控制 方法
VS
标准误
SD SE 统计量的标准差 表示抽样误差大小 增大样本含量可减少
表示个体变异大小 个体变异或自然变异, 个体变异或自然变异,不可通过统计 方法来控制。 方法来控制。
算式 用途 随n 增大
S=
∑ X − (∑ X )
2
2
/n
n −1
求参考值范围 渐趋于稳定
SX = S /
第七章 参数估计
Sampling Error & Estimation of Parameter
医学统计选择题
第一章绪论1.医学统计研究的对象是A.医学中的小概率事件B. 各种类型的数据C. 动物和人的本质D. 有变异的医学事物E. 疾病的预防和治疗2.用样本推论整体,具有代表性的样本通常是指A.总体中最容易获得的部分个体B. 在总体中随意抽取的任意个体C. 挑选总体中的具有代表性的部分个体D. 用方法抽取的部分个体E. 依照随机原则抽取总体中的部分个体3.下列观测结果属于有序数据的是A. 收缩压测量值B. 脉搏数C. 住院天数D. 病情程度E. 四种血型4.随机测量误差是指A.由某些固定因素引起的误差B. 由不可预知的偶然因素引起的误差C. 选择样本不当引起的误差D. 选择总体不当引起的误差E. 由操作失误引起的误差5.系统误差是指A.由某些固定的因素引起的误差B. 由操作失误引起的误差C. 选择样本不当引起的误差D. 样本统计量与总体参数之间的误差E. 由不可预知的偶然因素引起的误差6.抽样误差是指A.由某些固定因素引起的误差B. 由操作失误引起的误差C. 选择样本不当引起的误差D. 样本统计量与总体参数之间的误差E. 由不可预知的偶然因素引起的误差7.收集数据不可避免的误差是A. 随机误差B. 系统误差C. 过失误差D. 记录误差E. 仪器故障误差8.统计学中所谓的总体通常是指A.自然界中的所有研究对象B. 概括性的研究结果C. 同质观察单位的全体D. 所有的观察数据E. 具有代表性意义的数据9.统计学中所谓的样本通常是指A.自然界中所有的研究对象B. 概括性的研究结果C. 某一变量的测量值D. 数据中有代表性的一部分E. 总体中具有代表性的部分观察单位10.医学研究中抽样误差的主要来源是A.测量仪器不够准确B. 检测出现错误C. 统计设计不合理D. 生物个体的变异E. 样本量不够第二章定量数据的统计描述1.某医学资料数据大的一端没有确定数值描述其集中趋势适用的统计指标是百分位数 E. 频数分布A. 中位数B. 几何均数C. 均数D. P952.算数均数与中位数相比,其特点是A.不易受极端值的影响B. 能充分利用数据的信息C. 抽样误差极大D. 更适用于偏态分布资料E. 更适用于分布不明确资料3.将一组计量资料整理成频数表的主要目的是A.化为计数资料B. 能充分利用数据信息C. 提供原始资料D. 能够能精确的检验E. 描述数据的分布特征4.6人接种流感疫苗一个月后测定抗体滴度为1:20、1:40、1:80、1:80、1:160、1:320,求品均滴度应选用的指标是A. 均数B. 几何均数C. 中位数D. 百分位数E. 倒数的均数5.变异系数主要用于A.比较不同变异指标的变异程度B. 衡量正态分布的变异程度C. 衡量测量的准确度D. 衡量偏态分布的变异程度E. 衡量样本抽样误差的大小6.对于正态或近似正态分布的资料,描述其变异程度应选用的指标是A. 变异系数B. 离均差平方和C. 极差D. 四分位数间距E. 标准差7.已知动脉硬化患者载脂蛋白B的含量mg/dl呈明显偏态分布,描述其个体差异的统计指标应使用A. 全距B. 标准差C. 变异系数D. 方差E. 四分位数间距8.一组原始数据的分布呈正偏态分布,其数据的特点是A.数值离散度大B. 数值离散度小C. 数值偏向较大的方向D. 数值偏向较小的方向E. 数值分布不均9.对于正偏态分布总体,其均数与中位数的关系是A.均数与中位数相同B. 均数大于中位数C. 均数小于中位数D. 两者有一定的数量关系E. 两者的数量关系不确定10.在衡量数据的变异度时,标准差与方差相比,其主要特点是A.标准差小与方差B. 标准差大于方差C. 标准差更容易计算D. 标准差更为准确E. 标准差的计量单位与原始数据相同第三章正态分布与医学参考值范围1.正态曲线下,横轴上从均数到+∞的面积为A. 50%B. 95%C. %D. 99%E. 不能确定与标准差的大小有关2.标准正态分布的形状参数和位置参数分别是A. 0,1B. 1,0C. μ,σD. σ,μE. S,X3.正态分布的均数、中位数和几何均数之间的关系为A.均数与几何均数相等B. 均数与中位数相等C. 中位数与几何均数相等D. 均数、中位数、几何均数均不相等E. 均数、中位数、几何均数均相等4.正常成年男子的红细胞计数近似服从正态分布,已知X=1012/L,S=1012/L,z=—/=—,1—φ=,则理论上红细胞计数为A.高于1012/L的成年男子占%B.低于1012/L的成年男子占%C.高于1012/L的成年男子占%D.低于1012/L的成年男子占%E.在1012/L至1012/L的成年男子占%5.某项指标95%医学参考值范围表示的是A.在此范围“异常”的概率大于或等于95%B.在此范围“正常”的概率大于或等于95%C.在“异常”总体中有95%的人在此范围之外D.在“正常”总体中有95%的人在此范围E.在人群中检测指标由5%的可能超出此范围6.确定某项指标的医学参考范围值时,“正常人”指的是A.从未患过疾病的人B. 患过疾病但不影响研究指标的人C. 排除了患过某种疾病的人D. 排除了影响研究指标的疾病或因素的人E. 健康状况良好的人7.某人群某项生化指标的医学参考值范围,该指标指的是A.在所有人中的波动范围B. 在所有正常人中的波动范围C. 在绝大部分正常人中的波动范围D. 在少数正常人中的波动范围E. 在一个人不同时间的波动范围8.要评价某一地区一名5岁男孩的身高是否偏高,其统计学方法是A.用均数来评价B. 用中位数来评价C. 用几何均数来评价D. 用变异系数来评价 D. 用参考值范围来评价9.应用百分位数法计算参考值范围的条件是A.数据服从正态分布B. 数据服从偏态分布C. 有大样本数据D. 数据服从对称分布E. 数据变异不能太大10.某市1974年238名居民的发汞量μmol/kg如下,则该地居民发汞值得95%医学参考值范围是第四章定性数据的统计描述1.如果一种新的治疗方法能够使不能治愈的疾病得到缓解并延长生命,则应发生的情况是A.该病患病率增加B. 该病患病率减少C. 该病的发病率增加D. 该病的发病率减少E. 该病的死因构成比增加2.计算乙肝疫苗接种后血清学检查的阳转率,分母为A.乙肝易感人数B. 平均人口数C. 乙肝疫苗接种人数D. 乙肝患者人数E. 乙肝疫苗接种后的阳转人数3.计算标准化死亡率的目的是A.减少死亡率估计的偏倚B. 减少死亡率估计的抽样误差C. 便于进行不同地区死亡率的比较D. 消除各地区内部构成不同的影响E. 便于进行不同时间死亡率的比较4.已知男性的钩虫感染率高于女性,今欲比较甲乙两乡居民的钩虫感染率,但甲乡女性巨多,而乙乡男性居多适当的比较方法是A.两个率直接比较B. 两个率间接比较C. 直接对感染人数进行比较D. 计算标准化率比较E. 不具备可比性5.甲县恶性肿瘤粗死亡率比乙县高,经标准化后甲县恶性肿瘤标准化死亡率比乙县低,其原因最有可能是A.甲县的诊断水平高B. 甲县的肿瘤防治工作比乙县好C. 甲县的人口健康水平高D. 甲县的老年人口在总人口中所占比例更小E. 甲县的老年人口在总人口中所占比例更大6.相对危险度RR的计算方法是A.两个标准化率之比B. 两种不同疾病的发病人数之比C. 两种不同疾病患病率之比D. 两种不同疾病发病率之比E. 两种不同条件下某疾病发生的概率之比7.比数比OR值表示的是A.两个标准化率的差别大小B. 两种不同疾病的发病率差别程度C. 两种不同疾病患病率差别程度D. 两种不同疾病的严重程度E. 两种不同条件下某疾病发生的危险性程度8.计算患病率时的平均人口数的计算方法是A.年初人口数和年末人口数的平均值B. 全年年初的人口数C. 全年年末的人口数D. 生活满一年的总人口数E. 生活至少在半年以上的总人口数9.死因构成比反映的是A.各种疾病的发生的严重程度B. 疾病发生的主要原因C. 疾病在人群的分布情况D. 各种死因的相对重要性E. 各种疾病的死亡风险大小10.患病率与发病率的区别是A.患病率高于发病率B. 患病率低于发病率C. 计算患病率不包括新发病例D. 发病率更容易获得E. 患病率与病程有关第五章统计表与统计图1.统计表的主要作用是A.便于形象描述和表达结果B. 客观表达实验的原始数据C. 减少论文篇幅D. 容易进行统计描述和推断E. 代替冗长的文字叙述和便于分析对比2.描述某疾病患者年龄岁的分布,应采用的统计图是A. 线图B. 直条图C. 百分条图D. 直方图E. 箱式图3.高血压临床试验分为试验组和对照组,分析考虑治疗0、2、4、6、8周血压的动态变化和改善情况,为了直观显示出两组血压平均变动情况,宜选用的统计图是A. 半对数图B. 线图C. 直条图D. 直方图E.百分条图4.研究三种不同麻醉剂在麻醉后的镇痛效果,采用计量评分法,分数呈偏态分布,比较终点时分数的平均水平及个体变异程度,应使用的图形是A. 复式条图B. 复式线图C. 散点图D.直方图E. 箱式图5.研究血清低密度脂蛋白LDL与载脂蛋白B-100的数量依存关系,应绘制的图形是A. 直方图B. 箱式图C. 线图D. 散点图E. 直条图6.下列统计图适用于表示构成比关系的是A.直方图B. 箱式图C. 误差条图、条图D. 散点图、线图E. 圆图、百分条图7.对有些资料构造统计表时,下列哪一项可以省略A. 标题B. 标目C. 线条D. 数字E. 备注8.绘制下列统计图纵轴坐标刻度必须从“0”开始的有A. 圆图B. 百分条图C. 线图D.半对数线图E. 直方图9.描述某现象频数分布情况可选择A. 圆图B. 百分条图C. 箱式图D. 半对数线图E. 直方图10.对比某种清热解毒药物和对照药物的疗效,其单项指标为口渴、身痛、头痛、咳嗽、流涕、鼻塞、咽痛和发热的有效率,应选用的统计图是A.圆图B. 百分条图C. 箱式图D. 复式条图E. 直方图第六章参数估计与假设检验1.样本均数的标准误差越小说明A.观察个体的变异越小B. 观察个体的变异越大C. 抽样误差越大D. 由样本均数估计整体均数的可靠性越小E. 由样本均数估计总体均数的可靠性越大2.抽样误差产生的原因是A.样本不是随机抽取B. 测量不准确C. 资料不是正态分布D. 个体差异E. 统计指标选择不当3.要减少抽样误差,通常的做法是A.减小系统误差B. 将个体变异控制在一定范围内C. 减小标准差D. 控制偏倚E. 适当增加样本含量4.对于正偏态分布的总体,当样本量足够大时,样本均数的分布近似为A. 正偏态分布B. 负偏态分布C. 正态分布D. t分布E. 标准正态分布5.用某种中药治疗高血压患者100名,总有效率为%,标准误为,则总有效率的95%可信区间估计为A. ±B. ±C. ±D. >—E. <+6.根据样本资料算得健康成人白细胞数的95%可信区间为109/L~109/L,其含义是A.估计总体中有95%的观察值在此范围内B.总体均数在该区间的概率为95%C.样本中有95%的观察值在此范围内D.该地区包含样本均数的可能性为95%E.该区间包含总体均数的可能性为95%7.某地抽取正常成年人200名,测得其血清胆固醇的均数L,标准差为L,则该地正常成年人血清胆固醇均数95%的可信区间是A. ±B. ±C. ±√200D. ±√200E. ±8.假设检验的目的是A.检验参数估计的准确度B. 检验样本统计量是否不同C. 检验样本统计量与总体参数是否不同D. 检验总体参数是否不同E. 检验样本的P值是否为小概率9.假设检验差别有统计学意义时,P值越小,说明A.样本均数差别越大B. 总体均数差别越大C. 认为样本之间有差别的统计学证据越充分D. 认为总体之间有差别的统计学证据越充分E. 认为总体之间有差别的统计学证据越不充分10.关于假设检验,正确的说法是A.检验水准必须设为B. 必须采用双侧检验C. 必须根据样本大小选择检验水准D. 必须建立无效假设E. 要说明无效假设正确,必须计算P值第七章 t检验1.两样本均数之差的标准误反映的是A.两样本数据集中趋势的差别B. 两样本数据的变异程度C. t分布的不同形状D. 数据的分布特性E. 两样本均数之差的变异程度2.两样本均数比较,检验结果P>说明A.两样本均数的差别较小B. 两总体均数的差别较大C. 支持两总体无差别的结论D. 不支持两总体有差别的结论E. 可以确认两总体无差别3.由两样本均数的差别推断两总体均数的差别,其差别有统计学意义指的是A.两样本均数的差别具有实际意义B. 两总体均数的差别具有实际意义C. 两样本和两总体的差别都具有实际意义D. 有理由认为两样本均数有差别E. 有理由认为两总体均数有差别4.两样本均数比较,差别有统计学意义时,P值越小说明A.两样本均数差别越大B. 两总体均数差别越大C. 越有理由认为两样本均数不同D. 越有理由认为两总体均数不同E. 越有理由认为两样本均数相同5.假设检验中的Ⅱ类错误指的是A.可能出现的误判错误B. 可能出现的假阳性错误C. 可能出现的假阴性错误D. 可能出现的原假设错误E. 可能出现的备择假设错误6.减小假设检验的Ⅱ类错误,应该使用的方法是A.减小Ⅰ类错误B. 减小测量的系统误差C. 减小测量的随机误差D. 提高检验界值E. 增加样本量7.以下不能用配对t检验方法的是A.比较15名肝癌患者癌组织和癌旁组织中Sirt1基因的表达量B.比较两种检测方法测量十五名肝癌患者癌组织中Sirt1基因的表达量C.比较早期和晚期肝癌患者各15例癌组织中Sirt1基因的表达量D.比较糖尿病患者经某种药物治疗前后糖化血红蛋白的变化E.比较15名受试者针刺膻中穴前后的痛阈值8.两独立样本均数t检验,其前提要求是A.两总体均数相等B. 两总体均数不等C. 两总体方差相等D. 两总体方差不等E. 两总体均属和方差都相等9.若将配对设计的数据进行两独立样本均数t检验,容易出现问题的是A. 增加出现Ⅰ类错误的概率B. 增加出现Ⅱ类错误的概率C. 检验结果的P值不准D. 方差齐性检验的结果不准E. 不满足t检验的应用条件10.两组定量资料比较,当方差不齐时,应使用的检验方法是A.配对t检验B. Satterthwaite t,检验C. 独立样本均数t检验D.方差齐性检验E. z检验第八章方差分析1.方差分析的基本思想是A.组间均方大于组内均方B. 组内均方大于组间均方C. 不同来源的方差必须相等D. 两方差之比服从F分布E. 总变异及其自由度可按不同来源分解2.方差分析的应用条件之一是方差齐性,它是指A.各比较组相应的样本方差相等B. 各比较组相应的总体方差相等C. 组内方差等于组间方差D. 总方差等于各组方差之和E. 总方差=组内方差+组间方差3.完全随机设计方差分析中的组间均方反映的是A.随机测量误差大小B. 某因素效应大小C. 处理因素效应与随机误差综合结果D. 全部数据的离散度E. 个组方差的平均水平4.对于两组资料的比较,方差分析与t检验的关系是A.t检验的结果更准确B. 方差分析结果更准确C. t检验对数据的要求更为严格D. 近似等价E. 完全等价5.多组均数比较的方差分析,如果P<,则应该进一步做的是A.两均数的t检验B. 区组方差分析C. 方差齐性检验D. SNK-q检验E. 确定单独效应6.完全随机设计的多个样本均数比较,经方差分析,若P<,则结论为A.各样本均数全相等B. 各样本均数全不相等C. 至少有两个样本均数不等D. 至少有两个总体均数不等E. 各总体均数全相等7.完全随机设计资料的多各样本均数的比较,若处理无作用,则方差分析的F值在理论上应接近于v1,v2B. SS处理/SS误差C. 0D. 1E. 任意值8.对于多个方差的齐性检验,若P<a,可认为A.多个样本方差全不相等B. 多个总体方差全不相等C. 多个样本方差不全相等D. 多个总体方差不全相等E. 多个总体方差相等9.析因涉及的方差分析中,两因素X与Y具有交互作用指的是A. X和Y的主效应互相影响B. X与Y对观测指标的影响相差较大C. X与Y有叠加作用D. X对观测指标的作用受Y水平的影响E. X与Y的联合作用较大10.某职业病防治院测定了年龄相近的45名男性用力肺活量,其中是石棉肺患者、石棉肺可疑患者和正常人各15名,其用力肺活量分别为±L、±L和±L,拟推断石棉肺患者、石棉肺可疑患者和正常人的用力肺活量是否不同,宜采用的假设检验方法是A.两组均属比较的t检验B. 方差齐性检验C. 完全随机设计方差分析D. 随机区组设计方差分析E. 析因设计方差分析第九章χ2检验1.两样本率比较,差别具有统计学意义时,P值越小越说明A.两样本率差别越大B. 两总体率差别越大C. 越有理由认为两样本率不同D. 越有理由认为两总体率不同E. 越有理由认为两样本率相同2.欲比较两组阳性反应率,在样本量非常小的情况下如n1<10,n2<10,应采用的假设检验方法是A.四表格χ2检验B. 校正四表格χ2检验C. Fisher确切概率法D. 配对χ2检验E. 校正配对χ2检验3.进行四组样本率比较的χ2检验,如χ2>χ,3,可认为A.四组样本率均不相同B. 四组总体率均不相同C. 四组样本率相差较大D. 至少有两组样本率不相同E. 至少有两组总体率不相同4.从甲、乙两文中,查到同类研究的两个率比较的χ2检验,甲文χ2>χ,1,乙文χ2>χ,1,可认为A.两文结果有矛盾B. 两文结果完全相同C. 甲文结果更为可信D. 乙文结果更为可信E. 甲文说明总体的差异较大5.两组有效率比较的检验功效相关的因素是A.检验水准和样本率B. 总体率差别和样本含量C. 样本含量和样本率D. 总体率差别和理论频数E. 容许误差和检验水准6.通常分析四格表需用连续性校正χ2检验方法的情况是A.T<5B. T<1或n<40C. T<1且n<40D. 1≤T<5且n>40E. T<5且n<407.当四格表的周边合计数不变时,如果某格的实际频数有变化,则其理论频数是A. 增大B. 减小C. 不变D. 不确定E. 随该格实际频数的增减而增减8.对四种药物进行临床试验,计算显效率,规定检验水准α=,若需要进行多重比较,用Bonferroni方法校正后的检验水准应该是A. B. C. D. E.9.对药物的四种剂量进行临床试验,计算有效率,规定检验水准α=,若需要进行多重比较,用Bonferroni方法校正后的检验水准应该是10.利用χ2检验公式不适合解决的实际问题是A.比较两种药物的有效率B. 检验某种疾病与基因多态性的关系C. 两组有序试验结果的药物疗效D. 药物三种不同剂量显效率有无差别E. 两组病情“轻、中、重”的构成比例第十章非参数秩和检验1.对医学计量资料成组比较,相对参数检验来说,非参数秩和检验的优点是A.适用范围广B. 检验效能高C. 检验结果更准确D. 充分利用资料信息E. 不易出现假阴性错误2.对于计量资料的比较,在满足参数法条件下用非参方法分析,可能产生的结果是A. 增加Ⅰ类错误B. 增加Ⅱ类错误C. 减少Ⅰ类错误C. 减少Ⅱ类错误 E. 两类错误都减少3.两样本比较的秩和检验,如果样本含量一定,两组轶和的差别越大说明A.两总体的差别越大B. 两总体的差别越小C. 两样本的差别可能越大D. 越有理由说明两总体有差别E. 越有理由说明两总体无差别4.多个计量资料的比较,当分布类型未知时,应选择的统计方法是A.方差分析B. WilcoxonT检验C. Kruskal-Wallis H检验D. z检验E. 列联表χ2检验5.两组数据的秩和检验和t检验相比,其优点是A.计算简便B. 检验假设合理C. 检验效能高D. 抽样误差更小E. 对数据分布不做限制6.两样本比较秩和检验,其检验统计量T是A.例数较小的秩和B. 例数较小的秩和C. 较小的秩和D. 较大的秩和E. 任意一组数据的秩和7.两样本比较的秩和检验,其无效假设是A.两样本有相同的秩和B. 两总体有相同的秩和C. 两样本分布相同D. 两总体分布相同E. 两总体分布位置相同8.两样本比较的Wilcoxon秩和检验结果显着,判断孰优孰劣的根据是A.两样本的秩和大小B. P值大小C. 检验统计量T值大小D. 两样本秩和的差别大小E. 两样本平均秩的大小9.在一项临床试验研究中,疗效分为“痊愈、显效、有效、无效”四个等级,现欲比较试验组与对照组治疗效果有无差别,宜采用的统计方法是A.Wilcoxon秩和检验B. 24列联表χ2检验C. 四格表χ2检验D. Fisher确切概率法E. 计算标准化率10.两样本比较的秩和检验中,甲组中最小数据有2个,乙组中最小数据有3个,则数据对应的秩次是A. B. C. D. E.。
正态分布及标准误(1)
2021/4/22
40
均数的(1-α)100%可信区间
1- /2
-t/2, v 0
2021/4/22
P( t t / 2, )
P(t / 2, t t / 2, ) 1
P(t / 2,
x sx
t / 2,
)1
P( x t / 2, sx x t / 2, sx ) 1
的大小。
2021/4/22
27
样本均数的抽样分布规律
中心极限定理
从均数为μ,标准差为σ的正态总体中随机抽样,样本 均数服从均数为μ,标准差为 的n正态分布。
从均数为μ,标准差为σ的任意总体中随机抽样,当样 本含量足够大时,样本均数近似服从均数为μ,标准 差为 的n 正态分布。
2021/4/22
③正态分布有两个参数,即均数与标准差,常用 N(,)表示,用N(0,1)表示标准正态分布。其位置与均
数有关,形状与标准差有关。标准差大,离散程度大,正态 分布曲线则“胖”,反之,则“瘦”;
④正态分布的面积分布有一定的规律性。
2021/4/22
4
三 正态曲线下面积的分布规律
统计学家求出了标准正态分布从- 到(-u)的面积。 2021/实4/22际工作中经常要用的面积分布规律有以下三点: 5
算得某95%的可信区间,则: 总体参数有95%的可能落在该区间。 有95%的总体参数在该区间内。 该区间包含95%的总体参数。 该区间有95%的可能包含总体参数。 该区间包含总体参数,可信度为95%。
2021/4/22
46
概念辨析
标准差 个体变异 参考值范围 变量分布
标准误 抽样误差 可信区间 抽样分布
医学统计学题二
医学统计学习题二一、名词解释:1、参数2、统计量3、检验水准4、概率5、抽样误差6、医学参考值范围7、统计推断8、标准误9、可信区间10、Ⅰ型错误11、Ⅱ型错误12、标准化死亡比13、非参数检验14、回归系数15、相关系数二、简答题1、医学统计学工作的步骤。
2、正态分布有什么基本特征?有哪几个参数?3、医学正常值范围与可信区间有何区别?4、假设检验中应注意哪些问题?6、应用相对数时应注意的事项?8、非参数检验的适用条件、优缺点?三、是非题1、对数正态分布资料最好计算几何均数以表示其平均水平。
2、不论数据呈什么分布,用算术均数和用中位数表示平均水平都一样合理。
3、理论上只有服从正态分布条件的变量的算术均数等于中位数。
4、随机抽样就是指在抽样研究中不要主观挑选研究个体。
8、同一总体中随机抽样,样本含量越大,则样本标准差越小。
9、只要单位相同,用s和用CV来比较两套变量值的离散度,结论是完全一样的。
10、从同一总体随机抽取的两组数据中,平均数大的组标准差也大。
11、同一批计量数据的标准差不会比标准误大。
12、t检验是对两样本均数的差别作统计检验的方法之一。
13、当总体方差已知时,检验样本均数和某个已知总体均数差别有无统计意义只能用t检验。
14、在配对t检验中,用药前数据减去用药后数据和用药后数据减去用药前数据,作t检验后的结论是相同的。
15、方差分析中均方就是方差。
16、随机区组设计和完全随机设计方差分析的统计效能总是一样的。
17、4个均数作差别的统计检验,可以分别作两两比较的6次t检验以作详细分析。
18、回归系数越大,两变量的数量关系越密切。
19、双变量正态分布资料,样本回归系数小于零,可认为两变量呈负相关。
20、某事物内部某一部分所占的比重就是比例,患病率也是一种比例。
21、要消除甲乙两地各年龄组死亡率不同的影响而对两总的死亡率作比较,可以计算标准化死亡率后再作比较。
22、非参数统计方法不对特定分布的参数作统计推断,但仍要求数据服从正态分布。
抽样误差
抽样误差和抽样分布
Sampling Error and Sampling Distribution
Department of Epidemiology and Biostatistics
School of Public Health, Nanjing Medical University
主要内容
1.0 1.0
0.8
ν 1=5 ν 2=10
0.8
0.6
ν 1=1 ν 2=10
0.4
0.6
ν 1=10 ν 2=∞
0.4
0.2
0.2
ν 1=10 ν 2=1
0.0 0 1 2 3 4 5
0.0 0 1 2 3 4 5
F分布的应用
方差齐性检验 方差分析
n2 1 2 n1 1 s F 2 2 2 s2 2 s n1 1 n2 1 s2 2 n2 1 2
t界值表
单侧: P(t <=-tα,ν)= α或 P(t >=tα,ν)= α 双侧: -t P(t <=-tα,ν)+ P(t >=tα,ν)= α 即:P(-tα,ν<t <tα,ν)= 1-α [例] 查t界值表得t值表达式 t 0.05,10=2.228 (双侧) t 0.05,10=1.812 (单侧)
2=u12+ u22+……+ uv2
0.5
=1
0.4
f(2)
0.3
=2 =3
0.2
=4
=5
=6
0.1
0.0 0 2 4 6 8 10 12
2
χ2分布的作用
方差的抽样分布研究 样本分布与理论分布的拟合优度检验 率或构成比的比较
正态分布标准差
正态分布标准差正态分布是一种重要的概率分布,它在统计学中广泛应用。
有关正态分布的许多概念,例如均值、标准差、正态曲线等,都是统计学中的基本概念。
本文将着重介绍正态分布的标准差,包括其定义、计算、统计推断和实际应用等方面。
首先,正态分布是以均值为中心,标准差为控制因子的一种概率分布。
标准差是对数据分布的离散程度进行度量的一种统计指标。
在正态分布中,大约68%的数据落在均值的一个标准差范围内,大约95%的数据落在均值的两个标准差范围内,大约99%的数据落在均值的三个标准差范围内。
标准差的计算公式如下:标准差= √(Σ(xi-μ)² / N)其中,Σ表示求和运算,xi表示第i个数据点,μ表示均值,N表示总数据点数。
标准差是数据与均值之间的差异程度。
如果标准差较小,表示数据相对集中,样本之间差异较小;如果标准差较大,表示数据相对分散,样本之间差异较大。
在进行统计推断时,标准差是非常重要的。
根据正态分布的性质,如果样本的数据服从正态分布,那么可以根据标准差进行各种统计推断。
例如,可以用标准差来计算置信区间,估计总体的参数,判断两个样本的均值是否有显著差异等。
标准差可以用来检验观测数据与理论预期之间的差异,帮助我们判断研究结果的可靠性。
此外,标准差在实际应用中也有很多重要的用途。
例如,在财务和经济领域,标准差可以用于衡量资产的风险。
标准差越大,表示投资的风险越高;标准差越小,表示投资的风险越低。
在工程学中,标准差可以用于度量产品的制造质量。
标准差越小,表示产品的质量越稳定,工艺越可靠。
此外,标准差还可以用于分析人群数据。
例如,在教育领域,标准差可以用于分析学生的成绩分布。
标准差越小,表示学生的成绩越集中,表示整个班级的学习水平相对稳定;标准差越大,表示学生的成绩分布较为分散,表示班级内学生的学习水平差异较大。
通过分析标准差,教师可以对学生的学习情况进行评价,制定不同的辅导策略。
综上所述,标准差是正态分布中非常重要的一个统计量,它可以帮助我们理解和应用正态分布。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
x
标准正态分布N(0,1)。在实际工作 中,往往是未知,常用 s X 替代 ,即 X
X
t
Sx
这时,对正态变量 X 采取的不 是u变换而是t变换了,t值的分布 称为t分布。
t分布的特征:
1.单峰分布,以0为中心,左右对称;
2.t 分布是一簇曲线,其形态变化与自由度 s X 与 X 的差别 的大小有关 n-1。越小, 越大,t值越分散,曲线的峰部越矮,尾部越 粗。越大,t分布越接近于标准正态分布。
X u / 2 s X
X 1.96S x
总体均数95%的双侧可信区间为:
总体均数99%的双侧可信区间为:
X 2.58S x
例 某市2000年随机测量了90名19岁健康男大 学生的身高,其均数为172.2cm,标准差为 4.5cm,试估计该市2000年19岁健康男大学生 平均身高的95%可信区间。
f(x)=(fi/n)
0.25
以频率为纵坐标
相 对 频 率
0.20
0.15
0.10
0.05
0.00
3.8
4
4.2 4.4 4.6 4.8
5
12
5.2 5.4 5.6 5.8
红细胞计数(10 /L) 140名正常男子红细胞计数直方图
随着组段不断分细和观察人数的增多,直条顶端将逐渐接近于 一条光滑的曲线,如下图。这条曲线称为频率密度曲线,呈中 间高、两边低、左右对称,形状似座钟。类似于数学上的正态 分布曲线。 因为频率的总和等于1,故横轴上曲线下的面积等于1。
例如:总体均数的可信区间
即按一定的概率估计未知总体均数的所在范 围。 习惯上用总体均数的95%(或99%)可信 区间,表示该区间包含总体均数的概率为 95%(或99%),用此范围估计总体平均数, 表示100次抽样中,有 95(99)次包含总体均 数。
总体均数可信区间的计算
(1)未知,但样本例数n足够大(如n ﹥50),总体均数的1-α双侧可信区间 为
因为红细胞数过高或过低均为异常,故按双侧 估计95%参考值 x 1.96s 5.38 1.96 0.44 (4.52,6.24) 1012 / L 故该地成年男子红细胞数的95%参考值范围为 4.52 1012-6.24 1012 / L
百分位数法: 适用于偏态分布资料
例如白细胞数的95%参考值范围:因为白细胞数 无论过高或过低均属异常,则分别计算P2.5和 P97.5,这是双侧95%参考值范围。
2.估计总体均数的可信区间; 3.用于均数的假设检验。
二、总体均数的可信区间估计
即用样本指标(统计量)估计总体指标(参数)
有两种常用方法: 点估计和区间估计
(一)点估计:样本均数( X )就是总体均数 的点估计值(μ) 该法简单,但未考虑抽样误差,而抽样误差 在抽样研究中是不可忽视的。
(二)区间估计: 结合样本统计量和标准误可以确定一个具有 一定可信度的包含总体参数的区间,该区间 称为总体参数的1-α可信区间(confidence interval,CI)
1.正态分布在横轴上方,均数处最高,以均数μ 为中心,左右对称。 2.正态分布的X取值范围理论上没有边界,X离μ 越远,f(X)值越接近0,但不会等于0。 3.正态分布曲线下的面积分布有一定的规律。 所有的正态分布曲 线,在μ左右任意 个标准差范围内面 积相同。
4.正态分布完全由两个参数即均数μ与标准差 σ决定,其中μ是位置参数,σ是变异参数。 常用N(μ,σ2 )来表示。
u
x
μ=0、σ=1的标准正态分布
标准正态分布曲线及其面积分布
三、正态分布的应用
– 不少医学现象服从正态分布或近似正态分布 确定医学参考值范围 质量控制图 – 正态分布是很多统计方法的理论基础
医学参考值范围的估计
1. 医学参考值范围的概念 指特定的“正常”人群的解剖、生理、生化指 标及组织代谢产物含量等数据中大多数个体的 取值所在的范围。 2. 医学参考值范围的确定要求
f1 X 1 f 2 X 2 ...... f m X m X f1 f 2 ...... f m 19000 172.73(cm) 110
fX f
110名20岁健康男大学生的身高均数为172.73cm。
已知Σf=110,ΣfX=19000,需要在该表中增加 fx2栏,由第(3)、(4)栏相乘,再将该栏数据相加, 将ΣfX2=3283646代入公式
百分范围 ( %) 单侧 下限 上限 下限 双侧 上限
95
99
P5
P1
P95
P99
P2.5
P0.5
P97.5
P99.5
例 某年某市调查了200例正常成人血铅含量 (μg/100g)如下,试估计该市成人血铅含量95 %医学参考值范围(用百分位数法计算)。
练习1:
调查某地120名健康女性血红蛋白,直方图 显示,其分布近似于正态分布,其血红蛋白 平均值为117.4(g/L),标准差为10.2 (g/L),试估计该地健康女性血红蛋白的 95%医学参考值范围。
本例n=90,可按正态分布近似法计算
X u / 2 s X 4 .5 172 .2 1.96 171 .3,173 .1cm 90
故该市2000年19岁健康男大学生平均身高 的95%可信区间为(171.3,173.1)cm。
t分布
前面讲过,通过u变换,可将正态 分布N(μ, 2)转换成标准正态分布 N(0,1)。同样,若从正态分布N(μ, 2)总体中随机抽样并算得多个样本 均数 X j ,它们仍服从总体均数为μ, 总体标准差为 x 的正态分布 2 N(μ, ),则 X 服从
频 数 35 30 25 20 15 10 5 0 169 170 171 172 173 174 175 176 177
40
100个样本均数频数分布直方图
样本均数的抽样分布具有以下特点: 1. 各样本均数未必等于总体均数;
2. 样本均数之间存在差异;
3. 样本均数的分布很有规律,围绕着总体 均数,中间多、两边少,左右基本对称, 也服从正态分布;
X1=173.22cm
s1=4.05cm
X 1 X 2 ...... X n X i X n n
S
X
2
X
n
2
n1
重复100次刚才的抽样,得到100个样本(每个样本 含量均为10个),可算得100个样本均数X。
各样本均数的均数X=172.66 cm
μ=1Байду номын сангаас2.73cm
5.20 ~ 5.40 ~ 5.60 ~ 5.80~6.00
5.30 5.50 5.70 5.90
13 4 2 1
9.3 2.9 1.4 0.7
频 数 30 25 20 15 10 5 0 3.8 4 4.2 4.4 4.6 4.8 5
12
35
直方图
5.2
5.4
5.6
5.8
红细胞计数(10 /L) 140名正常男子红细胞计数直方图
S
19000 3283646
110 110 1
2
4.09(cm)
110名20岁男大学生的平均身高X=172.73cm,标准差s=4.09cm。
假设该110个身高数值作为假设的有限总体,即: μ=172.73cm, σ=4.09cm
现在从该总体 中随机抽10个 学生身高为1号 样本。 计算得:
一般情况下未知,常用 S X 估计抽样误差的大小,也即 X 的估 计值。
例:已知 s=6.85, n=100 则样本均数的抽样误差 S X 为多 少?
S SX 0.685 n
标准误的应用 1.反映样本均数的可靠性;
标准误反映抽样误差的大小。标准误大,表 示抽样误差大,则样本均数估计总体均数的可靠性 差。反之,标准误小,抽样误差小,样本均数估计 总体均数的可靠性好。
血红蛋白过高、过低均为异常,应按双侧计算:
x 1.96s 117.4 1.96 10.2 (97.41,137.39) g / L 故该地健康女性血红蛋白的95%参考值范围为 97.41-137.39 g / L
数值变量的参数估计 一、均数的抽样分布与抽样误差
抽样研究的目的就是要用样本信息来推断 总体特征。由于存在个体变异,样本均数 (X)往往不等于总体均数(),因此抽 样后各个样本均数也往往不等于总体均数, 且各个样本均数间也不一定都相等。这种 由抽样造成的样本均数与总体均数的差异 或各样本均数之间的差异称为抽样误差, 抽样误差是不可避免的。
样本均数 X :N(μ, )
2
x
均数的标准误及计算
反映均数抽样误差大小的指标是样本 均数 X 的标准差简称标准误(理论值), 用 X 表示,或SE、SEM。 4.09 x 1.29(cm)
n 10
由于在实际抽样研究中 往往未知,通 常用某一样本标准差 s 来替代 ,得标准误 的估计值 s X (通常也简称为标准误),其计 算公式为: s s
X
n
均数的标准误及计算
以1号样本 X 1 =173.22cm,s1=4.05cm为例:
s 4.05 sX 1.28(cm) n 10
例 2000年某研究者随机调查某地健康成年男 子27人,得到血红蛋白量的均数为125g/L, 标准差为15g/L。试估计该样本均数的抽样误 差。 将X=125g/L,s= 15g/L,n=27代入 S 15 SX 2.89 g / L n 27
正态分布
Normal distribution
正态分布和医学参考值范围
例 某地用随机抽样方法检查了140名成年男子的红 细胞数,检测结果如表2-1