医学统计学——数值变量资料的统计描述
医学统计学的基本内容
医学统计学的基本内容第一章医学统计学的基本内容第一节医学统计学的含义1、医学统计学定义医学统计学(statistics)作为一门学科的定义是:关于医学数据收集、表达和分析的普遍原理和方法。
2、医学统计学研究方法:通过大量重复观察,发现不确定的医学现象背后隐藏的统计学规律。
3、医学统计推论的基础:在一定条件下,不确定的医学现象发生可能性,即概率。
第二节、统计学的几个重要概念一(资料的类型1、计量资料(数值变量):对每一观察对象用定量的方法,测定某项指标所得的资料。
一般有度量衡单位,每个对象之间有量的区别。
2、计数资料(分类变量):对观察对象按属性或类型分组计数所得的资料。
每个对象之间没有量的差异,只有质的不同。
3、等级资料(有序分类变量):对观察对象按属性或类型分组计数,但各属性或类型之间又有程度的差别。
注意:不同类型的资料采用的统计分析方法不同;三类资料类型可以相互转化。
二、总体根据研究目的所确定的同质的所有观察对象某项变量值的集合1、有限总体:只包括在确定时间、空间范围内的有限个观察对象。
2、无限总体:没有时间、空间范围的限制,观察对象的数量是不确定的,无限的三、样本从总体中随机抽取部分观察对象,其某项变量值的集合。
从总体中随机抽取样本的目的是: 用样本信息来推断总体特征。
四、随机事件可以发生也可以不发生,可以这样发生也可以那样发生的事件。
亦称偶然事件。
五、概率描述随机事件发生可能性大小的数值,记作,,其取值范围0?P?1,一般用小数表示。
,,0,事件不可能发生必然事件(随机事件的特例);,,1,事件必然发生;,?0,事件发生的可能性愈小;,?1,事件发生的可能性愈大六、小概率事件习惯上将,?0.05或,?0.01 的随机事件称小概率事件。
表示某事件发生的可能性很小。
七、参数和统计量参数:总体指标,如总体均数、总体率,一般用希腊字母表示统计量:样本指标,如样本均数、样本率,一般用拉丁字母表示八、学习医学统计学的方法1、重点掌握“四基”:基本知识、基本概念、基本原理和基本方法;2、重视统计方法在实际中应用,重视实习和综合训练;注意学习每种统计方法的应用范围、应用条件,大多数公式只要求了解其意义和使用方法,不用记忆和探究数理推导。
医学统计学计数资料的统计描述(一)
医学统计学计数资料的统计描述(一)医学统计学计数资料的统计描述计数资料是医学研究中常见的数据类型,例如统计某种疾病的患病人数、治愈人数等。
如何对这些数据进行科学统计描述,成为了医学研究不可避免的问题。
一、计数资料的基本概念计数资料是指由离散数据组成的一种数据类型,这些数据仅取有限个数值,如某类疾病的患病人数(自然数)或治愈人数(非负整数)。
计数资料是医学研究中常见的数据类型,对于这些数据的科学统计描述极为重要。
二、计数资料的统计描述1. 频数频数是指计数资料中各取值出现的次数,常以小写字母n表示。
例如患病人数为0的样本数为n0,患病人数为1的样本数为n1,以此类推。
2. 频率频率是指频数与总样本数的比值,常以小写字母f表示。
例如患病人数为0的频率为f0=n0/n,患病人数为1的频率为f1=n1/n,以此类推。
频率可以体现每个取值在样本中的分布情况,是比较常用的统计指标,其和为1。
3. 百分比百分比是指频数与总样本数的比值乘以100,常以百分号表示。
例如患病人数为0的百分比为f0×100%,患病人数为1的百分比为f1×100%,以此类推。
4. 累计频率累计频率是指某一取值及其以下所有取值的频率之和,常以小写字母F 表示。
例如患病人数小于等于3的累计频率为F3=f0+f1+f2+f3。
累计频率可以体现小于等于某个取值的样本在总样本中所占比例。
三、总结计数资料是医学研究中常见的数据类型,对于这些数据的科学统计描述有益于研究者更加深入地了解样本的分布情况,进而提出相应的研究假设。
频数、频率、百分比和累计频率是计数资料的常用统计指标,可分析每个取值在样本中的分布情况和各个取值间的差异。
在实际研究中,研究者应根据实际情况选择合适的统计方法进行分析,以期得到更为科学的结论。
医学统计学知识点汇总(精华)
医学统计学知识点汇总(精华)一.概论1,医学统计学:运用概率论和数理统计学的原理和方法,研究医学领域中随机现象有关数据的搜集、整理、分析和推断,进而阐明其客观规律性的一门应用科学。
2,医学统计学的主要内容:1)统计研究设计调查研究设计和实验研究设计2)医学统计学的基本原理和方法研究设计和数据处理中的基本统计理论和方法。
A:资料的搜集与整理 B:常用统计描述,集中趋势和离散趋势,相对数,相关系数,回归系数,统计表,统计图 C:统计推断,如参数估计和假设检验。
3)医学多元统计方法多元线性回归和逐步回归分析、判别分析、聚类分析、主成分分析、因子分析、logistic回归与Cox回归分析。
3,统计工作步骤:1)设计明确研究目的和研究假说,确定观察对象与观察单位,样本含量和抽样方法,拟定研究方案,预期分析指标,误差控制措施,进度与费用。
2)搜集材料A,搜集材料的原则及时、准确、完整B,统计资料的来源医学领域的统计资料的来源主要有三个方面。
一是统计报表,二是经常性工作记录,三是专题调查或专题实验。
C,资料贮存3)整理资料 a检查核对b设计分组c拟定整理表d归表4)分析资料统计分析包括统计描述和统计推断4,同质(homogeneity):指被研究指标的影响因素相同。
变异(variation):同质基础上的各观察单位间的差异。
变量(variable):收集资料过程中,根据研究目的确定同质观察单位,再对每个观察单位的某项特征进行测量或观察,这种特征称为变量变量值:变量的观察结果或测量值。
变量类型变量值表现实例资料类型数值变量离散型定量测量值,有计量单位产前检查次数计量资料连续型身高分类变量无序二分类对立的两类属性性别(男女)计数资料多分类不相容的多类属性血型(A,B,O,AB)有序多分类类间有程度差异的属性受教育程度(小学,中学,高中,大学…)等级资料5,总体(population)根据研究目的所确定的同质研究对象中所有观察单位某变量值的集合。
医药统计学 第一章 数据的描述与整理
统计工作的五个步骤紧密相连、不可分割,任何一
步的缺陷,都将影响整个研究结果。
目前,应用广泛,成为医药学研究、疾病防治、卫 生事业管理等多方面的重要手段、工具之一,即成 为方法论。
医药数理统计学(Mathematical statistics of
medicine): 应用概率论与数理统计学的原理与方法研究医 药学以及卫生服务领域中数据的收集、整理、分析 和解释的一门科学。
一.数据分布集中趋势的描述
频数分布表、图显示的集中趋势和离散程度较 粗略,而计算其各指标则是准确、定量描述其 分布特征。
集中趋势指标:平均数,反映观察值的集中位 置或平均水平,即观察值的典型水平或代表值。 描述一组同质观察值的平均水平或中心位置的 常用指标有均数、中位数、众数、几何均数等。
平均水平指标
数分布大致对称。特殊的对称分布为正态分布 (normal distribution)。
eg:体重、身高等生理、生化检测结果等。
偏态分布:频数分布不对称,集中位置偏向一侧。
40 人 数 30 20 10 0 124 132 140 148 身高(cm)
对称分布
156
164
eg:
.236364
Fraction
国际标准通用的统计分析软件,但操作略为繁琐。 (二)SPSS(社会科学统计软件) 全称Statistical Package for Social Science,是当前 最流行,应用最广泛的专业统计分析软件,操作
方便。
(三)EXCEL(电子表格软件) 可进行基本的统计分析。操作简便。
频数分布的特征:
医药统计学
一.基 本 概 念
概率论(probability):是研究随机现象数量规律的 数学学科。
《医学统计学》统计描述 (1)
2500 2500 2500 420
500 500 500
甲 乙丙
例4-9,etc
1.极差(Range) (全距)
符号:R 意义:反映全部变量值的
R X max X min
变动范围。
580
优点:简便,如说明传染病、
560 540
食物中毒的最长、最短潜 520
伏期等。
500
缺点:1. 只利用了两个 极端值
表2-2 115名正常成年女子血清转氨酶(mmol/L)含量分布
转氨酶含量
人数
12~
2
15~
9
18~
14
21~
23
24~
19
27~
14
30~
11
33~
9
36~
7
39~
4
42~45
3
人数
25
20 15
10 5
0
13.5 19.5 25.5 31.5 37.5 43.5. 血清转氨酶(mmol/L)
图2-2 115名正常成年女子血清转氨酶的频数分布
lg 表示以10为底的对数;
lg 1表示以10为底的反对数
X 0,为正值 (0,负数?)
几何均数的适用条件与实例
适用条件:呈倍数关系的等比资料或对数正态分 布(正偏态)资料;如抗体滴度资料
例 血清的抗体效价滴度的倒数分别为:10、
100、1000、10000、100000,求几何均数。
XG
lg1
图 2-3 101 名 正 常 人 血 清 肌 红 蛋 白 的 频 数 分 布
2. 描述计量资料的分布特征
①集中趋势(central tendency):变量值集中 位置。本例在组段“4.7~4.9”。
《医学统计学》复习资料
统计学概述一、统计学的意义统计学是研究数据的收集、整理、分析的一门科学,是认识社会和自然现象客观规律数量特征的重要工具。
统计学方法就是帮助人们透过偶然现象认识其内在的规律性,揭示疾病或现象发生、发展规律,为预防疾病、促进健康提供客观依据。
二、统计学的基本概念(一)同质与变异同质是指被研究指标的影响因素相同。
变异是同质基础上的观察单位(亦称为个体)之间的差异。
(二)总体与样本总体是指根据研究目的确定的同质观察单位的全体。
样本从总体中随机抽取的部分观察单位,其测量值(或变量值)的集合。
(三)变量与变量值变量:确定总体后,研究者应对每个观察单位的某些特征进行测量或观察,这种特征称为变量,如:身高、体重等。
变量值:变量的测得值。
如身高150cm,体重50Kg等。
(四)参数与统计量参数是指总体特征的统计指标。
如某地健康成年男性的平均血红蛋白值。
统计量是指样本特征的统计指标。
如从某地健康成年男性中抽取一部分人的平均血红蛋白值。
(五)误差误差泛指测量值与真实值之差。
根据误差的性质和来源,统计工作中产生的误差主要有三种类型,即系统误差、随机测量误差、抽样误差。
1.系统误差:测量结果有倾向性。
查明原因,可以避免。
特点:①测量结果有倾向性。
如仪器、试剂、判定标准等。
②查明原因,可以避免。
2.随机测量误差:收集资料的过程中,即使避免了系统误差,但由于各种偶然因素造成的测量值与真实值不完全一致,这种误差称为随机测量误差。
特点:①随机误差没有大小和方向。
②不可避免。
3.抽样误差:由于随机抽样所引起的样本统计量与总体参数之间的差异以及各样本统计量之间的差异称为抽样误差。
特点:变异是绝对的,抽样误差不可避免。
原因:个体之间的差异;抽样时只能抽取总体中的一部分作为样本。
(六)概率(P)概率是描述某随机事件发生可能性大小的量值,常用符号P表示。
随机事件的概率在0~1之间,即0≤P≤1。
小概率事件:P≤0.05或P≤0.01的事件。
医学统计学 第二章 计量资料的统计描述
肌红蛋白含量
人数
0~
2
5~
3
10~
7
15~
9
20~
10
25~
22
30~
23
35~
14
40~
9
45~50
2
18
人数
25 20 15 10
5 0
2.5 12.5 22.5 32.5 42.5 52.5 血 清 肌 红 蛋 白(μg / m L)
图 2-3 101 名 正 常 人 血 清 肌 红 蛋 白 的 频 数 分 布
医学统计学 第二章 计量资料的统计 描述
计量资料(定量资料、数值变量资料) 总体:有限或无限个(定量)变量值 样本:从总体随机抽取的n个变量值:
X1,X2,X3,……,Xn
n为样本例数(样本大小、样本含量)
2
统计描述——描述其分布规律 1、用频数分布表(图)
要求:大样本 如 n〉30
2、用统计指标 描述 集中趋势 离散趋势
6
➢制表步骤 了解分布
1. 求极差(range) 极差也称全 距,即最大值和最小值之差,记作R。 本例
R 5 .7 1 2 .3 5 3 .3 6 ( m m o l/L )
7
2.确定组距(i) :
组段数通常取组 10-15组 本例组距
i 3 .3 6 /1 0 0 .3 3 6 0 .3 0
累计频率(%) (4)
0
402
402
35.80
1
330
732
65.18
2
232
964
85.84
3
118
1082
96.35
4
27
医学统计知识点整理
医学统计学知识点整理第一节统计学中基本概念一、同质与变异同质:统计研究中,给观察单位规定一些相同的因素情况。
如儿童的生长发育,规定同性别、同年龄、健康的儿童即为同质的儿童。
变异:同质的基础上个体间的差异。
“同质”是相对的,是客观事物在特定条件下的相对一致性,而“变异”则是绝对的μ.δ.πX.S.p1.2.变量:确定总体之后,研究者应对每个观察单位的某项特征进行观察或测量,这种特征能表现观察单位的变异性,称为变量。
一、数值变量资料又称为计量资料、定量资料:观测每个观察单位某项指标的大小而获得的资料。
表现为数值大小,带有度、量、衡单位。
如身高(cm)、体重(kg)、血红蛋白(g)等。
二、无序分类变量资料又称为定性资料或计数资料:将观察对象按观察对象的某种类别或属性进行分组计数,分组汇总各组观察单位后得到的资料。
分类:二分类:+ -;有效,无效;多分类:ABO血型系统特点:没有度量衡单位,多为间断性资料【例题单选】某地A、B、O、AB血型人数分布的数据资料是( )A.定量资料B.计量资料C.计数资料D.等级资料分组统计描述:是利用统计指标、统计表和统计图相结合来描述样本资料的数量特征及分布规律。
统计推断:是使用样本信息来推断总体特征。
统计推断包括区间估计和假设检验。
第四节统计表与统计图★一、统计表统计表的基本结构与要求标题:高度概括表的主要内容,时间、地点、研究内容,位于表的上方,居中摆放,左侧加表的序号。
标目:横标目和纵标目。
线条:通常采用三线表和四线表的形式。
没有竖线或斜线。
数字:表内数字一律用阿拉伯数字。
同一指标,小数位数应一致,位次对齐。
无数字用“—”表示。
暂缺用“…”表示。
“0”为确切值。
备注:位于表的下面,通常是对表内数字的注解和说明,必要时可以用“*”等标出。
一张统计表的备注不宜太多。
二、制表原则1.(7理分布。
【例题填空】描述某地十年间结核病死亡率的变化趋势宜绘制_________图。
医学统计学的基本概念
—— 计数资料 (无序分类变量) 无序分类变量)
按性质和类别进行分组所得的资料。 按性质和类别进行分组所得的资料。其 变量值是定性的,可分二项分类和多项分类。 变量值是定性的,可分二项分类和多项分类。
—— 等级资料 (有序分类变量) 有序分类变量)
按某项指标的不同程度进行分组的资料。 按某项指标的不同程度进行分组的资料。 各组之间有量的差别, 亦为半定量的资料。 各组之间有量的差别 亦为半定量的资料。
根据分析的需要各类资料可以互相转化。 根据分析的需要各类资料可以互相转化。
五、统计工作的基本步骤 —— 设计:关键的一步 设计:
5. 概率
﹡ 是描述随机事件发生可能性大小的 数值, 表示。 数值,用P表示。0≤ P≤1 表示 ﹡ 必然事件的概率为 1 (100%) 不可能发生事件的概率为 0 随机事件的概率在 0~1 之间 ﹡ P<0.05, P<0.01, 属小概率事件
四、统计资料的类型 —— 计量资料 (数值变量) 数值变量)
2. 参数和统计量 参 数:
描述总体的统计指标:µ、 描述总体的统计指标 、σ 、π等。 等
统计量: 统计量:
_
描述样本的统计或分析指标。 、 描述样本的统计或分析指标。如χ、 p、u值、t值等。 值等。 、 值 值等
3. 变量与变异 变 量:
被观察单位 的某项特征 (指标 ;观察指 某项特征 指标 观察指 指标) 标的测定结果称变量值。 标的测定结果称变量值。
—— 分析资料
统计描述 统计分析 参数估计 统计推断 假设检验 统计指标 统计图表
六、学习本学科应注意
﹡ 掌握医学统计学的基本知识
医学统计学:计量资料的统计描述
方差、标准差计算方法和意义
方差
指各数据与均数之差的平方和的平均 数,用于反映数据的术平方根,用于衡量数据偏 离均数的程度。标准差越大,数据分 布越离散。
变异系数在医学研究中应用
变异系数
指标准差与均数之比,用于比较不同单位或不同均数水平下数据的离散程度。在医学研究中,常用于评价不同指 标或不同人群间的变异程度。
分类
根据测量水平不同,可分为离散型计量资料和连续型计量资料。离散型计量资 料只能取整数值,如人口数、医院床位数等;连续型计量资料可以取实数范围 内的任何值,如身高、体重等。
计量资料特点分析
01
数值性
计量资料以数值形式表示,具有明 确的数量特征。
可比性
同类计量资料之间可以进行比较, 如不同人群的身高、体重等。
众数
一组观察值中出现次数最多的数。
应用场景
常用于描述无明显集中趋势或分布规 律资料的集中趋势,如一些分类数据 的统计描述。
04 离散程度指标解读
极差、四分位数间距计算及意义
极差
指一组数据中最大值与最小值之差, 用于反映数据的波动范围。计算简单, 但易受极端值影响。
四分位数间距
指第三四分位数与第一四分位数之差, 用于反映中间50%数据的离散程度。 较极差更稳定,不易受极端值影响。
常用统计描述方法介绍
频数分布表与直方图
通过分组和计数的方式展示数 据的分布情况,适用于连续型
变量。
集中趋势描述
包括算术均数、几何均数和中 位数等,用于描述数据的平均 水平或中心位置。
离散程度描述
包括标准差、方差和四分位数 间距等,用于描述数据的波动 范围或离散程度。
偏态与峰态描述
通过偏态系数和峰态系数等描 述数据的偏态和峰态特征,反
医学统计学统计描述
缺点:仅考虑两端数据的差异,未考虑其它数据的变异情 况,不能全面反映一组资料的离散程度,受样本含量n的 影响较大,且不稳定,易受极端值的影响。
四分位数间距(inter-quartile range)
▪ 定义:把全部变量值值分为四等分的分位数,其
分位数。它是一个位置指标。 Px ▪ 中位数是第50百分位数,用P50表示。 ▪ 第25,第75,第95百分位数记为P25, P75, P95
是统计学上常用的指标。
百分位数(percentile)
▪ 百分位数(percentile)
X%
PX
(100-X)%
▪ 50%分位数就是中位数 ▪ 25%,75%分位数称四分位数(quartile)
方差(variance)
▪ 定义:离均差平方和的均数 ▪ 表示法:总体方差用2表示;样本方差用
S2表示
▪ 计算公式:
▪ 意义: 方差值越大,说明变异程度越大。
▪ 特点:包括了每个变量值与均值的差异,
但该指标的单位为平方。
标准差(standard deviation, sd) :
▪ 定义:方差开平方,取平方根的正值,每
▪ 例 对于某项风险较高的新手术术后的生存 时间进行跟踪,共调查了7人, 6人死亡之 前分别生存了5天、6天、10天、16天、25 天、29天,还有一人术后30天随访时仍存 活。
▪ 本资料属于“开口”资料。
▪ 本例数据已经按从小到大的升序排列,n=7, 为奇数,其中位数为16天。
2. 频数表法(n较大,已编成频数表)
62.05
1 3 1
79.00 72.25
409.75 4.06(mmol / L) 101
数值变量资料的统计分析
数值变量资料的统计分析数值变量的统计分析是一种重要的数据分析方法,通过对数值变量的各种统计指标和分布进行分析,可以帮助我们了解和揭示数据的内在规律和特征。
数值变量的统计分析在各个领域和学科中都有着广泛的应用,如经济学、社会学、医学等。
本文将从描述统计、推断统计和回归分析三个方面介绍数值变量资料的统计分析方法。
描述统计是对数值变量资料进行整体描述的统计方法。
常用的描述统计指标包括中心趋势和离散程度两方面。
中心趋势指标包括平均数、中位数和众数。
平均数是最常用的中心趋势指标,它代表了样本数据的集中位置。
中位数是将数据按从小到大的顺序排列后,处于中间位置的数值,它对极端值不敏感,更能反映总体的典型水平。
众数是出现频率最高的数值,可以用来了解数据的分布特点。
离散程度指标包括范围、方差和标准差等。
范围是最大值和最小值的差值,表示了数据集的广度。
方差和标准差是衡量数据分散程度的指标,方差是每个数值与平均数的差的平方的平均值,标准差是方差的平方根,反映了数据的离散程度。
推断统计是利用样本数据对总体进行推断的统计方法。
常用的推断统计方法包括参数估计和假设检验。
参数估计是通过样本数据估计总体的未知参数,如均值、方差等。
常用的参数估计方法有点估计和区间估计。
点估计是通过样本数据得到总体参数的一个估计值。
常用的点估计方法有最大似然估计和矩估计。
区间估计则是对参数进行估计的同时还给出了一个可信的范围,可以用于报告不确定性。
假设检验是利用样本数据对总体参数进行假设检验的统计方法,用于判断总体参数是否符合一些假设。
假设检验包括单样本检验、双样本检验和方差分析等。
回归分析是一种用于研究变量之间关系的统计方法。
回归分析可以用于建立数值变量之间的函数关系,并用于预测和解释变量之间的关系。
常用的回归分析方法包括线性回归、多元回归和非线性回归等。
线性回归是建立线性关系模型的一种方法,通过最小二乘估计法来估计回归系数。
多元回归是在线性关系模型的基础上引入多个自变量进行分析。
第八章 数值变量资料的统计描述
第八章数值变量资料的统计描述三、习题A1型题1 . 描述一组正态或近似正态分布资料的平均水平用()A .算术均数B .几何均数C .中位数D .平均数E .众数2 . 血清学滴度资料最常计算()以表示其平均水平。
A .均数B .中位数C .几何均数D .全距E .标准差3 .表示变量值变异情况的指标最常用的是()A .四分位数间距B .全距C .标准差D .变异系数E .方差4 .两组呈正态分布的数值变量资料,但均数相差悬殊,若比较离散趋势,最好选用的指标为()A .全距B .四分位数间距C .方差D .标准差E .变异系数5 .下列哪一项不是标准差的应用范围()A .说明观察值的离散程度B .计算变异系数C .与均数一起描述正态分布的特征D .与均数一起根据正态分布的规律估计总体均数的可信区间E .计算标准误6 .在同一总体中随机抽样,样本含量n 越大,则理论上()越小A .样本标准差B .中位数C .标准误D .第95百分位数E .均数7 .算术均数与中位数相比()A .抽样误差更大B .不易受极端值影响C .更充分利用数据信息D .更适用于分布不明的资料E .更适用于偏态分布资料8 .单位不相同均数相差较大时,比较连续性资料的离散趋势,最好用()A .全距B . SC . CVD .四分位间距E .方差9 .变异系数的数值()A .一定大于1B .一定小于1C .可大于1 也可小于1D .一定比S 小E .一定比S 大10 .标准正态分布的均数与标准差分别为()A . O , 1B . 1 , OC . O , OD . 1 , lE . 1.96 , 2.5811 .各观察值均加(或减)同一个数后()A .均数不变,标准差不一定变B .均数不变,标准差变C .均数不变,标准差也不变D .均数变,标准差不变E .均数变,标准差也变12 . ( )分布的资料,均数等于中位数A .正态B .左偏态C .右偏态D .倒数偏态E .对数偏态A2型题13 .对120 名男大学生的身高进行了测量,每个测量值减去均数所得的差值再除以标准差,所得数值的分布为()A .正态分布B .标准正态分布C .正偏态分布D .负偏态分布E .偏态分布14 .若一组数据呈正态分布,其中大于 x -2.58s 的变量值占()A . 99.5 %B . 99 %C . l %D . 0.5 %E . 5 %15 .正态分布曲线下(μ士1.96σ)动区间的面积占总面积的()A . 97.5 %B . 95 %C . 5 %D . 2.5 %E . 1 %16 .某项计量指标仅以过高为异常,且资料呈偏态分布,则其95%参考值范围可为()A .≤P95B . ≥ P5C .≤P97.5D .≥P95E . P2.5 ~ P97.517 .某项计量指标仅以过低为异常,且资料呈偏态分布,则其95%参考值范围可为()A . ≤P95B . P2.5 ~ P97.5C .≤P97.5D . ≥P95E . ≥ P518 . X1 和X2:是两个独立的随机变量,( X1+ X2)与(X1- X2)的方差相比,理论上()A .更大B .可以大也可以小C .更小D .相等E .没有关系A3型题共同题干(19 ~ 21 )随机抽取某地2000 名正常人血铅测定值。
卫生统计学 第三章平均数与标准差
(二)分组资料的均数计算法:频数表法 P20例3-2,步骤: 1、分组和编制频数分布表frequency distribution table
– 1)找出观察值中最大值、最小值和极差range – 2)按极差大小决定组段数、组段和组距class interval:8~15组,常用极差的1/10取整作组 距,组段下限和上限low limit and upper limit应 界限分明,无交叉,从下限开始不包括上限, 第一组段包括最小,最后组段包括最大观察值 – 3)列表划记tallying:见P20表3-2。频数表可绘 成直方图histogram
3、简捷法short-cut method 1)在频数表的基础上,以与最大频数相对应的组中 值为假定均数x0, assumed origin 2)列出简捷法计算均数用表,
– d为各组组中值减去假定均数后除以组距i,假定均数对 应d为0,向上依次为-1,-2,… 向下依次为1,2,…
3)将各行f值与d值 相乘得df,再求∑df 4)求均数 41 df
4、质量控制:为了控制实验中的检测误差,常以 均数加减2个标准差作为上、下警戒值,以均数加 减3个标准差作为上、下控制值。 5、标准正态分布 x 标准化变换: u
若x服从正态分布N(μ ,σ ),由则u服从均数为0, 标准差为1的正态分布,称为标准正态分布。u(外 文资料用z表示)称为标准正态离差the standardized deviate (or z-value) 可以借助标准正态表估计任意(x1,x2)范围内的频 数比例(附表3-1,标准正态分布表)
3、正常值(参考值reference value)范围: 医学上常把绝大多数(90%,95%,99%)正常 人的某指标值范围称为该指标的正常值范 围。资料近似正态或经变量变换后符合正 态分布时可用上述面积规律来估计95%正 常值范围,偏态资料可用百分位数法。 正常人并非完全健康的人,而是指排除了 影响所研究指标的疾病和有关因素的同质 人群。 按实际需要确定上下限或仅上限或仅下限。 双侧:1.64,1.96,2.58;单侧:1.28, 1.64, 2.33
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
血糖 频数f 组中值X f X (4)
f X2 (5)
(1) (2) (3)
=(2)×(3) =(3)×(4)
3.60~ 3
3.7
3.80~ 3
3.9
4.00~ 8
4.1
4.20~ 23
4.3
4.40~ 24
4.5
4.60~ 25
4.7
4.80~ 20
4.9
5.00~ 12
5.1
5.20~ 10
5.3
0~
5
5
0.42
10~
12
17
1.41
20~
15
32
2.66
30~
76
108
8.98
40~
189
297
24.69
50~
234
531
44.14
60~
386
917
76.23
70~
286
1203
100.00
8
病例数
频数
人数
25
正态分布:中间高、
20
两边低、左右对称
15
10
5
0
0.50 0.70 0.90 1.10 1.30 1.50 1.70 1.90
﹡表示符号: 总体均数 (μ) 样本均数 (x )
﹡应 用: 对称分布资料,尤其是正态或近似正 态分布资料
﹡计算方法:
直接法 x=
1+ 2+……+ n n
=
∑
n
加权法 x=
f 1x1 + f 2x2 + ……+f kxk f 1 +f 2+……+f k
Σ:求和符号,读成sigma
∑ fx =f
12
55~58岁健康成人空腹血糖均数和标准差的计算表(加权法)
= lg–1
∑f lgx
14
n
n
几何均数(geometric mean)
XG n X1X2 Xn
lg
XG
1 n
(lg
X1
lg
X2
lg
Xn)
lg X n
X G lg 1
lg X n
lg 表示以10为底的对数;
几何均数:变量 对数值的算术均 数的反对数。
2
• 对一组研究对象进行观察,某变量或指标 (如肺活量)数值出现的次数被称为频数 (frequency);
• 可以将各变量值及其出现的频数编制频 数分布表(frequency distribution table);
• 用来反映各变量值与其频数之间的关系, 并观察资料的分布类型
3
一、频数分布(Distribution of frenquency)表与频数分布图
22
正正正正正
25
正正正正 |
21
正正正 | |
17
正||||
9
||||
4
|
1
合计
——
130
6
﹡偏态正分偏布态分布
238名正常人发汞值(μg/g)
发汞值 (1) 0.3~ 0.7~ 1.1~ 1.5~ 1.9~ 2.3~ 2.7~ 3.1~ 3.5~ 3.9~
频数 (2) 20 66 60 48 18 16 6 1 0 3
血清甘油三酯( m m o l / L )
图2-1 160名正常成年女子的血清甘油三酯的频数分布图
正偏态分布:长尾向右延伸;负偏态分布:长尾向左延伸
18
25
16
14
20
12Βιβλιοθήκη 10158 10
6
4 2 0
12 24 36 48 60 72 84 96 108 120 潜伏期(h)
5
0 0 5 10 15 20 25 30 35 40 45 50 肌红蛋白含量(ug/mL)
累计频数 (3) 20 86 146 194 212 228 234 235 235 238
累计频率(%) (4)=(3)/238
8.4 36.1 61.3 81.5 89.1 95.8 98.3 98.7 98.7 100.0 7
负偏态分布
某地某年恶性肿瘤死亡数
年龄组(岁) 死亡人数 累计频数 累计频率(%)
* 对称分布(正态分布或近似正态分布)
某地区130名正常成年男子红细胞数(1012/L)的频数分布
红细胞数
划记
频数
3.70~ 3.90~ 4.10~ 4.30~ 4.50~ 4.70~ 4.90~ 5.10~ 5.30~ 5.50~ 5.70~5.90
T
2
||||
4
正||||
9
正正正 |
16
正正正正 T
图2-2 59名链球菌咽喉炎患者的潜伏期(h)
图2-3 101名正常人的血清肌红蛋白含量 9
❖ 频数分布类型:
①对称分布或近似正态分布:即频数集中位置(或高 峰)在正中,两侧频数分布大致对称;
②偏态分布:即集中位置偏向一侧,频数分布不对称。
若频数集中位置偏向数值小的一侧,为正偏态分布; 若频数集中位置偏向数值大的一侧,为负偏态分布。
—— 频数分布表的编制
﹡找全距
R=最大值 - 最小值
﹡定组距
i =全距 / 组数
﹡写组段
第一组组段包括最小值
最后一组组段包括最大值
﹡划 记 各组段的观察单位数(频数)
4
——频数分布的用途:
(1)频数分布的特征描述 ﹡集中趋势:变量值集中分布的位置 ﹡离散趋势:变量值围绕集中位置的
分布情况
(2) 频数分布的类型 ﹡ 对称分布——正态或近似正态分布 ﹡ 非对称分布 ——偏态分布
不同类型的分布,应采用相应描述指标和统计分 析方法。
医学院 预防医学教研室 2020/10/13
10
二、集中趋势(Central tendency) 指标
平均数(average)常用于描述一组计量 变量值的集中趋势,是反映同质资料的平 均水平或集中位置的特征值。
均数
常用平均数 几何均数
中位数
11
1. 算术均数(均数,mean)
5.40~5.60 4
5.5
11.1
11.2 32.8 98.9 108.0 117.5 98.0 61.2 53.0 22.0
41.07
45.63 134.48 425.27 486.00 552.25 480.20 312.12 280.90 121.00
合计 132(Σf)
614.2(ΣfX) 2878.92 (ΣfX2) 13
——常用平均数
2. 几何均数 (geometric mean)
﹡表示符号: (G)
﹡应 用: 变量值呈倍数关系;对数正态分布资料。 ﹡计算方法:
直接法 G = n √ x1 ·x2 … xn
G = lg–1 lgx1+lgx2+…+lgxn = lg–1 ∑ lgx
n
n
加权法
G = lg–1
f1lgx1+f2lgx2+…+fklgxk
数值变量资料
(计量资料) 统计描述(Descriptive Statistics)
医学院 预防医学教研室 2020/10/13
1
数值变量资料的统计描述
➢ 频数表与频数分布 ➢平均指标:算术均数、几何均数、中位数 ➢变异指标:极差、百分位数与四分位间距
方差、标准差、变异系数
➢正态分布及其应用
医学院 预防医学教研室 2020/10/13