计量资料统计描述
统计学第二章计量资料的统计描述
02
统计数据整理与展示方法
数据清洗与预处理技巧
80%
缺失值处理
根据数据的分布情况和实际背景 ,选择合适的缺失值填充方法, 如均值、中位数、众数等。
100%
异常值处理
采用箱线图、散点图等方法识别 异常值,并根据实际情况选择删 除、替换或保留。
分类
根据测量水平的不同,计量资料可分为离散型和连续型两类。离 散型数据只能取整数值,如人口数、医院床位数等;连续型数据 则可以取实数范围内的任何值,如身高、体重等。
计量资料特点分析
数值性
计量资料以数值形式表示,具有数量化的特点,便 于进行数学运算和统计分析。
连续性
连续型计量资料在实数范围内可以取任意值,数据 分布的连续性使得统计推断更为精确。
06
统计图表在数据可视化中应用
常见统计图表类型介绍
条形图(Bar Chart)
用于展示分类数据之间的比较,横轴表示分类,纵轴表示数量或比例。
折线图(Line Chart)
用于展示时间序列数据或连续性数据的趋势变化,横轴表示时间或类 别,纵轴表示数量或比例。
散点图(Scatter Plot)
用于展示两个变量之间的关系,横轴和纵轴分别表示两个变量,点的 位置表示变量的取值。
一组观察值中出现次数最多的数。
计算方法
应用场景
中位数计算需先将数据排序,然后取中间 位置的数;众数计算则是统计各数值出现 的次数,取出现次数最多的数。
适用于各种类型的数据,尤其适用于偏态 分布数据。中位数和众数对极端值不敏感 ,因此能较好地反映数据的集中趋势。
不同集中趋势指标比较
算术平均数、中位数和 众数都是描述数据集中 趋势的指标,但各有特 点。
医学统计学 第二章 计量资料的统计描述
肌红蛋白含量
人数
0~
2
5~
3
10~
7
15~
9
20~
10
25~
22
30~
23
35~
14
40~
9
45~50
2
18
人数
25 20 15 10
5 0
2.5 12.5 22.5 32.5 42.5 52.5 血 清 肌 红 蛋 白(μg / m L)
图 2-3 101 名 正 常 人 血 清 肌 红 蛋 白 的 频 数 分 布
医学统计学 第二章 计量资料的统计 描述
计量资料(定量资料、数值变量资料) 总体:有限或无限个(定量)变量值 样本:从总体随机抽取的n个变量值:
X1,X2,X3,……,Xn
n为样本例数(样本大小、样本含量)
2
统计描述——描述其分布规律 1、用频数分布表(图)
要求:大样本 如 n〉30
2、用统计指标 描述 集中趋势 离散趋势
6
➢制表步骤 了解分布
1. 求极差(range) 极差也称全 距,即最大值和最小值之差,记作R。 本例
R 5 .7 1 2 .3 5 3 .3 6 ( m m o l/L )
7
2.确定组距(i) :
组段数通常取组 10-15组 本例组距
i 3 .3 6 /1 0 0 .3 3 6 0 .3 0
累计频率(%) (4)
0
402
402
35.80
1
330
732
65.18
2
232
964
85.84
3
118
1082
96.35
4
27
简述计量资料统计描述指标及其应用条件
简述计量资料统计描述指标及其应用条件计量资料统计描述指标是用于对具有数量特征的数据进行概括和描述的统计量。
常见的计量资料统计描述指标包括平均值、标准差、方差、中位数、最大值、最小值等。
1.平均值(Mean):计量资料的平均值是所有观测值的总和除以观测值的数量。
平均值是描述数据集集中趋势的常用指标。
2.标准差(Standard Deviation):标准差是测量数据的离散程度。
标准差越大,数据的变异程度越大;标准差越小,数据的变异程度越小。
3.方差(Variance):方差是标准差的平方。
它衡量数据集点与平均值之间的差异。
4.中位数(Median):中位数是将数据集按从小到大或从大到小排列后,位于中间位置的值。
中位数表示数据的中心位置,相对于平均值而言较为稳健。
5.最大值(Maximum)和最小值(Minimum):最大值是数据集中最大的观测值,而最小值则是数据集中最小的观测值。
这些计量资料统计描述指标可以帮助给出关于数据分布、集中趋势和离散程度的定量信息。
它们可以用于研究数据的分布形态、评估数据集的稳定性和变异性、进行比较和推断等。
应用条件包括:1.数据类型:这些指标适用于计量数据,即具有数量特征的连续或离散数据。
2.数据的总体性质:这些指标的应用条件通常基于数据的总体性质。
例如,当数据服从正态分布时,平均值和标准差是有效的描述指标。
3.数据的假设:有些指标对数据的假设有一定要求。
例如,中位数对于数据的对称性和单峰性有一定的要求。
需要根据具体的数据和分析目的来选择适当的计量资料统计描述指标。
同时,需要注意数据集的特点以及所使用的指标的局限性,并结合其他相关指标和图表进行综合分析和解读。
第二章 计量资料的统计描述
意义:越大说明离散程度越大 优点:计算简单 缺点:不能全面反映资料的离散程度;不稳定,易受 极端值影响
(二)四分位数间距(Quartile interval)
四分位数间距( Q ):将一组资料分为四等份,上四分位数QU(P75) 与下四分位数QL(P25)之差。
(四)众数(mode)
• 众数是指一组观察值中出现次数最多的那个数值。一组观察 值可以有多个众数,也可以没有众数。众数只有在数据量较 大时才有意义。众数不受极端值大小的影响,但它掩盖的信 息经常比它揭示的要多。
• 例2-1资料中有频数最大为4的6个众数,分别为131、133、135、13 8、142、145(g/L);当列成表2-1的频数分布时,由于“138~” 组的频数为21最大,因此众数为该组的组中值141.5(g/L)。
不但反映研究指标数值的稳定性和均匀性,而且反映集中 性指标的代表性。
三组同性别同年龄儿童的体重如下:
x 甲组:26 28 30 32 34 甲 = 30Kg x 乙组:24 27 30 33 36 乙 = 30Kg x 丙组:26 29 30 31 34 丙 = 30Kg
(一)全距(Range)
集中趋势和离散趋势是揭示数据分布的类型和正
确进行统计描述与统计推断的前提。
(三)异常值的识别
频数表有助于发现极小或极大的异常值。 在频数表的两端连续出现几个组段的频数为0后,又
出现一些极小值或极大值,应怀疑这些资料的准确 性,需对这些数据进一步核对和复查,若发现错误, 及时改正。
(四)有利于进一步对资料进行 统计描述与分析
2 (xi )2
N
s2
xi
x2
统计学-计量资料的统计描述方法
计量资料得统计描述方法怎样表达一组数据?描述计量资料得常用指标—A 、描述平均水平(中心位置):均数X 、中位数与百分位数、几何均数G 、众数(mode) B 、描述数据得分散程度:标准差、四分位数间距、 变异系数、方差、全距(一)均数mean 与标准差standard deviation1、 (算术)均数X均数就是描述一组计量资料平均水平或集中趋势得指标。
*直接计算公式:12nX X X X X nn+++==∑应用条件:适用于对称分布,特别就是正态分布资料。
2、 中位数(median )M 与百分位数(percentile)A 、中位数M就是将一组观察值从小到大排序后,居于中间位置得那个值或两个中间值得平均值。
应用条件:用于任何分布类型,包括偏态资料、两端数据无界限得资料。
计算:n 为奇数时--1()2n M X+=n 为偶数时--()(1)2212n n M X X +⎛⎫=+ ⎪⎝⎭9人数据:12,13,14, 14, 15, 15, 15, 17, 19天B 、百分位数 就是将N 个观察值从小到大依次排列,再分成100等份,对应于X%位得数值即为第X 百分位数。
中位数就是第百分50位数。
四分位数间距(quartile range)= 第25百分位数(P25)~第75百分位数(P75)。
四分位数间距用于描述偏态资料得分散程度(代替标准差S),包含了全部观察值得一半。
百分位数计算(频数表法):(%)XX XL Xi P L nX f f =+-∑X L :第X 百分位数所在组段下限 L Σf :小于X L 各组段得累计频数X i :第X 百分位数所在组段组距n :总例数 f x :所在组段频数注:有得教材X= r ;L f ∑=C)(天155219===+X X M 8845122221415214.5()M X X X X ⎛⎫==== ⎪⎝⎭+如果只调查了前八位中学生,则:+(+)(+)天例:求频数表得第25、第75百分位数(四分位数间距)组段 频数f 累积频数∑f 56~ 2 2 59~ 5 762~ 12 19 ∑f 25 L 25 65~15 34 P 25在此68~ 25 5971~ 26 85 ∑f 75 L 75 74~19 104 P 75在此77~ 15 119 80~ 10 129 83~851 130合 计130① 确定Px 所在组段:P 25所在得组段:n X %=130×25%=32、5,65~组最终得累积频数=34,32、5落在65~组段内;P 75所在得组段:n X %=130×75%=97、5, 此值落在74~组段 ② 确定Px 所在组段得X L 、X i 、f x 、L Σf ③ P 25=65+3x[(130x25%-19)/15]=65、90P 75=74+3x[(130x75%-85)/19]=74、66四分位数间距=65、90~74、66 (次/分)3、几何均数G (geometric mean)应用:适用于成等比数列得资料,特别就是服从对数正态分布资料。
计量资料的统计描述
3.列表划记
频数分布表的用途
(1)是大样本数据常用的表达方式。
(2)便于观察数据的分布类型(以便选择 相应的统计指标和分析方法)。
对称分布:集中位置在中间。左右两侧频 数基本对称。
偏态分布 正偏态分布:集中位置偏向数 值较小的一侧。
百分位数
1.定义:百分位数(percentile)是指 将观察值从小到大排列后处于第x百 分位置上的数值。用符号表示为 , 它是个位置指标。
2.计算方法:
PX X%
(100-X)%
29.81%
80 100 120 64.40%
第三节 计量资料离散趋势 的描述
例1:甲:1 3 4 5 7 乙:4 4 4 4 4
▪应用:适合于正态分布或近似正态分 布的资料。标准差与正态分布有明确 的关系,它与均数结合能够完整地概 括一个正态分布。
三、变异系数 变异系数(coefficient of variation,简记 为CV),又称为离散系数(coefficient of dispersion) ▪计算方法:CV S 100%
▪ 正态分布以均数为中心,左右对称。
▪ 正态分布中的X取值范围理论上没有
边界。
▪ 正态分布有两个参数,即位置参数μ 和变异参数σ 。
当σ固定后,μ增大,曲线沿横轴向 右移动.μ减小,曲线沿横轴向左移动。
当μ固定后,σ越大,曲线的形状
越“矮胖”,表示数据分布越分 散;σ越小,曲线的形状越“瘦 高”, 表示数据分布越集中。
三、中位数(median) 中位数是将一组观察值按大小顺序排列后, 位次居中的观察值。 (一)计算方法
1.直接法:适用于样本量较小的计量资料。 当 为奇数时
计量资料的统计描述
• 变量、变量值
三种基本类型:
计量资料, 计数资料, 等级资 料
*按变量值性质——定量资料和定性资料。
编辑ppt
18
计量资料的统计描述
编辑ppt
19
主要内容
• 频数表与频数图 • 计量资料的常用统计指标
(集中趋势 离散趋势) 正态分布 • 正常值范围估计
编辑ppt
20
第一节 频数表与频数图
原始计量资料
16
小结
1. 统计工作的基本步骤是什么? 2. 统计资料分为几类? 特点?
判断:大学教授的年收入,欧洲的国 家数,血红蛋白含量,患者的资料情况。 3. 什么是总体? 什么是样本? 4. 基本的概率抽样方法是什么? 5. 什么是抽样误差? 如何减小? 能否 避免?
编辑ppt
17
前讲回顾
统计资料的类型
特点:具有累加性、方向性、可避免性
(2).随机误差:由于一些非人为的偶然因素使得结 果或大或小,是不确定、不可预知的。
特点:无方向性、不能避免。
编辑ppt
13
A、 随机测量误差
在消除了系统误差的前提下,由于 非人为的偶然因素,对于同一样本多次测定 结果不完全一样,结果有时偏大有时偏小, 没有倾向性,这种误差叫随机测量误差。
计量资料的统计描述
编辑ppt
1
统计学中的几个基本概念
1、同质与变异 2、总体与样本 3、普查与抽样 4、参数与误差 5、频率与概率(小概率事件)
编辑ppt
2
1. 同 质 与 变 异
• 同质(homogeneity)
指事物某方面的性质、影响条件或背景相同或相 近
• 变异(variation)
同质个体间的差异。来源于一些未加控制 或无法控制的甚至不明原因的因素பைடு நூலகம்是统 计学存在的基础。
医学统计学:计量资料的统计描述
方差、标准差计算方法和意义
方差
指各数据与均数之差的平方和的平均 数,用于反映数据的术平方根,用于衡量数据偏 离均数的程度。标准差越大,数据分 布越离散。
变异系数在医学研究中应用
变异系数
指标准差与均数之比,用于比较不同单位或不同均数水平下数据的离散程度。在医学研究中,常用于评价不同指 标或不同人群间的变异程度。
分类
根据测量水平不同,可分为离散型计量资料和连续型计量资料。离散型计量资 料只能取整数值,如人口数、医院床位数等;连续型计量资料可以取实数范围 内的任何值,如身高、体重等。
计量资料特点分析
01
数值性
计量资料以数值形式表示,具有明 确的数量特征。
可比性
同类计量资料之间可以进行比较, 如不同人群的身高、体重等。
众数
一组观察值中出现次数最多的数。
应用场景
常用于描述无明显集中趋势或分布规 律资料的集中趋势,如一些分类数据 的统计描述。
04 离散程度指标解读
极差、四分位数间距计算及意义
极差
指一组数据中最大值与最小值之差, 用于反映数据的波动范围。计算简单, 但易受极端值影响。
四分位数间距
指第三四分位数与第一四分位数之差, 用于反映中间50%数据的离散程度。 较极差更稳定,不易受极端值影响。
常用统计描述方法介绍
频数分布表与直方图
通过分组和计数的方式展示数 据的分布情况,适用于连续型
变量。
集中趋势描述
包括算术均数、几何均数和中 位数等,用于描述数据的平均 水平或中心位置。
离散程度描述
包括标准差、方差和四分位数 间距等,用于描述数据的波动 范围或离散程度。
偏态与峰态描述
通过偏态系数和峰态系数等描 述数据的偏态和峰态特征,反
2计量资料的统计描述指标介绍
2计量资料的统计描述指标介绍计量资料的统计描述指标是对数据集合进行概括和描述的方法,可帮助我们了解数据的分布、集中趋势和离散程度,以及可能存在的异常值。
常用的统计描述指标包括均值、中位数、众数、极差、标准差、方差、四分位数和百分位数等。
1. 均值(Mean):均值是一组数据的总和除以数据的个数。
均值可以反映数据的集中程度,但容易受到异常值的影响。
2. 中位数(Median):中位数是一组数据按大小排序后,位于中间位置的数值。
中位数可以反映数据的中间位置,不受异常值的影响。
3. 众数(Mode):众数是一组数据中出现次数最多的数值。
众数可以反映数据集中的特点。
4. 极差(Range):极差是一组数据的最大值与最小值之差。
极差可以反映数据的全面分布。
5. 标准差(Standard Deviation):标准差测量数据的离散程度。
标准差越大,数据的离散程度越大。
6. 方差(Variance):方差是标准差的平方。
方差可以反映数据的离散程度,但单位是原数据的平方。
7. 四分位数(Quartiles):四分位数将一组数据按大小排序后,分为四等分,分位点分别是Q1(25%分位点)、Q2(中位数)和Q3(75%分位点)。
四分位数可以帮助我们了解数据集的分布情况。
8. 百分位数(Percentiles):百分位数是将一组数据按大小排序后,分为100等分,每个等分对应一个百分位数。
百分位数可以帮助我们了解数据的分布情况,例如第75百分位数表示排在该位置的数据值大约有75%的数据小于它。
这些统计描述指标都是通过对数据进行运算得出的,可以帮助我们了解数据的分布情况和特点。
在实际应用中,我们可以根据具体的问题选取适当的统计描述指标进行分析,帮助我们更好地理解数据。
同时,还需要注意统计描述指标的局限性,例如均值容易受到异常值的影响,中位数和众数不能反映数据的离散程度等,因此在使用时需要结合具体情况进行综合分析。
计量资料的统计描述
例4-2-3:利用表4-2-1计算某社区101名 正常成年女子的血总胆固醇的均数。
X 1´ 2.45 3´ 2.75 L1´ 5.75 409.75 4.06(mmol/L) 1 3L 1 101
(二)几何均数 几何均数(geometric mean G)适用于观 察值变化范围跨越多个数量级的资料。 几何均数适用于成等比级数的资料,特别是 对数正态分布资料。
例4-2-5:2004年某社区52例慢性肝炎患者的 HBsAg滴度数据如表4-2-3。试计算滴度的几何 均数。
(三)中位数 中位数(median M)是将变量值从小到 大排列,位置居于中间的那个变量值, 称为中位数。可用于各种分布的定量资 料,特别是偏态分布资料和开囗资料 (一端或两端无确切数值的资料)。
S CV ´ 100% X
S为标准差,X 为均数。
(公式4-2-15)
(六)运用变异指标的注意事项
1.变异指标表示变量值的变异程度或离散趋势,常与集中指 标平均数结合运用,说明变量值集中的位置与离散程度。 2.变异指标种类虽多,但任一变异指标,其值大表示变异大, 数值参差不齐;值小表示变异小,数值比较集中在平均数 周围。比较两个或几个同类事物的变异,要用同一变异指 标。 3.正态分布资料宜用均数与标准差描述集中与离散趋势。有 了均数与标准差就可根据正态分布理论将频数分布描绘出 来。偏态分布资料宜用中位数及四分位数间距、极差等描 述其集中趋势和变异程度。 4. 比较几组资料的变异程度,若各组资料的单位不全相同, 或均数相差悬殊时,宜用变异系数描述其变异程度。
(四) 百分位数 将频数等分为十或一百的分位数称十分位 数或百分位数 。 百分位数的符号为Px,X代表第X百分位。 一个百分位数Px将全部变量值分为两部分, 在不包含Px的全部变量值中有x%的变量 值比它小,(100-x)%变量值比它大。
计量资料的统计描述
平均数应用的注意事项
计算几何均数时: – 变量值中不能有0
– 同一组变量值不能同时存在正、负值
– 若变量值全为负值,可先将负号除去,算出结果后 再冠以负号
样本含量较少时不宜计算靠近两端的百分位数
平均数要与变异指标结合使用
27
第三节 描述离散趋势的指标
看一个例子: 有甲、乙两组同性别同年龄儿童体重(kg):
频 数 (2) 1 2 10 22 37 26 15 4 2 1 120
累计频数 (3) 1 3 13 35 72 98 113 117 119 120
累计频率 (4) 0.83 2.50 10.83 29.17 60.00 81.67 94.17 97.50 99.17 100.00
21
附注:百分位数(percentile)
便于进一步的统计分析
10
计量资料频数分布的类型和特征
正态分布:各组段的频数以中间组段为中心,左右两侧基本对称 分布类型 偏态分布:各组段的频数不以中间组段为中心,而是一侧偏多或偏少
集中趋势:指频数表中频数分布表现为频数向某一位置集中的趋势 分布特征 离散趋势:指频数虽然向某一位置集中,但频数分布表现为各组段都 有频数分布,而不是所有频数分布在集中位置的趋势。
统计描述 计量资料 统计推断 统计描述
计数资料
统计推断
统计描述
等级资料 统计推断
1
第二章
计量资料的统计描述
统计描述(statistical description)
是指采用统计图、统计表、统计指标等形式来对资料 的数量特征和分布规律作出测定和描述的一种方法。
统计描述是统计分析的最基本内容 统计描述的三种形式:
10例正常人的发汞值:
计量资料描述
计量资料的统计描述描述性统计分析是进行统计分析的第一步,做好这一步是正确进行统计推断的先决条件。
计量资料常用的统计描述指标和方法主要有:1、集中趋势指标(Central Tendency):包括均数、几何均数、中位数等。
其中均数适用于正态分布和对称分布资料;几何均数适用于对数正态分布和呈等比的数据资料;中位数适合于所有分布类型的资料,但在实际中,中位数主要应用于偏态分布资料、分布不明资料和开口资料。
2、离散趋势指标(Dispersion):包括全距、四分位数间距、方差、标准差、变异系数、标准误等。
方差、标准差用于正态分布资料,四分位数间距用于偏态分布资料,变异系数用于度量单位不同和均数相差悬殊的资料,标准误用于反映样本均数的离散程度,说明均数抽样误差大小。
SPSS的许多模块均可完成描述性统计分析,但专门为该目的而设计的几个模块则集中在Descriptive Statistics菜单中,最常用的是列在最前面的四个过程:Frequencies过程:产生频数表;按要求给出某百分位数。
对计量资料、计数资料和等级资料的描述都适用Descriptives过程:进行一般性的统计描述,用于服从正态分布的资料,计算产生均数、标准差等;Explore过程:用于对数据概况不清时的探索性分析;Crosstabs过程:完成计数资料和等级资料的统计描述和一般的统计检验,我们常用的X2检验也在其中完成。
本次实习练习前3个过程:Frequencies过程,Descriptives过程,Explore过程。
Crosstabs过程在X2检验实习讲述。
Frequencies过程案例:某地101例健康男子血清总胆固醇值测定结果如下,请绘制频数表、直方图,计算均数、标准差、变异系数CV、中位数M、p2.5和p97.5。
4.77 3.37 6.14 3.95 3.56 4.23 4.31 4.715.69 4.12 4.56 4.37 5.396.30 5.217.22 5.543.93 5.214.125.18 5.77 4.79 5.12 5.20 5.10 4.70 4.74 3.50 4.69 4.38 4.896.25 5.324.50 4.63 3.61 4.44 4.43 4.25 4.035.85 4.09 3.35 4.08 4.79 5.30 4.97 3.18 3.97 5.165.10 5.86 4.79 5.34 4.24 4.32 4.776.36 6.38 4.88 5.55 3.04 4.55 3.35 4.87 4.17 5.85 5.16 5.09 4.52 4.38 4.31 4.58 5.72 6.55 4.76 4.61 4.17 4.03 4.47 3.40 3.91 2.70 4.604.095.96 5.48 4.40 4.55 5.38 3.89 4.60 4.47 3.64 4.34 5.186.14 3.24 4.90 3.05一、建立数据文件1、定义变量:在数据窗口,点击,定义一个变量,变量名(Name)“x”,类型(Type)“数值()8,小数位数(Decimals)2,变量标签(Label):“血清总胆固醇”。
《医学统计概论》第2章计量资料的统计描述
2.百分位数与四分位数间距
Percentile and quartile range
百分位数 :数据从小到大 排列;在百分尺度下,所占 百分比对应的值。记为Px。 四分位间距:
QR=P75- P25
四分位半间距(quartile deviation):QD=QR/2
QR
P0
P25
P50 P75 P100
均数、中位数、众数三者关系
正态分布时: 均数=中位数=众数 正偏态分布时:均数>中位数>众数 负偏态分布时:均数<中位数<众数
(见下图)
第三节 离散程度的描述
反映数据的离散度(dispersion )。即 个体观察值的变异程度。常用的指标有:
1. 极差(range,R) 2. 四分位数间距(quartile range,QR) 3. 方差 (variance) 4. 标准差(standard deviation,SD) 5. 变异系数(coefficient of variation,CV)
f1 f2 f3 fk
fi
适用条件:对称分布,尤其是正态或近似正态分布
的资料(正态分布后述)。
2. 几何均数(geometric mean)
符号:G表示样本几何均数;G 表示总体几何均数
适用条件:呈倍数关系的等比资料或对数正态分 布(正偏态)资料。如抗体滴度资料。
G n X1X2 Xn
lg
103 5
lg
104
lg
105
1000
故平均抗体效价为1:1000
此例的算术均数为22222,显然不能代表滴度的 平均水平。同一资料,几何均数<均数
频数表资料计算的几何均数
G
计量资料的统计描述
第二节 计量资料的统计描述数值变量的统计描述主要是分成两步:一是正态分布性检验,二是统计描述指标的计算。
根据资料是否正态,选择的指标不一样,如资料呈正态性分布则选用算术均数和标准差,如资料呈非正态分布则用中位数和四分位间距进行描述。
统计指标计算的具体命令有三个:Frequencies:可以产生详细的频数表,还可以按要求给出某百分位点的数值;Descriptive:适用于正态分布资料;Explore:功能最强大,直接给出四分位间距和可信区间。
一、原始资料的统计描述例16.2 某地某年测量了100名正常成年男子血清总胆固醇(mol/L)含量,数据见表16.4,请进行统计描述。
表16.4 某地某年100名成年男子血清总胆固醇(mol/L)含量3.374.795.10 4.77 5.32 4.50 5.10 4.70 4.44 5.164.37 6.255.55 4.56 3.35 4.08 4.63 3.61 4.97 4.175.77 5.09 4.38 5.18 4.79 5.15 4.79 5.30 4.77 4.404.895.86 3.40 3.38 4.55 5.15 4.24 4.32 5.85 3.245.85 3.04 3.896.16 4.58 5.72 4.87 5.17 4.61 4.124.43 4.31 6.14 4.88 2.70 4.60 6.55 4.76 4.48 6.515.18 3.91 5.39 4.52 4.47 3.64 4.09 5.966.14 4.696.36 4.60 5.09 4.47 3.56 4.23 4.34 5.18 5.69 4.25 6.30 3.95 4.03 5.38 5.217.22 4.31 4.71 5.21 3.97 5.12 4.55 4.90 3.05 5.20 4.74 5.54 3.93 3.50 6.381.建立数据文件 取变量CHO,定义为数值型,宽度为8,2位小数。
计量资料的统计描述
频数表法
i Px Lx ( nx% f L ) fx
其中
Lx 第x百分位数所在组段下限
i 组距
f x 第x百分位数所在组段的频数
f 第x百分位数所在组段前一组的累计频数
L
[案例4-10] 根据表4-4,计算P25 、P75 。
p25 i L ( n.x % f L ) fx
均数
几何均数 中位数
平均数量水平
平均增减倍数 位次居中的观察值 水平
对称分布,尤其是正 态分布 等比、对数正态分布 偏态、分布不明确、 分布末端无确定值
百分位数 ( Percentile,Px )
观察值从小到大排列,处于第x百分位位 置上的数值,用 Px 表示。一个百分位数将全 部数据分成两部分,有x%的数据小于Px,有 (100-x)%的数据大于Px
0.6021 2.7093 7.2246 15.5051 23.4806 21.0720 16.8574 86.9977(
f ilg xi
)
1 lg 4 3 lg 8 lg 256 1 86.9977 G lg ( lg ( ) 54 1 3 7 50
滴度倒数 xi
(3)
频数 fi
(2)
lgxi
(4)
fi lgxi
(5)
1/4 1/8 1/16 1/32 1/64 1/128 1/256 合 计
1 3 6 10 13 10 7 50 (
fi
4 8 16 32 64 128 256 ) -
0.6021 0.9031 1.2041 1.5051 1.8062 2.1072 2.4082 -
141.5 151.1 144.6 151.8 149.5 153.6 140.5 150.3 141.3 153.9 140.8 141.8 140.7 151.4 139.1 145.8 148.4 136.5
计量资料的统计描述
2021/11/14
图2-3 负偏态分布 医学统计学
例:某院出院患者住院天数的频数表
组段(天) 频数(f)
0-
6
5-
21
10-
14
15-
13
20-
6
25-
2
30-
3
35-
1
40及以上 13
合计
79
2021/11/14
医学统计学
第二节 集中趋势的描述
平均数指标的概念和作用 概念:平均数表示一组同质计量数据集中趋势
4.划计并计数:变量(x)归为L ≤x<U(见
表2-1) 2021/11/14
医学统计学
表2-1 101名正常成年女性血清总胆固醇频数表
组段 频数(f)
2.3-
1
2.6-
3
2.9-
6
3.2-
8
3.5-
17
3.8-
20
4.1-
17
4.4-
12
4.7-
9
5.0-
5
5.3-
2
5.6- 5.9 1
合计
101
2021/11/14
医学统计学
例2-1 从某单位1999年的职工体检资料中获得 101名正常成年女子的血清总胆固醇
(mmol/L )的测量结果
2.35 4.21 3.32 5.35 4.17 4.13 2.78 4.26 3.58 4.34 4.84 4.41 4.78 3.95 3.92 3.58 3.66 4.28 3.26 3.5 2.7 4.61 4.75 2.91 3.91 4.59 4.19 2.68 4.52 4.91 3.18 3.68 4.83 3.87 3.95 3.91 4.15 4.55 4.8 3.41 4.12 3.95 5.08 4.53 3.92 3.58 5.35 3.84