计量资料的统计描述

合集下载

计量资料的统计描述

计量资料的统计描述
抗体滴度 人数(f) 滴度倒数(x) lgx flgx
1︰ 2 1︰4 1︰8 1︰16 1︰32 1︰64 1︰128
2 11 18 36 22 8 3
2 4 8 16 32 64 128
0.3010 0.6021 0.9031 1.2041 1.5051 1.8062 2.1072
0.6020 6.6231 16.2558 43.3476 33.1122 14.4496 6.3216
含义 离散趋势是指计量资料所有观察值偏离中
心位置的程度,反映一组同质变量值相互之间参
差不齐的程度,即离散度或变异度。
常用指标 全距、方差、标准差、变异系数。
1、全距(range, R)
又称极差,是一组变量值中最大值与最小值的差。
优点 缺点
计算简单 仅考虑了资料的最大值和最小值,不能反映
组内其它数据的变异程度。
是其它许多统计方法的理论基础
标准正态分布
(standard normal distribution)
正态分布是一个分布簇,对应于不同参数其位置和形状均 不相同,为应用方便,可进行变量转换:
u
X

式中的u值称为标准正态变量,其频数曲线图即为标准正
态分布( u分布),一般的正态分布N(μ,σ2)即转化为标准正态 分布N(0,1)。其面积分布可直接查表。
是一个度量相对离散程度的指标。
例1: 身高 体重
CV = 4.95/166.06× 100% = 2.98% CV = 4.96/53.72 × 100% = 9.23%
例2:新生儿 CV = 3/50 × 100%= 6%
几种重要的连续性随机变量分布:
正态分布 标准正态分布X75%统

计量资料的统计描述

计量资料的统计描述

中位数(M)和百分位数(P)
中位数(median, M)是将一组观察值从小到大 按顺序排列,位次居中的数值对应的观察值就是 中位数。因而全部观察值中,大于和小于中位数 的观察值的个数相等。 百分位数(percentile,P)是指把一组资料的全 部观测值分为两部分,理论上讲,有x%的观测值 比Px小,有(100-x)%的观测值比Px大。中位数 是特定的百分位数,即P50,它是表示一组资料集 中位置的指标。
计算器功能简介
MODE或D·R·G:模式转换
DEG:degree 角度 RAD:radian 弧度 GRA:gradient 梯度
INV、 SHIFT或2nd F:第二功能键 SD 或 STAT:统计分析功能 x ,n,Σx,Σx2, σn (σX , σ),σn-1(sX , s)。 X 、 data 或DT:数据储存
标准差的应用
标准差是反映数据变异程度的指标,其大 小受每一个观察值的影响。 常用于描述对称分布,尤其是正态分布或 近似正态分布资料的离散程度。 随着样本量增大,标准差逐渐趋于稳定。
变异系数(CV)
CV =s/ x ×100% 它是反映相对变异度的指标。 变异系数常用于:
测量单位不同的几组资料变异度的比较; 均数相差悬殊的几组资料变异度的比较。
H = R 1 + 3 . 322 lg N
第一组段必须包括最小值,一般取略小于最小值 的整数作为第一组的下限;最后一个组段应该包 括最大值,并且封口,但最后一个组段的上限不 能等于最大值。
频数表的编制
3.列表划记,统计各组段频数。 4.计算频率与累计频率
频数分布的两个特征
体重虽有轻有重,但都向35~组段集中,数据大多 数集中在32~38组段,共83人,占总人数的55%, 这种趋势称为集中趋势 集中趋势。 集中趋势 另一方面,随体重逐渐变大或变小,仍有小部分变 量值存在,称这种特征为离散趋势 离散趋势。 离散趋势 集中趋势和离散趋势是频数分布的两个重要特征。

统计学第二章计量资料的统计描述

统计学第二章计量资料的统计描述
数据。同时,还需要对数据进行质量控制和预处理,以消除误差和异常值的影响。
02
统计数据整理与展示方法
数据清洗与预处理技巧
80%
缺失值处理
根据数据的分布情况和实际背景 ,选择合适的缺失值填充方法, 如均值、中位数、众数等。
100%
异常值处理
采用箱线图、散点图等方法识别 异常值,并根据实际情况选择删 除、替换或保留。
分类
根据测量水平的不同,计量资料可分为离散型和连续型两类。离 散型数据只能取整数值,如人口数、医院床位数等;连续型数据 则可以取实数范围内的任何值,如身高、体重等。
计量资料特点分析
数值性
计量资料以数值形式表示,具有数量化的特点,便 于进行数学运算和统计分析。
连续性
连续型计量资料在实数范围内可以取任意值,数据 分布的连续性使得统计推断更为精确。
06
统计图表在数据可视化中应用
常见统计图表类型介绍
条形图(Bar Chart)
用于展示分类数据之间的比较,横轴表示分类,纵轴表示数量或比例。
折线图(Line Chart)
用于展示时间序列数据或连续性数据的趋势变化,横轴表示时间或类 别,纵轴表示数量或比例。
散点图(Scatter Plot)
用于展示两个变量之间的关系,横轴和纵轴分别表示两个变量,点的 位置表示变量的取值。
一组观察值中出现次数最多的数。
计算方法
应用场景
中位数计算需先将数据排序,然后取中间 位置的数;众数计算则是统计各数值出现 的次数,取出现次数最多的数。
适用于各种类型的数据,尤其适用于偏态 分布数据。中位数和众数对极端值不敏感 ,因此能较好地反映数据的集中趋势。
不同集中趋势指标比较
算术平均数、中位数和 众数都是描述数据集中 趋势的指标,但各有特 点。

医学统计学 第二章 计量资料的统计描述

医学统计学 第二章 计量资料的统计描述

肌红蛋白含量
人数
0~
2
5~
3
10~
7
15~
9
20~
10
25~
22
30~
23
35~
14
40~
9
45~50
2
18
人数
25 20 15 10
5 0
2.5 12.5 22.5 32.5 42.5 52.5 血 清 肌 红 蛋 白(μg / m L)
图 2-3 101 名 正 常 人 血 清 肌 红 蛋 白 的 频 数 分 布
医学统计学 第二章 计量资料的统计 描述
计量资料(定量资料、数值变量资料) 总体:有限或无限个(定量)变量值 样本:从总体随机抽取的n个变量值:
X1,X2,X3,……,Xn
n为样本例数(样本大小、样本含量)
2
统计描述——描述其分布规律 1、用频数分布表(图)
要求:大样本 如 n〉30
2、用统计指标 描述 集中趋势 离散趋势
6
➢制表步骤 了解分布
1. 求极差(range) 极差也称全 距,即最大值和最小值之差,记作R。 本例
R 5 .7 1 2 .3 5 3 .3 6 ( m m o l/L )
7
2.确定组距(i) :
组段数通常取组 10-15组 本例组距
i 3 .3 6 /1 0 0 .3 3 6 0 .3 0
累计频率(%) (4)
0
402
402
35.80
1
330
732
65.18
2
232
964
85.84
3
118
1082
96.35
4
27

计量资料的统计描述

计量资料的统计描述

第二章 计量资料的统计描述一、教学大纲要求(一)掌握内容1. 频数分布表与频数分布图 (1)频数表的编制。

(2)频数分布的类型。

(3)频数分布表的用途。

2. 描述数据分布集中趋势的指标掌握其意义、用途及计算方法。

算术均数、几何均数、中位数。

3. 描述数据分布离散程度的指标掌握其意义、用途及计算方法。

极差、四分位数间距、方差、标准差、变异系数。

(二)熟悉内容连续型变量的频数分布图:等距分组、不等距分组。

二、 教学内容精要计量资料又称为测量资料,它是测量每个观察单位某项指标值的大小所得的资料,一般均有计量单位。

常用描述定量资料分布规律的统计方法有两种:一类是用统计图表,主要是频数分布表(图);另一类是选用适当的统计指标。

(一)频数分布表的编制频数表(frequency table )用来表示一批数据各观察值或在不同取值区间的出现的频繁程度(频数)。

对于离散数据,每一个观察值即对应一个频数,如某医院某年度一日内死亡0,1,2,…20个病人的天数。

如描述某学校学生性别分布情况,男、女生的人数即为各自的频数。

对于散布区间很大的离散数据和连续型数据,数据散布区间由若干组段组成,每个组段对应一个频数。

制作连续型数据频数表一般步骤如下:1.求数据的极差(range )。

min max X X R -= (2-1) 2.根据极差选定适当“组段”数(通常8—10个)。

确定组段和组距。

每个组段都有下限L 和上限U ,数据χ归组统一定为L ≤χ<U 。

3.写出组段,逐一划记。

频数表可用于揭示资料的分布特征和分布类型,在文献中常用于陈述资料,它便于发现某些特大或特小的可疑值,也便于进一步计算指标和统计分析处理。

(二)描述频数分布中心位置的平均指标描述中心位置的平均指标,但常因资料的不同而选取不同的指标进行描述。

1.算术均数算术均数(arithmetic mean )简称均数,描述一组数据在数量上的平均水平。

第二章 计量资料的统计描述

第二章 计量资料的统计描述
全距(R ):即极差,最大值与最小值之差。
意义:越大说明离散程度越大 优点:计算简单 缺点:不能全面反映资料的离散程度;不稳定,易受 极端值影响
(二)四分位数间距(Quartile interval)
四分位数间距( Q ):将一组资料分为四等份,上四分位数QU(P75) 与下四分位数QL(P25)之差。
(四)众数(mode)
• 众数是指一组观察值中出现次数最多的那个数值。一组观察 值可以有多个众数,也可以没有众数。众数只有在数据量较 大时才有意义。众数不受极端值大小的影响,但它掩盖的信 息经常比它揭示的要多。
• 例2-1资料中有频数最大为4的6个众数,分别为131、133、135、13 8、142、145(g/L);当列成表2-1的频数分布时,由于“138~” 组的频数为21最大,因此众数为该组的组中值141.5(g/L)。
不但反映研究指标数值的稳定性和均匀性,而且反映集中 性指标的代表性。
三组同性别同年龄儿童的体重如下:
x 甲组:26 28 30 32 34 甲 = 30Kg x 乙组:24 27 30 33 36 乙 = 30Kg x 丙组:26 29 30 31 34 丙 = 30Kg
(一)全距(Range)
集中趋势和离散趋势是揭示数据分布的类型和正
确进行统计描述与统计推断的前提。
(三)异常值的识别
频数表有助于发现极小或极大的异常值。 在频数表的两端连续出现几个组段的频数为0后,又
出现一些极小值或极大值,应怀疑这些资料的准确 性,需对这些数据进一步核对和复查,若发现错误, 及时改正。
(四)有利于进一步对资料进行 统计描述与分析
2 (xi )2
N
s2

xi
x2

计量资料的统计描述

计量资料的统计描述
医学参考值范围的制定方法
*
选择适当的百分范围。
正态分布法计算医学参考值范围。 单侧: 双侧:
百分位数法计算医学参考值范围。
百分位数法与正态分布法
*
前者适合任何分布类型的资料,实际中最为常用。后者仅适用于正态分布资料,则结果不稳定。后者的结果比较稳定。
三、频数分布表的用途
*
可代替繁杂的原始资料,便于进一步分析。
01
01
02
03
04
便于观察数据的分布类型。
便于发现资料中某些远离群体的特大或特小的可疑值。
当样本含量较大时,可用各组段的频率作为概率的估计值。
02
03
04
图2-2 115名正常成年女子的血清转氨酶的频数分布 右偏态分布或正偏态分布 图2-3 101名正常人的血清肌红蛋白的频数分布 左偏态分布或负偏态分布
第二节 集中趋势的描述
平 均 数(average)
*
平均数是描述一组观察值集中位置和平均水平的统计指标。常用的平均数包括: 算数均数(mean) 几何均数(geometric mean)
中位数(median)和百分位数(percentile)
算 数 均 数
*
直接法 加权法 均数的应用 适用用于对称分布或偏度不大的资料,能够很好的反映数据的集中位置和平均水平。 算数均数容易受到频数分布尾端极大或极小值的影响。
01
02
03
101名正常成年女子的血清总胆固醇
直接法:
加权法:
几何均数(geometric mean)
观察值间按倍数变化的资料可以计算几何均数(G)以描述其平均水平。
01
计算公式为:
02
加权法为:
03

计量资料的统计描述

计量资料的统计描述
为该组的下限。 上限(upper limit):每个组段的终点称 为该组的上限。
3.列表划记
频数分布表的用途
(1)是大样本数据常用的表达方式。
(2)便于观察数据的分布类型(以便选择 相应的统计指标和分析方法)。
对称分布:集中位置在中间。左右两侧频 数基本对称。
偏态分布 正偏态分布:集中位置偏向数 值较小的一侧。
百分位数
1.定义:百分位数(percentile)是指 将观察值从小到大排列后处于第x百 分位置上的数值。用符号表示为 , 它是个位置指标。
2.计算方法:
PX X%
(100-X)%
29.81%
80 100 120 64.40%
第三节 计量资料离散趋势 的描述
例1:甲:1 3 4 5 7 乙:4 4 4 4 4
▪应用:适合于正态分布或近似正态分 布的资料。标准差与正态分布有明确 的关系,它与均数结合能够完整地概 括一个正态分布。
三、变异系数 变异系数(coefficient of variation,简记 为CV),又称为离散系数(coefficient of dispersion) ▪计算方法:CV S 100%
▪ 正态分布以均数为中心,左右对称。
▪ 正态分布中的X取值范围理论上没有
边界。
▪ 正态分布有两个参数,即位置参数μ 和变异参数σ 。
当σ固定后,μ增大,曲线沿横轴向 右移动.μ减小,曲线沿横轴向左移动。
当μ固定后,σ越大,曲线的形状
越“矮胖”,表示数据分布越分 散;σ越小,曲线的形状越“瘦 高”, 表示数据分布越集中。
三、中位数(median) 中位数是将一组观察值按大小顺序排列后, 位次居中的观察值。 (一)计算方法
1.直接法:适用于样本量较小的计量资料。 当 为奇数时

医学统计学:计量资料的统计描述

医学统计学:计量资料的统计描述

方差、标准差计算方法和意义
方差
指各数据与均数之差的平方和的平均 数,用于反映数据的术平方根,用于衡量数据偏 离均数的程度。标准差越大,数据分 布越离散。
变异系数在医学研究中应用
变异系数
指标准差与均数之比,用于比较不同单位或不同均数水平下数据的离散程度。在医学研究中,常用于评价不同指 标或不同人群间的变异程度。
分类
根据测量水平不同,可分为离散型计量资料和连续型计量资料。离散型计量资 料只能取整数值,如人口数、医院床位数等;连续型计量资料可以取实数范围 内的任何值,如身高、体重等。
计量资料特点分析
01
数值性
计量资料以数值形式表示,具有明 确的数量特征。
可比性
同类计量资料之间可以进行比较, 如不同人群的身高、体重等。
众数
一组观察值中出现次数最多的数。
应用场景
常用于描述无明显集中趋势或分布规 律资料的集中趋势,如一些分类数据 的统计描述。
04 离散程度指标解读
极差、四分位数间距计算及意义
极差
指一组数据中最大值与最小值之差, 用于反映数据的波动范围。计算简单, 但易受极端值影响。
四分位数间距
指第三四分位数与第一四分位数之差, 用于反映中间50%数据的离散程度。 较极差更稳定,不易受极端值影响。
常用统计描述方法介绍
频数分布表与直方图
通过分组和计数的方式展示数 据的分布情况,适用于连续型
变量。
集中趋势描述
包括算术均数、几何均数和中 位数等,用于描述数据的平均 水平或中心位置。
离散程度描述
包括标准差、方差和四分位数 间距等,用于描述数据的波动 范围或离散程度。
偏态与峰态描述
通过偏态系数和峰态系数等描 述数据的偏态和峰态特征,反

2计量资料的统计描述指标介绍

2计量资料的统计描述指标介绍

2计量资料的统计描述指标介绍计量资料的统计描述指标是对数据集合进行概括和描述的方法,可帮助我们了解数据的分布、集中趋势和离散程度,以及可能存在的异常值。

常用的统计描述指标包括均值、中位数、众数、极差、标准差、方差、四分位数和百分位数等。

1. 均值(Mean):均值是一组数据的总和除以数据的个数。

均值可以反映数据的集中程度,但容易受到异常值的影响。

2. 中位数(Median):中位数是一组数据按大小排序后,位于中间位置的数值。

中位数可以反映数据的中间位置,不受异常值的影响。

3. 众数(Mode):众数是一组数据中出现次数最多的数值。

众数可以反映数据集中的特点。

4. 极差(Range):极差是一组数据的最大值与最小值之差。

极差可以反映数据的全面分布。

5. 标准差(Standard Deviation):标准差测量数据的离散程度。

标准差越大,数据的离散程度越大。

6. 方差(Variance):方差是标准差的平方。

方差可以反映数据的离散程度,但单位是原数据的平方。

7. 四分位数(Quartiles):四分位数将一组数据按大小排序后,分为四等分,分位点分别是Q1(25%分位点)、Q2(中位数)和Q3(75%分位点)。

四分位数可以帮助我们了解数据集的分布情况。

8. 百分位数(Percentiles):百分位数是将一组数据按大小排序后,分为100等分,每个等分对应一个百分位数。

百分位数可以帮助我们了解数据的分布情况,例如第75百分位数表示排在该位置的数据值大约有75%的数据小于它。

这些统计描述指标都是通过对数据进行运算得出的,可以帮助我们了解数据的分布情况和特点。

在实际应用中,我们可以根据具体的问题选取适当的统计描述指标进行分析,帮助我们更好地理解数据。

同时,还需要注意统计描述指标的局限性,例如均值容易受到异常值的影响,中位数和众数不能反映数据的离散程度等,因此在使用时需要结合具体情况进行综合分析。

计量资料的统计描述

计量资料的统计描述

4.66 4.28 3.83 4.20 5.24 4.02 4.33 3.76 4.81 4.17 3.96 3.27
4.61 4.26 3.96 4.23 3.76 4.01 4.29 3.67 3.39 4.12 4.27 3.61
4.98 4.24 3.83 4.20 3.71 4.03 4.34 4.69 3.62 4.18 4.26 4.36
M
x
n
2
x
n
2
1
2
4
百分位数(percentile)
0%
PX
M 即50%分位数就是中位数
100%
27
1.直接计算法
28
例2-9 对某医院细菌性痢疾治愈者的住院天数统计, 119名患者的住院天数从小到大的排列如下, 试求第5百分位数和第99百分位数
患 者 1 2 3 4 5 6 7 8 116 117 118 119 住院天数 1 1 2 2 2 3 4 4 39 40 40 42
3.77 4.20 4.36 3.07 4.89 3.97 4.28 3.64 4.66 4.04 4.55 4.25
4.63 3.91 4.41 3.52 5.03 4.01 4.30 4.19 4.75 4.14 4.57 4.26
4.56 3.79 3.89 4.21 4.95 3.98 4.29 3.67 4.69 4.12 4.56 4.26
第一篇 基本统计方法
1
第二章 计量资料的统计描述
Descriptions of Measurement Data
2
Chapt 2
Frequency distribution
Description of central tendency

计量资料描述

计量资料描述

计量资料的统计描述描述性统计分析是进行统计分析的第一步,做好这一步是正确进行统计推断的先决条件。

计量资料常用的统计描述指标和方法主要有:1、集中趋势指标(Central Tendency):包括均数、几何均数、中位数等。

其中均数适用于正态分布和对称分布资料;几何均数适用于对数正态分布和呈等比的数据资料;中位数适合于所有分布类型的资料,但在实际中,中位数主要应用于偏态分布资料、分布不明资料和开口资料。

2、离散趋势指标(Dispersion):包括全距、四分位数间距、方差、标准差、变异系数、标准误等。

方差、标准差用于正态分布资料,四分位数间距用于偏态分布资料,变异系数用于度量单位不同和均数相差悬殊的资料,标准误用于反映样本均数的离散程度,说明均数抽样误差大小。

SPSS的许多模块均可完成描述性统计分析,但专门为该目的而设计的几个模块则集中在Descriptive Statistics菜单中,最常用的是列在最前面的四个过程:Frequencies过程:产生频数表;按要求给出某百分位数。

对计量资料、计数资料和等级资料的描述都适用Descriptives过程:进行一般性的统计描述,用于服从正态分布的资料,计算产生均数、标准差等;Explore过程:用于对数据概况不清时的探索性分析;Crosstabs过程:完成计数资料和等级资料的统计描述和一般的统计检验,我们常用的X2检验也在其中完成。

本次实习练习前3个过程:Frequencies过程,Descriptives过程,Explore过程。

Crosstabs过程在X2检验实习讲述。

Frequencies过程案例:某地101例健康男子血清总胆固醇值测定结果如下,请绘制频数表、直方图,计算均数、标准差、变异系数CV、中位数M、p2.5和p97.5。

4.77 3.37 6.14 3.95 3.56 4.23 4.31 4.715.69 4.12 4.56 4.37 5.396.30 5.217.22 5.543.93 5.214.125.18 5.77 4.79 5.12 5.20 5.10 4.70 4.74 3.50 4.69 4.38 4.896.25 5.324.50 4.63 3.61 4.44 4.43 4.25 4.035.85 4.09 3.35 4.08 4.79 5.30 4.97 3.18 3.97 5.165.10 5.86 4.79 5.34 4.24 4.32 4.776.36 6.38 4.88 5.55 3.04 4.55 3.35 4.87 4.17 5.85 5.16 5.09 4.52 4.38 4.31 4.58 5.72 6.55 4.76 4.61 4.17 4.03 4.47 3.40 3.91 2.70 4.604.095.96 5.48 4.40 4.55 5.38 3.89 4.60 4.47 3.64 4.34 5.186.14 3.24 4.90 3.05一、建立数据文件1、定义变量:在数据窗口,点击,定义一个变量,变量名(Name)“x”,类型(Type)“数值()8,小数位数(Decimals)2,变量标签(Label):“血清总胆固醇”。

计量资料的统计描述

计量资料的统计描述

第二节 计量资料的统计描述数值变量的统计描述主要是分成两步:一是正态分布性检验,二是统计描述指标的计算。

根据资料是否正态,选择的指标不一样,如资料呈正态性分布则选用算术均数和标准差,如资料呈非正态分布则用中位数和四分位间距进行描述。

统计指标计算的具体命令有三个:Frequencies:可以产生详细的频数表,还可以按要求给出某百分位点的数值;Descriptive:适用于正态分布资料;Explore:功能最强大,直接给出四分位间距和可信区间。

一、原始资料的统计描述例16.2 某地某年测量了100名正常成年男子血清总胆固醇(mol/L)含量,数据见表16.4,请进行统计描述。

表16.4 某地某年100名成年男子血清总胆固醇(mol/L)含量3.374.795.10 4.77 5.32 4.50 5.10 4.70 4.44 5.164.37 6.255.55 4.56 3.35 4.08 4.63 3.61 4.97 4.175.77 5.09 4.38 5.18 4.79 5.15 4.79 5.30 4.77 4.404.895.86 3.40 3.38 4.55 5.15 4.24 4.32 5.85 3.245.85 3.04 3.896.16 4.58 5.72 4.87 5.17 4.61 4.124.43 4.31 6.14 4.88 2.70 4.60 6.55 4.76 4.48 6.515.18 3.91 5.39 4.52 4.47 3.64 4.09 5.966.14 4.696.36 4.60 5.09 4.47 3.56 4.23 4.34 5.18 5.69 4.25 6.30 3.95 4.03 5.38 5.217.22 4.31 4.71 5.21 3.97 5.12 4.55 4.90 3.05 5.20 4.74 5.54 3.93 3.50 6.381.建立数据文件 取变量CHO,定义为数值型,宽度为8,2位小数。

计量资料的统计描述

计量资料的统计描述

2021/11/14
图2-3 负偏态分布 医学统计学
例:某院出院患者住院天数的频数表
组段(天) 频数(f)
0-

6
5-
21
10-
14
15-
13
20-
6
25-
2
30-
3
35-
1
40及以上 13
合计
79
2021/11/14
医学统计学
第二节 集中趋势的描述
平均数指标的概念和作用 概念:平均数表示一组同质计量数据集中趋势
4.划计并计数:变量(x)归为L ≤x<U(见
表2-1) 2021/11/14
医学统计学
表2-1 101名正常成年女性血清总胆固醇频数表
组段 频数(f)
2.3-
1
2.6-
3
2.9-
6
3.2-
8
3.5-
17
3.8-
20
4.1-
17
4.4-
12
4.7-
9
5.0-
5
5.3-
2
5.6- 5.9 1
合计
101
2021/11/14
医学统计学
例2-1 从某单位1999年的职工体检资料中获得 101名正常成年女子的血清总胆固醇
(mmol/L )的测量结果
2.35 4.21 3.32 5.35 4.17 4.13 2.78 4.26 3.58 4.34 4.84 4.41 4.78 3.95 3.92 3.58 3.66 4.28 3.26 3.5 2.7 4.61 4.75 2.91 3.91 4.59 4.19 2.68 4.52 4.91 3.18 3.68 4.83 3.87 3.95 3.91 4.15 4.55 4.8 3.41 4.12 3.95 5.08 4.53 3.92 3.58 5.35 3.84
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

X1 X 2 X n X n
X
n
二、集中趋势的描述
1) 算术均数 (arithmetic mean)
计算方法:

加权法:用于频数表资料或样本中相 同观察值较多时。其计算公式为:
f1 x1 f 2 x2 ... f k xk fx fx X f1 f 2 ... f k f n
例1: 某医师在一次体检中,测得120名成年 男子的身高(厘米)资料如下, 试对此资料进行 统计描述
159 153 159 164 161 160 169 154 170 162 158 149 159 153 164 160 165 164 158 155 164 161 164 161 158 163 170 154 157 165 165 163 185 164 176 161 156 155 167 165 153 167 154 163 172 156 161 161 164 165 161 170 167 159 173 163 156 167 159 167 163 169 171 157 153 161 167 161 158 171 170 181 157 161 167 170 167 156 173 165 167 172 162 156 165 171 171 169 161 163 160 164 172 159 159 168 161 165 166 149 169 162 166 170 164 157 163 164 162 153 155 159 159 163 151 157 165 173 159 164

便于发现数据中特大或特小的可疑值
一、频数与频数分布
频数分布图的作用
频数分布图可以比频数分布表更直观地 揭示数据分布类型 数据的分布类型可分为:



对称分布(symmetric distribution)
偏态分布(skewed distribution)
频数分布类型
• 对称分布 • 偏态分布
G lg
1
5.53 4.81 3.05 4.98 4.39 4.44 5.57 3.53 4.21 4.98 4.23 4.85 5.17 4.46 4.51 4.54 5.34 4.71 4.34 5.80 4.50 2.72 4.09 4.53 4.21 4.84 4.56 3.52 4.68 5.25 4.96 4.26 4.71 4.20 4.68 5.03 5.60 4.08 4.48 5.39 3.76 4.50 4.88 4.10 3.89 4.11 4.90 4.25 5.21 4.76 4.56 5.30 3.66 5.37 3.55 4.90 3.62 3.75 4.82 3.79 4.44 3.84 4.73 3.82 5.00 5.14 4.27 4.69 3.86 5.18 4.38 5.68 4.13 4.92 4.52 3.70 4.69 4.28 4.96 5.11 4.86 3.59 4.75 4.29 6.12 4.79 4.45 5.73 5.41 5.83 3.93 3.94 3.97 4.94 4.02 4.53 4.70 4.45 5.10 5.02 2.96 3.39 4.91 5.22 5.29 4.97 4.53 5.93 4.20 6.34 4.11 3.90 4.54 4.55 4.57 5.65 4.67 4.66 4.74 4.72 5.43 4.61 4.50 4.66 5.07 4.62 4.35 4.89 4.37 6.10 3.78 5.20 4.45 4.47 5.40 5.23 4.35 3.43 4.93 4.78 4.72 5.49 4.78 6.01 4.31 4.16 5.26 4.56 5.33 4.49 4.33 5.01 3.22 5.05 4.71 5.08 4.87 4.24 4.00 4.37 4.69 5.77
观察值有高有低,但服从一定的分布规律: ① 越靠近中央部分,频率越高——集中趋势;② 绝大多数个体值并不与 平均水平完全重合,而是不同程度地偏离平均水平——离中趋势 是频数分布的两个重要侧面,较全面地概括定量资料蕴涵的信息
一、频数与频数分布
频数分布表的作用

揭示资料的分布特征和分布类型 由组中值近似代表原始数据,便于手工计 算实现初步的统计分析
一、频数与频数分布
右(正)偏态分布
左(负)偏态分布
几种不同类型的频数分布示意图
一、频数与频数分布
频数分布类型
1、对称分布

频率分布中间高,两端低 有一个对称轴,左右对称 用两个参数描述


平均水平:均数
变异程度:标准差
一、频数与频数分布
频数分布类型
2、偏态分布

18 16 14 12 10 8 6 4 2 0 1 2
每一个组段的起点和终点,分别称为该组段的下限和上限 第一组段必须包括最小值,最后一组段必须包括最大值 前一组段上限亦为后一组段的下限 分组应尽量采用等组距 最后一组段一般应包含该组段的上限,其余各组段区间左闭右开, “[ X, Y )”,即包含下限,不包含上限
一、频数与频数分布
频数分布表的编制步骤
18 16 14 12 10 8 6 4 2 0 1 2 3 4 5 6 7 8 9 10
频数分布高的偏向一端


没有一个对称轴
用两个参数描述

3 4
5 6
7 8
9 10
平均水平:中位数
变异程度:四分位数间距
一、频数与频数分布
频数分布类型
偏态分布(skewed distribution)

右(正)偏态分布:即频数集中位臵偏向数值小的一侧
统计学
罗艳侠 首都医科大学 公共卫生学院 流行病与卫生统计学系
统计工作

研究设计
数据搜集
数据整理

统计分析
统计分析

统计描述:用统计指标、统计图表对 资料的数量特征及分布规律进行测定 和描述

统计推断:用样本信息推断总体特征: ①参数估计,②假设检验
统计资料的类型

计量资料


计数资料
等级资料
统计描述

计量资料的统计描述


计数资料的统计描述
常用统计图表
计量资料

定义:


特点:

通过度量衡的方法,测量每一个观察单位的某项 研究指标的量的大小,得到的一系列数据资料 有度量衡单位(通过测量得到) 多为连续性资料 患者的身高(cm)、体重(kg) 血压(mmHg)、脉搏(次/分) 红细胞计数(1012/L)
式中,f1, f2, , fk 为频数表资料中各组段的频数 X1, X2, , Xk 为相应组段的组中值=(上限+下限)/2
二、集中趋势的描述
1) 算术均数 (arithmetic mean)

例:计算上表资料的平均身高
fX 3 150.5 8 153.5 ... 1 183.5 X 163.5(cm) 120 f
10
0 3.0 9.0 15.0 21.0 27.0 33.0 39.0 45.0 51.0
粪链球菌食物中毒潜伏期分布
一、频数与频数分布
频数分布的特征
从频数表和频数分布图可看出频数分布 的两个重要特性


集中趋势
(central tendency)
离中(散)趋势 (tendency of dispersion)
一、频数与频数分布
频数表的编制步骤

1) 求全距: R=185-149=36(cm) 2) 定组段和组距:

取组段数=12 组距=36/12= 3(cm)
Hale Waihona Puke 3) 统计各组段内观察值的个数, 即频数, 列入频数表
120名成年男子身高的频数分布表
身高组段 (1) 149~ 152~ 155~ 158~ 161~ 164~ 167~ 170~ 173~ 176~ 179~ 182~185 合计 频数 (2) 3 8 13 17 24 22 14 13 3 1 1 1 120 频率() 累计频数 (3)=(2)/120 (4) 2.5 6.7 10.8 14.2 20.0 18.3 11.7 10.8 2.5 0.8 0.8 0.8 100.0 3 11 24 41 65 87 101 114 117 118 119 120 累计频率() (5) 2.5 9.2 20.0 34.2 54.2 72.5 84.2 95.0 97.5 98.3 99.2 100.0
例2 现有145例粪链球菌食物中毒病人, 其潜伏期分布如下表
粪链球菌食物中毒潜伏期 潜伏期(小时) 0- 6- 12- 18- 24- 30- 36- 42- 频数(f) 18 45 40 30 6 0 4 2 累计频数 18 63 103 133 139 139 143 145
50
40
30
20

左(负)偏态分布:即频数集中位臵偏向数值大的一侧
右(正)偏态分布
左(负)偏态分布
资料的分布类型: 1. 对称分布或正态分布; 2. 偏态分布:高峰在左侧或右侧; 3. 不规则分布:分布很散,无明显高峰
二、集中趋势的描述
反映一组同质观察值的平均水平或一个分 布的中心位臵

常用的描述集中趋势的统计指标:

算术均数 (简称均数) 几何均数 中位数

众数
调和均数
二、集中趋势的描述
1) 算术均数 (arithmetic mean)
简称均数:描述了一个变量所有观察值的平均水平

表示符号: 总体均数( ),样本均数( X ) 计算方法:直接法,加权法 直接法:将所有观察值X1, X2, ……Xn直接相加,再除 以观察值的个数n,计算公式为:
相关文档
最新文档