第八章 数值变量资料的统计描述

合集下载

【源版】数值变量资料的统计分析变异程度的描述

【源版】数值变量资料的统计分析变异程度的描述

五、变异系数(Coefficient of Variation )
CV S 100% X
主要用于对均数相差较大或单位不同的几组观察 值的变异程度进行比较。
例3.3 测得某地成年人舒张压均数为77.5mmHg,
标准差的意义
标准差是表示一组观察者离散程度或变 异程度的统计指标;
描述一个变量的所有观察值与均数的 平均离散程度的指标。
一、全距(range)
全距表示一群变量值的最大值与最小值 之差,反映个体差异的范围,用R表示。全 距大,说明变异度大;反之,说明变异度 小。
甲组 26 28 30 32 34
乙组 24 27 30 33 36
将方差取平方根,还原成与原始观察值单位相 同的变异量度即为标准差:
S ( X X )2 X 2 ( X )2 n
n1
n1
例如对于例3.1经计算有
甲患者: X 813
X 2 133713 n 5
133713 8132 / 5
S
19.49(mmHg)
平均偏差 X X
n
甲班: 平均偏差 162 162 .6 145 162 .6 186 162 .6 15.52(cm ) 80
乙班:平均偏差 164 162 .4 160 162 .4 166 162 .4 2.32(cm) 90
特点:直观 , 易理解;但由于用了绝对值,不便于数 学处理,实际中很少使用。
n 1
自由度=n-限制条件的个数,用ν表示。
x (n-1):当 选定时,n个变量值 中能自由变动的变量值的个数。
方差(variance)
优点
(1) 方差越大,资料的离散程度越 大(全面考虑了每个观察值);

试论数值变量资料的统计描述

试论数值变量资料的统计描述
体滴度、平均效价、某些疾病的潜伏期等。
(1)直接法
例2.4 有6份血清的抗体效价为1:10,1:20,1:40, 1:80,1:80,1:160, 求其平均效价。
该6份血清的平均抗体效价为1:45。
(2)加权法
对于上例:
注意事项:
计算几何均数时观察值中不能有0;
一组观察值中不能同时有正值和负值。
1.直接法 用于样本含量较小的资料。将观察值由小到大排 列,按下式计算:
2.频数表法 用于频数表资料。
计算步骤:①按所分组段由小到大计算累计频数和累计频 率;②确定中位数所在组段;③下式求中位数

1、离散程度的描述指标---全距
(1)全距(range,简记为R) 亦称极差 ,为一组 同质观察值中最大值与最小值之差。 (2)它反映了个体差异的范围,全距大,说明变 异度大;反之,全距小,说明变异度小。
对于同一组资料,几何均数小于均数,


3、集中趋势的描述指标---中位数
中位数(median)是一种位置指标,用 表示。
它是一组观察值按由小到大的顺序排列后位次居 中的数值,小于和大于中位数的观察值个数相等 。
应用:中位数可用于描述任何分布,特别是偏 态分布资料以及频数分布的一端或两端无确切 数据资料的中心位置。
之,标准差小,表示观察值的变异度小。
(3)应用范围:适用于对称分布资料尤其是正态分 布资料
(4)应用:①描述变量分布的离散程度; ②结合均数,描述正态分布的分布特征; ③结合均数,计算变异系数; ④结合样本含量,计算标准误。
Байду номын сангаас
(2)加权法(weighting method) 用于频数表资料或样本中
相同观察值较多时,公式为:

数值变量资料的统计描述知识介绍

数值变量资料的统计描述知识介绍
描述性统计量表格
包括均值、中位数、众数、标准差、变异系数等统计量,用于描述数值变量的 集中趋势和离散趋势。
图形描述
直方图
通过直方图可以直观地展示数值变量取值的分布情况,包括 频数和频率。
箱线图
通过箱线图可以展示数值变量的最小值、下四分位数、中位 数、上四分位数和最大值,以及异常值的情况。
文字描述
众数
总结词
众数是数据中出现次数最多的数值。
详细描述
众数是一组数据中出现次数最多的数值。在统计学中,众数用于描述数据的分布特征,特别是当数据 中出现多个众数时,说明数据存在多个峰值,此时数据的分布可能是多峰的。众数在市场调研、人口 统计等领域有广泛应用。
03
数值变量的离散程度描述
方差
方差是衡量数值变量离散程度的 重要指标,它表示各个数值与平 均数的偏差的平方的平均值。
回归分析
01
回归分析
通过建立一个或多个自变量与因 变量之间的数学模型,来描述变 量之间的因果关系。
Байду номын сангаас
02
回归分析的种类
03
回归分析的应用
线性回归、多项式回归、逻辑回 归等。
预测、解释和调控因变量的变化 趋势。
协方差分析
协方差分析
用于比较两组数值变量的总体均 值是否存在显著差异,同时考虑 变量的共同变异。
正态分布
总结词
正态分布是最常见的连续型概率分布, 其特征是钟形曲线,对称轴为均值所在 直线。
VS
详细描述
正态分布适用于许多自然现象的概率分布 ,如人的身高、考试分数等。其概率密度 函数曲线呈钟形,对称轴为均值所在直线 ,即曲线关于均值所在直线对称。在正态 分布中,约68%的数据落在均值的1个标 准差范围内,约95%的数据落在均值的2 个标准差范围内。

数值变量资料的统计描述..

数值变量资料的统计描述..

2.80~
3.20~ 3.60~ 4.00~ 4.40~
正正
正正 正正正 正正正 正正正
13
14 15 19 18
22
36 51 70 88
9.29
10.00 10.71 13.57 12.86
15.71
25.71 36.43 50.00 62.86
4.80~
5.20~ 5.60~ 6.00~ 6.40~6.80 合计
正正
正正 正正 正 -
16
14 13 6 3 140
104
118 131 137 140 -
11.43
10.00 9.29 4.28 2.14 100.00
74.29
84.29 93.57 97.86 100.00 -
频数分布图
(二)、频数表和频数分布图用途
1.描述频数分布的类型(对称分布、偏态分布) 2.描述频数分布的特征(集中趋势 离散趋势)
第九章
数值变量资料的统计分析
分析数据:
统计学描述:选用恰当统计量结合恰当统计 图、表,描述资料的分布规律或数理特征。 统计学推断:样本→总体,统计量→参数。
第一节 数值变量资料的统计描述
数值变量资料的统计描述,描述什么? 描述的对象:数值变量资料,群体



群体特征的描述:一般先有一个变量,然后会有 一系列的变量值,这些变量值就是一个群体。
4.45 / 12 = 0.37 ≈0.4 (mmol/l)
故组段数不易过多,
但也不能过少,否则
会掩盖数据的分布规
律。
(3) 列出组段
第一个组段:2.00~, 第二个组段:2.40~ 每个组段的起点为该组下限, 终点为上限,上限=下限+组距, 第一组段包含最小值,最后组段 包含最大值。 各组段不能重叠,即同一个 数据不能出现在两个组段内,所 以每一个组段都应该是半开半闭 区间:[下限,上限)

08医学应用统计分析-第八章 数值变量与二分类变量关系的分析

08医学应用统计分析-第八章 数值变量与二分类变量关系的分析
分析目的:
探讨两个不同组血清胆固醇差值是否存在差异。
统计方法:
如果样本具有独立性、随机性、正态性和方差齐性的条件,应
用两样本均数比较的t检验,否则可用校正t ’检验,或秩和检验

SAS的计算程序
[操作程序] 例8-2的SAS操作程序SASP8_2:
libname sas"F:\data\sas";
第八章 数值变量与二项分类变量关系的 分析
主讲老师:陈青山
数据
数据特征
结果变量:数值变量; 影响变量:二项分类变量。
分析目的
比较两组样本均数是否具有统计学差异。
举例:
比较不同性别间身高的差异,服药组与不服药组平均血压的 差异。
基本原理
两样本均数比较的t检验:
要求观测样本满足随机性、正态性和方差齐性;
2 2
n2
2

S12 n1
2



S
2 2
n2
2

n1 1 n2 1
式8-4
第一节 数据库数据的分析
用二维数据库形式给出的数值变量和二项分 类变量间关系的数据分析,采用数据库数据两样
本均数比较的t检验。
实例
例8-1 采用完全随机设计的方法,将21只体重、出生日期等相似的小 白鼠随机分为两组,其中一组(11只)喂养一般的饲料,另一组(10
表8-2 不同组血清胆固醇差值的计算结果(mmol/L)
组别 药物治疗组 常规饮食组
例数 12 12
均数 0.5592 0.1467
标准差 0.6110 0.2107
实例分析
数据特征:
结果变量:数值变量,血清胆固醇的差值; 影响变量:二项分类变量,组别(group=1,2),分为常规

医学统计学:数值变量统计描述

医学统计学:数值变量统计描述
■ 频数分布表(frequency
table)
频数表的编制:
• (4) 划记计数:用划记法将所有数据归纳到各组段,得到各组段的频数。
数值变量资料的统计描述( Descriptive Statistics)
■ 频数分布表(frequency
table)
频数表的编制:
数值变量资料的统计描述( Descriptive Statistics)
8

0.64

159
160
1.71
1.77
数值变量资料的统计描述( Descriptive Statistics)
■ 频数分布表(frequency
table)
频数表的编制: (1)求极差(range):即最大值与最小值之差,又称为全距。 本例极差: R=1.77-0.51=1.26(mmol/L) (2) 决定组数、组段和组距:根据研究目的和样本含量n确定。组 距=极差/组数,通常分10-15个组,为方便计,组距参考极差的十分 之一, 再略加调整。 本例i= R /10=1.26/10=0.126≈0.1。 (3) 列出组段:第一组段的下限略小于最小值,最后一个组段上限 必须包含最大值,其它组段上限值忽略。 (4) 划记计数:用划记法将所有数据归纳到各组段,得到各组段的 频数。
数值变量资料的统计描述( Descriptive Statistics)
■ 频数分布表(frequency
table)
频 数 (2) 4 7 11 13 26 23 12 96
离散型资料(discrete data)
表2-1 1998年某地96名孕妇产前检查次数分布
检查次数 (1) 0 1 2 3 4 5 >5 合计 频率(%) (3) 4.2 7.3 11.5 13.5 27.1 24.0 12.5 100.0

数值变量资料的统计分析

数值变量资料的统计分析

数值变量资料的统计分析数值变量的统计分析是一种重要的数据分析方法,通过对数值变量的各种统计指标和分布进行分析,可以帮助我们了解和揭示数据的内在规律和特征。

数值变量的统计分析在各个领域和学科中都有着广泛的应用,如经济学、社会学、医学等。

本文将从描述统计、推断统计和回归分析三个方面介绍数值变量资料的统计分析方法。

描述统计是对数值变量资料进行整体描述的统计方法。

常用的描述统计指标包括中心趋势和离散程度两方面。

中心趋势指标包括平均数、中位数和众数。

平均数是最常用的中心趋势指标,它代表了样本数据的集中位置。

中位数是将数据按从小到大的顺序排列后,处于中间位置的数值,它对极端值不敏感,更能反映总体的典型水平。

众数是出现频率最高的数值,可以用来了解数据的分布特点。

离散程度指标包括范围、方差和标准差等。

范围是最大值和最小值的差值,表示了数据集的广度。

方差和标准差是衡量数据分散程度的指标,方差是每个数值与平均数的差的平方的平均值,标准差是方差的平方根,反映了数据的离散程度。

推断统计是利用样本数据对总体进行推断的统计方法。

常用的推断统计方法包括参数估计和假设检验。

参数估计是通过样本数据估计总体的未知参数,如均值、方差等。

常用的参数估计方法有点估计和区间估计。

点估计是通过样本数据得到总体参数的一个估计值。

常用的点估计方法有最大似然估计和矩估计。

区间估计则是对参数进行估计的同时还给出了一个可信的范围,可以用于报告不确定性。

假设检验是利用样本数据对总体参数进行假设检验的统计方法,用于判断总体参数是否符合一些假设。

假设检验包括单样本检验、双样本检验和方差分析等。

回归分析是一种用于研究变量之间关系的统计方法。

回归分析可以用于建立数值变量之间的函数关系,并用于预测和解释变量之间的关系。

常用的回归分析方法包括线性回归、多元回归和非线性回归等。

线性回归是建立线性关系模型的一种方法,通过最小二乘估计法来估计回归系数。

多元回归是在线性关系模型的基础上引入多个自变量进行分析。

数值变量资料的统计描述

数值变量资料的统计描述

(二)正态曲线( normal curve )
f(X) X
特征: 1. 对称性:以均数为中心,左右对称。 2. 集中性:正态分布在横轴上方均数为最高,频数 集中于中等大小数据的附近。 3. 标准差决定曲线的形状,均数决定曲线的位置 4. 正态分布曲线在 处各有一个拐点。 5. 曲线下面积为1,并有一定的规律
方差可以比较全面地反映变量值的变异情况,但 其方差的单位是原单位的平方,故引入标准差的 概念。 标准差:将方差开平方,恢复成原度量单位,得 到总体的标准差和样本标准差s。
总体标准差 用σ表示
公 式:
( X )
N
2
样本标准差 用S表示
公 式: s
(X X )
n 1
2
例子
0.6 0.5 0.4
f (X )
N (0,1 )
N (1,1.2 )
0 1 2 3 4
2
N (1,0.8 )
2
0.3
2
0.2 0.1 0 -4 -3 -2 -1
X
位置参数μ决定曲线的位置,形态参数σ决定曲线的形态
0.5 0.4 0.3 0.2 0.1 0 -4 -3 -2 -1 0 1 2 3 4
1. 极差(Range)

符号:R 定义:是指一组数据中最大值与最小值之差。 公式:
R X max X min



意义:反映全部变量值的变动范围。极差大, 资料的离散程度大。 优点:简便,如说明传染病、食物中的最长、最 短潜伏期等。 缺点:1. 只利用了两个极端值 2. 不稳定,n大,R也会大
谢谢!
0.98kg。
由于身高和体重的度量单位不同,不能直接比较

第八章 数值变量资料的统计描述

第八章  数值变量资料的统计描述

第八章数值变量资料的统计描述三、习题A1型题1 . 描述一组正态或近似正态分布资料的平均水平用()A .算术均数B .几何均数C .中位数D .平均数E .众数2 . 血清学滴度资料最常计算()以表示其平均水平。

A .均数B .中位数C .几何均数D .全距E .标准差3 .表示变量值变异情况的指标最常用的是()A .四分位数间距B .全距C .标准差D .变异系数E .方差4 .两组呈正态分布的数值变量资料,但均数相差悬殊,若比较离散趋势,最好选用的指标为()A .全距B .四分位数间距C .方差D .标准差E .变异系数5 .下列哪一项不是标准差的应用范围()A .说明观察值的离散程度B .计算变异系数C .与均数一起描述正态分布的特征D .与均数一起根据正态分布的规律估计总体均数的可信区间E .计算标准误6 .在同一总体中随机抽样,样本含量n 越大,则理论上()越小A .样本标准差B .中位数C .标准误D .第95百分位数E .均数7 .算术均数与中位数相比()A .抽样误差更大B .不易受极端值影响C .更充分利用数据信息D .更适用于分布不明的资料E .更适用于偏态分布资料8 .单位不相同均数相差较大时,比较连续性资料的离散趋势,最好用()A .全距B . SC . CVD .四分位间距E .方差9 .变异系数的数值()A .一定大于1B .一定小于1C .可大于1 也可小于1D .一定比S 小E .一定比S 大10 .标准正态分布的均数与标准差分别为()A . O , 1B . 1 , OC . O , OD . 1 , lE . 1.96 , 2.5811 .各观察值均加(或减)同一个数后()A .均数不变,标准差不一定变B .均数不变,标准差变C .均数不变,标准差也不变D .均数变,标准差不变E .均数变,标准差也变12 . ( )分布的资料,均数等于中位数A .正态B .左偏态C .右偏态D .倒数偏态E .对数偏态A2型题13 .对120 名男大学生的身高进行了测量,每个测量值减去均数所得的差值再除以标准差,所得数值的分布为()A .正态分布B .标准正态分布C .正偏态分布D .负偏态分布E .偏态分布14 .若一组数据呈正态分布,其中大于 x -2.58s 的变量值占()A . 99.5 %B . 99 %C . l %D . 0.5 %E . 5 %15 .正态分布曲线下(μ士1.96σ)动区间的面积占总面积的()A . 97.5 %B . 95 %C . 5 %D . 2.5 %E . 1 %16 .某项计量指标仅以过高为异常,且资料呈偏态分布,则其95%参考值范围可为()A .≤P95B . ≥ P5C .≤P97.5D .≥P95E . P2.5 ~ P97.517 .某项计量指标仅以过低为异常,且资料呈偏态分布,则其95%参考值范围可为()A . ≤P95B . P2.5 ~ P97.5C .≤P97.5D . ≥P95E . ≥ P518 . X1 和X2:是两个独立的随机变量,( X1+ X2)与(X1- X2)的方差相比,理论上()A .更大B .可以大也可以小C .更小D .相等E .没有关系A3型题共同题干(19 ~ 21 )随机抽取某地2000 名正常人血铅测定值。

数值变量资料的统计描述(变异程度)

数值变量资料的统计描述(变异程度)
freedom)有关。 与自由度(degrees of freedom)有关。 自由度( 自由度是数学名词,在统计学中, 自由度是数学名词,在统计学中,n个数据如不受任 何条件的限制, 个数据可取任意值, 何条件的限制,则n个数据可取任意值,称为有n个自由度 个条件的限制,就只有( 个自由度。 。若受到k个条件的限制,就只有(n-k)个自由度。计 算标准差时, 个自由度。 算标准差时, n个变量值本身有n个自由度。但受到样本 均数的限制,任何一个“离均差”均可以用另外的( 均数的限制,任何一个“离均差”均可以用另外的(n-1 离均差”表示,所以只有( 个独立的“ )个“离均差”表示,所以只有(n-1)个独立的“离均 因此只有( 个自由度。 差”。因此只有(n-1)个自由度。
-1
0
准 态 布 标 正 分 -1 1 ~ -1 6 1 6 .9 ~ .9 -2 8 2 8 .5 ~ .5
态 布 正 分 面 或 率 积 概 6 .2 % 8 7 μ σ ± 9 .0 % 5 0 μ 1 6 ± .9 σ 9 .0 % 9 0 μ 2 8 ± .5 σ
三、医学正常值范围的估计
Px
5
复习: 复习:频数表资料的百分位数
在 段 限 P = 所 组 下 值+ x 该 限 的 计 数 (n×x%−至 下 值 累 频 ) 组 × 距 所 组 下 值 上 值 的 数 在 段 限 至 限 间 频 (n×x%−ΣfL) P = L+i × x fm
(n×x%−ΣfL)
下限值L 下限值
i; fm
∋定义:又称参考值范围,是指特定健康人群的解剖、 定义:又称参考值范围,是指特定健康人群的解剖、 生理、生化等各种数据的波动范围。 生理、生化等各种数据的波动范围。习惯上是确定 包括95%的人的界值。 包括95%的人的界值。 95%的人的界值 ∋单双侧:根据指标的实际用途,有的指标有上下界 单双侧:根据指标的实际用途, 值(双侧)。某些指标只需确定上限(单);某些指标 双侧) 某些指标只需确定上限( 只需确定下限( 只需确定下限(单)。

2.数值变量资料的统计描述

2.数值变量资料的统计描述
17
3. 中位数 (median,M)
﹡ 将一批数据从小至大排列后,位次居中的数
据值为M。 ﹡应 用
﹡计算方法
偏态分布资料; 变量值分布一端或两端无确定数值; 分布不明资料。
M = n+1
2
直接用变量值计算 或 M=
1 2
(n为奇数时) (n为偶数时)
18

n 2
+ n
2
+1
用频数表计算
i M= L+ (
2
• 对一组研究对象进行观察,某变量或指标 (如肺活量)数值出现的次数被称为频数 (frequency); • 可以将各变量值及其出现的频数编制频 数分布表(frequency distribution table); • 用来反映各变量值与其频数之间的关系, 并观察资料的分布类型
3
一、频数分布(Distribution of frenquency)表与频数分布图
= 9.83(天)
医学院 预防医学教研室 2013/7/4
24
均数、中位数的关系
正态分布时: 均数=或中位数;
正偏态分布时: 均数>中位数;
负偏态分布时: 均数<中位数
25
例:有3组同龄男孩体重(kg)如下,其平均
体重 X 都是30(kg),试分析其离散趋势。
组别
甲组 乙组 丙组
1
1
抗体滴度 ⑴ 1:2.5 1:10 1:40 1:160 1:640 合计
人数,f ⑵ 14 18 22 12 6 72
滴度倒数,X ⑶ 2.5 10.0 40.0 160.0 640.0
lgX ⑷ 0.3979 1.0000 1.6021 2.2041 2.8062

数值变量资料的统计描述-2016-09

数值变量资料的统计描述-2016-09

(4)= (3)/N
2
1.54
5
3.85
12
9.23
15
11.54
25
19.23
26
20.00
19
14.62
15
11.54
10
7.69
1
0.77
130 N=∑f
累积频数
(5)=(3)↓
2 7 19 34 59 85 104 119 129 130
累积相对频数
(6)=(5)/N
1.54 5.38 14.62 26.15 45.38 65.38 80.00 91.54 99.23 100.00
11
(2)偏态分布 :
1)右偏态分布(正偏态分布):右侧的组段数多于
左侧的组段数,频数向右侧拖尾。
25
20
15
人数
10
5
0
13.5 19.5 25.5 31.5 37.5 43.5.
血清转氨酶(mmol/L)
图2-2 115名正常成年女子血清转氨酶的频数分布
12
表2-2 115名正常成年女子血清转氨 酶(mmol/L)含量分布
统计指标:集中趋势;离散趋 势(如平均数、标准差、标准 误、率、构成比等)
3
一、频数表的编制与应用
(一)频数表(frequency table)
通过实验或临床观察等各种方式得到的原始资料, 如果是数值变量资料并且观察的例数较多,可以 对数据进行整理分组,然后制作频数表或绘制直 方图,用以显示数据的分布规律。 频数表:同时列出观察指标的可能取值区间及其 在各区间内出现的频数。
18
1.计算方法
sigma
(1)直接计算法 公式 : X X1 X 2 n
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
31
第三节 离散趋势指标
32
离散度(变异度):一组同质计量 离散度(变异度) 资料各数据之间参差不齐的程度, 资料各数据之间参差不齐的程度, 称为离散度。 称为离散度。 全距 常用指标: 常用指标: 全距 四分位数间距 四分位数间距 方差和标准差 方差和标准差 变异系数 变异系数
平均抗体效价 :16。 平均抗体效价1: 。
23
二、几何均数
计算几何均数注意事项: 计算几何均数注意事项: ①变量值中不能有0,因为0和负数 变量值中不能有0 因为0 不能取对数。 不能取对数。 ②不能同时有正值和负值; 不能同时有正值和负值; ③若全是负值,计算时可先把负号 若全是负值, 去掉,得出结果后再加上负号。 去掉,得出结果后再加上负号。
16
1.直接法:用于观察值个数不多时 1.直接法: 直接法
X1 + X 2 + + X n X= = n
∑X
n
17
2.加权法:用于变量值个数较多时。 2.加权法 用于变量值个数较多时。 加权法:
f1X1 + f2X 2 ++ fk X k ∑ fX X= = f1 + f2 ++ fk ∑f
29
计算公式: 计算公式:
i Px = L + (n x% Σf L ) fx
30
计算中位数及百分位数的步骤: 计算中位数及百分位数的步骤:
先找到包含Px的最小累计频率; Px的最小累计频率 1. 先找到包含Px的最小累计频率; 该累计频率同行左边的组段值为L 2. 该累计频率同行左边的组段值为L; 同行右边的频数为fx( fm); fx(或 3. L同行右边的频数为fx(或fm); 前一行的累计频数为∑fL; 4. L前一行的累计频数为∑fL; 将上述已知条件代入公式计算Px Px或 5. 将上述已知条件代入公式计算Px或 P50 。
19
计算结果
x = 614.2 / 132 = 4.653 (mmol/L) 某地区 某地区2002年132名55~58岁健康成人 某地区 年 名 岁健康成人 的空腹血糖(mmol/L) 的空腹血糖

20
二、几何均数
几何均数( 是将n个观察值 个观察值x 几何均数(简记为G):是将 个观察值 的乘积再开n次方的方根 次方的方根( 的乘积再开 次方的方根(或各观察值 x对数值均值的反对数 x对数值均值的反对数)。 对数值均值的反对数)。 适用条件:对于变量值呈倍数关系 倍数关系或 适用条件:对于变量值呈倍数关系或 对数正态分布(正偏态分布) 呈对数正态分布(正偏态分布),如抗 体效价及抗体滴度, 体效价及抗体滴度,某些传染病的潜 伏期,细菌计数等。 伏期,细菌计数等。
注意:权数即频数f,为权重权衡之意。
18
某地区2002年55~58岁健康成人的空腹血糖 表8-1 某地区 年 岁健康成人的空腹血糖 (mmol/L)测定值的频数分布表 测定值的频数分布表 fi xi fi xi2 血糖(mol/L) (mol/L)组段 频数( 组中值( 血糖(mol/L)组段 频数( fi ) 组中值( x ) i
第八章
数值变量资料 的统计描述
1
第一节 数值变量 资料的频数分布
2
统计描述:是用统计图表、 统计描述:是用统计图表、统计指 标来描述资料的分布规律及其数量 特征。 特征。 频数分布表: 频数分布表:主要由组段和频数两 部分组成的表格。 部分组成的表格。
3
某地区2002年55~58岁健康成人的空腹血糖 岁健康成人的空腹血糖(mmol/L)测定 例8.1 某地区 年 岁健康成人的空腹血糖 测定 值如下,试编制频数表和观察频数分布情况。( 。(132) 值如下,试编制频数表和观察频数分布情况。( )
4
一、频数分布表及其制作
---- 频数分布表的编制 1.计算极差(全距): 1.计算极差 全距): 计算极差( R=最大值 - 最小值 R=最大值 R=5.59 3.60 =1.99(mol/L) 5.59–3.60
5
2.决定组数、组段和组距 2.决定组数 决定组数、 根据研究目的和样本含量n确定分组 根据研究目的和样本含量n 组数。一般分为8 15组 组数。一般分为8~15组。 相邻两组段下限值之差称组距,i = 相邻两组段下限值之差称组距 组距, 全距 / 组数。 组数。 i = 1.99 / 10 = 0.199 ≈0.2 (mol/L) 第一组组段包括最小值 第一组组段包括最小值 组段:每个组段的起点称组下限, 组段:每个组段的起点称组下限 下限, 最后一组组段上限必须 最后一组组段上限必须 终点称组上限 上限。 终点称组上限。 大于或等于最大值
5.17 5.30 4.64 4.85 4.61 4.78 4.35 4.41 5.05 4.56 4.45 4.83 5.56 5.22 4.27 5.07 4.98 4.26 4.18 4.38 5.59 4.39 4.49 4.27 4.86 5.58 4.25 4.16 5.24 4.44 4.68 4.06 5.08 5.24 4.42 3.68 4.87 4.48 4.44 4.66 4.60 4.38 4.65 4.79 5.16 4.61 4.68 3.85 4.74 4.80 4.46 4.70 4.25 4.4 4.57 4.96 3.74 4.21 4.56 3.86 5.24 4.6 4.62 4.20 4.78 4.79 4.27 4.83 4.36 4.96 5.38 4.56 5.51 4.02 4.87 3.95 5.00 4.76 4.99 4.45 5.36 4.34 4.34 4.56 4.46 5.16 4.34 4.09 3.60 4.92 4.21 4.51 4.64 4.45 4.46 4.55 4.96 5.36 4.90 4.64 4.11 4.60 4.89 4.27 5.09 4.86 4.16 5.16 4.82 4.34 5.25 4.33 4.61 4.78 4.71 4.50 4.57 4.50 4.98 5.15 4.90 4.24 4.77 5.21 4.08 5.03 4.72 4.31 4.46 4.90 4.29 5.16
21
﹡计算方法: 计算方法
直接法 G = n √ x1 x2 … xn G = lg–1 lgx1+lgx2+…+lgxn n

= lg–1
lgx n
∑f
加权法 G = lg–1
f1lgx1+f2lgx2+…+fklgxk n
= lg–1
lgx n
22
二、几何均数
例8.3 有7份血清的抗体效价分别 份血清的抗体效价分别 为1:2, 1:4, 1:8, 1:16, 1:32, 1:64,1:128, 求平均抗体效价。 求平均抗体效价。
12
3.便于发现一些特大或特小的可疑值 .
13
第二节 集中趋势指标
14
平均数常用于描述数值变量资 料的集中趋势, 料的集中趋势,是反映同质资料 的平均水平或集中位置的特征值。 的平均水平或集中位置的特征值。
算数平均数 几何均数 中位数
15
算术均数(均数) 一、 算术均数(均数)
﹡表示符号:总体均数 () 表示符号: 样本均数 ( x ) ﹡应用:对称分布资料,尤其是正态 应用:对称分布资料, 分布资料。 分布资料。
26
三、中位数
﹡计算方法 1.直接用变量值计算 1.直接用变量值计算 M = X n+1
2
(n为奇数时) (n为奇数时) 为奇数时 (n为偶数时 为偶数时) 为偶数时
或 M=
1 2
X
n 2
+ Xn
2
+1
27
三、中位数
2.用频数表计算 用频数表计算
i n M = L+ ( Σf L ) fm 2
6
3.列表划记: 3.列表划记 列表划记: 用划记法将所有数据归纳到各组 段,可得到各组段的观察单位数 频数) (频数)
7
某地区2002年55~58岁健康成人的空腹血糖 表8-1 某地区 年 岁健康成人的空腹血糖 (mmol/L)测定值的频数分布表 测定值的频数分布表
血糖(mol/L)组 血糖(mol/L)组 (mol/L) 段 3.60~ 3.60~ 3.80~ 3.80~ 4.00~ 4.00~ 4.20~ 4.20~ 4.40~ 4.40~ 4.60~ 4.60~ 4.80~ 4.80~ 5.00~ 5.00~ 5.20~ 5.20~ 5.40~ 5.40~5.60 合计 组中值 (xi) 3.70 3.90 4.10 4.30 4.50 4.70 4.90 5.10 5.30 5.50 频数(f) 频数(f) 3 3 8 23 24 25 20 12 10 4 132 累计频数(Σf) 累计频数(Σf) 3 6 14 37 61 86 106 118 128 132 频率(%) 频率(%) 2.27 2.27 6.06 17.42 18.18 18.94 15.15 9.09 7.58 3.03 100.00
3.60~ 3.60~ 3.80~ 3.80~ 4.00~ 4.00~ 4.20~ 4.20~ 4.40~ 4.40~ 4.60~ 4.60~ 4.80~ 4.80~ 5.00~ 5.00~ 5.20~ 5.20~ 5.40~ 5.40~5.60 合计 3 3 8 23 24 25 20 12 10 4 132 3.70 3.90 4.10 4.30 4.50 4.70 4.90 5.10 5.30 5.50 11.10 11.70 32.80 98.90 108.00 117.50 98.00 61.20 53.00 22.00 614.20 41.07 45.63 134.48 425.27 486.00 552.25 480.20 312.12 280.90 121.00 2878.92
相关文档
最新文档