第4章 定量资料的统计描述20150904
定量资料的统计描述ppt文档
8
6 .6 7
115
9 5 .8 3
4
3 .3 3
119
9 9 .1 7
1
0 .8 3
120
1 0 0 .0 0Biblioteka 120 100手工编制的步骤:
(1) 找出 最小值= 7.42 最大值= 29.64 (2)计算全距(range,R),又称极差
R = 最大值-最小值 = 29.64-7.42 = 22.22 (3)确定组段数与组距
表 2-1 1998 年某地 96 名妇女产前检查次数的频率分布
检查次数 频数 频率(%) (1) (2) (3)
累计频数 (4)
累计频率(%) (5)
0
4
4.2
4
4.2
1
7
7.3
11
11.5
2
11
11.5
22
22.9
3
13
13.5
35
36.5
4
26
27.1
61
63.5
5
23
24.0
84
87.5
>5
3
2 .5 0
4
3 .3 3
6
5 .0 0
10
8 .3 3
8
6 .6 7
18
1 5 .0 0
1 2 1 0 .0 0
30
2 5 .0 0
2 0 1 6 .6 7
50
4 1 .6 7
2 7 2 2 .5 0
77
6 4 .1 7
1 8 1 5 .0 0
95
7 9 .1 7
1 2 1 0 .0 0
107
8 9 .1 7
医学统计学第四章 定量资料的统计描述
¾
¾
8
③ 统计各组频数
采用计算机或手工划记汇总,得到各组段相 应的频数。
9
根据这些数据编制成的频数表能显示出这组数据分布的特征
表4.2 组段(cm) (1) 0.980~ 1.110~ 1.240~ 1.370~ 1.500~ 1.630~ 1.760~ 1.890~ 2.020~ 2.150~ 2.280~2.410 合计 频数( f ) (2) 5 5 7 14 19 29 15 12 6 4 4 120 2005年某市120名9岁男孩肺活量(L)频数分布 频率(%) (3) 4.17 4.17 5.83 11.67 15.83 24.17 12.50 10.00 5.00 3.33 3.33 100.00 累计频数 (4) 5 10 17 31 50 79 94 106 112 116 120 — 累计频率(%) (4) 4.17 8.33 14.17 25.83 41.67 65.83 78.33 88.33 93.33 96.67 100.00 —
−1
lg 4 + lg 8 + ... + lg 64 ) = lg −1 (1.2041) = 16 ( 5
该5份血清的平均滴度为1:16。
28
2.频数表法(加权法)
当资料中出现相同观察值的个数较多时,或资料 为频数表资料,则用加权法计算几何均数。 变量及频数如下,符合几何均数的适用条件: X1,X2,… Xk f1 , f2,… fk 则几何平均数G为:
X1, X2, ⋅⋅⋅, Xk:频数表资料中各组段的组中值; f1, f2, ⋅⋅⋅, fk:相应组段的频数。
23
表4.2 120名9岁男孩肺活量均数的计算
最新定量资料的统计描述
定量资料的统计描述第四章定量资料的统计描述通过调查或实验收集到资料之后,需要对资料进行统计分析。
统计分析包括统计描述和统计推断两个方面的内容。
统计描述就是对数据包含的信息加以整理、概括和浓缩,用适当的统计图表和统计指标来表达资料的特征或规律,统计描述也是统计推断的基础。
本章介绍定量资料(quantitative data)的统计描述。
第一节频数分布表与频数分布图一、频数分布表从医学实践中收集到的大量资料,如果只是简单地罗列一连串的数据,不容易看出其中蕴涵的信息和规律,所以需要进行分组整理,以便能用简明扼要的形式来全面反映资料的特点。
分组整理就是根据研究的目的,将数据按照某种标准(标志)划分成不同的组别,统计不同组别内的观察值个数。
不同组别的观察值个数就称为频数(frequence),表示观察值在各组出现的频繁程度。
将分组的标志和相应的频数列表,即为频数分布表,简称频数表(frequency table)。
不同类型的定量变量可以制作不同分组形式的频数表。
(一) 离散型定量变量的频数表例4.1 某市2005年进行学生体质评价,抽样调查了102名高中男生引体向上完成次数的情况,根据该资料制作频数表。
本次调查资料“引体向上完成次数”是离散型定量变量,所以按变量的取值(次数)为单位分组,再列出各组的频数,如表4.1的第(1),(2)栏,就能得到相应的频数表。
将各组的频数除以总频数所得的值称为频率,见第(3)栏。
某组的累计频数是该组与前面各组频数之和,见第(4)栏。
显然,第一组的累计频数等于其频数,最后一组的累计频数等于总例数;累计频数除以总频数所得的值称为累计频率,见第(5)栏。
表4.1 2005年某市102名高中男生引体向上完成次数的频数分布完成次数频数f频率(%) 累计频数累计频率(%)(1) (2) (3) (4) (5)2 3 2.94 3 2.943 7 6.86 10 9.804 16 15.69 26 25.495 33 32.35 59 57.846 24 23.53 83 81.377 14 13.73 97 95.108 4 3.92 101 99.029 1 0.98 102 100.00合计102 100.00 ——(二) 连续型定量变量的频数表例4.2 在某市2005年进行的小学生体质评价研究中,测定了120名9岁男孩的肺活量(L),资料如下,根据该资料制作频数表。
定量资料的统计描述精品PPT课件
分类资料
分类资料、也称为定性资料、计数资料,是将观察 单位按某种属性分组计数的定性观察结果。
分类资料的变量值只能代表事物的某些属性或分类, 表现为无不相容的类别或属性。
各观察单位之间没有量的区别,但有质的不同。
定量资料的各个观察值之间有量的区别,没有性质 的不同。
连续型资料和离散型 资料
连续型资料(continuous data)
任何两个连续型数据之间都有无穷多个数据; 只要测量仪器足够精确,连续型数据可以精确到小数点后
无限位。
离散型资料(discrete data)
是一种计数(count data),只能是0和正整数,不会是 负数,也没有小数点,如心率、血小板数。
247.60万元,农村家庭平均为37.70万元。
变量和研究资料的类 型
数值变量、定量资料、计量资料
分类变量、定性资料、计数资料
顺序变量、有序分类变量、等级资料
定量资料
定量资料是指每个观察单位某个变量用测量或其他 定量方法观察结果,一般有计量单位。
定量资料、数值资料、计量资料(measurement data,quantitative data,numeric data)
疗效:痊愈、有效、无效和恶化; 文化程度:小学、中学、大学和研究生; 抑郁症的程度:轻度、中度和重度。
随机变量和研究资 料的类型
收缩压
脉搏数 产次
文化程度 ABO血型
定量 定性 等级 连续型 离散型 资料 资料 资料 资料 资料
频数分布表
当观察值很多时,直接从原始数据很难得出概括的 印象,为了解资料的分布特征,可通过资料的整理, 编制频数分布表,来显示数据分布的范围、数据最 集中的区间和分布的形态。
定量资料的统计描述
例:求下表中血清铁含量的5%、 95%位数
从表2-2可判断出5%位于“10~”这个 组段:
px = L +
i n( x%
fx
f
)
L
= 10 + 21(20×5% 4 =)10.67
6
该组血清铁资料的5%位数为10.67 (μmol/L)。
从表2-2可判断出95%位于“24~”这 个组段:
px = L +
n为奇数时: M = X n + 1
2
n为偶数时:M =
1 2
X
+
n 2
X n+ 1 2
式中X*表示将n例数据按升序排列 后的第i个数据。
上式中n为一组观察值的总个数,
n +1
n
n +1
2
2
2
均为下标,表示有序数列中观察值 的位次。
例:某药厂观察9只小鼠口服高山红 景天醇提物(RSAE)后在乏氧条件 下的生存时间(分钟)如下:
一般设10~15个组段,每个组段的 起点称“下限”,终点称“上限”;第 一组段含最小值,最末组段含最 大值。
(4) 列表
频数分布的类型:
对称分布—集中位置在正中、左右 两侧频数分布大体对称
偏态分布
正偏峰分布-集中位 置偏向数值小的一侧
负偏峰分布-集中位 置偏向数值大的一侧
定量变量的特征数
= 119.75
52例慢性肝炎患者的HBsAg滴度 的平均水平为1:119.75。
3. 中位数(median, M)
将一组观察值从小到大按顺序排 列,位次居中的观察值就称中位数。 用M表示。
中位数适用于任何一种分布的定量 资料,一般多用于描述偏态分布或 数据一端无界资料的集中趋势。
定量资料的统计描述
LOREM IPSUM DOLOR
主要内容
频数分布 集中趋势 离散趋势
被平均
中国人公共假期每年已有115天; 中国全国家庭平均住房面积116.4㎡; 北京平均月薪9227元; 中国男性平均身高174.2厘米; 中国人平均生育1.18个孩子; 中国家庭资产平均为121.69万元,城市家庭平均为
( kg )原始 数据如下, 试编制频数
表。
25.2 34.9 34.3 38.1 41.3 27.8 33.8 37.7 28.4 33.5 47.3 34.8 30.5 36.2 51.0 38.0 43.8 40.9 37.5 36.6 33.4 47.4 36.4 41.4 36.5 42.5 33.7 29.3 39.6 37.5 39.6 33.2 32.1 29.9 43.7 33.8 35.1 37.8 32.4 38.5 28.2 36.5 23.4 35.8 34.1 27.6 42.6 23.1 37.1 44.0 35.6 44.5 46.5 35.0 31.8 36.4 36.2 47.9 38.7 20.5 37.1 29.2 38.2 41.1 36.2 43.5 32.8 36.3 31.8 30.6 38.5 39.6 28.7 33.7 35.1 42.9 20.1 35.4 26.5 42.0 39.6 38.7 35.4 51.2 31.4 34.1 25.3 29.6 38.2 43.7 33.8 24.5 29.2 45.9 32.5 23.5 36.8 27.2 34.0 34.7 44.4 41.2 35.3 42.6 34.1 30.0 31.4 40.8 27.3 48.6 35.8 29.7 45.6 41.8 33.0 28.3 33.3 35.1 40.6 38.2 37.6 25.5 37.3 37.5 41.5 38.4 44.2 43.2 31.5 40.2 34.5 37.4
医学统计学:定量资料的统计描述
统计学家在实际应用时发现,按 x x 2 式求出的值总是比实际偏小,于是再
n
做一些校正,得到 x x 2 。
n 1
这就是离散趋势的衡量指标——标准差,其表达式是 S= x x 2 ,计算式是
n 1
第 3 页 共 22 页
《医学统计学》定量资料的统计描述讲稿
x2 x2
S
n。
n 1
依此,例 1 的四组数据可得到标准差为:1.5811,7.9057,15.8113,9.5131。
《医学统计学》定量资料的统计描述讲稿
定量资料的统计描述
课时:3 学时
教学目的与要求: 正确理解平均水平和离散趋势的概念 学会均数、标准差、变异系数的计算 理解频数分布表的含义 理解正态分布的特征,学会医学参考值范围的估算
本课重点与难点: 1、求均数和标准差是定量资料统计描述的基本功。关键还要记
第 2 页 共 22 页
《医学统计学》定量资料的统计描述讲稿
三组数据更加松散,第四组数据有紧有松,可是均数是一模一样,怎么谈得上是“特 征”呢?
这提示我们,对于一组数据,光靠一个指标来描述“特征”是不够的,就像要记 住一个人的特征,不能只看眼睛,要眼睛加上嘴巴,或鼻子加上身材,等等。看来我 们要再寻找一个描述数据内在松紧形式的指标。
X2 =170.0cm,S2 =7.1cm,如何评价? 从总体上说,两个学校三年级男生的身高是一样的(因为身高的平均水平一样),
但从个体上看,甲校男生的身高十分一致(因为身高的标准差很小),形象地说,是 标准的“仪仗队”,而乙校男生的高度就显得参差不齐(因为身高的标准差很大)。
也可以用变异系数(CV)来考量。 CV= S 100%
离均差平方和—— x x2 ,它克服了离均差之和恒等于零的缺点,在统计学中
定量资料的统计描述
x i
i 1
N
2
N
S
x X
n i 1 i
2
n 1
xi xi i 1 i 1 n 1
n 2 n
2
n
步骤如下:
R=160.8-129.4=31.4。
组段数=10;组距=R/10=3.14≈30(cm);按要
求确定每一组段上下限。
分组统计每一组段的频数,编制频数表。
计量资料频数分布表
118 例 13 岁女孩身高(cm)资料频数表。 身高组段 (1) 129~ 132~ 135~ 138~ 141~ 144~ 147~ 150~ 153~ 156~ 159~162 合计 频数 (2) 2 2 8 20 26 25 20 9 3 2 1 118 组中值 (3) 130.5 133.5 136.5 139.5 142.5 145.5 148.5 151.5 154.5 157.5 160.5 —
3、方差(variance) 离均差平方和的算术平均数,即为方差。总体方差用 符号σ2(σ读seigama)表示,样本方差用S2表示。计算公 式分别为:
2
x
i 1
N
i
2
N
S2
x X
n i 1 i
2
n 1
4、标准差(standard deviation) 方差的平方根即为标准差。总体标准差用σ表示, 样本标准差用S表示。计算公式分别为:
集中趋势:指频数表中频数分布表现为频数向某一位置集中的趋势 分布特征 离散趋势:指频数虽然向某一位置集中,但频数分布表现为各组段都 有频数分布,而不是所有频数分布在集中位置的趋势。
定量资料的统计描述
编制频数分布表的步骤
第一组段包括最小值,最后 一组段包括最大值,除最后 一组段可同时标出上下限, 其他组段只标出下限。
一般 8- 15 之间 求出极差 确定组段数 确定组距
列出各个组段
确定每一组段频数 选 根据变量值大小 把各观察单位归 入各个组段
极差即最大值 与最小值之差
组距=R/组段数, 但一般取一方便 计算的数字
常用的平均数有: 算术平均数(均数)(mean) 几何平均数(geometric mean)
中位数 (median)与百分位数(percentile)
众数(mode)
一、算术平均数
算术平均数:简称均数(mean)
可用于反映一组呈对称分布的变量值
在数量上的平均水平或者说是集中位置
的指标值。
1、算术平均数的计算方法
M X 9 1 X 5 15
2
பைடு நூலகம்
如果只调查了8家外企,则
2 14 15 2 14.5 M X X 8 8 1 2 2
频数分布表资料的中位数
M 所在组段下限值 (n 50% 至该下限值的累计频数) 组距 所在组段下限值至上限值间的频数 (n 50% f L ) M L i fm
i , fm
下限值L
中位数M
上限值U
例1 频数表中位数的计算
N=∑f
中位数=71+3x[(130x50%-59)/26]=71.69
2、中位数的应用
各种分布类型的资料
特别适合大样本偏态分布资料或者 分布末端无确切数值的资料。
第二节 描述集中趋势的统计指标
统计上使用平均数(average)这一指标体系来描述 一组变量值或观察值的集中位置或平均水平。
4.1定量资料的的统计描述ok(物理化学)
s CV 100 % x
变异指标小结
极差较粗,适合于任何分布 标准差与均数的单位相同,最常用,适合于 近似正态分布 变异系数主要用于单位不同或均数相差悬殊 资料 平均指标和变异指标分别反映资料的不同特 征,常配套使用
如 正态分布:均数、标准差 偏态分布:中位数、四分位数间距
适用与各种分布类型的资料,尤其适合 与偏态分布资料、开口资料和分布不明 的资料
注意事项
同一资料同时计算中位数和均数,如果 为对称分布,则 M x 如果单峰正偏态 ,则 M x 如果资料为单峰负偏态,则 M x 计算中位数时,不要求频数表所有组距 相等
4. 百分位数(percentile)
离散趋势的描述
极差、四分位数间距、方差、标准差、变异系 数
频数表与频数分布
frequency table and frequency distribution
2005年某小学120名9岁男孩肺活量(L)
频数表的编制步骤
求极差(range):即最大值与最小值之差,又称 为全距 R=1.417L 决定组数:根据研究目的和样本含量n确定。组距= 极差/组数,通常分10-15个组 确定组距:即相邻两组段下限值之差,常用“极差 /组数”估计,并取整 0.2L 确定组段,即各上下限。第一组段的下限略小于最 小值,最后一个组段上限必须包含最大值,其它组 段上限值忽略 列表划记:用划记法将所有数据归纳到各组段,得 到各组段的频数
特点:仅仅利用了中间的1~2个数据
频数表资料的中位数的计算
(n 50% f M ) M L i fm L:中位数所在组段下限值 i:中位数所在组段的组距 f M : 中位数所在组段之前累计频数 f m : 中位数所在组段内的频数
定量资料统计描述课件
数值型数据的分布形态描述
偏态与峰态
描述数据分布的不对称性 和尖锐程度。
正态分布
一种常见的连续概率分布 ,特点是钟形曲线,平均 数、中位数和众数相等。
分布函数
描述数据落在某个区间的 概率。
05
分类数据的统计描述
频数分布表与频数分布图
频数分布表
将分类数据按照某一分类标准进行分组,并统计每一组的频 数。
数据。
实验法
通过实验设计和实验操作获取 数据,适用于需要获取数据,适 用于自然状态下的数据收集。
文献法
通过查阅文献资料获取数据, 适用于历史数据和无法直接获
取的数据。
数据整理的步骤
数据清洗
去除无效、异常和缺失数据, 确保数据质量。
数据转换
将数据转换为统一格式,便于 后续处理和分析。
列联表
将两个分类变量交叉分组,并对每个 单元格中的观察单位数进行统计,形 成列联表,可以用来分析两个分类变 量之间的关系。
06
定量资料统计描述的应用实
例
实例一:人口普查数据统计描述
总结词
人口普查数据是典型的定量资料,统计描述方法在人口普查数据中应用广泛,用于描述人口数量、性别比例、年 龄结构等基本情况。
统计描述的基本原则
课程安排
第二章:定量资料的收集与整理 定量资料的收集方法
定量资料的整理原则
课程安排
第三章:数值变量统计描述 数值变量的集中趋势描述
数值变量的离散趋势描述
课程安排
第四章:分类变量统计描述 分类变量的频数分布描述 分类变量的相对数描述
课程安排
第五章:统计图表在描述中的应用 常用统计图形的选择与绘制
中心位置。
离散趋势指标
定量资料的统计描述
几何均数的计算
直接法:是将n个观察值x1,x2,x3…xn 的乘积开n次方所得的根。
G n x1 x2 xn lg
1
lg x ) (
n
加权法:
G lg
1
f lg x ) ( f
几何均数应用的注意事项
观察值不能为0。因为0不能取对数,也不 能与任何其它数呈对数关系。可以把所有 的变量值均加上一个较小的常数,如加 0.001。 观察值不能同时有正值和负值。若全是负 值,计算时可把负号去掉,得出结果后再 加上负号。
均数的应用
描述呈对称分布的资料,特别是正态分布 或者近似正态分布的资料的平均水平,因 为这时均数位于分布的中心,最能反映分 布的集中趋势。
几何均数(geometric mean,G)
有些医学资料,如抗体的滴度、细菌计 数、传染病的潜伏期等,其频数分布明 显偏态,各观察值之间呈倍数变化,这 时应该用几何均数反映其平均增(减) 倍数。 用途:用于描述等比级数资料和对数正 态分布资料等的平均水平。
fx f
i
组中值
组段 20~ 23~ 26~ 29~ 32~ 35~ 组中值 21.5 24.5 27.5 30.5 33.5 36.5 频数f 2 7 10 15 25 35 频率(%) 1.3 4.7 6.7 10.0 16.7 23.3
38~
41~ 44~ 47~ 50~53 合计
39.5
42.5 45.5 48.5 51.5
23
18 8 5 2 150
15.3
12.0 5.3 3.3 1.3 100.0
均数的计算
f1 x1 f 2 x2 f n xn fxi x f f 2 21.5 7 24.5 2 51.5 2 7 2 5445 150 36.3kg
卫生统计学-定量资料的统计描述精品PPT课件
集中趋势:均数、几何均数、中位数
• 统计指标
离散趋势:极差、方差、标准差、四 分位间距等
定量资料的统计描述---集中趋势
✓ 算数均数 (mean)
适用条件:对称分布,特别是正态或者近似正态分 布的资料。
✓ 几何均数 (geometric mean)
适用条件:偏态分布,但是经过对数变换之后呈正 态或近似正态分布的资料。
SPSS操作过程
SPSS中实现定量资料统计 描述的四个常用过程
Frequencies过程 Descriptives过程 Explore过程 Ratio过程
Frequencies过程:
• 涉及的统计指标比Descriptives过程全 面,并给出常用统计图。
• 还可以对分类资料以及不服从正态分 布的资料进行描述
1. 均数与中位数的比较 2. 频数表 3. 直方图,P-P图,Q-Q图 4. 正态性检验:单峰对称
正态性检验 -explore命令
操作步骤: Analyze-descriptive-explore -plots histogram
normality plots with test
2、Q-Q图
做法:
1、Frequencies 过程的对话框与选择项
• (1)Frequencies 过程的对话框
①Statistics对话框:
②charts对话框
③format对话框
• 练习: • 1、1985年某省农村120例6-7岁正常男童胸
围测量结果。
• Trunc(cc/1.5)*1.5
• 2、某市1974年为了了解该地居民发汞的基 础水平,为汞污染的环境监测积累资料, 调查了留住该市一年以上,无明显肝肾疾 病,无汞作业接触史的居民238人的发汞含 量(umol/kg),试做频数表分析。
定量资料的统计描述定量资料的统计描述通过调查或
第四章定量资料的统计描述通过调查或实验收集到资料之后,需要对资料进行统计分析。
统计分析包括统计描述和统计推断两个方面的内容。
统计描述就是对数据包含的信息加以整理、概括和浓缩,用适当的统计图表和统计指标来表达资料的特征或规律,统计描述也是统计推断的基础。
本章介绍定量资料(quantitative data)的统计描述。
第一节频数分布表与频数分布图一、频数分布表从医学实践中收集到的大量资料,如果只是简单地罗列一连串的数据,不容易看出其中蕴涵的信息和规律,所以需要进行分组整理,以便能用简明扼要的形式来全面反映资料的特点。
分组整理就是根据研究的目的,将数据按照某种标准(标志)划分成不同的组别,统计不同组别内的观察值个数。
不同组别的观察值个数就称为频数(frequence),表示观察值在各组出现的频繁程度。
将分组的标志和相应的频数列表,即为频数分布表,简称频数表(frequency table)。
不同类型的定量变量可以制作不同分组形式的频数表。
(一) 离散型定量变量的频数表例4.1 某市2005年进行学生体质评价,抽样调查了102名高中男生引体向上完成次数的情况,根据该资料制作频数表。
本次调查资料“引体向上完成次数”是离散型定量变量,所以按变量的取值(次数)为单位分组,再列出各组的频数,如表4.1的第(1),(2)栏,就能得到相应的频数表。
将各组的频数除以总频数所得的值称为频率,见第(3)栏。
某组的累计频数是该组与前面各组频数之和,见第(4)栏。
显然,第一组的累计频数等于其频数,最后一组的累计频数等于总例数;累计频数除以总频数所得的值称为累计频率,见第(5)栏。
表4.1 2005年某市102名高中男生引体向上完成次数的频数分布完成次数频数f频率(%) 累计频数累计频率(%)(1) (2) (3) (4) (5)2 3 2.94 3 2.943 7 6.86 10 9.804 16 15.69 26 25.495 33 32.35 59 57.846 24 23.53 83 81.377 14 13.73 97 95.108 4 3.92 101 99.02 9 1 0.98102 100.00合计 102 100.00 — —(二) 连续型定量变量的频数表例4.2 在某市2005年进行的小学生体质评价研究中,测定了120名9岁男孩的肺活量(L),资料如下,根据该资料制作频数表。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
图4.1 155名6月龄婴儿SOS值的频数分布
累计频率图
100 90 80 70 累计频率(%) 60 50 40 30 20 10
0 2870 2900 2930 2960 2990 3020 3050 3080 3110 3140 3170 3200 3230 3260
SOS(m/s)
图4.1 155名6月龄婴儿SOS值的累计频率分布图
频数分布类型(分布形式)
揭示频数分布特征
集中趋势
离散趋势
便于进一步计算指标和统计处理
便于发现某些特大或特小的可疑值
图4.1 155名6月龄婴儿SOS值的频数分布
集中趋势(central tendency)
一组数据向某一个位臵聚集或集中的倾向
该集中位臵,反映一组数据的平均水平
例4.1
抽样调查 2005 年某市 102 名高中男生引体向 上完成次数
5 3 4 4 7 5 4 5 6 5 5 5 5 5 2 6 6 3 7 7 4 6 6 6 6 5 7 8 4 5 4 5 5 6 4 5 5 8 4 8 8 4 5 4 4 5 4 5 7 2 6 3 4 4 5 5 7 7 5 6 7 6 4 6 7 2 6 7 7 5 6 5 6 5 7 6 5 6 6 5 5 7 6 9 6 5 5 5 3 6 3 7 3 6 4 6 5 5 3 6 5 5
偏态分布:频数分布不对称,发生频数最多的
位臵偏向一侧
正偏态分布:发生频数最多的位臵偏向数值小的一侧
负偏态分布:发生频数最多的位臵偏向数值大的一侧
图4.1 155名6月龄婴儿SOS值的频数分布
图4.2 2004年我国麻疹患者的年龄分布
219名乳腺癌患者康复期生存质量评分
频数表和直方图的用途
5 3 4 4 7 5 4 5 6 5 5 5 5 5 2 6 6 3 7 7 4 6 6 6 6 5 7 8 4 5 4 5 5 6 4 5 5 8 4 8 8 4 5 4 4 5 4 5 7 2 6 3 4 4 5 5 7 7 5 6 7 6 4 6 7 2 6 7 7 5 6 5 6 5 7 6 5 6 6 5 5 7 6 9 6 5 5 5 3 6 3 7 3 6 4 6 5 5 3 6 5 5
连续型定量变量的频数表
其值可以取在某个实数范围区间的任意值, 即在某个实数范围区间连续存在 人为分割成若干个组段,再求频数
连续型定量变量的频数表
1. 求全距R (range,也称极差):R=Max-Min
2. 确定组数a:经验法,一般观察对象在50以下时
可分5~8组,在50以上时可分9~15组
其编制条件是什么?
当数据量较小时,应如何说明资料的分布形式?
思考与讨论2
在分布形式中,主要讨论了单峰分布,即只 存在一个集中位臵
实际工作中会不会存在“多峰分布”? 如何理解和处理“多峰分布”?
李晓松主编. 医学统计学(第3版). 北京: 高等教育出版社, 2014.
第 二 节
2016年12月6日星期二
纵标目
数字区
底线
9 合计
自学“第21章
统计分析结果的正确表达”
例4.2
为了解婴儿的骨强度情况,某医院用定量超声骨强度仪对 155名 6月龄足月正常婴儿测定了胫骨中段骨骼的超声传播 速度(speed of sound, SOS, 单位为m/s),资料如下。
3054 3137 2999 3056 3127 3041 3052 3105 3182 3141 3083 2947 3151 3000 3194 3014 3063 2983 2968 3091 3101 3049 2984 3056 3034 3059 2947 3062 3093 2957 3120 3073 3029 3164 3115 2879 3084 3052 2965 3156 3034 3041 3130 3040 3044 3070 3076 3111 3082 3045 3103 3092 3145 3022 3052 3023 3036 3024 3064 3000 3029 3060 3017 3154 2995 3004 3008 3047 3008 3058 2908 3146 3081 3107 2981 2998 3071 3025 3011 3055 2923 3103 3061 3222 3056 3076 3128 3104 3050 3050 3004 3066 3100 3159 3054 3207 3018 3095 3049 2963 3119 2958 3095 3018 3069 3056 2900 2930 3159 3156 3109 2992 3076 3079 3100 2968 2954 3087 3103 2995 3081 3043 3043 3060 3016 3254 3032 3053 2997 3186 3165 3072 3204 3004 2989 2998 3177 2992 3088 3024 3046 3116 3022 3007 3045 3048 3107 3058 3095 3088 3129 3108 3043 3052 3117
99
125 136
3140~
3170~ 3200~ 3230~3260 合 计
11
4 3 1 155
7.10
2.58 1.94 0.65 100.00
147
151 154 155 —
94.84
97.42 99.35 100.00 —
内容提要
频数分布表 频数分布图 频数表和直方图的用途
直方图(historgram)
频数( f )
1 3 6 8 22 26 33 26 11
频率(%)
0.65 1.94 3.87 5.16 14.19 16.77 21.29 16.77 7.10
累计频数 1
4 10 18 40 66
累计频率(%)
0.65 2.58 6.45 11.61 25.81 42.58 63.87 80.65 87.74
李晓松主编. 医学统计学(第3版). 北京: 高等教育出版社, 2014.
第 四 章
陈卫中 副教授
公共卫生系流行病与卫生统计学教研室 2016年12月6日星期二
定量资料的统计描述
实际收集到的 变量值的集合 用统计指标、统计图、统计表描 述变量在群体中的的分布特征 定量变量 群体
利用所收集资料,用统计指标、统计图、统计表描述定量变量在群 体中的的分布特征。
内容提要
频数分布表 频数分布图 频数表和直方图的用途
频数分布表
频数表(frequency table)—分组整理
分组:将资料按照某种属性(分组标志)划分成不
同的组别,也称为组段
频数 (frequency) :统计不同组别内发生的观察
值个数
定量变量的统计描述
抽样调查 2005 年某市 102 名高中男生引体向 上完成次数
均数(mean) 几何均数(geometric mean) 中位数(median)
众数(Mo)—较少使用
均数(Mean)
是算术均数(arithmetic mean)的简称
表示符号
总体均数用表示 样本均数用 X 表示
计算方法
X 1 … X n X X n n
均数(Mean)
复习:频数分布特征
集中趋势(central tendency):一组数据向某 一个位臵聚集或集中的倾向
集中位臵
说明数据的平均水平或中心位臵
常作为群体中最有代表性的值与其它群体进行比较
频数
对称分布
正偏态分布
负偏态分布
测量 指标
集中位臵的刻画指标
集中位臵的刻画指标:平均数(Average),根 据计算方法和适用场合的不同,分为:
<30°C >40°C
均数的应用
偏态分布 单峰对称分布 正态分布 均数 有极端值的资料 分布不明 开口资料
离散型定量变量频数表
取值为某实数范围区间的特定值
以变量取值为分组标志,并列出相应频数
表4.1 2005年某市102名高中男生引体向上完成次数的频数分布
完成次数 2 频数f 3 频率(%) 2.94 累计频数 3 累计频率(%) 2.94
3
4 5 6 7
7
16 33 24 14
6.86
15.69 32.35 23.53 13.73
定量变量的统计描述
原始资料
以个体为对象收集的数据——排列杂乱无章
很难发现、总结出群体的特征和规律
分组整理,用简明扼要的形式来全面反映资 料(群体)的特点
频数分布表 频数分布图
李晓松主编. 医学统计学(第3版). 北京: 高等教育出版社, 2014.
第 一 节
2016年12月6日星期二
10
26 59 83 97
9.80
25.49 57.84 81.37 95.10
分布范围 集中组段
频数分布形 式是否对称
8
9 合计
4
1 102
3.92
0.98 100.00
101
102 —
99.02
100.00 —
标题 顶线 纵标目 下横线 横标目
表4.1 2005年某市102名高中男生引体向上完成次数的频数分布 完成次数 2 3 4 5 6 7 8 频数 3 7 16 33 24 14 4 1 102 频率(%) 2.94 6.86 15.69 32.35 23.53 13.73 3.92 0.98 100.00 累计频数 3 10 26 59 83 97 101 102 — 累计频率(%) 2.94 9.80 25.49 57.84 81.37 95.10 99.02 100.00 —