医学统计学课件-数值变量统计描述
医学统计学——数值变量资料的统计描述
血糖 频数f 组中值X f X (4)
f X2 (5)
(1) (2) (3)
=(2)×(3) =(3)×(4)
3.60~ 3
3.7
3.80~ 3
3.9
4.00~ 8
4.1
4.20~ 23
4.3
4.40~ 24
4.5
4.60~ 25
4.7
4.80~ 20
4.9
5.00~ 12
5.1
5.20~ 10
5.3
0~
5
5
0.42
10~
12
17
1.41
20~
15
32
2.66
30~
76
108
8.98
40~
189
297
24.69
50~
234
531
44.14
60~
386
917
76.23
70~
286
1203
100.00
8
病例数
频数
人数
25
正态分布:中间高、
20
两边低、左右对称
15
10
5
0
0.50 0.70 0.90 1.10 1.30 1.50 1.70 1.90
﹡表示符号: 总体均数 (μ) 样本均数 (x )
﹡应 用: 对称分布资料,尤其是正态或近似正 态分布资料
﹡计算方法:
直接法 x=
1+ 2+……+ n n
=
∑
n
加权法 x=
f 1x1 + f 2x2 + ……+f kxk f 1 +f 2+……+f k
预防医学-数值变量的统计描述PPT
M
n为偶数时,
M=
x n x n 1
2
2
2
(2)频数表法:适用于频数表资料 步骤: ①从小到大计算累计频数和累计频数; ②确定百分位数和中位数所在组段; ③计算百分位数Px和中位数M
Px=
L
i fx
n
x
%
fL
M=P50=
L
i fx
n 2
fL
L=Px或M所在组段的下限 i=Px或M所在组段的组距 fx=Px或M所在组段的频数
P25:下四分位数,简记QL P75:上四分位数,简记QU 2、意义:中间一半观察值的极差,意义与R相似。 3、特点:(1) 比R稳定,但仍未考虑每一个观察
M=23.52 (h)
fx=63(或M所在组段的频数)
f L =30(小于L各组段的累计频数)
Descriptive Statistics
描述数值变量资料的集中趋势(central tendency)指标 • 中位数( median )和百分位数( percentile )
M 所在组段下限值 组距 (n 50% 至该下限值的累计频数)
⑶组距=极差/组数(拟采用等距分组) ⑷定组段:划范围 ⑸统计各组段的人数:
划记
80.1
读取数据,然后“对号入座”
100.1
Descriptive Statistics
频数分布表(frequency table)
• 频数表的用途: 1.描述频数分布的类型和特征
2.便于发现一些特大或特小的可疑值
3.便于进一步做统计分析和处理
fL =小于L各组段的累计频数
起点
预防医学第15章 数值变量资料的统计描述课件
年龄组 0~ 10~ 20~ 30~ 40~ 50~ 60~ 70~
恶性肿瘤死亡率(1/10万) 0.5 12 15 76 189 234 386 286
19
频数分布表和频数分布图的应用
揭示资料的分布特征、分布类型。 便于发现某些特大或特小的可疑值。 便于进一步计算统计学指标。
20
二、集中趋势指标(central tendency)
lg( 1 3) 1000
5份血清的平均抗体效价为1:1000。
29
2.加权法(用于大样本、频数表资料)
Glg1
f
1lgX1 f 2lgX2... f1 f 2... fK
fKlgXK
lg1f lfgX
f1、f2…fk 为各组段频数, X1、 X2 …Xk 为倒数,
k为组数。
30
例3 35 人血清抗体滴度见下表,求平均滴度。 代入公式:
,k为组数。
25
加权法步骤
1、编制频数表 (1)计算全距:R=最大值-最小值
(2)划分组段:i =R/组数 (3)列表划记: 2、计算公式
X f1X1 f2X2 fkXk fX
f1 f2 fk
f
3、列计算表计算均数
X fX139 9 1.2 8 7( 9 c m ) f 150
26
表 15-2 某市150名3岁女孩身高均数的加权法计表
适用于描述对称分布、正态分布(或近似正态 分布)资料的集中趋势。
22
1.直接法(用于小样本或有计算机及软件) 将所有数据相加,再除以总例数。
XX 1X 2X n X
n
n
X1、X2… Xn为变量值,n为总例数, ∑为希腊字母,为求和符号。
卫生统计学数值变量资料的统计描述
加权法(weight method)
组段 (1) 99~ 102~ 105~ 108~ 111~ 114~ 117~ 120~ 123~ 126~ 129~ 合计
X=fXfX f n
表 3-3 某市 120 名 6 岁女孩身高(cm)均数的计算(加权法)
频数 f (2)
组中值 X (3)
fx (4)=(2)×(3)
求全距(range,R) ,R=129.5— 101.2=28.30(cm)
划分组段 确定组数 确定组距 确定各组段的上下限
列出频数表
组段 (1) 99~ 102~ 105~ 108~ 111~ 114~ 117~ 120~ 123~ 126~ 129~132 合计
表 3-2 频数 f (2)
100.00 -
30
身身
高
频
高 20
数
频
数
10
0
99 102 105 108 111114
117 120 123 126 129
身高(cm)
图3-2 某市120名6岁女孩的身高分布
频数分布两个重要特征
30
身
高
集中趋势
频
20
数
离散趋势 频数分布类型
10
0 99 102 105 108 111114 117 120 123 126 129 身高(cm)
乳牙数 (1)
频数 f (2)
频率(%) (3)
累计频数 (4)
0
2
1.67
2
1
4
3.33
6
2
7
5.83
13
3
9
7.50
22
4
14
医学统计学PPT课件
验结果,每次都有如此好的吻合. 的概率约10万分之4。 6
绪论 Introduction
讲授内容:
一、医学统计学的意义
二、统计学中的几个基本概念
三、统计资料的类型
四、医学统计工作的基本步骤
五、学习医学统计学应注意的问题
.
7
一、医学统计学的意义
• 1.统计学(statistics):应用数学的原理与 方法,研究数据的搜集、整理与分析的科 学,对不确定性数据作出科学的推断。
例如:某药治疗高血压患者30名
样本含量(n)为30
.
21
二、统计学中的几个基本概念
• 4、参数(parameter)和统计量(statistic)
• (1)参数(parameter):根据总体个体 值统 计计算出来的描述总体的特征量。
• 一般用希腊字母表示
• (2)、统计量(statistic):根据样本个体值统 计计算出来的描述样本的特征量。
(120.2cm,118.6cm,121.8cm,…)
研究某人群性别构成 变量值:男、女。
.
15
二、统计学中的几个基本概念
• 2、同质(homogeneity)和变异 (variation)
• (1)、同质(homogeneity):根据研究 目的给研究单位确定的相同性质。
• 研究长沙市2004年7岁 男孩身高的正常值范围?
.
27
二、统计学中的几个基本概念
• (3)、抽样误差(sampling error):由 于抽样所造成的样本统计量与总体参数 的差别。
• 例如:=120.0cm
n=100
•
N=5万 → X =118.6cm
• 特点:1)不可避免性
2-数值变量资料的统计描述 ppt课件
血糖(mol/L)组段 组中值(xi)
3.60~ 3.80~ 4.00~ 4.20~ 4.40~ 4.60~ 4.80~ 5.00~ 5.20~ 5.40~5.60
合计
3.70 3.90 4.10 4.30 4.50 4.70 4.90 5.10 5.30 5.50
频数(f)
3 3 8 23 24 25 20 12 10 4 132
4.30
23
37
17.42
28.03
4.40~
4.50
24
61
18.18
46.21
4.60~
4.70
25
86
18.94
65.15
4.80~
4.90
20
106
15.15
80.30
5.00~
5.10
12
118
9.09
89.39
5.20~
5.30
10
128
7.58
96.97
5.40~5.60
5.50
4
132
(n5% 0fL) i; fm
下限值L
中位数M
上限值U
2020/10/6
26
例2.1频数表中位数的计算
血糖(mol/L)组段
3.60~ 3.80~ 4.00~ 4.20~ 4.40~ 4.60~ 4.80~ 5.00~ 5.20~ 5.40~5.60
合计
组中值(
x
)
i
3.70
3.90
4.10
4.30
中位数是第50百分位数, 用P50表示。
2020/10/6
28
频数表法
公式:
L X: 第 X百 分 位 数 所 在 组 段 下 限 fL: 小 L 于 X 各 组 段 的 累 计 频 数 iX: 第 X百 分 位 数 所 在 组 段 组 距 n: 为 总 例 数
数值变量资料的统计描述(医本)课件
(2)频数表法:
利用百分位数(percentile)计算公式进行计算. 百分位数(PX)是一种位置指标, 中位数是一个 特定的百分位数,即M= P50 。
百分位数计算公式:
Px
Lx
ix fx
(n x% fL )
例根据下表计算中位数 M 及 P25、P75、P2.5、P97.5 199 名食物中毒患者潜伏期
15.34
(小时)
例 2.7 根据下表计算中位数 M 及 P25、P75、P2.。5、P97。5 199 名食物中毒患者潜伏期
潜伏期(小时) 人数 f 累计频数 累计频率%
P75
0~
30
30
15.1
12~
71
101
50.8
24~
49
150
75.4
36~
28
178
89.4
48~
14
192
96. 5
60~ 72~84 合计
3.50 4.23 3.90 3.88 4.24 4.53 4.88 2.48 3.40 3.26 3.21 3.60 2.73 4.15 4.60 4.35 4.96 5.61 5.87 5.01 4.33 5.74 4.87 3.96 3.00 3.93 3.15 5.00 3.44 3.50 2.85 4.87 4.60 3.40 4.79 3.02 6.23 4.98 2.89 5.82 6.30 5.20 5.40 3.00 2.80 4.43 4.50 5.52 6.40 4.86 5.90 4.70 3.47 4.66 4.78 5.70 2.26 4.10 3.70 5.40 3.70 4.37 4.20 6.10 4.80 5.10 5.55 2.97 5.11 3.26 3.04 6.01 5.07 4.22 5.39 5.34 4.47 3.58 5.26 4.54 4.07 3.83 3.97 6.05 4.02 2.69 2.52 5.21 6.55 4.28 4.45 5.15 4.45 5.37 3.80 3.73
医学统计学数值变量统计描述教学
医学统计学数值变量统计描述教学医学统计学是医学领域的重要学科之一,它关注的是通过收集、整理和分析数据来提取有关医学问题的信息。
数值变量统计描述是医学统计学中的一个重要概念,它通过使用统计学方法来总结和描述数值变量的各种特征,包括中心趋势、离散程度和分布形态等。
一、数值变量的中心趋势统计描述中心趋势是指一组数据向中间值倾斜的程度,常用的中心趋势统计描述指标包括均值、中位数和众数。
1. 均值(mean)是一组数据的平均值,它是通过将所有数据进行求和并除以数据个数来计算得到的。
均值是数值变量的重要测量指标,它可以反映一组数据的整体水平。
然而,均值受极端值的影响较大,所以在进行均值统计描述时,应注意排除异常值的影响。
2. 中位数(median)是一组数据按大小排序后,处于中间位置的值。
中位数对极端值的影响相对较小,能够比较准确地反映数据的集中位置。
3. 众数(mode)是一组数据中出现次数最多的值。
众数一般用于描述具有明显峰值的数据分布,如血型、治疗效果的评价等。
二、数值变量的离散程度统计描述离散程度是指一组数据呈“分散”态势的程度,常用的离散程度统计描述指标包括标准差、方差和四分位距等。
1. 标准差(standard deviation)是一组数据离均值的平均距离的度量,它能够反映数据的离散程度。
标准差越大,数据的离散程度越大;标准差越小,数据的离散程度越小。
2. 方差(variance)是标准差的平方,它在统计学中用于度量数据的离散程度。
通常情况下,方差越大,数据的离散程度越大;方差越小,数据的离散程度越小。
3. 四分位距(interquartile range)是一组数据中位于第25%和第75%位置之间的区间长度。
四分位距能够反映数据的分散程度,同时也对异常值的影响较小。
三、数值变量的分布形态统计描述分布形态是指一组数据的分布特点,常用的分布形态统计描述指标包括偏态系数和峰态系数等。
1. 偏态系数(skewness)是一组数据分布偏离正态分布的程度的度量。
医学统计学课件:2统计描述
¾ 确定组段的上、下限 注意:第一组必须包括最小值,最末一 组必须包括最大值,各组间不能有交 叉,每组段从本组段下限开始,不包括 上限。
¾ 列表整理,写出频数
合计
147
100.0
-
-
等级资料的频数表:
治疗结果
(1)
治愈
有效
表4-2 某药物疗效的频数表
频数 频率/% 累积频数 累积频率/%
(2) (3)
(4)
(5)
65 43.3
65
43.3
45 30.3
110
73.6
无效
25 16.7
135
90.0
恶化
15 10.0
150
100.0
合计 150 100.0
一月,血凝抑制抗体滴度见表4-5,求其平
均滴度。
表4-5 40名儿童接种麻疹疫苗后一月血凝抑制抗体滴度频数分布表
抗体滴度 人数,f 滴度倒数,X
(1)
(2)
(3)
lg(X) (4)
f·lgX (5)=(2)(4)
1:4
1
4
0.6021 0.6021
1:8
5
8
0.9031 4.5155
…
…
…
…
…
1:256
1、这150名正常成年男子红细胞数的平均水 平是多少,变异度有多大? 2、这150名正常成年男子红细胞数与当地成 年男子红细胞数总体相比是否有差别?
统计描述
统计推断
统计指标 统计图表
第一章 医学统计学基本概念与常用统计描述指标PPT课件
对于原始数据和频数分布表资料,分别用下列两式计算中位数。
(X n/2+X(n/2+1) )/2 M=
X(n+1)/2
(n为偶数) (n为奇数)
MLMifM M
(n 2
fL)
其中, LM :中位数所在组下限; iM :中位数所在组的组距; fM :中位数所在组的频数;
fL :中位数所在组前一组的累计频数。
36
n
(Xi )2
2 i1
N
n
(Xi X )2
S 2 i1 n 1
n - 1称为自由度
37
(四)标准差 (standard deviation)
38
n
(Xi )2
i1
N
n
(Xi X)2
S i1
X2( X)2/n
n1
n1
加权法:
S fX2(fX)2/f f 1
39
(五)变异系数(coefficient of variation, CV)
13
(一) 编制频数表的步骤
求极差
– R=84-57=27(次/分)
划分组段
– 确定组数:较大样本时,一般取10组左右。 – 确定组距:极差/组数=27/10=2.7≈3(次/分) – 确定各组段的上下限:上限=下限+组距
统计各组段内的数据频数,编制频数表
14
表2.1 130名健康成年男子脉搏(次/分)的频数分布表
3
第一节 医学统计学在医学科学中的 地位和作用
医学统计学(Medicine Statistics )
– 是应用概率论和数理统计的基本原理和方法,结合医学实际 阐述统计设计的基本原理和步骤,研究资料或信息的收集、 整理与分析的一门学科。
医学统计学的基本内容PPT课件
Quantitative data 计量资料
Qualitative data 计数资料
等级资料 Rank data
第21页/共56页
变量的转化 不同类型的变量其统计处理方法
不同。在实际工作中,根据统计分析 的具体要求和研究目的,各种不同的 变量间可以互相转化。
22
第22页/共56页
三类资料间关系
统计资料的几种类型
变量类型
变量
定量(具体数值)
身高(cm) 计量资料
分 类
无 序
变
量有
序
二分类 多分类
对立的两类属性 不相容的多类属性
疗效(有效、无效) 计数资料
血型(A,B,O,AB)
多分类
有程度差异的多类属 性(又称等级资料)
文化程度(初中、 高中、大学...)
等级资料
学生 4
0 00 1
职员 5
0 00 0
第25页/共56页
第三节 医学统计工作的基本步骤
一、研究设计(research design) 二、收集资料 (data collection) 三、整理资料 (data sorting) 四、分析资料 (statistical analysis)
四个步骤是相互联系、不可分割的。
住院天数 5 5 6 5 11 2 4 3 7
文化程度 中学 小学 大学 中学 中学 小学 中学 中学 中学
职业 无 无
管理员 无
商业 无 无 无
干部
变量 variables
分娩方式 顺产 助产 顺产
剖宫产 剖宫产
顺产 助产 助产 剖宫产
妊娠结局 足月 足月 足月 足月 足月 早产 早产 足月 足月
12.58
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• (4) 划记计数:用划记法将所有数据归纳到各组段,得到各组段的频数。
14
数值变量资料的统计描述( Descriptive Statistics)
■ 频数分布表(frequency table)
• 频数表的编制:
15
数值变量资料的统计描述( Descriptive Statistics)
4
数值变量资料的统计描述( Descriptive Statistics)
■ 频数分布表(frequency table)
• 数值变量资料的分类:
• 离散型资料(discrete data):是指变量取值可以一一列举的资 料。例如,每个育龄妇女现有的子女数。
• 如1998年某山区96名孕妇产前检查次数资料如下:0,3,2,0, 1,5,6,3,2,4,1,0,6,5,1,3,3,…4,7。
• 数值变量资料的分类:
• 离散型资料(discrete data)
根据表2-1频数的分布可绘出频数分布图。
30
25
20
频 率 % 15
10
5
0
产前检查次数 0
1
2
3
4
5
>5
7
某地96名妇女产前检查频率分布
数值变量资料的统计描述( Descriptive Statistics)
■ 频数分布表(frequency table)
18
数值变量资料的统计描述( Descriptive Statistics)
■ 频数分布表(frequency table)
■ 频数分布表(frequency table)
• 频数表的编制:
• (3) 列出组段:第一组段的下限略小于最小值,最后一个组段上限必须包含 最大值。
0.980- 1.110-
……
2.150- 2.280-2.410
13
数值变量资料的统计描述( Descriptive Statistics)
■ 频数分布表(frequency table)
• 数值变量资料的分类:
• 连续型资料(discrete data)
1998年某校100名18岁健康女大学生(cm)资料
8
数值变量资料的统计描述( Descriptive Statistics)
■ 频数分布表(frequency table)
• 数值变量资料的分类:
• 连续型资料(discrete data)
■ 频数分布表(frequency table)
• 频数分布图
16
数值变量资料的统计描述( Descriptive Statistics)
■ 频数分布表(frequency table)
• 频数表的编制:
表2-4 160名正常成年女子的血清甘油三酯(mmol/L)
编号
血清甘油三脂
编号 血清甘油三脂
1998年某校100名18岁健康女大学生(cm)资料
9
数值变量资料的统计描述( Descriptive Statistics)
■ 频数分布表(frequency table)
• 频数表的编制:
例4.2 某年某市进行的小学生体质评价研究中,测定了120名9岁男孩的肺活量(L), 如下,试编制频数表和观察频数分布情况。
1
0.51
…
…
2
0.52
153
1.65
3
0.59
154
1.66
4
0.61
155
1.67
5
0.61
156
1.67
6
0.62
157
1.69
7
0.63
158
1.7
8
0.64
159
1.71
…
…
160
1.77
17Leabharlann 数值变量资料的统计描述( Descriptive Statistics)
■ 频数分布表(frequency table)
10
数值变量资料的统计描述( Descriptive Statistics)
■ 频数分布表(frequency table)
• 频数表的编制:
• (1)求极差(range):即最大值与最小值之差,又称为全距。 R=2.406-0.989 = 1.414 (L)
11
数值变量资料的统计描述( Descriptive Statistics)
表2-1 1998年某地96名孕妇产前检查次数分布
检查次数 (1)
频数 (2)
频率(%) (3)
0 1 2 3 4 5 >5 合计
4
4.2
7
7.3
11
11.5
13
13.5
26
27.1
23
24.0
12
12.5
96
100.0
6
数值变量资料的统计描述( Descriptive Statistics)
■ 频数分布表(frequency table)
数值变量资料的统计描述( Descriptive Statistics )
1
数值变量资料的统计描述( Descriptive Statistics )
2
数值变量资料的统计描述( Descriptive Statistics )
统计描述是表述医学研究结果的基本工具:
3
数值变量资料的统计描述( Descriptive Statistics )
• 连续型资料(continuity data):是指变量取值不能一一列举(即 变量取值为一定范围内的任意值)的资料。例如,人体的身 高( cm)、体重(kg) 等。
5
数值变量资料的统计描述( Descriptive Statistics)
■ 频数分布表(frequency table) • 离散型资料(discrete data)
• 频数表的编制: (1)求极差(range):即最大值与最小值之差,又称为全距。 本例极差: R=1.77-0.51=1.26(mmol/L) (2) 决定组数、组段和组距:根据研究目的和样本含量n确定。组 距=极差/组数,通常分10-15个组,为方便计,组距参考极差的十分 之一, 再略加调整。 本例i= R /10=1.26/10=0.126≈0.1。 (3) 列出组段:第一组段的下限略小于最小值,最后一个组段上限 必须包含最大值,其它组段上限值忽略。 (4) 划记计数:用划记法将所有数据归纳到各组段,得到各组段的 频数。
■ 频数分布表(frequency table)
• 频数表的编制:
• (2) 决定分组组数、组距:根据研究目的和样本含量n确定分组组数,通 常分为10~15个组。组距=极差/组数,为方便计,组距为极差的十分之一, 再略加调整。 1.414/11 = 0.129 ≈ 0.130
12
数值变量资料的统计描述( Descriptive Statistics)