2.统计描述

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
➢ 中位数是位次上的平均指标,是百分位数的特殊 形式
适用于各种分布类型的资料,特别是: 资料明显偏态 资料一端或两端无确定数值(开口资料) 资料分布情况不明
(疾病的潜伏期、发汞、尿铅等)
百分位数常用于估计医学参考值范围
中位数的应用
(1)优点: 中位数不受少数特大或特小值的影响
(2)缺点 资料呈对称分布时,均数较中位数稳定 中位数不便于统计运算
表2. 130名健康成年男子脉搏(次/分)的频数分布表
脉搏组段
(1) 56~ 59~ 62~ 65~ 68~ 71~ 74~ 77~ 80~ 83~85
合计
组中值(Xi)
(2)
57.5 60.5 63.5 66.5 69.5 72.5 75.5 78.5 81.5 84.5
频数, fi (3)
2 5 12 15 25 26 19 15 10 1 N=∑f 130
频数(frequency):某变量值或指标值出 现的次数。
频数表(frequency table) :
频数分布表的作用:对大样本 计量资料进行整理,描述其分 布特征,从而根据相应分布特 征选用相应的统计描述和推断 方法。
(应用条件:样本较大时)
例:测得130名健康成年男子脉搏资料(次/分)如下,观察 频数分布情况。
累积频数
(5)=(3)↓
2 7 19 34 59 85 104 119 129 130
累积频率
(6)=(5)/N
1.54 5.38 14.62 26.15 45.38 65.38 80.00 91.54 99.23 100.00
最小值
最大值
差值= 1.99≈2
频数分布的特征及类型:
▪ 两个特征: 集中趋势(central tendency) 离散趋势(tendency of dispersion)
1.0000 1.3010 1.6021 1.9031 2.2041 2.5051 2.8062 3.1072

4.0000 3.9030 16.0210 19.0310 24.2451 37.5765 39.2868 6.2144 150.2778
G lg1( f lg X ) lg1(150.2778) lg1(2.1779) 150.6
表1. 130名健康成年男子脉搏(次/分)的频数分布表
脉搏组段
(1) 56~ 59~ 62~ 65~ 68~ 71~ 74~ 77~ 80~ 83~85
合计
频数, f
(3)
2 5 12 15 25 26 19 15 10 1
130
频率(%)
(4)= (3)/N
1.54 3.85 9.23 11.54 19.23 20.00 14.62 11.54 7.69 0.77
频数分布图
➢直方高度表示频 数,以纵轴标度; ➢直方宽度表示组 距,以横轴标度。
频数分布的类型
正态 分布
正偏态分布(如:以 儿童为主的传染病发 病人数的分布)
负偏态分布(如:以老 年人为主的慢性病发病 人数的分布)
人数
频数
人数
25 20 15 10
5 0
2.45 3.05 3.65 4.25 4.85 5.45 6.10


lg
1


lg xi n
加权法

G

lg
1


f lg xi f
几何均数:变量对
适用条件:等比资料、对数正态分布。数反值对的数算。术均数的
例如抗体滴度。
注意:观察值不能为0 、不能同时有正有负
同一资料算得的几何均数小于算术均数
例:某地5例微丝蚴血症患者治疗七年后用间 接荧光抗体试验测得其抗体滴度倒数分别为: 10,20,40,40,160,求几何均数。
二、离散趋势描述
均数是描述一组计量资料平均水平特征的指标。 由于变异的存在,需要一类离散趋势指标描述资料 参差不齐程度。
– 全距 – 四分位数间距 – 方差 – 标准差 – 变异系数
例: 三组同龄男孩的身高值(cm)
甲组:90 95 100 105 110 乙组:96 98 100 102 104 丙组:96 99 100 101 104
百分位数的应用:
常结合使用,用来说明特定的问题
缺点: 样本量较少时,不能计算靠近两端 的百分位数
常用平均数的意义及其应用场合
平均数
均数 几何均数 中位数
意义
平均数量水平 平均增(减)倍数 位次居中的观察值水平
应用场合 应用甚广,适用于对称分布,特别是正态 分布 等比资料;对数正态分布 偏态资料;分布不明;分布末端无确定值
便于发现一些特大或特小的可疑值
组段
频数 f
(1)
(2)
2.30~
1
2.60~
0
2.90~
0
3.20~
0
3.50~Βιβλιοθήκη Baidu
17
3.80~
20
4.10~
17
4.40~
12
4.70~
9
5.00~
0
5.30~
0
5.60~5.90
8
合计
101
频数分布图
以直方的面积大小表示频数的多 少,以直方面积在总面积中的比例表 示频率大小。其用途与频数表类似, 但它比频数表更直观、更形象。
81 70 66 7最5 大71值 63 77 74 76 68 65 77 69
77 75 79 64 79 73 76 61 80 64 69 70 73 69 68 65 70 69 66 81 63 64 80 74 78 76 84 66 70 73 60 76 82 73 64 65 73 73 63
fi Xi
fi
X
2 i
(4)
(5)
115.0
6612.5
302.5
18301.3
762.0
48387.0
997.5
66333.8
1737.5
120756.3
1885.0
136662.5
1434.5
108304.8
1177.5
92433.8
815.0
66422.5
84.5
7140.3
∑fX 9311.0 ∑fX2 671354.5
f
69
故本例类风湿关节炎患者血清EBV-VCAlgG抗体的平均滴度为1:150.6。
3.中位数和百分位数(median and percentile)
➢ 中位数:将一组观察值从小到大排序后,位置居 中的那个变量值(n为奇数)或位置居中的两个 变量值的均值(n为偶数)。M
➢ 百分位数:将一组观察值从小到大排序,分成 100等份,各等份含1%的观察值,分割界限上的 数值即为第X百分位数,是一个界值。PX 常用的百分位数:P5 P25 P75 P95
(总体) (样x 本)
计算:
直接法
X X1 X 2 X n X
n
n
加权法
X f1 X1 fX 2 fX 3 fk X k fX i
f1 f2 f3 fk
fi
适用条件:对称分布特别是正态分布或近似正态 分布
例:有9名健康成人的空腹胆固醇测定 值(mmol/L)为5.61,3.96,3.67, 4.99,4.24,5.06,5.20,4.79, 5.93,求算术均数。
X 100cm 甲
X 乙 100cm X 100cm

1.全距(Range)
全距:即极差,最大值与最小值之差。R 意义: 优点:计算简单 缺点:仅利用了两端点值
不能全面反映资料的离散程度 不稳定,易受极端值影响
当样本量较大时极差也较大不宜比较
R=Xmax-Xmin
R甲 110 90 20cm
G 5 10 20 40 40 160 34.8
G lg1( lg X ) lg1(lg10 lg 20 lg 40 lg 40 lg160) 34.8
n
5
例:69例类风湿关节炎(RA)患者血清EBV-VCA-lgG
抗体滴度的分布见表2-4第(1)、(2)栏,求其平均抗体滴
第二节 数值变量的统计描述
一、集中趋势描述
统计上使用平均数(average)这一指标体系来描述一 组变量值的集中位置或平均水平。
常用的平均数有: 算术均数 X 几何均数 G 中位数 M
1.算术平均数(arithmetic mean)
均数(mean):一组性质相同的观察值在数量上的
平均水平。
__
R=84–57 =27(次/分)
组距:27/10=2.7 ≈3 (2)不等距
3.列出各组段上下限
频数分布包括整个资料范围的全部数据 第一组段的下限略小于最小值, 最后一个组段上限必须包含最大值 各组段上下限不交叉。
4.划记统计各组段频数
将所有数据归纳到各组段,得到各组段的频数、 频率及累积频数、频率。
80 68 76 70 79 77 64 70 6差6 值69=2773 78 76
频数表的编制步骤
1.确定组数
根据研究目的和样本含量n确定分组组数
原则:较好地显示数据分布规律 本例分为10组
2.确定组距
(1)等距 组距≈极差/组数,根据实际情况再作调整
极差(range):即最大值与最小值之差,又称为全 距,记为R 本例:
20
15 10
5 0
2.5 12.5 22.5 32.5 42.5 52.5 血 清 肌 红 蛋 白(μ g / m L)
图 2-3 101 名 正 常 人 血 清 肌 红 蛋 白 的 频 数 分 布
右偏态分布(正偏态分布)
左偏态分布(负偏态分布)
分类变量频数表的类型:(了解P14)
一维频数表 二维频数表 配对设计分类变量的频数表
75 76 72 69 66 72 57 68 71 72 69 72 73 82 80 82 67 69 73 64 74 58 70 64 60 77
66 77 64 67 76 75 75 71 65 62最小76值72 71
60 67 75 75 73 79 66 69 79 78 70 72 70 72 78 72 67 72 80 68 70 61 70 73 72 71
R乙 104 96 8cm
R丙 104 96 8cm
适用于两端有确定界值的任何分布的资料。
2.四分位数间距 (Quartile interval)
Q=P75-P25
适用于两端没有确定界值的任何资料(反映了 中间一半变量值的变化范围),克服了极差受样 本含量n大小的影响,也克服了两端无确定界值 的缺点,通常用于描述偏态分布资料和开口资料 的离散程度,较极差稳定,但仍不能反映所有变 量值的离散情况,其应用仍不够普遍。
第三章 统计描述 statistical description
统计工作的步骤及内容
设计 收集资料 整理资料 统计描述 分析资料
统计推断
统计指标 统计图表 参数估计 假设检验
主要内容:
➢ 频数分布 ➢ 数值变量的统计描述 ➢ 正态分布及医学参考值范围 ➢ 分类变量的统计描述
第一节 频数分布
统计描述的工作主要是在编制频数表的基 础上描述资料的集中趋势和离散趋势。
X 257.5 5 60.5 L 184.5 9311 71.62(次 分)
25L 1
130
2.几何平均数(geometric mean)
几何均数:N个数值的乘积开N次方即为这N个数
的几何均数。 G
计算:直接计算法 G
n
x1 x2 x3 xn
▪ 两种类型: 对称分布(symmetric distribution) 偏态分布(skewed distribution) 正偏态(positively skewed) 负偏态(negatively skewed)
频数表的主要用途
(1)描述资料的分布特征和分布类型。 (2)进一步计算有关指标或进行统计分析。 (3)发现特大、特小的可疑值。 (4)样本含量较大时,可将频率作为概率估计值。 (5)据此绘制频数分布图。
度。
表 3. 69 例 RA 患者血清 EBV-VCA-lgG 抗体测定结果
抗体滴度 ⑴
人数 f ⑵
滴度倒数
lg X
X


f lg X

1: 10
4
1: 20
3
1: 40
10
1: 80
10
1: 160
11
1: 320
15
1: 640
14
1: 1280
2
合计
69
10 20 40 80 160 320 640 1280 —
血 清 总 胆 固 醇(mmol/L)
图 2 - 1 101名 正 常 成 年 女 子 血 清 总 胆 固 醇的频数分布
25 20 15 10 5 0
13.5 19.5 25.5 31.5 37.5 43.5. 血清转氨酶(mmol/L)
图2-2 115名正常成年女子血清转氨酶的频数分布
正态分布 25
相关文档
最新文档