第2章集中趋势的统计描述

合集下载

医学统计学-第二章 统计描述

医学统计学-第二章 统计描述
变异系数(Coefficient of variation,CV)
1. 首先对资料作分布类型的判定; 2. 针对分布类型先用合适的指标描述:
均值、标准差;常记录为 X S
中位数、四分位间距; 常录为M(Ql, Qu)
一、集中趋势:用于描述一组计量资料的集中位置, 说明这种变量值大小的平均水平(average)表示。
频 数
身高(cm)
图3.1 某市100名8岁男童身高(cm)的频数分布
(三)频数表的用途:
1.揭示频数的分布特征
频 数
分布 特征
身高(cm)
图3.1 某市100名8岁男童身高(cm)的频数分布
集中趋势
(central tendency)
离散趋势
(tendency of dispersion)
集中趋势与离散趋势结合能全面反映频数的分布特征
2.揭示频数的分布类型
对称 分布
频数 分布
正偏
非对称 分布
负偏
集中部位在中部,两 端渐少,左右两侧的
基本对称,为对称 (正态)分布。
集中部位偏于较小 值一侧(左侧),较大 值方向渐减少,为
正偏态分布。
集中部位偏于较大 值一侧(右侧),较 小值方向渐减少,
为负偏态分布。
(2) 定量资料的描述指标
描述指标: 集中趋势:
累计频数 (4) 1 6 14 31 54 75 89 96 99 100 100
累计频率 (5) 0.01 0.06 0.14 0.31 0.54 0.75 0.89 0.96 0.99 1.00 1.00
频数分布图(frequency distribution figure) :
根据频数分布表,以变量值为横坐标,频数为纵坐 标,绘制的直方图。

课堂笔记——医学统计学

课堂笔记——医学统计学

第一章医学统计中的基本概念一、医学统计工作的内容:实验设计(experiment design)、收集资料(collecting data)、整理资料(sorting data)和分析资料(analyzing data)二、变异:医学研究的对象是有机的生命体,其功能十分复杂,不同的个体在相同的条件下,对外界环境因素可以发生不同的反应,这种现象称为个体差异或称为变异三、总体(population)和样本(sample):总体是同质的个体所构成的全体。

从总体中抽取部分个体的过程称为抽样,所抽的部分称为样本,在一个样本里含有的个体数可以不同,样本包含的个体数目称为样本容量。

四、样本的特性:代表性(representation)——要求样本能够充分反应总体的特征;随机性(randomization)——需要保证总体中的每个个体都有相同的几率被抽做样本;可靠性(reliability)——实验的结果要具有可重复性,即由科研课题的样本得出的结果所推测总体的结论有较大的可信度;可比性(comparability)——指处理组(临床设计中称为治疗组)与对照组之间,除处理因素不同外,其他可能影响实验结果的因素要求基本齐同,也称为齐同对比原则。

五、误差:①系统误差(system error)②③六、概率(probability):是描述某一件事发生的可能性大小的一个量度。

习惯将P≤0.05或P≤0.01的事件称为小概率事件第二章集中趋势的统计描述一、频数表(frequency table):①概念:一种格式的统计表,即同时列出观察指标的可能取值区间及其在各区间内出现的频数。

由于这种资料的表达方式较完整地体现了观察值的分布规律,所以也称为频数分布表。

②制作图标的步骤:确定组数、确定组距、确定组段、对各组段计数及手工编制划记表。

二、直方图(histogram):①概念:直方图是以垂直条段代表频数分布的一种图形,条段的高度代表各组的频数,由纵轴标度;各组的组限由横轴标度,条段的宽度表示组距。

第二章 集中趋势的统计描述

第二章  集中趋势的统计描述

1.集中趋势(central tendency):平均水 平,向中间集中,中等数据的人数最多。 2.离散趋势(tendency dispersion):变 异水平,即随着红细胞数测量值逐渐变大 或变小,人数越来越少,向两端分散。
频数表的主要用途
1.作为陈述资料的形式,可以替代繁杂的原始资料, 便于进一步分析 2.便于观察数据的分布类型 3.便于发现资料中某些远离群体的特大或特小的 可疑值
xi x1 x2 xn x n n
例2.1 见书P10
式(2-1)
加权法
适用条件:当无原始数据或观察例数很多又 缺乏计算机及统计软件时,若用直接法很 容易出错,可以用加权法处理。
f i X i f1 X 1 f 2 X 2 f n X n x f i f1 f 2 f n
x
二、特征: ∑(X-
x )=0
估计误差之和为0。
三、适用资料类型: 1.描述正态分布和近似正态分布资料集中 趋势的最好指标。 2. 适用于大多数正常人的生理、生化指标。 四、计算方法:
1.直接法
2.加权法
直接法
适用条件: 当观察例数不多时,或观察例数虽然 很多,但有计算机及统计软件,宜选择直接法。
0 .0 15 0 .0 14 0 .0 13 0 .0 12 0 .0 11 0 .0 10 00 9. 00 8. 00 7. 00 6. 00 5. 00 4. 00 3. 00 2. 00 1. 00 0.
400
300
200
100
0
TG
对数据的描述指标也分为两类: 1. 描述集中趋势(central tendency)或 平均水平的指标。 2. 描述离散趋势(tendency dispersion) 或变异水平的指标。

医学统计学 第二章 计量资料的统计描述

医学统计学 第二章 计量资料的统计描述

肌红蛋白含量
人数
0~
2
5~
3
10~
7
15~
9
20~
10
25~
22
30~
23
35~
14
40~
9
45~50
2
18
人数
25 20 15 10
5 0
2.5 12.5 22.5 32.5 42.5 52.5 血 清 肌 红 蛋 白(μg / m L)
图 2-3 101 名 正 常 人 血 清 肌 红 蛋 白 的 频 数 分 布
医学统计学 第二章 计量资料的统计 描述
计量资料(定量资料、数值变量资料) 总体:有限或无限个(定量)变量值 样本:从总体随机抽取的n个变量值:
X1,X2,X3,……,Xn
n为样本例数(样本大小、样本含量)
2
统计描述——描述其分布规律 1、用频数分布表(图)
要求:大样本 如 n〉30
2、用统计指标 描述 集中趋势 离散趋势
6
➢制表步骤 了解分布
1. 求极差(range) 极差也称全 距,即最大值和最小值之差,记作R。 本例
R 5 .7 1 2 .3 5 3 .3 6 ( m m o l/L )
7
2.确定组距(i) :
组段数通常取组 10-15组 本例组距
i 3 .3 6 /1 0 0 .3 3 6 0 .3 0
累计频率(%) (4)
0
402
402
35.80
1
330
732
65.18
2
232
964
85.84
3
118
1082
96.35
4
27

卫生统计学 第二章 定量资料的统计描述

卫生统计学 第二章 定量资料的统计描述
正偏态分布:集中位置偏向数值小的一侧。
偏态分布型
负偏态分布:集中位置偏向数值大的一侧。
32
3、描述资料的分布特征
集中趋势:血清铁含量向中央部分集中,即中
等含量者居多,集中在18 这个组段,这种现
象为集中趋势
离散趋势:从中央部分到两侧的频数分布逐渐
减少,而且血清铁含量的值参差不齐,最低的 接近6 最高的接近30,这种现象称为离散趋势
组段下限(L):每个组段的起点 组段上限(U):每个组段的终点
①两端的组段应分别包含最小值或最大值; ②尽量取较整齐的数值作为组段的端点,便于对 数据进行表述; ③最后一个组段应同时写出上限和下限来
17
L X U
4、列表整理、统计各组段的频数、频率
组段
6~ 8~ 10~ 12~ 14~ 16~ 18~ 20~ 22~ 24~ 26~ 28~30 一 上 正一 正上 正正丅 正正正正 正正正正正丅 正正正上 正正丅 正上 止 一
28
25 人 数 20 15 10 5 0 14 17 20 23 26 29 32 35 38 41 44 47
血清转氨酶(mmol/L)
115名正常成年女子血清转氨酶的频数分布
29
负偏态(峰)分布
101名正常人的血清肌红蛋白( g/mL )含量分布
肌红蛋白含量 0~ 5~ 10~ 15~ 20~ 25~ 30~ 35~ 40~ 45~50 人 数 2 3 7 9 10 22 23 14 9 2
划记
频数
1 3 6 8 12 20 27 18 12 8 4 1
合计
120
18
数据
7.42 20.38 18.36 14.27 14.89 24.52 17.14 14.77 21.75 12.65 8.65 8.40 23.04 17.40 18.37 19.26 13.77 14.37 19.47 18.48 23.02 17.32 24.22 22.55 19.50 26.13 12.50 24.75 15.51 19.83 21.61 29.64 24.13 17.55 17.08 16.99 20.40 12.73 10.86 23.12 21.31 19.69 21.53 16.10 18.12 18.89 20.30 17.25 27.81 19.22 21.46 21.69 11.09 17.98 26.02 18.46 19.38 19.09 21.65 19.22 9.97 23.90 18.89 20.13 11.34 20.87 23.11 16.79 16.32 16.72 22.73 17.45 18.26 21.00 13.81 17.51 12.67 17.19 20.75 27.90 14.94 19.08 23.29 14.56 10.25 13.12 23.02 19.32 22.11 11.74 20.18 20.52 17.67 19.89 15.94 11.75 24.36 19.59 13.17 24.66 21.62 24.14 15.38 19.82 15.83 17.40 25.61 19.12 17.55 14.18 23.07 23.77 18.61 17.48 18.54 21.36 19.53 15.31 19.26 16.52

集中趋势的统计描述

集中趋势的统计描述

正态曲线下面积的分布规律
曲线下横轴上的总面积为100%或1。 下面是应用较多的三个区间的面积分布规 律。 (1)正态分布区间(-,+)下的面积,即 范围的面积占总面积为68.27%; (2)正态分布区间(-1.96,+1.96),即 1.96范围的面积占总面积为95.00%; (3)正态分布区间(-2.58,+2.58),即 2.58范围的面积为99.00%。(如图1-2)
式中,Σ是求和的符号 。
例题
例 14-1 10名12岁男孩身高(cm)分别为 125.5,126.0,127.0,128.5,147.0, 131.0,132.0,141.5.0,122.5,140.0。 求平均数。
X X n 125.5 126 ... 122.5 140 132.1 10
二、四分位间距
(inter-quartile range)
四分位间距是两个特定的百分位数之 差,即第75百分数P75(上四分位数QU)和 第25百分位数P25(下四分位数QL)之差, 用Q表示,适用于任何分布的计量资料, 尤其适用于偏态分布的资料.
Q= QU - QL
四分位间距比全距稳定,但仍然未 考虑到每个观察值的变异。
[例1-6]调查某地107名正常人尿铅含量 (mg/L)结果列于下表,计算中位数: 本例,第3组的累计频数为65,超过n/2= 53.5,即第3组为本组。
i n 4 107 M L fL 29 36 10.41(m g/ L) f2 65 2
(四)百分位数(percentile)
百分位数是一种位置指标,用PX表示。 百分位数是一个有序数列百等分的 分割值。第50百分位数(P50)也就是中位 数,中位数是一个特定的百分位数。 计算百分位数的计算公式为:

卫生统计学课件 第二章 计量资料的统计描述(共33张PPT)

卫生统计学课件 第二章 计量资料的统计描述(共33张PPT)
11111,11111,11111 中位数是50%位的数值,其为百分位数的特殊形式。
●计算公式: 13cm之间的占该地7岁男童的百分 比。
∑f · X=1638
双侧界值:P 2.5 ~ P 97..5 定义:又称参考值范围,是指特定健康人群的解剖、生理、生化等各种数据的波动范围。
特征: ∑(X- X)=0 估计误差之和为0。
估计的方法: 1、正态分布法
2、百分位数法
28
1.正态分布法
应用条件:正态分布或近似正态分布资料 ●计算 (双侧) 95% 正常值(医学参考值)范围公式:
(x1.96 · S,x1.96 · S )
即(x±1.96 · S ) 例:
1.96 × 3.79 )
即(156.41 cm , 171.27 cm )
1998年100名18岁健康女大学生身高的频数分布
数。 (3) 估计该地7岁男童身高在107.
确定组段:第一组段包括最小值,如本例为154 89 cm 取整数 2 cm 应用:单位不同的多组数据比较
13cm之间比的。占该地7岁男频童的数百分表(频数分布):表示各组及它们对
注意:合理分组,才能求均数,否则没有意义。
96 ·S,x 1. Q = Qu 一 Ql
单侧 上界: P 95
单侧 下界: P 5
31
习题:
1.各观察值加同一数后: A.均数不变,标准差改变 B.均数改变,标准差不

2.用均数和标准差可全面描述:
3.正态分布曲线下,从均数u 到u 的面积为; A.95% B.45% C. 97.5% D.47.5%
19
相关概念:离均差、离均差平方和、方差(2 S2 ) 标准差的符号: S

第二章 数值变量资料的统计描述

第二章 数值变量资料的统计描述

频数分布的类型
频数分布分为对称分布和偏态分布两种类型。 频数分布分为对称分布和偏态分布两种类型。 对称分布是指集中位置在正中, 对称分布是指集中位置在正中,左右两侧频 数分布大体对称,如上表所示。 数分布大体对称,如上表所示。若将其绘制 成频数分布直方图,则更清楚。 成频数分布直方图,则更清楚。 直方图是以x 本例为体重) 为横坐标 , 直方图是以 x( 本例为体重 ) 为横坐标, 频 数或百分数为纵坐标, 数或百分数为纵坐标,用矩形面积大小表示 频数多少。 频数多少。
某地150名12岁男童体重频数分布图 名 岁男童体重频数分布图 某地
40
30
Frenquency
20
10
0 21.5 24.5 27.5 30.5 33.5 36.5 39.5 42.5 45.5 48.5 51.5
体重(kg)
频数分布的类型
偏态分布指集中位置偏向一侧, 偏态分布指集中位置偏向一侧 , 频数分布 不对称。 不对称。 一些以儿童为主的传染病, 一些以儿童为主的传染病 , 患者的年龄分 布 , 集中位置偏于年龄小的一侧, 频数尾 集中位置偏于年龄小的一侧 , 部向右侧延伸, 称为正偏态 ( 部向右侧延伸 , 称为正偏态( 峰 ) 分布 , 分布, 如图
一、频数分布表(frequency table)的编制 频数分布表( table)
某地儿研所测得该地150名12岁健康男童体重 某地儿研所测得该地150名12岁健康男童体重 kg)原始数据如下,试编制频数表。 (kg)原始数据如下,试编制频数表。
25.2 30.5 36.5 35.1 37.1 37.1 28.7 31.4 36.8 27.3 37.6 37.8 35.7 34.9 36.2 42.5 37.8 44.0 29.2 33.7 34.1 27.2 48.6 25.5 33.4 39.3 34.3 51.0 33.7 32.4 35.6 38.2 35.1 25.3 34.0 35.8 37.3 32.2 42.2 38.1 38.0 29.3 38.5 44.5 41.1 42.9 29.6 34.7 29.7 37.5 33.4 35.3 41.3 43.8 39.6 28.2 46.5 36.2 20.1 38.2 44.4 45.6 41.5 32.4 30.1 27.8 40.9 37.5 36.5 35.0 43.5 35.4 43.7 41.2 41.8 38.4 32.8 27.2 33.8 37.5 39.6 23.4 31.8 32.8 26.5 33.8 35.3 33.0 44.2 36.8 37.7 36.6 33.2 35.8 36.4 36.3 42.0 24.5 42.6 28.3 43.2 45.7 28.4 33.4 32.1 34.1 36.2 31.8 39.6 29.2 34.1 33.3 31.5 41.2 33.5 47.4 29.9 27.6 47.9 30.6 38.7 45.9 30.0 35.1 40.2 40.9 47.3 36.4 43.7 42.6 38.7 38.5 35.4 32.5 31.4 40.6 34.5 36.5 34.8 41.4 33.8 23.1 20.5 39.6 51.2 23.5 40.8 38.2 37.4 47.9

《医学统计学》第二章定量数据的统计描述

《医学统计学》第二章定量数据的统计描述
630
累积频数
(3) 27
196 363 457 538 580 608 622 626 629 630

累积频率(%)
(4) 4.29 31.11 57.62 72.54 85.40 92.06 96.51 98.73 99.37 99.84 100.00
资料如表,试计算其中位数。
某地630名正常女性血清甘油三酯含量(mmol/L)
甘油三酯(mmol/L)
(1) 0.10~ 0.40~ 0.70~ 1.00~ 1.30~ 1.60~ 1.90~ 2.20~ 2.50~ 2.80~ 3.10~
合计
频数
(2) 27 169 167 94 81 42 28 14 4 3 1
练习
例 8名食物中毒患者的潜伏期分别为1,4,3,3,2,5,8,16小时,
求中位数。
n=8,为偶数
M
1
2
(
x (
8 2
)
x (
8
1)
)
2
1 2 ( x4
x5 )
1 3 4
2
3.5(小时)
例 某传染病11名患者的潜伏期(天)分别为1,3,2,2,3,7,5,6,
4,7,9,求中位数。
n=11,为奇数 M xn1 2 x(111) x6 4(天 ) 2
偏态分布
正偏态 负偏态
正偏态:集中位置偏向数值小的一侧 负偏态:集中位置偏向数值大的一侧
医学统计学(第7版)
正 态 分 布
医学统计学(第7版)
正偏态
集中位置偏向 数值小的一侧
负偏态
集中位置偏向 数值大的一侧
(麻疹年龄分布)
(肺癌年龄分布)

统计学课件 第2章-集中趋势与离散趋势

统计学课件 第2章-集中趋势与离散趋势

∑ (X
N i =1
i
− X
)=
0
(2)各变量值与其算术平均数的离差平方和最小: )各变量值与其算术平均数的离差平方和最小:
∑ (X
N i =1
i
− X
)
2
= min
▲注意: 注意: 均值容易受到统计数据中个别极端数据的影响, 均值容易受到统计数据中个别极端数据的影响, 从而使均值代表某组统计数据的“平均水平” 从而使均值代表某组统计数据的“平均水平”时失 去意义,这时往往用“剔除极端值” 去意义,这时往往用“剔除极端值”的方法加以修 正。 的最高值用10000代替, 代替, 如例1中,如果将月薪 中 如果将月薪2825的最高值用 的最高值用 代替 则均值为3038 则均值为
S m −1 + f m + S m +1 = ∑ f
某班级英语考试成绩分组情况见下表: 例4.某班级英语考试成绩分组情况见下表: 某班级英语考试成绩分组情况见下表
成绩分组 人数 (分) 50以下 2 以下 50~60 5 60~70 10 累计人数 2 7 17 成绩分组 (分) 70~80 80~90 90以上 以上 人数 18 9 6 累计人数 35 44 50
X < Me < Mo
当分布右偏时(说明存在极端大的值) 当分布右偏时(说明存在极端大的值)
X > Me > Mo
3.在偏斜度适度的情况下,不论是左偏还是右偏,中位数与 在偏斜度适度的情况下,不论是左偏还是右偏, 在偏斜度适度的情况下 算术平均数之差约等于众数与算术平均数之差的1/3, 算术平均数之差约等于众数与算术平均数之差的 ,即有如 下经验公式: 下经验公式: 1 M e − X = (M O − X ) 3

集中趋势和离散趋势的描述

集中趋势和离散趋势的描述

n +1 ) 2
1 M = X n +X n ( +1) 2 (2) 2

7名病人患某病的潜伏期分别为 2,3,4,5,6,9,16 求其中位数。 求其中位数。 本例n=7,为奇数 本例n=7,为奇数 天,
M=X
7 +1 ( ) 2
= X 4 = 5(天)
例 8名患者食物中毒的潜伏期分别为 1,2,2,3,5,8,15,24 15, 求其中位数。 求其中位数。 本例n 本例n=8, 为偶数 小时, 小时,
12 P25 = 36 + (118 × 25% − 21) = 39.2 (天) 32
12 P75 = 60 + (118 × 75% − 77) = 67.7 (天) 18
离散变量百分位数
产后出血的产妇中平均有几次人工流产史? 例 产后出血的产妇中平均有几次人工流产史?
Valid Frequency
百分数: 为整数: (1)第5百分数:n=120, ×5% = 6,为整数: ) 百分数 , 120
1 1 P5 = X ( 6 ) + X ( 7 ) = (3 + 4) = 3.5( 天 ) 2 2
住院天数: 住院天数: 2 2 2 3 3 4 4 5 ⋯ 40 1 序 (2)第99百分位数: 99百分位数: 百分位数
40 42 45 号:1 2 3 4 5 6 7 8 9 ⋯ 117 118 119 120
120 × 99% = 118.8
带有小数,故取整后 带有小数,故取整后trunc(118.8)= 118 )
P = X (trunc(118.8)+1) = X (119) = 42(天) 99

第二章统计描述

第二章统计描述

G ' lg1(
fi lg Xi ) lg1(
1 0.6021 4 0.9031
1 2.709Байду номын сангаас )
fi
40
lg1(67.1282) 48 40
G 1: 48
中位数(median, M)
适合于表达偏态资料、或分布不明的资料的平 均水平,尤其适合于表达只知数据的个数、但 部分较大或较小数据的具体数值未准确知道的 资料的平均水平。
血清总胆固醇 2.5~ 3.0~ 3.5~ 4.0~ 4.5~ 5.0~ 5.5~ 6.0~ 6.5~
7.0~7.5 合计
频数f 1 8 9 23 25 17 9 6 2 1
101
fx 2.75 26 33.75 97.75 118.75 89.25 51.75 37.5 13.5 7.25 478.25
13
174
单侧正常值范围的上限为 1.81
14
188
(mol/L)。
1.69~
4
192
1.93~
4
196
2.17~
1
197
2.42~
2
199
2.66~
0
199
2.90~3.14
1
200
3.四分位数间距(quartile interval, Q)
Q=P75-P25
Q=QU-QL
优缺点:用四分位数间距作为描述数据分布离散 程度的指标,比极差稳定,但仍未考虑到每个数 据的大小,常用于描述偏态频数分布以及分布的 一端或两端无确切数值资料的离散程度。
第1四分位数记作Q1,第2、第3四分位数,分别记作 Q2、Q3;第1百分位数,记作P1。同理,还有第2、第 3、 ···、第99百分位数,分别记作P2、P3、 ···、P99。

第2章集中趋势的统计描述

第2章集中趋势的统计描述

计算方法:
1. 直接法
X x1 x2 xn x
n
n
X 4.76 5.26 5.61 ... 5.02 4.76 4.77(1012 / L) 140
2. 加权法
X f1x1 f2 x2 fk xk fx
n
n
X 23.90 6 4.10 11 4.30 ...15.90 4.78(1012 / L) 140
5.60~ T
5.70
5.80~6.00 一
5.90
频数
(4) 2 6 11 25 32 27 17 13 4 2 1
频率(%) (5)
1.4 4.3 7.9 17.9 22.9 19.3 12.1 9.3 2.9 1.4 0.7
二、直方图(histogram)
3.8 4.0 4.2 4.4 4.6 4.8 5.0 5.2 5.4 5.6 5.8 6.0
红细胞数 划记
组中值
1012 / L(1) (2)
(3)
3.80~ T
3.90
4.00~ 正一
4.10
4.20~ 正正一
4.30
4.40~ 正正正正正 4.50
4.60~ 正正正正正正T 4.70
4.80~ 正正正正正 T 4.90
5.00~ 正正正T
5.10
5.20~ 正正 T
5.30
5.40~
5.50
0.00 .50 1.00 1.50 2.00 2.50 3.00 3.50 4.00
VAR00001
C ases weighted by VA R00002
负偏态分布
某地某年恶性肿瘤死亡率的年龄分布
年龄组 0~ 10~ 20~ 30~ 40~ 50~ 60~ 70~

统计学第2章 数据分布特征的描述(2)

统计学第2章 数据分布特征的描述(2)
①对于未分组资料
N ②对于分组数据(组距式变量数列要先计算出各组组中
值来作为各组的变量值 X )
σ
2
σ2
X X
2
X X F
2
F
(2)总体标准差(σ)
①对于未分组资料:
σ
X X
N
2
②对于分组数据: σ
X X F F
2
2、样本方差( S
1、单项式变量数列
标志值 x x1 x2 x3
. . . .
次数 f f1 f2 f3
. . . .
标志总量 xf x1f1 x2f2 x3f3
. . . .
比重 f/ ∑f f1/ ∑f f2/ ∑f f3/ ∑f
. . . .
xn 合 计
fn
∑f
xn fn
∑xf
fn/ ∑f 1
f xf x x f f
3 n 1 Q3是第 位置上的数值; Q4是最大值。 4
注意:
1、如果数据个数不能被4除尽时,还是按这个规则来确定分位 数的位置;2、有时可能出现分位数在两个数之间的情况,这时
如果分位数刚好在这两个数的正中间时,分位数就是这两个数相 加除以2。但有时不是刚好在这两个数的正中间时,要用其中比较 小的数加上按比例分摊的这两个数之间的距离。
见第33页的例题
三、方差和标准差
(一)概念
各变量值与其算术平均数离差平方的算术平均数叫方差; 方差的方根就是标准差。 注意:由于标准差与变量值的单位相同,其实际意义要比方 差清楚,因此在对社会经济现象进行分析时,更多使用标准差。
(二)计算
1、总体方差(σ2)和总体标准差(σ)
(1)总体方差(σ2)

统计学简答题

统计学简答题

医学统计学简答题第二章定量数据的统计描述1.变异系数与标准差的区别标准差使用的度量衡单位与原始数据相同,在两组数据均数相差不大,单位也相同时,从标准差的大小就可以直接比较两样本的变异程度。

但是有时我们需要对均数相差较大或单位不同的几组观测值的变异程度进行比较,标准差不再适宜,这时就应该使用变异系数了。

2.集中趋势和离散趋势的指标及适用范围(1)集中趋势:算术均数、几何均数、中位数,统称平均数,均反映集中趋势。

算术均数:主要适用于对称分布,尤其适合正态分布资料。

几何均数:应用于对数正态分布,也可应用于呈倍数关系的等比资料。

在医院中主要用于抗原(体)滴度资料。

中位数:适合条件:a.极偏态资料。

b.有不确定的数据(有>或<)。

c.有特大值或特小值。

d.分布不明的资料。

(2)离散趋势:极差、四分位数间距、方差和标准差、变异系数均反映离散趋势极差:除了两端有不确定数据之外,均可计算极差。

四分位间距:用于描述偏态分布资料。

方差和标准差:用于描述正态分布计量资料的离散程度。

变异系数:a.均数相差较大。

b.单位不同。

3.简述变异系数的实用时机变异系数适用于变量单位不同或均数差别较大时,直接比较无可比性,适用变异系数比较。

4.怎样正确描述一组计量资料(1)根据分布类型选择指标(2)正态分布资料选用均数与标准差,对数正态分布资料选用几何均数,一般偏态分布资料选用中位数与四分位数间距。

5.标准差与标准误的联系和区别有哪些?区别:(1)概念不同:标准差是描述观察值(个体值)之间的变异程度,S越小,均数的代表性越好;标准误是描述样本均数的抽样误差,标准误越小,均数的可靠性越高。

(2)用途不同:标准差与均数结合估计参考值范围。

(3)计算含量的关系不同:当样本含量n足够大时,标准差趋向稳定;而标准误随n的增大而减小,甚至趋于0。

联系:标准差、标准误均为变异指标,当样本含量不变是,标准误与标准差成正比。

6.正态分布的主要特征(1)正态曲线在横轴上方均数处最高,即频数最大(2)正态分布以均数为中心,左右对称,无限接近于x轴(3)曲线与横轴所围面积为1。

社会统计学3

社会统计学3

3. 均值计算:3. 均值算:四、众值、中位值、平均值的性质 众值性质: 1.分组资料中,众值受上下相邻两组频数 大小影响,而不受极端值的影响。 2.受抽样变动影响较大。 3.在反映集中趋势指标中,众值不唯一。 4.在频数分布中,众值标示其“峰值”所 对应的位置,优点—易区分偏态、单峰、 多峰
中位值性质: 1.中位值不受极端值影响。 2.分组资料有开放组时,仍可求中位值。 3.中位值受抽样变动的影响比均值略大。
均值性质: 1.各变量值与平均值的离差和为0。 2.各变量值与平均值离差的平方和小于它 们对任何其它数偏差的平方和。 3.平均值受抽样变动影响微小,是反映总 体分布集中趋势的最佳指标。 4.平均值受极端值影响较大。 5.分组数据有开放组时,不经处理,不能 计算平均值。
五、几何平均数
1. 几何平均数 N个变量值连乘积的N次方根,用Mg 2. 用途: 用以计算某种比率的平均数 用以计算大致具有几何级数关系的一组数字的平均数 3. 公式: N
Mg = X1X2X3…XN
六、调和平均数
1. 调和平均数 N个变量值倒数算术平均数的倒数,用Mh 2. 公式: 1
Mh = 1 X1 1 X2 1 X3 N … 1 XN
用此公式计算上例: Md=L+(N/2-cf )(U-L)/n =25+(212/2-94)(35-25)/30 =29 中位值具有估计或预测的意义。如上例机 械化率研究,假定从212个乡中任取一个乡, 我们应估计其机械化率是29%,长远来说, 以中位值去估计定序变量的数值,所犯的 错误总数是最小的。
3.中位值的计算 原始资料 分组资料
(1)原始资料 方法:Ⅰ 将各个案由小到大排序,居于序列中央位置 的个案的值就是中位值 Ⅱ 求出Md 位置: Md 位置=(n+1)/2 Ⅲ 求出Md

统计学知识点(完整)

统计学知识点(完整)

基本统计方法第一章概论1。

总体(Population):根据研究目的确定的同质对象的全体(集合);样本(Sample):从总体中随机抽取的部分具有代表性的研究对象。

2。

参数(Parameter):反映总体特征的统计指标,如总体均数、标准差等,用希腊字母表示,是固定的常数;统计量(Statistic):反映样本特征的统计指标,如样本均数、标准差等,采用拉丁字字母表示,是在参数附近波动的随机变量。

3. 统计资料分类:定量(计量)资料、定性(计数)资料、等级资料。

第二章计量资料统计描述1. 集中趋势:均数(算术、几何)、中位数、众数2。

离散趋势:极差、四分位间距(QR=P75—P25)、标准差(或方差)、变异系数(CV)3。

正态分布特征:①X轴上方关于X=μ对称的钟形曲线;②X=μ时,f(X)取得最大值;③有两个参数,位置参数μ和形态参数σ;④曲线下面积为1,区间μ±σ的面积为68.27%,区间μ±1.96σ的面积为95.00%,区间μ±2。

58σ的面积为99。

00%。

4. 医学参考值范围的制定方法:正态近似法:;百分位数法:P2.5-P97.5。

第三章总体均数估计和假设检验1。

抽样误差(Sampling Error):由个体变异产生、随机抽样造成的样本统计量与总体参数的差异。

抽样误差不可避免,产生的根本原因是生物个体的变异性.2。

均数的标准误(Standard error of Mean, SEM):样本均数的标准差,计算公式:.反映样本均数间的离散程度,说明抽样误差的大小。

3。

降低抽样误差的途径有:①通过增加样本含量n;②通过设计减少S。

4。

t分布特征:①单峰分布,以0为中心,左右对称;②形态取决于自由度ν,ν越小,t值越分散,t分布的峰部越矮而尾部翘得越高;③当ν逼近∞,逼近,t分布逼近u分布,故标准正态分布是t分布的特例.5. 置信区间(Confidence Interval,CI):按预先给定的概率(1—α)确定的包含总体参数的一个范围,计算公式:或。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

二、几何均数
几何均数( geometric mean), 样本几何 均数用G表示,总体几何均数用 G表示。
(一)适用范围
几何均数适用于等比级数资料、各观察值 间呈近似倍数关系的资料或对数正态分布 资料。 多用于血清学、微生物学、免疫学中 如抗体的效价等。
(二)计算方法
1. 直接法
1
G n X1 X 2 X n
n 0.5 f L M L( )im fm
计算例2.4中百分位数P25、P75、P90的位置
630 0.25 27 P25 0.40 ( ) 0.30 0.632 (mmol / L) 169 630 0.75 457 P75 1.30 ( ) 0.30 1.357 (mmol / L) 81
计算方法:
1. 直接法
x1 x2 xn x X n n
4.76 5.26 5.61 ... 5.02 4.76 X 4.77 (1012 / L) 140
2. 加权法
f1 x1 f 2 x2 f k xk fx X n n
N/2
180 150 120 90 60 30
0.7以前有196人,离中位 数还差(315-196=)119人。
0.7~1.0组含167人,组距为0.3,每 一个人分得0.30 / 167=0.0018 。 119×0.0018=0.214 ,等 于119人占有的组距。
0
0.1 0.4 0.7 1.0 1.3 1.6 1.9 2.2 2.5 2.8 3.1
频数分布的类型 :
•正态分布
•偏态分布
某地区130名正常成年男子红细胞数(1012/L)的频数分布
红细胞数 (1) 3.70~ 3.90~ 4.10~ 4.30~ 4.50~ 4.70~ 4.90~ 5.10~ 5.30~ 5.50~ 5.70~5.90 合 计 划 记 (2) || |||| 正|||| 正正正 | 正正正正 | | 正正正正正 正正正正 | 正正正 | | 正|||| |||| | — 频 数 (3) 2 4 9 16 22 25 21 17 9 4 1 130
数据,如果是计量资料并且观察的例数较 多,为了能够显示数据的分布规律,可以 对数据进行分组,然后制作频数表或绘制 直方图。
第一节 频数分布
一、频数表(Frequency Table)
编制频数分布表步骤:
1. 确定组数: (k)8~15之间 样本含量较大时,组段数多一些,反之, 可少一点。以能够反映出资料的分布规 律为准。
VAR00001
C ases weighted by VA R00002
第二节
平均数
• 平均数(average)是描述一组观察 值集中趋势或平均水平的统计指标。 • 算术均数、几何均数、中位数是医 学统计学中应用最广泛、最重要的 指标体系。
一、算术均数
算术均数(arithmetic mean),简称均 数(mean)。样本均数(sample mean) 用X表示,总体均数(population mean) 用μ表示。 (一)适用范围 适用于对称分布、正态分布(近似正态 分布)的资料。
(二)百分位数(percentile) • 描述资料的观察值序列在某百分位 置的水平。 • 符号:Px,x 即百分位。 • 百分位数Px是指在一组数据中找到 这样一个值,全部观察值的x%小于 Px,其余(100-x)%大于Px。
n x% f L Px L ( )ix fm
例2.5
lg X lg X 1 lg X 2 lg X n 1 G lg ( ) lg ( ) n n
例:测得10人血清滴度的倒数分别为2, 2,4, 4,8, 8, 8,8,32,32,求平均血清滴度。
lg 2 lg 4 lg 4 lg 8 lg 32 G lg ( )7 10
年龄组 0~ 10~ 20~ 30~ 40~ 50~ 60~ 70~
恶性肿瘤死亡率(1/10万) 0.5 12 15 76 189 234 386 286
500
400
300
200
100 Std. Dev = 13.35 Mean = 54.4 0 0.0 10.0 20.0 30.0 40.0 50.0 60.0 70.0 N = 1198.50
编制频数分布表步骤:
2. 确定组距: 组距可以相等也可以不相等,根据资料 的特征而定,以能够反映出资料的分布 规律为准。 3.确定组限: 应符合专业习惯 4.对各组段计数:划记或由软件完成
例2.1 某地用随机抽样方法检查了140名成年男子的
红细胞数,检测结果如表所示:
4.76 4.92 4.70 5.24 4.63 5.26 4.27 4.81 4.97 …… 5.61 4.77 4.93 4.71 5.02 5.95 4.88 5.04 4.44 4.76 4.46 5.00 4.40 4.94 4.57 4.73 5.27 5.05 4.31 4.47 4.63 4.78 5.18 5.34 5.50 4.52
70
60
50
40
30
20
10 0 0.00 .50 1.00 1.50 2.00 2.50 3.00 3.50 4.00
Std. Dev = .69 Mean = 1.17 N = 232.00
VAR00001
C ases weighted by VA R00002
负偏态分布
某地某年恶性肿瘤死亡率的年龄分布
频数 (4) 2 6 11 25 32 27 17 13 4 2 1 频率(%) (5) 1.4 4.3 7.9 17.9 22.9 19.3 12.1 9.3 2.9 1.4 0.7
红细胞数 划记 组中值 1012 / L (1) (2) (3) 3.80~ T 3.90 4.00~ 正一 4.10 4.20~ 正正一 4.30 4.40~ 正正正正正 4.50 4.60~ 正正正正正正T 4.70 4.80~ 正正正正正 T 4.90 5.00~ 正正正T 5.10 5.20~ 正正 T 5.30 5.40~ 5.50 5.60~ T 5.70 5.80~6.00 一 5.90
196 630/2=315
0.70+0.214=0.914 (中位数)
n 0.5 f L M L( )im fm
n 0.5 f L M L( )im fm 630 0.5 196 0.70 ( ) 0.30 0.914(m m ol/ L) 167
如何有效地组织、整理和表达数据的信息?
例2.1 :
1. 确定组数 10组 2. 求全距 R=5.95-3.82=2.13 3. 求组距 i=R/k =后一 组上限为6.0。 5. 绘制频数表,划记归组。
表 2- 2
某地140名正常男子红细胞数的频数表
第二章
集中趋势(平均水平) 的统计描述
学习目的和要求:
掌握: 频数分布表及其作用,描述数据分布集 中趋势的指标; 熟悉: 连续性变量的频数分布图。
•同时列出观察指标的 (Frequency Distribution) 可能取值区间及其在各 区间内出现的频数的表 格称为频数表。 • 由实验或临床观察等各种方式得到的原始
(一)中位数(median M)
1. 小样本资料 n为奇数时:中位数在(n+1)/2处 n为偶数时:中位数在[n/2+(n/2+1)]/2处 2. 大样本资料
n 0.5 f L M L( )im fm
例2.4 某地630名正常女性血清甘油三酯含量的频数表 甘油三酯(mmol/L) 频数 累积频数 累积频率 (1) (2) (3) (4) 0.10~ 27 27 4.3 0.40~ 169 196 31.1 0.70~ 167 363 57.6 1.00~ 94 457 72.5 1.30~ 81 538 85.4 1.60~ 42 580 92.1 1.90~ 28 608 96.5 2.20~ 14 622 98.7 2.50~ 4 626 99.4 2.80~ 3 629 99.8 3.10~ 1 630 100.0 合计 630 - -
630 0.95 538 P90 1.60 ( ) 0.30 1.807 (mmol / L) 42
例2.4 某地630名正常女性血清甘油三酯含量的频数表 甘油三酯(mmol/L) 频数 累积频数 累积频率 (1) (2) (3) (4) 0.10~ 27 27 4.3 0.40~ 169 196 31.1 0.70~ 167 363 57.6 1.00~ 94 457 72.5 1.30~ 81 538 85.4 1.60~ 42 580 92.1 1.90~ 28 608 96.5 2.20~ 14 622 98.7 2.50~ 4 626 99.4 2.80~ 3 629 99.8 3.10~ 1 630 100.0 合计 630 - -
二、直方图(histogram)
3.8 4.0 4.2 4.4 4.6 4.8 5.0 5.2 5.4 5.6 5.8 6.0 红细胞数( 1012/L)
140名正常男子红细胞计数的直方图
三、频数分布表的用途
1.可以代替繁杂的原始数据,提供分组 数据,便于进一步计算与分析; 2.便于观察数据的分布特征; 3.便于发现资料中某些远离群体的特大 或特小可疑值。 4.当样本含量较大时,可用各组段的频 率作为概率的估计值。
x
x
,则
三、中位数和百分位数
中位数(median),是将一组观察值按从小 到大的顺序排列,位次居中的数值。样本中 位数用M表示,总体中位数用 M 表示。
适用范围:
• 用中位数表示一组观察值的平均水平,不受 个别特大或特小数据的影响,因此适用于:
相关文档
最新文档