2017.3.16-统计学-计量资料的统计描述方法
计量资料的统计描述
中位数(M)和百分位数(P)
中位数(median, M)是将一组观察值从小到大 按顺序排列,位次居中的数值对应的观察值就是 中位数。因而全部观察值中,大于和小于中位数 的观察值的个数相等。 百分位数(percentile,P)是指把一组资料的全 部观测值分为两部分,理论上讲,有x%的观测值 比Px小,有(100-x)%的观测值比Px大。中位数 是特定的百分位数,即P50,它是表示一组资料集 中位置的指标。
计算器功能简介
MODE或D·R·G:模式转换
DEG:degree 角度 RAD:radian 弧度 GRA:gradient 梯度
INV、 SHIFT或2nd F:第二功能键 SD 或 STAT:统计分析功能 x ,n,Σx,Σx2, σn (σX , σ),σn-1(sX , s)。 X 、 data 或DT:数据储存
标准差的应用
标准差是反映数据变异程度的指标,其大 小受每一个观察值的影响。 常用于描述对称分布,尤其是正态分布或 近似正态分布资料的离散程度。 随着样本量增大,标准差逐渐趋于稳定。
变异系数(CV)
CV =s/ x ×100% 它是反映相对变异度的指标。 变异系数常用于:
测量单位不同的几组资料变异度的比较; 均数相差悬殊的几组资料变异度的比较。
H = R 1 + 3 . 322 lg N
第一组段必须包括最小值,一般取略小于最小值 的整数作为第一组的下限;最后一个组段应该包 括最大值,并且封口,但最后一个组段的上限不 能等于最大值。
频数表的编制
3.列表划记,统计各组段频数。 4.计算频率与累计频率
频数分布的两个特征
体重虽有轻有重,但都向35~组段集中,数据大多 数集中在32~38组段,共83人,占总人数的55%, 这种趋势称为集中趋势 集中趋势。 集中趋势 另一方面,随体重逐渐变大或变小,仍有小部分变 量值存在,称这种特征为离散趋势 离散趋势。 离散趋势 集中趋势和离散趋势是频数分布的两个重要特征。
统计学--第二章计量资料的统计描述幻灯片PPT
乙组 24 27 30 33 36
丙组 26 29 30 31 34
课件
36
离散程度(或变异程度)
指数据参差不齐的程度,反映资料的 离散趋势。
将反映平均水平与离散程度的指标结 合起来使用,可全面地描述数据的分 布规律。
课件
37
(一)全距(或极差 , Range )
(53.0 55.0) / 2 54(cm)
数。
课件
28
中位数的应用
中位数可用于任何分布的定量资料; 资料的分布呈明显偏态,特别是负偏态; 分布的一端或两端无确定的数值;
(如:>50, 或 <10)
资料的分布不清。 注意:在完全对称的单峰曲线分布中,同
一组资料的均数与中位数相同, Mean = Median
XX22XX2
XX2 2 XX2
课件
19
(二)几何均数 Geometric mean,
G
反映一组呈倍数关系的观察值的平 均水平
适用:数据呈正偏态分布,经对数 转换后呈正态分布。多用于观察值 之间呈倍数关系,如抗体滴度
计算方法
➢直接法
➢加权法
课件
20
1.直接法
G n X1X2...Xn
lg1lgX1 lgX1 ...lgXn
对称分布
正偏态分布
课件
负偏态分布
9
三、频数表和频数分布图的用途
揭示变量的分布特征和分布类型; 便于进一步计算指标和统计分析处
理; 便于发现某些特大或特小的可疑值
。
课件
10
频数分布的两个特征
集中趋势,central tendency
指变量值的中心数值或中心位置所在。
第2章计量资料的统计描述(改)
3、与中位数相比,算术平均数对数据变化的 “灵敏度”很高。但算术平均数极容易受到 个别极端值的影响,即对极端值的“耐抗性” 较低。实际应用中,可根据这些特点和分析 的要求,审慎的选择有关指标。
4、适用资料的类型:算术平均数和中位数均 适用于定量资料,但中位数还适用于有序分 类资料。
2.几何均数
意义:N个数值的乘积开N次方即为这N个数
的几何均数。
表示:G 计算:Gn x1x2..x .n 或 应用:原始数据分布不对称,经对数转换后
呈对称分布的资料。数值范围跨越多个数量级。 例如抗体滴度。
例2-4 某地5例微丝蚴血症患者治疗7年后用间接 荧光抗体试验测得其抗体滴度倒数分别为10, 20 ,40,40,160,求几何均数。
得:M= 1 2
(X(8 )+X(8
2
2
+1))=12 (X4+X5)
= 1 (3+5)=4(小时) 2
例2-8 试计算表2-2某医院1123名产后出血孕妇 人工流产次数的中位数。
本例为离散型计量资料。因n=1123,故中 位 数 是 从 小 到 大 排 序 后 居 于 ( n+1)/2= (1123+1)/2=562位的观察值。据表2-2,排在 第1~402位的观察值均为“0”,其累计频率为 35.80%,排在403~732位的观察值均为“1”, 其累计频率为65.18%,余类推。第562位数属于 第二个变量值,即人工流产次数为“1”,故某 医院1123名产后出血孕妇人工流产次数的中位 数M=X562=1。
本例n=7,为奇数,按公式(2-5) n为奇数时:M= X ( n 1 ) ,
2
得
M
=
X = ( ) 7 1 2
2.计量资料的统计描述
20
组 段 (1) 124~ ~ 128~ ~ 132~ ~ 136~ ~ 140~ ~ 144~ ~ 148~ ~ 152~ ~ 156~ ~ 160~ ~ 合 计
频 数 (2) 1 2 10 22 37 26 15 4 2 1 120
累计频数 (3) 1 3 13 35 72 98 113 117 119 120
12
第二节
简称均数
描述集中趋势的指标
算数均数( 算数均数(mean) ) 适用条件:对称分布, 适用条件:对称分布,尤其是正态分布或近似正态分布 表示:总体均数用μ表示;样本均数用 表示:总体均数用μ表示; 意义:描述一组同质资料的平均水平。 意义:描述一组同质资料的平均水平。 计算方法: 计算方法: 直接法 间接法(频数表法) 间接法(频数表法)
19
频数表法:适用于样本量较大的计量资料, 频数表法:适用于样本量较大的计量资料,如频数表 资料。 资料。
M所在组下限 其中 LM:M所在组下限 i:M所在组组距 : 所在组组距 fM:M所在组频数 所在组频数 n:样本例数 : ΣfL:M所在组段之前的累计频数 所在组段之前的 所在组段之前的累计频数
统计描述是统计分析的最基本内容 统计描述的三种形式: 统计描述的三种形式
统计表 统计图 统计指标
2
第一节 频数分布表和频率分布图
岁女孩身高( )资料如下: 例2-1、某市 、某市2005年100名18岁女孩身高(cm)资料如下: 年 名 岁女孩身高 165.1 169.6 163.0 166.5 160.9 156.6 169.3 165.9 162.0 165.3 165.1 164.0 159.9 171.2 169.1 168.0 160.6 157.1 162.5 165.8 161.5 166.3 168.5 167.1 161.0 159.0 167.3 157.2 163.7 163.1 166.1 167.5 166.0 158.5 161.2 167.5 158.2 154.7 155.6 168.2 162.8 163.6 164.2 161.8 160.7 173.6 159.8 158.0 159.4 158.2 166.2 166.1 156.8 166.6 161.5 162.0 160.6 164.3 161.9 167.2 170.2 160.4 163.0 163.5 162.9 167.4 162.2 162.7 169.7 159.9 165.2 169.0 162.3 164.6 163.4 170.6 162.8 163.1 164.0 161.2 161.0 161.3 165.0 160.4 168.9 165.0 164.2 165.2 162.6 164.5 161.5 162.6 158.3 165.1 170.5 166.8 165.8 164.5 167.5 162.8
第七章 计量资料的统计方法
学定量指标时,通常是先凭理论或经验(包括查文献)来判断该指标符合什
么总体分布,至于用频数表和频数分布图来判断一个指标符合什么总体分
布,需要大样本。
1.均数均数是算术平均数的简称,是最重要的平均数。均数最适用于对
称分布资料,特别是正态分布资料。总体均数用μ表示,样本均数作 表示。
组中值 X
(2)
频数 f
(3)
fX
(4)=(2)(3)
fX
2
(5)=(2)(4)
3.70 ~3.8027.6028.88
3.90 ~4.00416.0064.00
4.10 ~4.20937.80158.76
4.30 ~4.401670.40309.76
4.50 ~4.6022101.20465.52
XH==
62320
130
4794 10
12
.
.(/ )
该地区130名正常成年男子红细胞数的均数为4.794×1012/L。
要说明的是,对于偏态分布资料,均数虽不能较好地反映变量值的平均
水平或集中位置,但据(7·1)式有 n =ΣX,均数可间接反映 n 个变量值
的总体数量水平(∑x)。
段。表 7-2第(3)栏为每个组段的合计变量值个数,称频数。表 7-2的第(1)
栏和第(3)栏即构成频数表。
表 7 - 2 某地区 130 名正常成年男子红细
胞数( 10
12
/L )的频数分布
红细胞数划记频数
(1)(2)(3)
3.70 ~2
第二讲 计量资料的统计描述
意义:一组性质相同的观察值在数量上的平均 水平。 表示 (总体) X(样本) 计算:直接法、间接法、计算机 特征: ∑(X- X)=0 估计误差之和为0。 应用:正态分布或近似正态分布 注意:合理分组,才能求均数,否则没有意义。
12
100名18岁女大学生身高均数的计算(加权法)
身高组段 (1)
0
CHO
9
Std. Dev = 1.12
Mean = 1.55
N = 1049.00
0 .0 15 0 .0 14 0 .0 13 0 .0 12 0 .0 11 0 .0 10 00 9. 00 8. 00 7. 00 6. 00 5. 00 4. 00 3. 00 2. 00 1. 00 0.
15
三、离散程度的描述
描述一组数据参差不齐的程度 全距 四分位数间距 方差 标准差 变异系数
16
1.全距、四分位数间距
R :见上。 Q:上四分位数(P75)Qu与下四分位数Ql (P25)之差,包含了全部观察值的一半。
17
2.标准差
相关概念:离均差、离均差平方和、方差(2 S2 ) 标准差的符号: S 标准差的意义:全面反映了一组观察值的变异程 度.(越大说明围绕均数越离散,反之说明较集中在 均数周围,均数代表性越好) 标准差的计算(公式):见课本 标准差的应用:描述变异程度、计算标准误、计算 变异系数、描述正态分布、估计正常值范围
6
频数分布的两个特征: 集中趋势与离散趋势 频数分布的类型: 对称分布与偏态分布(集中位置偏向 小的一侧叫正偏态,反之叫负偏态) 频数表的主要用途:
1. 揭示分布类型
2. 发现特大值和特小值
计量资料的统计描述
4.66 4.28 3.83 4.20 5.24 4.02 4.33 3.76 4.81 4.17 3.96 3.27
4.61 4.26 3.96 4.23 3.76 4.01 4.29 3.67 3.39 4.12 4.27 3.61
4.98 4.24 3.83 4.20 3.71 4.03 4.34 4.69 3.62 4.18 4.26 4.36
M
x
n
2
x
n
2
1
2
4
百分位数(percentile)
0%
PX
M 即50%分位数就是中位数
100%
27
1.直接计算法
28
例2-9 对某医院细菌性痢疾治愈者的住院天数统计, 119名患者的住院天数从小到大的排列如下, 试求第5百分位数和第99百分位数
患 者 1 2 3 4 5 6 7 8 116 117 118 119 住院天数 1 1 2 2 2 3 4 4 39 40 40 42
3.77 4.20 4.36 3.07 4.89 3.97 4.28 3.64 4.66 4.04 4.55 4.25
4.63 3.91 4.41 3.52 5.03 4.01 4.30 4.19 4.75 4.14 4.57 4.26
4.56 3.79 3.89 4.21 4.95 3.98 4.29 3.67 4.69 4.12 4.56 4.26
第一篇 基本统计方法
1
第二章 计量资料的统计描述
Descriptions of Measurement Data
2
Chapt 2
Frequency distribution
Description of central tendency
计量资料的统计描述
例4-2-3:利用表4-2-1计算某社区101名 正常成年女子的血总胆固醇的均数。
X 1´ 2.45 3´ 2.75 L1´ 5.75 409.75 4.06(mmol/L) 1 3L 1 101
(二)几何均数 几何均数(geometric mean G)适用于观 察值变化范围跨越多个数量级的资料。 几何均数适用于成等比级数的资料,特别是 对数正态分布资料。
例4-2-5:2004年某社区52例慢性肝炎患者的 HBsAg滴度数据如表4-2-3。试计算滴度的几何 均数。
(三)中位数 中位数(median M)是将变量值从小到 大排列,位置居于中间的那个变量值, 称为中位数。可用于各种分布的定量资 料,特别是偏态分布资料和开囗资料 (一端或两端无确切数值的资料)。
S CV ´ 100% X
S为标准差,X 为均数。
(公式4-2-15)
(六)运用变异指标的注意事项
1.变异指标表示变量值的变异程度或离散趋势,常与集中指 标平均数结合运用,说明变量值集中的位置与离散程度。 2.变异指标种类虽多,但任一变异指标,其值大表示变异大, 数值参差不齐;值小表示变异小,数值比较集中在平均数 周围。比较两个或几个同类事物的变异,要用同一变异指 标。 3.正态分布资料宜用均数与标准差描述集中与离散趋势。有 了均数与标准差就可根据正态分布理论将频数分布描绘出 来。偏态分布资料宜用中位数及四分位数间距、极差等描 述其集中趋势和变异程度。 4. 比较几组资料的变异程度,若各组资料的单位不全相同, 或均数相差悬殊时,宜用变异系数描述其变异程度。
(四) 百分位数 将频数等分为十或一百的分位数称十分位 数或百分位数 。 百分位数的符号为Px,X代表第X百分位。 一个百分位数Px将全部变量值分为两部分, 在不包含Px的全部变量值中有x%的变量 值比它小,(100-x)%变量值比它大。
第二章 计量资料的统计描述PPT课件
12.1
120
85.8
5.20~ 13 5.30
9.3
133
95.1
5.40~
4 5.50
2.913798.0Fra bibliotek5.60~
2 5.70
1.4
139
99.4
5.80~6.00 1 5.90
0.7
140
合计 140
140
100.0 10
100.0
表2-3 某地140名正常男子红细胞数的频数表
红细胞数
3.80~ 4.00~ 4.20~ 4.40~ 4.60~ 4.80~ 5.00~ 5.20~ 5.40~ 5.60~ 5.80~ 6.00 合计
13
三、频数分布的两个重要特征:
1.集中趋势(central tendency): 指变量值的集中位置所在。
2. 离散趋势(tendency of dispersion): 指变量值围绕集中位置的分布情况。
14
四、频数分布的类型:
1. 对称分布: 各组段的频数以频数最多组 段为中心(集中位置在中间), 左右两侧大体对称。
6
4.49 4.22 4.71 5.21 4.94 4.68 5.17 4.91 5.02 4.76
一、频数表的编制 1、确定组数k :通常选择8 ~15之间。若
资料在100例以上,一般取10组左右; 若例数 较少, 组数相应减少。以能显示数据的分 布规律为宜。 2、计算极差(全距),确定组距 i :
第二章
计量资料的统计描述
1
概述
1
点击输入简要文字内容,文字内容需概括精炼,不用多余 的文字修饰,言简意赅的说明分项内容……
2
点击输入简要文字内容,文字内容需概括精炼,不用多余 的文字修饰,言简意赅的说明分项内容……
统计学计量资料的统计描述方法
计量资料的统计描述方法怎样表达一组数据?描述计量资料的常用指标—A、描述平均水平(中心位置):均数X、中位数和百分位数、几何均数G、众数(mode)B、描述数据的分散程度:标准差、四分位数间距、变异系数、方差、全距(一)均数mean和标准差standard deviation1. (算术)均数X均数是描述一组计量资料平均水平或集中趋势的指标。
*直接计算公式:应用条件:适用于对称分布,特别是正态分布资料。
2. 中位数(median)M和百分位数(percentile)A.中位数M是将一组观察值从小到大排序后,居于中间位置的那个值或两个中间值的平均值。
应用条件:用于任何分布类型,包括偏态资料、两端数据无界限的资料。
计算:n为奇数时--n为偶数时--9人数据:12,13,14, 14, 15, 15, 15, 17, 19天B.百分位数是将N 个观察值从小到大依次排列,再分成100等份,对应于X%位的数值即为第X 百分位数。
中位数是第百分50位数。
四分位数间距(quartile range )= 第25百分位数(P25)~第75百分位数(P75)。
四分位数间距用于描述偏态资料的分散程度(代替标准差S ),包含了全部观察值的一半。
百分位数计算(频数表法):X L :第X 百分位数所在组段下限 L Σf :小于X L 各组段的累计频数X i :第X 百分位数所在组段组距 n :总例数 f x :所在组段频数注:有的教材X= r ; L f =C例:求频数表的第25、第75百分位数(四分位数间距)组段频数f 累积频数∑f 56~2 2 59~5 7 62~12 19 ∑f 25 L 25 65~15 34 P 25在此 68~25 59 71~26 85 ∑f 75 L 75 74~19 104 P 75在此 77~15 119 80~10 129 83~851 130 合 计 130① 确定Px 所在组段:P 25所在的组段:n X %=130×25%=32.5,65~组最终的累积频数=34,32.5落在65~组段内;P 75所在的组段:n X %=130×75%=97.5, 此值落在74~组段② 确定Px 所在组段的X L 、X i 、f x 、L Σf③ P 25=65+3x[(130x25%-19)/15]=65.90P75=74+3x[(130x75%-85)/19]=74.66四分位数间距=65.90~74.66 (次/分)3.几何均数G(geometric mean)应用:适用于成等比数列的资料,特别是服从对数正态分布资料。
.3.16-统计学-计量资料的统计描述方法
计量资料的统计描述方法怎样表达一组数据描述计量资料的常用指标 一A 、 描述平均水平(中心位置):均数X 、中位数和百分位数、几何均数 G 、众数(mode )B 、 描述数据的分散程度:标准差、四分位数间距、变异系数、方差、全距(一)均数 mea n 和标准差1.(算术)均数X均数是描述一组计量资料平均水平 或集中趋势的指标。
直接计算公式:应用条件:适用于对称分布,特别是正态分布资料2.中位数(median ) M 和百分位数(percentile )A.中位数M是将一组观察值从小到大排序后,居于中间位置的那个值或两个 中间值的平均值。
应用条件:用于任何分布类型,包括偏态资料、两端数据无界限的资料。
计算:sta ndard deviati onX ! X 2 LX nn 为奇数时--Mx (=n 为偶数时--M X 9 1X 515(天)2如果只调查了前八位中学生,贝y : MX 8+ X 82 (X 4+ X )2 (14+15)/2 14.5(天) ・+ 1 *2 2B.百分位数是将N 个观察值从小到大依次排列,再分成100等份,对应于X%位的数值即为第X 百分位数。
中位数是第百分50位数。
四分位数间距 (quartile range /=第25百分位数(P25)〜第75百分位数(P75)。
四分位数间距用于描述偏态资料的分散程度(代替标准差S ),包 含了全部观察值的一半。
1 — X 门X 门2(2)(2 1)9 人数据:12, 13, 14, 14,15, 15, 15, 17,19 天百分位数计算(频数表法):P X L x -7^ ( nx % f L )f XL x :第X百分位数所在组段下限 E f L:小于L x各组段的累计频数i x:第x百分位数所在组段组距n:总例数f x:所在组段频数注:有的教材x= r ; f L=C 例:求频数表的第25、第75百分位数(四分位数间距)组段频数f累积频数刀f56〜2259〜5762〜1219 刀f25L25 65 〜1534 P25在此68〜255971〜2685 刀f75L75 74 〜19104 P75在此77〜1511980〜1012983 〜851130合计130①确定Px所在组段:P25 所在的组段:n x %=130X 25%=,65〜组最终的累积频数=34,落在65〜组段内;P75所在的组段:n x %=130X 75%=,此值落在74〜组段②确定Px所在组段的L x、i x、f x、E f L③P25= 65+3X[(130X25%- 19)/15]=P75 = 74+3x[(130x75%- 85)/19]=四分位数间距二〜(次/分)3•几何均数G (geometric mean )应用:适用于成等比数列的资料,特别是服从对数正态分布资料。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
计量资料的统计描述方法怎样表达一组数据?描述计量资料的常用指标—A 、描述平均水平(中心位置):均数X 、中位数和百分位数、几何均数G 、众数(mode ) B 、描述数据的分散程度:标准差、四分位数间距、 变异系数、方差、全距(一)均数mean 和标准差standard deviation1. (算术)均数X均数是描述一组计量资料平均水平或集中趋势的指标。
*直接计算公式:应用条件:适用于对称分布,特别是正态分布资料。
2. 中位数(median )M 和百分位数(percentile )A.中位数M是将一组观察值从小到大排序后,居于中间位置的那个值或两个中间值的平均值。
应用条件:用于任何分布类型,包括偏态资料、两端数据无界限的资料。
计算:12nX X X X X nn+++==∑n为奇数时--n为偶数时--9人数据:12,13,14, 14, 15, 15, 15, 17, 19天B.百分位数是将N个观察值从小到大依次排列,再分成100等份,对应于X%位的数值即为第X百分位数。
中位数是第百分50位数。
四分位数间距(quartile range)= 第25百分位数(P25)~第75百分位数(P75)。
四分位数间距用于描述偏态资料的分散程度(代替标准差S),包含了全部观察值的一半。
)(天155219===+XXM8845122221415214.5()M X X X X⎛⎫====⎪⎝⎭+如果只调查了前八位中学生,则:+(+)(+)天百分位数计算(频数表法):X L :第X 百分位数所在组段下限 L Σf :小于X L 各组段的累计频数 X i :第X 百分位数所在组段组距n :总例数 f x :所在组段频数注:有的教材X= r ;L f ∑=C例:求频数表的第25、第75百分位数(四分位数间距)组段 频数f 累积频数∑f 56~ 2 2 59~ 5 762~ 12 19 ∑f 25 L 25 65~15 34 P 25在此68~ 25 5971~ 26 85 ∑f 75 L 75 74~19 104 P 75在此77~ 15 119 80~ 10 129 83~851 130合 计130① 确定Px 所在组段:P 25所在的组段:n X %=130×25%=32.5,65~组最终的累积频数=34,32.5落在65~组段内;P 75所在的组段:n X %=130×75%=97.5, 此值落在74~组段 ② 确定Px 所在组段的X L 、X i 、f x 、L Σf ③ P 25=65+3x[(130x25%-19)/15]=65.90P 75=74+3x[(130x75%-85)/19]=74.66四分位数间距=65.90~74.66 (次/分)3.几何均数G (geometric mean )应用:适用于成等比数列的资料,特别是服从对数正态分布资料。
原始数据分布不对称,经对数转换后呈对称分布的资料。
可用于反映一组经对数转换后呈对称分布或正态分布的变量值在数量上的平均水平。
例如 抗体滴度。
计算:N 个数值的乘积开N 次方, 即为这N 个数的几何均数。
有8份血清的抗体效价分别为1:5, 1:10, 1:20, 1:40, 1:80, 1:160,1:320,1:640,求平均抗体效价。
使用分母计算!平均抗体效价为: 1:57众数是一组观察值中出现频率最高的那个观察值;若为分组资料,众数则是出现频率最高的那个121lg 1lg (lg lg lg )lg lg nG X G X X Xn nXG n-==+++==∑∑为正值,为底的反对数表示以为底的对数;表示以010lg 10lg 1>-X 57.566403201608040201058=⋅⋅⋅⋅⋅⋅⋅=G 1lg [(lg5lg10lg20lg640)/8]56.57G -=++++=组段的组中值。
适用于大样本但较粗糙。
例:有16例病人的发病年龄为42,45,48,51,52,54,55,55,58,58,58,58,61,61,62,62,试求众数。
正态分布时: 均数=中位数=众数正(右)偏态分布时:均数 > 中位数 >众数 负(左)偏态分布时:均数 < 中位数 <众数3. 标准差SS 描述数据的分散程度.描述一组数据在其平均数周围的分布情况,若每个数据集中在其平均数周围,此平均数对这组数据的代表照就大;反之,代表性较差。
标准差S甲组 75 80 85 90 95 100 105 n 1=7 X 1=90s 1=10.8 乙组45607590105 120 135 n 2=7X 2=90s 2=32.4()数据越分散 12-∑-=n X X S ,分子越大。
或者标准差的5应用:描述变异程度、计算标准误、计算变异系数、 描述正态分布、估计正常值范围S 用于正态分布资料S =怎样使用均数和标准差?论文中常用X±S描述对称、正态或近似正态分布数据的特征。
描述偏态资料的分散程度需用四分位数间距P25~P75(代替标准差S)。
方差:方差=S2全距R :R= 最大值–最小值。
简单,但仅利用了两端点值,稳定性差。
变异系数(coefficient of variation,CV):计算:CV=(S/X) 100%,无单位应用:1.单位不同的多组数据比较;2.均数相差悬殊的多组资料什么是正态分布?(二)正态分布(Normal distribution)正态分布是描述连续型变量值分布的曲线. 当例数比较多时,医学上许多资料近似服从正态分布。
正态分布在统计推断上有重要的作用。
正态分布曲线理论上的特征(1)以X= μ均数为中心, X值呈钟型分布,中央高、两端对称性减少、与X轴永不相交。
(2 )在 X= μ处,f(x)取最大值(例数最多)。
(3 )正态分布由均数μ、标准差σ决定曲线的左右位置和高低形状:正态分布有两个参数,即位置参数--均数μ和形态参数--标准差σ。
若固定标准差σ,改变均数μ值,曲线沿着X轴平行移动,其形状不变。
若固定μ,σ越小,曲线形状越陡峭;反之,σ越大,曲线越平坦。
正态分布均数(位置参数)、标准差(变异度)变化示意图正态曲线面积分布规律:①X轴与正态曲线所夹面积恒等于1或100%;②区间μσ±的面积为68.27%;③区间 1.96μσ±的面积为95.00%;④区间 2.58μσ±的面积为99.00%。
正态分布u值表(标准正态分布概率单位值)尾部面积为α的u值,记为uα,称为u界值:尾部面积各为2.5%时(黑色处),其对应的u值为u=±1.96;u=(-2.58,2.58)区间的面积为0.99(空白处)正态分布的应用:1.估计正态分布X 值在特定值范围内的分布比例(概率)。
2.制定某临床指标的参考值范围3.利用估计变量值的范围或对极端值做取舍。
4.许多统计方法的统计推断建立在正态分布基础上。
怎样确定资料是否属正态分布?1.做正态性检验;2.粗略估计: 正态一般X S 31<; X S >者必为偏态!正态分布可用于求参考值范围!(三)医学参考值范围的制定概念 医学参考值是指包括绝大多数“正常人”的各种生理及生化指标常数,也称正常值(背景值)。
正常值是指在一定范围内波动的值,医学上常用95%的范围作为判定正常或异常的参考标准。
制定参考值的基本原则1. 选定正常人:即排除了影响研究指标的有关因素的同质人群。
有足够的样本例数(一般不低于100例)2. 确定参考值范围的百分界限(常用95%)3. 考虑制定单侧或双侧诊断界值:新药肯定比旧药好(旧药肯定比新药差)——单侧 新药可能好,也可能差------------------------------双侧 双侧标准较高,结论较可靠(常用)4. 依分布(正态或偏态) 确定计算方法:(1)正态分布法X±µ·S,其中双侧95%参考值范围公式:X±1.96S单侧95%参考值范围公式:X+1.64S例11.3:已知111人的血铅X=0.010 µg/100ml, S=0.012 µg/100ml 因为血铅可以低而不可以高,故用单侧95%参考值范围X+1.64S=0.010+1.64×0.012=0.030(µg/100ml);血铅95%参考值范围≤0.030 µg/100ml注意:如果资料非正态分布而使用正态分布法,会得出错误结论!!(2)百分位数法适用于偏态分布资料计算公式:双侧界值:P2.5~ P97.5单侧用上界: P95单侧用下界: P5。