计量资料的统计描述
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
频数表的编制
3.列表划记,统计各组段频数。 4.计算频率与累计频率
频数分布的两个特征
体重虽有轻有重,但都向35~组段集中,数据大多 数集中在32~38组段,共83人,占总人数的55%, 这种趋势称为集中趋势。
另一方面,随体重逐渐变大或变小,仍有小部分变 量值存在,称这种特征为离散趋势。 集中趋势和离散趋势是频数分布的两个重要特征。
百分位数(percentile,P)是指把一组资料的全 部观测值分为两部分,理论上讲,有x%的观测值 比Px小,有(100-x)%的观测值比Px大。中位数 是特定的百分位数,即P50,它是表示一组资料集 中位置的指标。
直接法计算中位数
将原始观察值按大小顺序排列:
n为奇数时,
M x
(
n 1 ) 2 n ( ) 2
Xi × f data Xi SHIFT , f data
计量资料的统计描述
随机变量和研究资料的类型
计量 资料 收缩压 白细胞计数 交通事故死亡 人数 疗效(痊愈、 有效、无效) 肺癌类型 计数 等级 资料 资料 连续型 资料 离散型 资料
随机变量和研究资料的类型
计量资料
等级资料 计数资料
34.3 51.0 33.7 32.4 35.6 38.2 35.1 25.3 34.0 35.8 37.3 32.2 42.2
38.1 38.0 29.3 38.5 44.5 41.1 42.9 29.6 34.7 29.7 37.5 33.4 35.3
41.3 43.8 39.6 28.2 46.5 36.2 20.1 38.2 44.4 45.6 41.5 32.4 30.1
观察值不能为0。因为0不能取对数,也不能与任 何其它数呈对数关系。可以把所有的变量值均加 上一个较小的常数,如加1。
观察值不能同时有正值和负值。若全是负值,计 算是可把负号去掉,得出结果后再加上负号。
中位数(M)和百分位数(P)
中位数(median, M)是将一组观察值从小到大 按顺序排列,位次居中的数值对应的观察值就是 中位数。因而全部观察值中,大于和小于中位数 的观察值的个数相等。
计量资料
计量资料是指每个观察单位某个变量用测量或 其他定量方法观察结果,一般有计量单位。 定量资料、数值资料(measurement data, quantitative data) 计量资料的各个观察值之间有量的区别,没有 性质的不同。
计数资料
计数资料,计数资料是按照事物的属性分组,然 后清点各组的观察单位个数得到的资料。 定性资料、名义资料(count data,qualitative data,nominal data) 其变量值是定性的,表现为无不相容的类别或属 性,定性变量的属性指标的分类是无序的。 各观察单位之间没有量的区别,但有质的不同。
标准差的应用
标准差是反映数据变异程度的指标,其大 小受每一个观察值的影响。 常用于描述对称分布,尤其是正态分布或 近似正态分布资料的离散程度。 随着样本量增大,标准差逐渐趋于稳定。
变异系数(CV)
CV =s/ x×100% 它是反映相对变异度的指标。 变异系数常用于:
测量单位不同的几组资料变异度的比较; 均数相差悬殊的几组资料变异度的比较。
等级资料
等级资料(ordinal data)是介于计量资料和计 数资料之间的半定量观察结果,通常有两个以上 的等级。 等级资料也是先将观察单位按照某种属性或某个 标志分组,然后清点各组观察单位的数目得来的, 但是所分的各组之间有等级的顺序,各个类别之 间存在着大小和程度上的差别,这一点不同于计 数资料。
2.按极差大小决定组段数、组段和组距。
组距=极差/组数,常取整数作组距,取整只是为 了方便资料的整理汇总。 斯梯阶公式
H R 1 3.322lg N
第一组段必须包括最小值,一般取略小于最小值 的整数作为第一组的下限;最后一个组段应该包 括最大值,并且封口,但最后一个组段的上限不 能等于最大值。
几何均数的计算
直接法:是将n个观察值x1,x2,x3…xn的乘积开n次方所 得的根。 lg x n x x x lg 1 ( G ) 1 2 n n 加权法:
G lg
1
f lg x ) ( f
几何均数的应用
用于对数正态分布资料, 如:某些传染病的潜 伏期、抗体滴度、细菌计数等。
课堂练习
P57 案例 (1)-(6)
例2-1 某地儿研所测得该地150名12岁健康男童 体重(kg)原始数据如下,试编制频数表。
25.2 30.5 36.5 35.1 37.1 37.1 28.7 31.4 36.8 27.3 37.6 37.8 35.7
34.9 36.2 42.5 37.8 44.0 29.2 33.7 34.1 27.2 48.6 25.5 33.4 39.3
28.4 33.4 32.1 34.1 36.2 31.8 39.6 29.2 34.1 33.3 31.5 41.2
33.5 47.4 29.9 27.6 47.9 30.6 38.7 45.9 30.0 35.1 40.2 40.9
47.3 36.4 43.7 42.6 38.7 38.5 35.4 32.5 31.4 40.6 34.5 36.5
往往是一种计数,这种计数只能是0和正整数,不 会是负数,也没有小数点; 比如心率、脉搏、儿童龋齿个数、血小板数、某年 某地交通事故死亡人数等,
随机变量和研究资料的类型
计量 资料 收缩压 白细胞计数 交通事故死亡 人数 疗效(痊愈、 有效、无效) 肺癌类型 √ √ √ √ √ 计数 等级 资料 资料 连续型 资料 √ √ √ √ √ 离散型 资料
集中趋势指标
平均数(average)用来描述一组变量的集中 趋势、中心位置或平均水平,常作为一组资料 的代表值,使资料产生简明概括的印象,又便 于组间的比较。
平均数的计算和应用必须具备同质基础。 常用的平均数有均数、几何均数和中位数。
均数(mean)
均数是算术均数(arithmetic mean)的简称, 它反映了一组观察值在数量上的平均水平。 总体均数用希腊字母μ表示,样本均数用 表 x 示。
连续型资料和离散型资料
连续型资料(continuous data)
理论上在任何两个连续型数据之间都还有无穷多个 数据; 只要测量仪器足够精确,连续型数据可以精确到小 数点后第无限位,比如体重,在60.1和60.2kg之间 理论上存在着无限多个数据。
离散型资料(discrete data)
计算器功能简介
MODE或D· G:模式转换 R·
DEG:degree 角度 RAD:radian 弧度 GRA:gradient 梯度
INV、 SHIFT或2nd F:第二功能键 SD 或 STAT:统计分析功能 x ,n,Σx,Σx2, σn (σX , σ),σn-1(sX , s)。 X 、 data 或DT:数据储存
中位数和百分位数的应用
中位数不是由全部观察值的数量值综合计算出来 的,只受居中变量值波动的影响,不受两端特小 值和特大值的影响,仅仅反映了位次居中的观察 值的水平,因此中位数常用于描述偏态分布或末 端无确定数据时资料的集中位置。
百分位数用于描述样本或总体观察值序列在某百 分位置水平,多个百分位数结合应用时,可更全 面地描述总体或样本的分布特征,可用来确定医 学参考值范围。
n为偶数时,
M [x
x
n ( 1) 2
]/ 2
频数表法
M=P50 Lx: 第x百分位数所在组段的下限; fx:第x百分位数所在组段的频数; ix:第x百分位数所在组段的组距; ΣfL:小于L各组段的累计频数。
ix Px Lx (n x% f L ) fx
频数分布的类型
频数分布分为对称分布和偏态分布两种类型。
对称分布是指集中位置在正中,左右两侧频 数分布大体对称,如表2-1所示。若将其绘 制成频数分布直方图2.1,则更清楚。
频数分布的类型
偏态分布指集中位置偏向一侧,频数分布不对称。
一些以儿童为主的传染病,患者的年龄分布,集中位 置偏于年龄小的一侧,频数尾部向右侧延伸,称为右 偏态、正偏态(峰)分布,如图2-2; 一些慢性病患者的年龄分布,其集中位置偏向年龄大 的一侧,频数尾部向左侧延伸,称为左偏态、负偏态 (峰)分布,如图2-3。
34.8 41.4 33.8 23.1 20.5 39.6 51.2 23.5 40.8 38.2 37.4 47.9
1.找出最大值和最小值,计算极差。
最大值为51.2kg, 最小值为20.1kg,
极差R=51.2-20.1=31.1kg。 极差(R)也叫全距,它是一组变量值中 最大值与最小值之差。
离散趋势指标
极差R 四分位数间距QR 离均差(x-μ) 离均差总和(x)=0 离均差绝对值和|x| 离均差平方和(x)2 均方(方差)σ2=(x)2/N 标准差 (x )
2
N
方差与标准差
但是在实际工作中,总体方差往往是未知的,常用样本方 差s2来估计。在公式中,用 x代替,用n代替N,这时计 算的结果往往比总体方差σ2要小,所以分母用n-1来代替N, 即公式变为: ( x x) 2 ( x x) 2 s2 ,s n 1 n 1 这时样本方差s2是总体方差σ2的无偏估计。 N-1:自由度,常用ν或df表示,是指随机样本研究中,可 独立地随机选择变动的观测值的个数。
医学统计学实习课
北京协和医学院 基础学院 统计学教研室 徐涛
课程要求与注意事项(1)
纪律:不能影响别人
不能在课堂上用手机 不能大声聊天
课时:17*3学时 教室:七楼西、新楼406室 统计软件实习:SPSS;5*3学时
课程要求与注意事项(2)
教材:颜虹主编《医学统计学》 人民卫生出版社 计算器:有基本统计功能 旁听:不提倡旁听软件实习课 考试:笔试(包括软件实习内容)
均数的计算 均数的计算方法有直接法和加 权法,计算机运算中多采用直接法。
均数的应用
用途:用来描述一组变量值的平均水平, 具有代表性,因此变量值必须是同质的。 应用条件:适用于呈对称分布的资料,特 别是正态分布或者近似正态分布的资料, 因为这时均数位于分布的中心,最能反映 分布的集中趋势。
பைடு நூலகம்
几何均数(geometric mean,G)
27.8 40.9 37.5 36.5 35.0 43.5 35.4 43.7 41.2 41.8 38.4 32.8 27.2
33.8 37.5 39.6 23.4 31.8 32.8 26.5 33.8 35.3 33.0 44.2 36.8
37.7 36.6 33.2 35.8 36.4 36.3 42.0 24.5 42.6 28.3 43.2 45.7