2017.3.16统计学计量资料的统计描述方法
计量资料的统计描述
分 层 抽 样
整 群 抽 样
样
7
概率抽样、非概率抽样
• 概率抽样:每个对象被抽中的概率是已知/可计算的,其样本统计量是参数估计 和计算误差的基础;
• 等概率抽样:随机抽样 • 不等概率抽样:多单位被抽取的概率不同,可能会得到更有效的估计量 • 非概率抽样:抽样概率未知/无法计算,按主观、有目的、为方便进行抽样; • 不能计算抽样误差,或一般按简单随机抽样计算误差。配额抽样、滚雪球/识别
计量资料的统计描述
1
统计学中的几个基本概念
1、同质与变异 2、总体与样本 3、普查与抽样 4、参数与误差 5、频率与概率(小概率事件)
2
1. 同 质 与 变 异
• 同质(homogeneity)
指事物某方面的性质、影响条件或背景相同或相 近
• 变异(variation)
同质个体间的差异。来源于一些未加控制或无法控制的甚至不明原因的因素。 是统计学存在的基础。
M
X
8+X
2
8+1 2
2 (X 4+X5)2 (14+15)2 14.5(天)
42
百分位数
• 将N个观察值从小到大依次排列,再分成100等份,对应于X%位的数值即为PX。 中位数是百分位的特殊形式P50 。同样还有四分位数、十分位数等。
TG
31
第二节 计量资料的常用统计指标
一、集中趋势的描述-平均值
平均值是一组数据典型或有代表性的值。由于这样典型 的值趋向于落在根据数据大小排列的数据的波峰位置, 因此可以用于度量集中位置。
常用几种平均值:
1.算术均数 2.几何均数 3.中位数
32
1.算术均数(均数)
• 意义:一组性质相同的观察值在数量上的平均水平。 • 表示: (总体) X(样本) • 计算:直接法、频数表法 • 特征: ∑(X- X)=0 • 注意:应用于正态分布或近似正态分布,才能求均数,
计量资料的统计描述
中位数(M)和百分位数(P)
中位数(median, M)是将一组观察值从小到大 按顺序排列,位次居中的数值对应的观察值就是 中位数。因而全部观察值中,大于和小于中位数 的观察值的个数相等。 百分位数(percentile,P)是指把一组资料的全 部观测值分为两部分,理论上讲,有x%的观测值 比Px小,有(100-x)%的观测值比Px大。中位数 是特定的百分位数,即P50,它是表示一组资料集 中位置的指标。
计算器功能简介
MODE或D·R·G:模式转换
DEG:degree 角度 RAD:radian 弧度 GRA:gradient 梯度
INV、 SHIFT或2nd F:第二功能键 SD 或 STAT:统计分析功能 x ,n,Σx,Σx2, σn (σX , σ),σn-1(sX , s)。 X 、 data 或DT:数据储存
标准差的应用
标准差是反映数据变异程度的指标,其大 小受每一个观察值的影响。 常用于描述对称分布,尤其是正态分布或 近似正态分布资料的离散程度。 随着样本量增大,标准差逐渐趋于稳定。
变异系数(CV)
CV =s/ x ×100% 它是反映相对变异度的指标。 变异系数常用于:
测量单位不同的几组资料变异度的比较; 均数相差悬殊的几组资料变异度的比较。
H = R 1 + 3 . 322 lg N
第一组段必须包括最小值,一般取略小于最小值 的整数作为第一组的下限;最后一个组段应该包 括最大值,并且封口,但最后一个组段的上限不 能等于最大值。
频数表的编制
3.列表划记,统计各组段频数。 4.计算频率与累计频率
频数分布的两个特征
体重虽有轻有重,但都向35~组段集中,数据大多 数集中在32~38组段,共83人,占总人数的55%, 这种趋势称为集中趋势 集中趋势。 集中趋势 另一方面,随体重逐渐变大或变小,仍有小部分变 量值存在,称这种特征为离散趋势 离散趋势。 离散趋势 集中趋势和离散趋势是频数分布的两个重要特征。
第二章 计量的资料的统计描述
中位数
2 频数表法
中位数
中位数
中位数的优缺点
中位数的优缺点
第三节 离散趋势的描述
一、极差与四分位数间距 二、方差与标准差 三、变异系数
极差与四分位数间距
极差与四分位数间距
百分位数
百分位数
百分位数
二、方差与标准差
方差 (variance)也称均方差(mean square deviation),样本观察值的离均差 平方和的均值。表示一组数据的平均离散 情况。
标准差 (standard deviation)即方差的正
平方根;其单位与原变量X的单位相同。
标准差的主要意义和用途
(1)描述资料的离散趋势 (2)用于计算变异系数 (3)用于计算标准误 (4)结合均值与正态分布的规律估计参
考值范围
变异系数
适用条件:①观察指标单位不同,如身 高、体重
制定医学参考值范围 正态分布法
百分位数法
第五节 案例讨论
自学
小结
小结
第二章 计量资料的统计描述
学习内容
第一节 频数分布表与频数分布图 第二节 集中趋势的描述 第三节离散趋势的描述 第四节 正态分布及其应用 第五节 案例讨论(自学) 小结
几个概念
频数:当汇总大量的原始数据时,把数据按类型分组(组 段),其中每个组的数据个数,称为该组的频数。
②同单位资料,但均数相差悬殊
第四节 正态分布及其应用
一、正态分布 二、标准正态分布 三、正态分布的应用
正态分布
正态分布
标准正态分布
标准正态分布
标准正态分布
标准正态分布面积示意图
统计学第二章计量资料的统计描述
02
统计数据整理与展示方法
数据清洗与预处理技巧
80%
缺失值处理
根据数据的分布情况和实际背景 ,选择合适的缺失值填充方法, 如均值、中位数、众数等。
100%
异常值处理
采用箱线图、散点图等方法识别 异常值,并根据实际情况选择删 除、替换或保留。
分类
根据测量水平的不同,计量资料可分为离散型和连续型两类。离 散型数据只能取整数值,如人口数、医院床位数等;连续型数据 则可以取实数范围内的任何值,如身高、体重等。
计量资料特点分析
数值性
计量资料以数值形式表示,具有数量化的特点,便 于进行数学运算和统计分析。
连续性
连续型计量资料在实数范围内可以取任意值,数据 分布的连续性使得统计推断更为精确。
06
统计图表在数据可视化中应用
常见统计图表类型介绍
条形图(Bar Chart)
用于展示分类数据之间的比较,横轴表示分类,纵轴表示数量或比例。
折线图(Line Chart)
用于展示时间序列数据或连续性数据的趋势变化,横轴表示时间或类 别,纵轴表示数量或比例。
散点图(Scatter Plot)
用于展示两个变量之间的关系,横轴和纵轴分别表示两个变量,点的 位置表示变量的取值。
一组观察值中出现次数最多的数。
计算方法
应用场景
中位数计算需先将数据排序,然后取中间 位置的数;众数计算则是统计各数值出现 的次数,取出现次数最多的数。
适用于各种类型的数据,尤其适用于偏态 分布数据。中位数和众数对极端值不敏感 ,因此能较好地反映数据的集中趋势。
不同集中趋势指标比较
算术平均数、中位数和 众数都是描述数据集中 趋势的指标,但各有特 点。
02计量资料的统计描述
02计量资料的统计描述D计量资料又称为测量资料,它是测量每个观察单位某项指标值的大小所得的资料,一般均有计量单位。
常用描述定量资料分布规律的统计方法有两种:一类是用统计图表,主要是频数分布表(图);另一类是选用适当的统计指标。
(一)频数分布表的编制频数表(frequency table )用来表示一批数据各观察值或在不同取值区间的出现的频繁程度(频数)。
对于离散数据,每一个观察值即对应一个频数,如某医院某年度一日内死亡0,1,2,…20个病人的天数。
如描述某学校学生性别分布情况,男、女生的人数即为各自的频数。
对于散布区间很大的离散数据和连续型数据,数据散布区间由若干组段组成,每个组段对应一个频数。
制作连续型数据频数表一般步骤如下:1.求数据的极差(range )。
min max X X R -=(2-1)2.根据极差选定适当“组段”数(通常8—10个)。
确定组段和组距。
每个组段都有下限L 和上限U ,数据χ归组统一定为L ≤χ<U 。
3.写出组段,逐一划记。
频数表可用于揭示资料的分布特征和分布类型,在文献中常用于陈述资料,它便于发现某些特大或特小的可疑值,也便于进一步计算指标和统计分析处理。
(二)描述频数分布中心位置的平均指标描述中心位置的平均指标,但常因资料的不同而选取不同的指标进行描述。
1.算术均数算术均数(arithmetic mean )简称均数,描述一组数据在数量上的平均水平。
总体均数用μ表示,样本均数用X 表示,其计算方法如下:(1)直接法:直接用原始观测值计算。
n X X ∑=(2-2)(2)加权法:在频数表基础上计算,其中X为组中值,f 为频数。
∑∑=f fX X (2-3)2.几何均数几何均数(geometric mean )用以描述对数正态分布或数据呈倍数变化资料的水平。
记为G 。
其计算公式为:(1)直接法 ⎪⎭⎫ ⎝⎛∑=-n X G lg lg1 (2-4) (2)加权法 ⎪⎪⎭⎫ ⎝⎛∑∑=-f X f G lg lg1 (2-5) 3.中位数中位数(median )将一组观察值由小到大排列,n 为奇数时取位次居中的变量值;为偶数时,取位次居中的两个变量的平均值。
统计学计量的统计描述方法
统计学计量的统计描述方法文档编制序号:[KK8UY-LL9IO69-TTO6M3-MTOL89-FTT688]计量资料的统计描述方法怎样表达一组数据描述计量资料的常用指标—A 、描述平均水平(中心位置):均数X 、中位数和百分位数、几何均数G 、众数(mode ) B 、描述数据的分散程度:标准差、四分位数间距、 变异系数、方差、全距(一)均数mean 和标准差standard deviation 1. (算术)均数X均数是描述一组计量资料平均水平或集中趋势的指标。
*直接计算公式:12nX X X X X nn+++==∑应用条件:适用于对称分布,特别是正态分布资料。
2. 中位数(median )M 和百分位数(percentile ) A.中位数M是将一组观察值从小到大排序后,居于中间位置的那个值或两个中间值的平均值。
应用条件:用于任何分布类型,包括偏态资料、两端数据无界限的资料。
计算:n 为奇数时--1()2n M X+=n 为偶数时--()(1)2212n n M X X +⎛⎫=+ ⎪⎝⎭9人数据:12,13,14, 14, 15, 15, 15, 17, 19天B.百分位数是将N 个观察值从小到大依次排列,再分成100等份,对应于X%位的数值即为第X 百分位数。
中位数是第百分50位数。
四分位数间距(quartile range )= 第25百分位数(P25)~第75百分位数(P75)。
四分位数间距用于描述偏态资料的分散程度(代替标准差S ),包含了全部观察值的一半。
)(天155219===+X X M 8845122221415214.5()M X X X X ⎛⎫==== ⎪⎝⎭+如果只调查了前八位中学生,则:+(+)(+)天百分位数计算(频数表法):(%)XX XL Xi P L nX f f =+-∑X L :第X 百分位数所在组段下限L Σf :小于X L 各组段的累计频数X i :第X 百分位数所在组段组距n :总例数 f x :所在组段频数注:有的教材X= r ; L f ∑=C例:求频数表的第25、第75百分位数(四分位数间距)组段 频数f 累积频数∑f 56~ 2 2 59~ 5 7 62~ 12 19 ∑f 25 L 25 65~15 34 P 25在此 68~ 25 59 71~ 26 85 ∑f 75 L 75 74~19 104 P 75在此 77~ 15 119 80~ 10 129 83~85 1 130合 计130① 确定Px 所在组段:P 25所在的组段:n X %=130×25%=,65~组最终的累积频数=34,落在65~组段内;P 75所在的组段:n X %=130×75%=, 此值落在74~组段 ② 确定Px 所在组段的X L 、X i 、f x 、L Σf ③ P 25=65+3x[(130x25%-19)/15]=P 75=74+3x[(130x75%-85)/19]=四分位数间距=~ (次/分)3.几何均数G (geometric mean ) 应用:适用于成等比数列的资料,特别是服从对数正态分布资料。
浅析计量资料的统计描述
计量资料的统计描述描述性统计分析是进行统计分析的第一步,做好这一步是正确进行统计推断的先决条件。
计量资料常用的统计描述指标和方法主要有:1、集中趋势指标(Central Tendency):包括均数、几何均数、中位数等。
其中均数适用于正态分布和对称分布资料;几何均数适用于对数正态分布和呈等比的数据资料;中位数适合于所有分布类型的资料,但在实际中,中位数主要应用于偏态分布资料、分布不明资料和开口资料。
2、离散趋势指标(Dispersion):包括全距、四分位数间距、方差、标准差、变异系数、标准误等。
方差、标准差用于正态分布资料,四分位数间距用于偏态分布资料,变异系数用于度量单位不同和均数相差悬殊的资料,标准误用于反映样本均数的离散程度,说明均数抽样误差大小。
SPSS的许多模块均可完成描述性统计分析,但专门为该目的而设计的几个模块则集中在Descriptive Statistics菜单中,最常用的是列在最前面的四个过程:Frequencies过程:产生频数表;按要求给出某百分位数。
对计量资料、计数资料和等级资料的描述都适用Descriptives过程:进行一般性的统计描述,用于服从正态分布的资料,计算产生均数、标准差等;Explore过程:用于对数据概况不清时的探索性分析;Crosstabs过程:完成计数资料和等级资料的统计描述和一般的统计检验,我们常用的X2检验也在其中完成。
本次实习练习前3个过程:Frequencies过程,Descriptives过程,Explore过程。
Crosstabs过程在X2检验实习讲述。
Frequencies过程案例:某地101例健康男子血清总胆固醇值测定结果如下,请绘制频数表、直方图,计算均数、标准差、变异系数CV、中位数M、p2.5和p97.5。
4.77 3.37 6.14 3.95 3.56 4.23 4.31 4.715.69 4.12 4.56 4.37 5.396.30 5.217.22 5.543.93 5.214.125.18 5.77 4.79 5.12 5.20 5.10 4.70 4.74 3.50 4.69 4.38 4.896.25 5.324.50 4.63 3.61 4.44 4.43 4.25 4.035.85 4.09 3.35 4.08 4.79 5.30 4.97 3.18 3.97 5.165.10 5.86 4.79 5.34 4.24 4.32 4.776.36 6.38 4.88 5.55 3.04 4.55 3.35 4.87 4.17 5.85 5.16 5.09 4.52 4.38 4.31 4.58 5.72 6.55 4.76 4.61 4.17 4.03 4.47 3.40 3.91 2.70 4.604.095.96 5.48 4.40 4.55 5.38 3.89 4.60 4.47 3.64 4.34 5.186.14 3.24 4.90 3.05一、建立数据文件1、定义变量:在数据窗口,点击Variable View ,定义一个变量,变量名(Name)“x”,类型(Type)“数值()8,小数位数(Decimals)2,变量标签(Label):“血清总胆固醇”。
计量资料的统计描述
i=R/10=150.1/10=15.01≈15(umol/L)
• 第一组段应包括全部观察值中的最小值 • 最末组段应包括全部观察值中的最大值,并且同时 写出其下限与上限。 • 各组段的起点和终点分别称为下限和上限,某组段 的组中值为该组段的(下限+下一组段下限)/2。
1、频数表(frequency table)的编制
362.60 364.20 368.70 372.50 405.90 329.80 327.60 316.60 388.20 376.20 371.00 348.50 387.50 405.60 337.50 289.20 352.70 359.70 367.10 352.60 399.80 362.70 357.80 395.80 348.90 355.80 388.40 387.50 346.80 342.30 349.60 308.90 329.40 338.50 285.90 338.10 378.20 335.60 316.30 312.00 329.40 358.90 348.70 344.60 413.60 406.60 366.70 392.40 309.60 298.40 352.70 300.20 316.90 346.10 341.10 338.70 313.60 289.40 401.60 321.10 308.60 348.70 357.60 387.60 362.50 328.80 298.30 366.80 333.60 332.70 278.60 371.00 402.60 338.70 366.20 334.60 320.40 347.00 392.70 338.70 332.70 357.10 419.50 392.10 357.50 334.00 324.00 318.30 355.90 379.40 328.60 387.40 308.90 313.50 428.70 401.00 341.60 329.40 378.50 414.90 352.00 336.80 288.80 282.60 323.20 362.70 329.60 291.30 298.40 367.00 339.80 369.10 313.60 349.80 338.50 349.40 354.90 358.80 369.80 322.60 368.10 354.60 329.70 408.70 345.60 409.40 311.40 366.80 289.40 341.90 398.70 319.70 304.60 324.60 382.10 332.40 331.40 361.80 389.80 401.60 387.40 376.30 387.20 366.20 344.60 338.70 322.60 357.50 392.00 319.70
统计学-计量资料的统计描述方法
计量资料得统计描述方法怎样表达一组数据?描述计量资料得常用指标—A 、描述平均水平(中心位置):均数X 、中位数与百分位数、几何均数G 、众数(mode) B 、描述数据得分散程度:标准差、四分位数间距、 变异系数、方差、全距(一)均数mean 与标准差standard deviation1、 (算术)均数X均数就是描述一组计量资料平均水平或集中趋势得指标。
*直接计算公式:12nX X X X X nn+++==∑应用条件:适用于对称分布,特别就是正态分布资料。
2、 中位数(median )M 与百分位数(percentile)A 、中位数M就是将一组观察值从小到大排序后,居于中间位置得那个值或两个中间值得平均值。
应用条件:用于任何分布类型,包括偏态资料、两端数据无界限得资料。
计算:n 为奇数时--1()2n M X+=n 为偶数时--()(1)2212n n M X X +⎛⎫=+ ⎪⎝⎭9人数据:12,13,14, 14, 15, 15, 15, 17, 19天B 、百分位数 就是将N 个观察值从小到大依次排列,再分成100等份,对应于X%位得数值即为第X 百分位数。
中位数就是第百分50位数。
四分位数间距(quartile range)= 第25百分位数(P25)~第75百分位数(P75)。
四分位数间距用于描述偏态资料得分散程度(代替标准差S),包含了全部观察值得一半。
百分位数计算(频数表法):(%)XX XL Xi P L nX f f =+-∑X L :第X 百分位数所在组段下限 L Σf :小于X L 各组段得累计频数X i :第X 百分位数所在组段组距n :总例数 f x :所在组段频数注:有得教材X= r ;L f ∑=C)(天155219===+X X M 8845122221415214.5()M X X X X ⎛⎫==== ⎪⎝⎭+如果只调查了前八位中学生,则:+(+)(+)天例:求频数表得第25、第75百分位数(四分位数间距)组段 频数f 累积频数∑f 56~ 2 2 59~ 5 762~ 12 19 ∑f 25 L 25 65~15 34 P 25在此68~ 25 5971~ 26 85 ∑f 75 L 75 74~19 104 P 75在此77~ 15 119 80~ 10 129 83~851 130合 计130① 确定Px 所在组段:P 25所在得组段:n X %=130×25%=32、5,65~组最终得累积频数=34,32、5落在65~组段内;P 75所在得组段:n X %=130×75%=97、5, 此值落在74~组段 ② 确定Px 所在组段得X L 、X i 、f x 、L Σf ③ P 25=65+3x[(130x25%-19)/15]=65、90P 75=74+3x[(130x75%-85)/19]=74、66四分位数间距=65、90~74、66 (次/分)3、几何均数G (geometric mean)应用:适用于成等比数列得资料,特别就是服从对数正态分布资料。
统计学计量资料的统计描述方法
计量资料的统计描述方法怎样表达一组数据?描述计量资料的常用指标—A、描述平均水平(中心位置):均数X、中位数和百分位数、几何均数G、众数(mode)B、描述数据的分散程度:标准差、四分位数间距、变异系数、方差、全距(一)均数mean和标准差standard deviation1. (算术)均数X均数是描述一组计量资料平均水平或集中趋势的指标。
*直接计算公式:应用条件:适用于对称分布,特别是正态分布资料。
2. 中位数(median)M和百分位数(percentile)A.中位数M是将一组观察值从小到大排序后,居于中间位置的那个值或两个中间值的平均值。
应用条件:用于任何分布类型,包括偏态资料、两端数据无界限的资料。
计算:n为奇数时--n为偶数时--9人数据:12,13,14, 14, 15, 15, 15, 17, 19天B.百分位数是将N 个观察值从小到大依次排列,再分成100等份,对应于X%位的数值即为第X 百分位数。
中位数是第百分50位数。
四分位数间距(quartile range )= 第25百分位数(P25)~第75百分位数(P75)。
四分位数间距用于描述偏态资料的分散程度(代替标准差S ),包含了全部观察值的一半。
百分位数计算(频数表法):X L :第X 百分位数所在组段下限 L Σf :小于X L 各组段的累计频数X i :第X 百分位数所在组段组距 n :总例数 f x :所在组段频数注:有的教材X= r ; L f =C例:求频数表的第25、第75百分位数(四分位数间距)组段频数f 累积频数∑f 56~2 2 59~5 7 62~12 19 ∑f 25 L 25 65~15 34 P 25在此 68~25 59 71~26 85 ∑f 75 L 75 74~19 104 P 75在此 77~15 119 80~10 129 83~851 130 合 计 130① 确定Px 所在组段:P 25所在的组段:n X %=130×25%=32.5,65~组最终的累积频数=34,32.5落在65~组段内;P 75所在的组段:n X %=130×75%=97.5, 此值落在74~组段② 确定Px 所在组段的X L 、X i 、f x 、L Σf③ P 25=65+3x[(130x25%-19)/15]=65.90P75=74+3x[(130x75%-85)/19]=74.66四分位数间距=65.90~74.66 (次/分)3.几何均数G(geometric mean)应用:适用于成等比数列的资料,特别是服从对数正态分布资料。
2017年度.3.16-统计学-计量资料的统计描述方法
计量资料的统计描述方法怎样表达一组数据?描述计量资料的常用指标—A 、描述平均水平(中心位置):均数X 、中位数和百分位数、几何均数G 、众数(mode ) B 、描述数据的分散程度:标准差、四分位数间距、 变异系数、方差、全距(一)均数mean 和标准差standard deviation1. (算术)均数X均数是描述一组计量资料平均水平或集中趋势的指标。
*直接计算公式:应用条件:适用于对称分布,特别是正态分布资料。
2. 中位数(median )M 和百分位数(percentile )A.中位数M是将一组观察值从小到大排序后,居于中间位置的那个值或两个中间值的平均值。
12nX X X X X nn+++==∑应用条件:用于任何分布类型,包括偏态资料、两端数据无界限的资料。
计算:n 为奇数时--n 为偶数时--9人数据:12,13,14, 14, 15, 15, 15, 17, 19天B.百分位数是将N 个观察值从小到大依次排列,再分成100等份,对应于X%位的数值即为第X 百分位数。
中位数是第百分50位数。
四分位数间距(quartile range )= 第25百分位数(P25)~第75百分位数(P75)。
四分位数间距用于描述偏态资料的分散程度(代替标准差S ),包含了全部观察值的一半。
)(天155219===+X X M 8845122221415214.5()M X X X X ⎛⎫==== ⎪⎝⎭+如果只调查了前八位中学生,则:+(+)(+)天百分位数计算(频数表法):X L :第X 百分位数所在组段下限 L Σf :小于X L 各组段的累计频数 X i :第X 百分位数所在组段组距n :总例数 f x :所在组段频数注:有的教材X= r ;L f ∑=C例:求频数表的第25、第75百分位数(四分位数间距)组段 频数f 累积频数∑f56~ 2 2 59~ 5 762~ 12 19 ∑f 25 L 25 65~15 34 P 25在此68~ 25 59 71~ 26 85 ∑f 75 L 75 74~19 104 P 75在此77~ 15 119 80~1012983~851 130合 计130① 确定Px 所在组段:P 25所在的组段:n X %=130×25%=32.5,65~组最终的累积频数=34,32.5落在65~组段内;P 75所在的组段:n X %=130×75%=97.5, 此值落在74~组段 ② 确定Px 所在组段的X L 、X i 、f x 、L Σf ③ P 25=65+3x[(130x25%-19)/15]=65.90P 75=74+3x[(130x75%-85)/19]=74.66四分位数间距=65.90~74.66 (次/分)3.几何均数G (geometric mean )应用:适用于成等比数列的资料,特别是服从对数正态分布资料。
论文中常用的统计方法 简介
计量资料的统计描述
• ⑵离散趋势描述(描述数据变异大小) ① 极差(一组变量值的最大值与最小值之差) ② 四分位间距 ③ 方差与标准差 ④ 变异系数(多用于观察指标单位不同时) 正态资料用均数±标准差;非正态资料中位数±四分
位间距描述
计数资料的统计描述
① 强度相对数(说明某现象发生的频率或强度,又称为率) ② 结构相对数(说明各构成部分在总体中所占的比重或分布,又称为构成比) ③ 相对比(是两个有关指标之比)
㈢统计分析
1 ①X2检验:用于推断两个总体率或构成比之间有无差别、多个总体率或构成比之间有无差别、
多个样本率的多重比较、两个分类变量之间有无关联性、频数分布拟合优度; ②W检验:不满足上述条件的。 ⑶等级资料:W检验
ቤተ መጻሕፍቲ ባይዱ
计量资料的统计描述
⑴集中趋势描述(描述一组变量值的集中位置或平均水平) ① 算数均数 ② 几何均数 ③ 中位数 ④ 百分位数
论文中常用的统计方法 简介
XXX
1.
计量资料
2.
计数资料
3.
等级资料
㈠资料类型
㈡统计描述
1. 计量资料的统计描述 2. 计数资料的统计描述
㈢统计分析
面对一组资料时,先区分其资料类型。 ⑴计量资料:
①t检验:满足条件是正态性、方差齐性和小样 本含量。当样本含量n较大时,t值近似于u值, 称为u检验或Z检验; ②方差分析(F检验):满足条件是分组大于二 个,正态性、方差齐性; ③秩转换的非参数检验(W检验):不满足t检 验和F检验条件的
1.二分类:如检查某小学学生大便中的蛔虫卵,结果可报告为蛔虫卵阴性与阳性两类;2.多分类: 如观察某人群的血型,结果可分为A型、B型AB型、O型。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
计算:
2
n 为奇数时--
M X ( n 1) 2
n 为偶数时--
M
1 2
X
(n) 2
X
( n 1) 2
9 人数据:12,13,14, 14, 15, 15, 15, 17, 19 天
M X 91 X 5 15(分 )
2 如果只调查了前八位中学生,则:
方差: 方差=S2
全距 R : R= 最大值–最小值。简单,但仅利用了两端点值,稳定性差。
变异系数(coefficient of variation,CV): 计算:CV=(S/ X )100%, 无单位 应用:1.单位不同的多组数据比较; 2.均数相差悬殊的多组资料
什么是正态分布?
(二)正态分布(Normal distribution)
例 11.3: 已知 111 人的血铅 X =0.010 µg/100ml, S=0.012 µg/100ml 因为血铅可以低而不可以高,故用单侧 95%参考值范围
X +1.64S=0.010+1.64×0.012=0.030(µg/100ml);
血铅 95%参考值范围≤0.030 µg/100ml
注意:如果资料非正态分布而使用正态分布法,会得出错误结论!!
(2)百分位数法
适用于偏态分布资料 计算公式:
双侧界值:P2.5 ~ P97.5 单侧用上界: P95 单侧用下界: P5
X 1=90 X 2=90
s1=10.8 s2=32.4
S X X 2 分分分分分 n1
X 2 ( X )2
S
n
n 1
,分子越大。 或者
标准差的 5 应用: 描述变异程度、计算标准误、计算变异系数、 描述正态分布、估计正常值范围
S 用于正态分布资料
6
怎样使用均数和标准差? 论文中常用 X ±S 描述对称、正态或近似正态分布数据的特征。 描述偏态资料的分散程度需用四分位数间距 P25~P75(代替标准差 S)。
1
计量资料的统计描述方法
怎样表达一组数据?
描述计量资料的常用指标—
A、描述平均水平(中心位置): 均数 X 、中位数和百分位数、几何均数 G、众数(mode)
B、描述数据的分散程度:
标准差、四分位数间距、 变异系数、方差、全距
(一)均数 mean 和标准差 standard deviation
1. (算术)均数 X
9
正态分布的应用:
1.估计正态分布 X 值在特定值范围内的分布比例(概率)。 2.制定某临床指标的参考值范围 3.利用估计变量值的范围或对极端值做取舍。 4.许多统计方法的统计推断建立在正态分布基础上。
怎样确定资料是否属正态分布? 1.做正态性检验; 2.粗略估计: 正态一般 S 1 X ; S X 者必为偏态!
组段 56~ 59~ 62~ L25 65~ 68~ 71~ L75 74~ 77~ 80~ 83~85
合计
频数 f 2 5 12 15 25 26 19 15 10 1 130
累积频数∑f 2 7 19 ∑f25 34 P25 在此 59 85 ∑f75 104 P75 在此 119 129 130
3
正态分布可用于求参考值范围!
(三)医学参考值范围的制定
概念 医学参考值是指包括绝大多数“正常人”的各种生理及生化指 标常数,也称正常值(背景值)。 正常值是指在一定范围内波动的值,医学上常用 95%的范围作为 判定正常或异常的参考标准。
制定参考值的基本原则 1. 选定正常人:
即排除了影响研究指标的有关因素的同质人群。 有足够的样本例数(一般不低于 100 例) 2. 确定参考值范围的百分界限(常用 95%) 3. 考虑制定单侧或双侧诊断界值:
P75=74+3x[(130x75%-85)/19]=74.66 四分位数间距=65.90~74.66 (次/分)
4
3.几何均数 G(geometric mean)
应用:
适用于成等比数列的资料,特别是服从对数正态分布资料。
原始数据分布不对称,经对数转换后呈对称分布的资料。
可用于反映一组经对数转换后呈对称分布或正态分布的变量值
5
组段的组中值。适用于大样本但较粗糙。 例:有 16 例病人的发病年龄为 42,45,48,51,52,54,55,55,58,58,58,58,61,61,62,62,试 求众数。
正态分布时: 均数=中位数=众数
正(右)偏态分布时:均数 > 中位数 >众数 负(左)偏态分布时:均数 < 中位数 <众数
新药肯定比旧药好(旧药肯定比新药差)——单侧 新药可能好,也可能差------------------------------双侧 双侧标准较高,结论较可靠(常用)
10
4. 依分布(正态或偏态) 确定计算方法: (1)正态分布法
X ±µ ·S,其中 双侧 95%参考值范围公式: X ±1.96S 单侧 95%参考值范围公式: X +1.64S
① 确定 Px 所在组段: P25 所在的组段:n X %=130×25%=32.5, 65~组最终的累积频数=34,32.5 落在 65~组段内; P75 所在的组段:n X %=130×75%=97.5, 此值落在 74~组段
② 确定 Px 所在组段的 LX 、 iX 、f x、Σ f L ③ P25=65+3x[(130x25%-19)/15]=65.90
G 分 8 5 分10 分 20 分 40 分80 分160 分320 分640 分 56.57
Glg1[(lg5lg10lg20lg640)/8]56.57
平均抗体效价为: 1:57
加权法:
G
l g 1 (
f
lg f
X
)
众数
是一组观察值中出现频率最高的那个观察值;若为分组资料,众数则是出现频率最高的那个
若固定标准差 ,改变均数 值,曲线沿着 X 轴平行移动,其形 状不变。
若固定 , 越小,曲线形状越陡峭;反之, 越大,曲线越平 坦。
正态分布均数(位置参数)、标准差(变异度)变化示X 轴与正态曲线所夹面积恒等于 1 或 100%; ② 区间 的面积为 68.27%; ③ 区间 1.96 的面积为 95.00%; ④ 区间 2.58 的面积为 99.00%。
正态分布 u 值表(标准正态分布概率单位值)
变量值 分布范围(%)
80 90 95 99
尾部面积 α
0.20 0.10 0.05 0.01
单侧 u 值
0.84 1.28 1.64 2.33
双侧 u 值
1.28 1.64 1.96 2.58
尾部面积为α的 u 值,记为 uα,称为 u 界值: 尾部面积各为 2.5%时(黑色处),其对应的 u 值为 u=±1.96; u=(-2.58,2.58)区间的面积为 0.99(空白处)
含了全部观察值的一半。
3
百分位数计算(频数表法):
PX
LX
iX (n X % fX
fL )
LX :第 X 百分位数所在组段下限 Σ f L :小于 LX 各组段的累计频数
iX :第 X 百分位数所在组段组距 n :总例数 f x:所在组段频数
注:有的教材 X= r ; fL =C
例:求频数表的第 25、第 75 百分位数(四分位数间距)
在数量上的平均水平。例如 抗体滴度。
计算:N 个数值的乘积开 N 次方, 即为这 N 个数的几何均数。
G n X1X2 Xn
lg G
1 n
(lg
X1
lg
X2
lg
Xn)
lg X n
G lg1 lg X
n
lg 表示以 10为底的对数;
lg 1表示以 10为底的反对数
X 0,为正值
有 8 份血清的抗体效价分别为 1:5, 1:10, 1:20, 1:40, 1:80, 1:160,1:320,1:640,求平均 抗体效价。使用分母计算!
均数是描述一组计量资料平均水平或集中趋势的指标。
*直接计算公式:
X X1 X 2 X n X
n
n
应用条件:适用于对称分布,特别是正态分布资料。
2. 中位数(median)M 和百分位数(percentile)
A.中位数 M
是将一组观察值从小到大排序后,居于中间位置的那个值或两个 中间值的平均值。
正态分布是描述连续型变量值分布的曲线. 当例数比较多时,医 学上许多资料近似服从正态分布。正态分布在统计推断上有重要的作 用。
7
正态分布曲线理论上的特征
(1)以 X= μ均数为中心, X 值呈钟型分布,中央高、两端对称性减 少、与 X 轴永不相交。 (2 )在 X= μ处,f(x)取最大值(例数最多)。 (3 )正态分布由均数μ 、标准差σ决定曲线的左右位置和高低形 状: 正态分布有两个参数,即位置参数--均数 和形态参数--标准差 。
3. 标准差 S
S 描述数据的分散程度.描述一组数据在其平均数周围的分布情 况,若每个数据集中在其平均数周围,此平均数对这组数据的代表照 就大;反之,代表性较差。
标准差 S
甲 组 75 80 85 90 95 100 105 n1=7 乙 组 45 60 75 90 105 120 135 n2=7
M
X
8+X
2
8+1 2
2 (X 4+X5)2 (14+15)2 14.5(天)
B.百分位数
是将 N 个观察值从小到大依次排列,再分成 100 等份,对应于 X% 位的数值即为第 X 百分位数。中位数是第百分 50 位数。
四分位数间距(quartile range)