统计学-计量资料的统计描述方法

合集下载

统计学知识点(完整)

统计学知识点(完整)

基本统计方法第一章概论1•总体(Population ):根据研究目的确定的同质对象的全体(集合) ;样本(Sample ):从总体中随机抽取的部分具有代表性的研究对象。

2.参数(Parameter ):反映总体特征的统计指标,如总体均数、标准差等,用希腊字母表示,是固定的常数;统计量(Statistic ):反映样本特征的统计指标,如样本均数、标准差等,采用拉丁字字母表示,是在参数附近波动的随机变量。

3.统计资料分类:定量(计量)资料、定性(计数)资料、等级资料。

第二章计量资料统计描述1.集中趋势:均数(算术、几何)、中位数、众数2.离散趋势:极差、四分位间距( QR=P75-P25)、标准差(或方差)、变异系数(CV)3.正态分布特征:①X轴上方关于X= 对称的钟形曲线;②X= 时,f(X)取得最大值;③ 有两个参数,位置参数和形态参数;④曲线下面积为1,区间土的面积为68.27% ,区间±1.96 的面积为95.00%,区间±2.58 的面积为99.00%。

4.医学参考值范围的制定方法:正态近似法:X U /2 S ;百分位数法:P2.5-P 97.5。

第三章总体均数估计和假设检验1.抽样误差(Sampling Error ):由个体变异产生、随机抽样造成的样本统计量与总体参数的差异。

抽样误差不可避免,产生的根本原因是生物个体的变异性。

2.均数的标准误(Standard error of Mean, SEM):样本均数的标准差,计算公式:八n。

反映样本均数间的离散程度,说明抽样误差的大小。

3.降低抽样误差的途径有:①通过增加样本含量n;②通过设计减少S。

4.t分布特征:①单峰分布,以0为中心,左右对称;②形态取决于自由度,越小,t值越分散,t分布的峰部越矮而尾部翘得越高;③当逼近a ,S X逼近X, t分布逼近u分布,故标准正态分布是t分布的特例。

5.置信区间(Con fide nee In terval , CI ):按预先给定的概率(1-)确定的包含总体参数的一个范围,计算公式:X t /2, S X或X U /2, S X。

统计背诵版(三份整合)

统计背诵版(三份整合)

统计学资料背诵版一、单选题:第二章:计量资料的统计描述1、描述一组偏态分布资料的变异度,以四分位数间距指标较好。

2、用均数和标准差可以全面描述正态分布资料的特征。

3、各观察值均加(或减)同一数后标准差不变。

4、比较某地1~2岁和5~5.5岁儿童身高的变异程度,宜用变异系数。

5、偏态分布宜用中位数描述其分布的集中趋势。

6、各观察值同乘以一个不等于0的常数后,变异系数不变。

7、正态分布的资料,均数等于中位数。

8、对数正态分布是一种右偏态分布(说明:设X变量经Y=lgX变换后服从正态分布,问X变量属何种分布?)9、横轴上,标准正态曲线下从0到2.58的面积为49.5%10、当各观察值呈倍数变化(等比关系)时,平均数宜用几何均数。

第三章:总体均数的估计与假设检验1、均数的标准误反映了样本均数与总体均数的差异。

2、两样本均数比较的t检验,差别有统计学意义时,P越小,说明越有理由认为两总体均数不同。

3、甲乙两人分别从同一随机数字表抽得30个(各取两位数字)随机数字作为两个样本,求得X1和S 12、X2和S22,则理论上由甲、乙两样本均数之差求出的总体均数95%可信区间,很可能包括04、在参数未知的正态总体中随机抽样,丨X-μ丨≥t0.05/2,vS X的概率为5%5、某地1992年随机抽取100名健康女性,算得其血清总蛋白含量的均数为74g/L,标准差为4g/L,则其95%的参考值范围为74±1.96×46、关于以0为中心的t分布,叙述错误的是相同时,丨t丨越大,P越大。

7、在两样本均数比较的t检验中,无效假设为两总体均数相等。

8、两样本均数比较作t检验时,分别取以下检验水准,犯第二类错误概率最小的是α=0.309、正态性检验,按α=0.10水准,认为总体服从正态分布,此时若推断有错,其错误的概率等于β,而β未知。

10、关于假设检验,说法正确的是采用配对t检验还是两样本t检验是由试验设计方案所决定的。

计量资料的统计学方法

计量资料的统计学方法

计量资料的统计学方法
首先,计量资料的统计学方法包括描述统计和推断统计。

描述
统计用于总结和展示数据的特征,包括均值、中位数、标准差、频
数分布等。

这些统计量可以帮助我们了解数据的集中趋势、离散程
度和分布形态。

推断统计则用于从样本数据中推断总体的特征,包
括参数估计和假设检验。

参数估计可以帮助我们对总体参数(如均值、比例)进行估计,而假设检验则可以帮助我们对总体参数的假
设进行检验。

其次,计量资料的统计学方法还包括回归分析和方差分析。


归分析用于研究自变量和因变量之间的关系,可以帮助我们预测因
变量的取值。

常见的回归分析包括简单线性回归和多元线性回归。

方差分析则用于比较多个总体均值是否相等,可以帮助我们判断不
同组别之间的差异是否显著。

此外,计量资料的统计学方法还包括相关分析和时间序列分析。

相关分析用于研究两个变量之间的相关关系,可以帮助我们了解它
们之间的相关性强弱和方向。

时间序列分析则用于研究时间序列数
据的特征和规律,包括趋势、季节性和周期性等,可以帮助我们进
行未来的预测和规划。

综上所述,计量资料的统计学方法涵盖了描述统计、推断统计、回归分析、方差分析、相关分析和时间序列分析等多个方面,可以
帮助我们全面深入地理解和解释数据的特征和规律。

在实际应用中,研究者可以根据具体问题的特点和要求选择合适的统计方法进行分
析和解释。

《医学统计学》统计描述 (1)

《医学统计学》统计描述  (1)

2500 2500 2500 420
500 500 500
甲 乙丙
例4-9,etc
1.极差(Range) (全距)
符号:R 意义:反映全部变量值的
R X max X min
变动范围。
580
优点:简便,如说明传染病、
560 540
食物中毒的最长、最短潜 520
伏期等。
500
缺点:1. 只利用了两个 极端值
表2-2 115名正常成年女子血清转氨酶(mmol/L)含量分布
转氨酶含量
人数
12~
2
15~
9
18~
14
21~
23
24~
19
27~
14
30~
11
33~
9
36~
7
39~
4
42~45
3
人数
25
20 15
10 5
0
13.5 19.5 25.5 31.5 37.5 43.5. 血清转氨酶(mmol/L)
图2-2 115名正常成年女子血清转氨酶的频数分布
lg 表示以10为底的对数;
lg 1表示以10为底的反对数
X 0,为正值 (0,负数?)
几何均数的适用条件与实例
适用条件:呈倍数关系的等比资料或对数正态分 布(正偏态)资料;如抗体滴度资料
例 血清的抗体效价滴度的倒数分别为:10、
100、1000、10000、100000,求几何均数。
XG
lg1
图 2-3 101 名 正 常 人 血 清 肌 红 蛋 白 的 频 数 分 布
2. 描述计量资料的分布特征
①集中趋势(central tendency):变量值集中 位置。本例在组段“4.7~4.9”。

统计学第二章计量资料的统计描述

统计学第二章计量资料的统计描述
数据。同时,还需要对数据进行质量控制和预处理,以消除误差和异常值的影响。
02
统计数据整理与展示方法
数据清洗与预处理技巧
80%
缺失值处理
根据数据的分布情况和实际背景 ,选择合适的缺失值填充方法, 如均值、中位数、众数等。
100%
异常值处理
采用箱线图、散点图等方法识别 异常值,并根据实际情况选择删 除、替换或保留。
分类
根据测量水平的不同,计量资料可分为离散型和连续型两类。离 散型数据只能取整数值,如人口数、医院床位数等;连续型数据 则可以取实数范围内的任何值,如身高、体重等。
计量资料特点分析
数值性
计量资料以数值形式表示,具有数量化的特点,便 于进行数学运算和统计分析。
连续性
连续型计量资料在实数范围内可以取任意值,数据 分布的连续性使得统计推断更为精确。
06
统计图表在数据可视化中应用
常见统计图表类型介绍
条形图(Bar Chart)
用于展示分类数据之间的比较,横轴表示分类,纵轴表示数量或比例。
折线图(Line Chart)
用于展示时间序列数据或连续性数据的趋势变化,横轴表示时间或类 别,纵轴表示数量或比例。
散点图(Scatter Plot)
用于展示两个变量之间的关系,横轴和纵轴分别表示两个变量,点的 位置表示变量的取值。
一组观察值中出现次数最多的数。
计算方法
应用场景
中位数计算需先将数据排序,然后取中间 位置的数;众数计算则是统计各数值出现 的次数,取出现次数最多的数。
适用于各种类型的数据,尤其适用于偏态 分布数据。中位数和众数对极端值不敏感 ,因此能较好地反映数据的集中趋势。
不同集中趋势指标比较
算术平均数、中位数和 众数都是描述数据集中 趋势的指标,但各有特 点。

计量资料和计数资料的统计方法

计量资料和计数资料的统计方法

计量资料和计数资料的统计方法计量资料和计数资料是统计学中常见的两种数据类型,它们在统计分析中有着不同的处理方法和应用场景。

本文将分别介绍计量资料和计数资料的统计方法,并探讨其在实际问题中的应用。

一、计量资料的统计方法计量资料是指可以用数值表示的数据,例如身高、体重、温度等。

统计学中常用的计量资料分析方法有描述统计和推断统计。

1. 描述统计描述统计是对收集到的数据进行总结和描述的方法。

常用的描述统计量有平均值、中位数、众数、标准差、方差等。

平均值是计量资料最常用的描述统计量,它可以反映数据的集中趋势。

中位数和众数则可以反映数据的位置和分布情况。

标准差和方差则可以衡量数据的离散程度。

2. 推断统计推断统计是基于样本数据对总体进行推断的方法。

在推断统计中,常用的统计分析方法有假设检验和置信区间估计。

假设检验用于验证关于总体的某个参数的假设,例如总体均值是否等于某个特定值。

置信区间估计则可以给出总体参数的一个区间估计,例如总体均值的置信区间。

二、计数资料的统计方法计数资料是指不连续的、以计数形式出现的数据,例如人数、次数、事件发生次数等。

计数资料的统计方法主要包括频数分布、列联表分析和卡方检验。

1. 频数分布频数分布是计数资料最常用的分析方法之一,它将数据按照不同的取值进行分类,并统计每个类别的频数。

通过频数分布可以直观地了解数据的分布情况和特征。

2. 列联表分析列联表分析是用于分析两个或多个分类变量之间关系的方法。

通过构建列联表可以清晰地展示不同变量之间的交叉频数,并计算各个格子的期望频数和卡方值。

列联表分析可以帮助我们判断两个变量之间是否存在相关性。

3. 卡方检验卡方检验是用于检验两个或多个分类变量之间是否存在显著差异的统计方法。

卡方检验基于计数资料的频数分布和列联表,通过计算观察频数与期望频数的差异,并进行假设检验来判断变量之间是否独立。

三、计量资料和计数资料的应用计量资料和计数资料在实际问题中具有广泛的应用。

医学统计学 第二章 计量资料的统计描述

医学统计学 第二章 计量资料的统计描述

肌红蛋白含量
人数
0~
2
5~
3
10~
7
15~
9
20~
10
25~
22
30~
23
35~
14
40~
9
45~50
2
18
人数
25 20 15 10
5 0
2.5 12.5 22.5 32.5 42.5 52.5 血 清 肌 红 蛋 白(μg / m L)
图 2-3 101 名 正 常 人 血 清 肌 红 蛋 白 的 频 数 分 布
医学统计学 第二章 计量资料的统计 描述
计量资料(定量资料、数值变量资料) 总体:有限或无限个(定量)变量值 样本:从总体随机抽取的n个变量值:
X1,X2,X3,……,Xn
n为样本例数(样本大小、样本含量)
2
统计描述——描述其分布规律 1、用频数分布表(图)
要求:大样本 如 n〉30
2、用统计指标 描述 集中趋势 离散趋势
6
➢制表步骤 了解分布
1. 求极差(range) 极差也称全 距,即最大值和最小值之差,记作R。 本例
R 5 .7 1 2 .3 5 3 .3 6 ( m m o l/L )
7
2.确定组距(i) :
组段数通常取组 10-15组 本例组距
i 3 .3 6 /1 0 0 .3 3 6 0 .3 0
累计频率(%) (4)
0
402
402
35.80
1
330
732
65.18
2
232
964
85.84
3
118
1082
96.35
4
27

医学统计学计量资料的统计描述

医学统计学计量资料的统计描述
100等分,与第X百分位数相应的观察值称为第X 百分位数,理论上有X%的观察值比它小,有 (100-X)%的观察值比它大 • 公式为:
百分位数(percentile)
• 百分位数(percentile)
X%
PX
(100-X)%
• 中位数是第50百分位数,用P50表示。 • 第25,第75,第95百分位数记为P25, P75, P95是统计学上常用
• 在医学研究中有一类比较特殊的资料,如抗体滴 度、血清凝集效价和某些物质浓度,其数据特点 是观察值间呈倍数关系变化。
• 应用几何均数时要注意观察值中不能有0或负数, 否侧在做对数变换之前需要加一常数。
• 同一组观察值的几何均数一般小于它的算术均数。
中位数(median)
• 将一组观察值按从小到大顺序排列,为此 居中的数值即为中位数,用M来表示
• 意义:平均偏差越大,变异越大 • 特点:很直观,但用了绝对值,在应用中受到限

方差(variance)
• 定义:离均差平方和的均数
• 计算公式:总体方差用2表示,
样本方差用S2表示,公式
s甲2
(168 162)2 (142 162)2 (188 162)2 4 1
(150 162)2
318.667
14506
例 计算120名7岁男孩 身高的均数
算术均数的应用
• 算术均数适用于对称分布的资料 • 算术均数用到了每个原始观察值,所以敏
感度好 • 在偏态较大的情况下,算出的均值易受频
数分布两端极大或极小值的影响,不能较 好地反映分布的集中位置和平均水平
几何均数(Geometric mean)
• 可用于描述一组资料数据经对数转换后呈 现为对数分布或正态分布的变量值的平均 水平;

卫生统计学课件 第二章 计量资料的统计描述(共33张PPT)

卫生统计学课件 第二章 计量资料的统计描述(共33张PPT)
11111,11111,11111 中位数是50%位的数值,其为百分位数的特殊形式。
●计算公式: 13cm之间的占该地7岁男童的百分 比。
∑f · X=1638
双侧界值:P 2.5 ~ P 97..5 定义:又称参考值范围,是指特定健康人群的解剖、生理、生化等各种数据的波动范围。
特征: ∑(X- X)=0 估计误差之和为0。
估计的方法: 1、正态分布法
2、百分位数法
28
1.正态分布法
应用条件:正态分布或近似正态分布资料 ●计算 (双侧) 95% 正常值(医学参考值)范围公式:
(x1.96 · S,x1.96 · S )
即(x±1.96 · S ) 例:
1.96 × 3.79 )
即(156.41 cm , 171.27 cm )
1998年100名18岁健康女大学生身高的频数分布
数。 (3) 估计该地7岁男童身高在107.
确定组段:第一组段包括最小值,如本例为154 89 cm 取整数 2 cm 应用:单位不同的多组数据比较
13cm之间比的。占该地7岁男频童的数百分表(频数分布):表示各组及它们对
注意:合理分组,才能求均数,否则没有意义。
96 ·S,x 1. Q = Qu 一 Ql
单侧 上界: P 95
单侧 下界: P 5
31
习题:
1.各观察值加同一数后: A.均数不变,标准差改变 B.均数改变,标准差不

2.用均数和标准差可全面描述:
3.正态分布曲线下,从均数u 到u 的面积为; A.95% B.45% C. 97.5% D.47.5%
19
相关概念:离均差、离均差平方和、方差(2 S2 ) 标准差的符号: S

医学统计学第3版,02计量资料的统计描述试题

医学统计学第3版,02计量资料的统计描述试题

第二章 计量资料的统计描述一、教学大纲要求(一)掌握内容1. 频数分布表与频数分布图 (1)频数表的编制。

(2)频数分布的类型。

(3)频数分布表的用途。

2. 描述数据分布集中趋势的指标掌握其意义、用途及计算方法。

算术均数、几何均数、中位数。

3. 描述数据分布离散程度的指标掌握其意义、用途及计算方法。

极差、四分位数间距、方差、标准差、变异系数。

(二)熟悉内容连续型变量的频数分布图:等距分组、不等距分组。

二、 教学内容精要计量资料又称为测量资料,它是测量每个观察单位某项指标值的大小所得的资料,一般均有计量单位。

常用描述定量资料分布规律的统计方法有两种:一类是用统计图表,主要是频数分布表(图);另一类是选用适当的统计指标。

(一)频数分布表的编制频数表(frequency table )用来表示一批数据各观察值或在不同取值区间的出现的频繁程度(频数)。

对于离散数据,每一个观察值即对应一个频数,如某医院某年度一日内死亡0,1,2,…20个病人的天数。

如描述某学校学生性别分布情况,男、女生的人数即为各自的频数。

对于散布区间很大的离散数据和连续型数据,数据散布区间由若干组段组成,每个组段对应一个频数。

制作连续型数据频数表一般步骤如下:1.求数据的极差(range )。

min max X X R -= (2-1) 2.根据极差选定适当“组段”数(通常8—10个)。

确定组段和组距。

每个组段都有下限L 和上限U ,数据χ归组统一定为L ≤χ<U 。

3.写出组段,逐一划记。

频数表可用于揭示资料的分布特征和分布类型,在文献中常用于陈述资料,它便于发现某些特大或特小的可疑值,也便于进一步计算指标和统计分析处理。

(二)描述频数分布中心位置的平均指标描述中心位置的平均指标,但常因资料的不同而选取不同的指标进行描述。

1.算术均数(对称分布)算术均数(arithmetic mean )简称均数,描述一组数据在数量上的平均水平。

计量资料的统计描述

计量资料的统计描述

• 变量、变量值
三种基本类型:
计量资料, 计数资料, 等级资 料
*按变量值性质——定量资料和定性资料。
编辑ppt
18
计量资料的统计描述
编辑ppt
19
主要内容
• 频数表与频数图 • 计量资料的常用统计指标
(集中趋势 离散趋势) 正态分布 • 正常值范围估计
编辑ppt
20
第一节 频数表与频数图
原始计量资料
16
小结
1. 统计工作的基本步骤是什么? 2. 统计资料分为几类? 特点?
判断:大学教授的年收入,欧洲的国 家数,血红蛋白含量,患者的资料情况。 3. 什么是总体? 什么是样本? 4. 基本的概率抽样方法是什么? 5. 什么是抽样误差? 如何减小? 能否 避免?
编辑ppt
17
前讲回顾
统计资料的类型
特点:具有累加性、方向性、可避免性
(2).随机误差:由于一些非人为的偶然因素使得结 果或大或小,是不确定、不可预知的。
特点:无方向性、不能避免。
编辑ppt
13
A、 随机测量误差
在消除了系统误差的前提下,由于 非人为的偶然因素,对于同一样本多次测定 结果不完全一样,结果有时偏大有时偏小, 没有倾向性,这种误差叫随机测量误差。
计量资料的统计描述
编辑ppt
1
统计学中的几个基本概念
1、同质与变异 2、总体与样本 3、普查与抽样 4、参数与误差 5、频率与概率(小概率事件)
编辑ppt
2
1. 同 质 与 变 异
• 同质(homogeneity)
指事物某方面的性质、影响条件或背景相同或相 近
• 变异(variation)
同质个体间的差异。来源于一些未加控制 或无法控制的甚至不明原因的因素பைடு நூலகம்是统 计学存在的基础。

医学统计学:计量资料的统计描述

医学统计学:计量资料的统计描述

方差、标准差计算方法和意义
方差
指各数据与均数之差的平方和的平均 数,用于反映数据的术平方根,用于衡量数据偏 离均数的程度。标准差越大,数据分 布越离散。
变异系数在医学研究中应用
变异系数
指标准差与均数之比,用于比较不同单位或不同均数水平下数据的离散程度。在医学研究中,常用于评价不同指 标或不同人群间的变异程度。
分类
根据测量水平不同,可分为离散型计量资料和连续型计量资料。离散型计量资 料只能取整数值,如人口数、医院床位数等;连续型计量资料可以取实数范围 内的任何值,如身高、体重等。
计量资料特点分析
01
数值性
计量资料以数值形式表示,具有明 确的数量特征。
可比性
同类计量资料之间可以进行比较, 如不同人群的身高、体重等。
众数
一组观察值中出现次数最多的数。
应用场景
常用于描述无明显集中趋势或分布规 律资料的集中趋势,如一些分类数据 的统计描述。
04 离散程度指标解读
极差、四分位数间距计算及意义
极差
指一组数据中最大值与最小值之差, 用于反映数据的波动范围。计算简单, 但易受极端值影响。
四分位数间距
指第三四分位数与第一四分位数之差, 用于反映中间50%数据的离散程度。 较极差更稳定,不易受极端值影响。
常用统计描述方法介绍
频数分布表与直方图
通过分组和计数的方式展示数 据的分布情况,适用于连续型
变量。
集中趋势描述
包括算术均数、几何均数和中 位数等,用于描述数据的平均 水平或中心位置。
离散程度描述
包括标准差、方差和四分位数 间距等,用于描述数据的波动 范围或离散程度。
偏态与峰态描述
通过偏态系数和峰态系数等描 述数据的偏态和峰态特征,反

计数资料和计量资料的统计方法

计数资料和计量资料的统计方法

计数资料和计量资料的统计方法一、引言统计学是应用数学的一门学科,它研究那些规律性现象和在自然和社会科学过程中数字数据的收集、分析、解释和推断的方法。

统计学是一门非常重要的学科,在现代科技、工程和商业领域中具有广泛的应用。

在统计学中,数据可以分为计数资料和计量资料两类。

计数资料是指数据只能计算某个特定事件发生的次数或频率,这种数据通常表现为分类变量的形式。

而计量资料是指这样的数据,可以通过数值结构来描述它们的数量或大小,这种数据通常表现为连续或离散变量的形式。

本文旨在介绍计数资料和计量资料的统计方法,以帮助读者更好地理解这两种类型的数据并能够正确应用其相关的统计方法。

二、计数资料计数资料又称分类资料。

计数资料的数据量统计通常以频数或百分比来进行。

频数是指某个特定事件在数据集中出现的次数,而百分比是指这些事件在数据集中的出现频率。

这些计数资料通常可以用柱状图或饼图来进行可视化呈现。

在计数资料的统计分析中,最常见的是用卡方检验来判断两个或多个分类变量是否存在显著关联。

通过比较两种不同的口罩在不同寿命期间的感染率,我们可以使用卡方检验来检验它们之间是否存在显著差异。

除了卡方检验外,在计数资料的统计分析中还有一些常用的量。

我们可以使用似然比比率来比较两个或多个不同的模型,以及使用警戒区分析来评估两个或多个分类变量之间的关系。

三、计量资料计量资料又称数值资料或连续资料。

计量资料的数据通常用平均值、标准差和相关系数等指标来进行描述。

这些指标可以帮助我们更好地了解数据的中心趋势和数据之间的变异情况。

计量资料通常可以用直方图或箱线图等图表来进行可视化呈现。

在计量资料的统计分析中,最常用的是使用t检验或ANOVA分析来比较组间或样本间的差异。

在医学试验中,我们可以使用t检验来比较用药组和对照组之间的差异。

线性回归和相关性分析也是常用的计量资料分析方法,可以用来探究变量之间的关系和相关性。

四、结论五、计数资料的实例计数资料的实例非常丰富。

2-计量资料的统计描述(11硕)

2-计量资料的统计描述(11硕)
k:频数表的组段数, f :频数,
其中 X =
∑ fX ∑f
X:组中值
本组段下限值+下组段下限值 2
测得130健康成年男子脉搏资料 次/分)如下,试编制频 健康成年男子脉搏资料(次 分 如下 如下, 例2-1 测得 健康成年男子脉搏资料 数表和观察频数分布情况。 数表和观察频数分布情况。
75 82 66 60 72 81 77 69 84 80 76 80 77 67 78 70 75 68 66 68 72 82 64 75 72 66 79 65 70 76 69 67 67 75 67 75 64 70 73 70 66 69 76 73 72 71 79 69 60 79 72 73 75 79 80 63 73 66 76 77 57 64 75 66 68 77 76 81 82 64 68 74 71 69 70 74 61 63 73 70 71 58 65 79 61 76 80 64 64 66 72 70 62 78 70 68 64 80 65 69 69 64 76 70 73 65 69 74 73 73 72 60 72 72 72 77 70 78 73 78 73 77 71 70 71 69 73 76 63 76

本章内容
频数分布 集中趋势的描述 离散趋势的描述 正态分布 医学参考值范围的制定
第一节 频数分布
频数分布表 频数分布图 频数表和频数分布图的用途
一、频数与频数分布表
频数(frequency) 频数 对一个随机事件进行重复观察,其中某变量值 出现的次数 频数分布表(frequency distribution table) 频数分布表 是用表格的形式将各变量的取值与之相对应的 频数用以表达的一种统计计算或分析表
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

计量资料的统计描述方法怎样表达一组数据?描述计量资料的常用指标—A 、描述平均水平(中心位置):均数X 、中位数和百分位数、几何均数G 、众数(mode ) B 、描述数据的分散程度:标准差、四分位数间距、 变异系数、方差、全距(一)均数mean 和标准差standard deviation1. (算术)均数X均数是描述一组计量资料平均水平或集中趋势的指标。

*直接计算公式:12nX X X X X nn+++==∑应用条件:适用于对称分布,特别是正态分布资料。

2. 中位数(median )M 和百分位数(percentile )A.中位数M是将一组观察值从小到大排序后,居于中间位置的那个值或两个中间值的平均值。

应用条件:用于任何分布类型,包括偏态资料、两端数据无界限的资料。

计算:n 为奇数时--1()2n M X+=n 为偶数时--()(1)2212n n M X X +⎛⎫=+ ⎪⎝⎭9人数据:12,13,14, 14, 15, 15, 15, 17, 19天B.百分位数是将N 个观察值从小到大依次排列,再分成100等份,对应于X%位的数值即为第X 百分位数。

中位数是第百分50位数。

四分位数间距(quartile range )= 第25百分位数(P25)~第75百分位数(P75)。

四分位数间距用于描述偏态资料的分散程度(代替标准差S ),包含了全部观察值的一半。

)(天155219===+X X M 8845122221415214.5()M X X X X ⎛⎫==== ⎪⎝⎭+如果只调查了前八位中学生,则:+(+)(+)天百分位数计算(频数表法):(%)XX XL Xi P L nX f f =+-∑X L :第X 百分位数所在组段下限 L Σf :小于X L 各组段的累计频数 X i :第X 百分位数所在组段组距n :总例数 f x :所在组段频数注:有的教材X= r ;L f ∑=C例:求频数表的第25、第75百分位数(四分位数间距)组段 频数f 累积频数∑f 56~ 2 2 59~ 5 762~ 12 19 ∑f 25 L 25 65~15 34 P 25在此68~ 25 5971~ 26 85 ∑f 75 L 75 74~19 104 P 75在此77~ 15 119 80~ 10 129 83~851 130合 计130① 确定Px 所在组段:P 25所在的组段:n X %=130×25%=32.5,65~组最终的累积频数=34,32.5落在65~组段内;P 75所在的组段:n X %=130×75%=97.5, 此值落在74~组段 ② 确定Px 所在组段的X L 、X i 、f x 、L Σf ③ P 25=65+3x[(130x25%-19)/15]=65.90P 75=74+3x[(130x75%-85)/19]=74.66四分位数间距=65.90~74.66 (次/分)3.几何均数G (geometric mean )应用:适用于成等比数列的资料,特别是服从对数正态分布资料。

原始数据分布不对称,经对数转换后呈对称分布的资料。

可用于反映一组经对数转换后呈对称分布或正态分布的变量值在数量上的平均水平。

例如 抗体滴度。

计算:N 个数值的乘积开N 次方, 即为这N 个数的几何均数。

有8份血清的抗体效价分别为1:5, 1:10, 1:20, 1:40, 1:80, 1:160,1:320,1:640,求平均抗体效价。

使用分母计算!2121lg 1lg (lg lg lg )lg lg nn G X XG X X X n nXG n-==+++==∑∑为正值,为底的反对数表示以为底的对数;表示以010lg 10lg 1>-X 57.566403201608040201058=⋅⋅⋅⋅⋅⋅⋅=G 1lg [(lg5lg10lg20lg640)/8]56.57G -=++++=平均抗体效价为: 1:57 加权法:众数是一组观察值中出现频率最高的那个观察值;若为分组资料,众数则是出现频率最高的那个组段的组中值。

适用于大样本但较粗糙。

例:有16例病人的发病年龄为42,45,48,51,52,54,55,55,58,58,58,58,61,61,62,62,试求众数。

正态分布时: 均数=中位数=众数正(右)偏态分布时:均数 > 中位数 >众数 负(左)偏态分布时:均数 < 中位数 <众数3. 标准差SS 描述数据的分散程度.描述一组数据在其平均数周围的分布情况,若每个数据集中在其平均数周围,此平均数对这组数据的代表照就大;反之,代表性较差。

标准差S甲组 75 80 85 90 95 100 105 n 1=7 X 1=90 s 1=10.8 乙组45607590105 120 135 n 2=7X 2=90s 2=32.4()数据越分散 12-∑-=n X X S ,分子越大。

或者S =标准差的5应用:描述变异程度、计算标准误、计算变异系数、描述正态分布、估计正常值范围S用于正态分布资料怎样使用均数和标准差?论文中常用X±S描述对称、正态或近似正态分布数据的特征。

描述偏态资料的分散程度需用四分位数间距P25~P75(代替标准差S)。

方差:方差=S2全距R :R= 最大值–最小值。

简单,但仅利用了两端点值,稳定性差。

变异系数(coefficient of variation,CV):计算:CV=(S/X)´100%,无单位应用:1.单位不同的多组数据比较;2.均数相差悬殊的多组资料什么是正态分布?(二)正态分布(Normal distribution)正态分布是描述连续型变量值分布的曲线. 当例数比较多时,医学上许多资料近似服从正态分布。

正态分布在统计推断上有重要的作用。

正态分布曲线理论上的特征(1)以X= μ均数为中心, X值呈钟型分布,中央高、两端对称性减少、与X轴永不相交。

(2 )在X= μ处,f(x)取最大值(例数最多)。

(3 )正态分布由均数μ、标准差σ决定曲线的左右位置和高低形状:正态分布有两个参数,即位置参数--均数μ和形态参数--标准差σ。

若固定标准差σ,改变均数μ值,曲线沿着X轴平行移动,其形状不变。

若固定μ,σ越小,曲线形状越陡峭;反之,σ越大,曲线越平坦。

正态分布均数(位置参数)、标准差(变异度)变化示意图正态曲线面积分布规律:①X轴与正态曲线所夹面积恒等于1或100%;②区间μσ±的面积为68.27%;③区间 1.96μσ±的面积为95.00%;④区间 2.58μσ±的面积为99.00%。

正态分布u值表(标准正态分布概率单位值)变量值分布范围(%) 尾部面积α单侧u值双侧u值80 0.20 0.84 1.2890 0.10 1.28 1.6495 0.05 1.64 1.9699 0.01 2.33 2.58尾部面积为α的u值,记为uα,称为u界值:尾部面积各为2.5%时(黑色处),其对应的u值为u=±1.96;u=(-2.58,2.58)区间的面积为0.99(空白处)正态分布的应用:1.估计正态分布X 值在特定值范围内的分布比例(概率)。

2.制定某临床指标的参考值范围3.利用估计变量值的范围或对极端值做取舍。

4.许多统计方法的统计推断建立在正态分布基础上。

怎样确定资料是否属正态分布?1.做正态性检验;2.粗略估计: 正态一般X S 31<; X S >者必为偏态!正态分布可用于求参考值范围!(三)医学参考值范围的制定概念 医学参考值是指包括绝大多数“正常人”的各种生理及生化指标常数,也称正常值(背景值)。

正常值是指在一定范围内波动的值,医学上常用95%的范围作为判定正常或异常的参考标准。

制定参考值的基本原则1. 选定正常人:即排除了影响研究指标的有关因素的同质人群。

有足够的样本例数(一般不低于100例)2. 确定参考值范围的百分界限(常用95%)3. 考虑制定单侧或双侧诊断界值:新药肯定比旧药好(旧药肯定比新药差)——单侧新药可能好,也可能差------------------------------双侧双侧标准较高,结论较可靠(常用)4. 依分布(正态或偏态) 确定计算方法:(1)正态分布法X±µ·S,其中双侧95%参考值范围公式:X±1.96S单侧95%参考值范围公式:X+1.64S例11.3:已知111人的血铅X=0.010 µg/100ml, S=0.012 µg/100ml 因为血铅可以低而不可以高,故用单侧95%参考值范围X+1.64S=0.010+1.64×0.012=0.030(µg/100ml);血铅95%参考值范围≤0.030 µg/100ml注意:如果资料非正态分布而使用正态分布法,会得出错误结论!!(2)百分位数法适用于偏态分布资料计算公式:双侧界值:P2.5~P97.5单侧用上界:P95单侧用下界:P5(此文档部分内容来源于网络,如有侵权请告知删除,文档可自行编辑修改内容,供参考,感谢您的配合和支持)编辑版word。

相关文档
最新文档