集中趋势和离散趋势计量资料统计描述
统计描述与统计推断
统计描述与统计推断统计的主要工作就是对统计数据进行统计描述和统计推断。
统计描述是统计分析的最基本内容,是指应用统计指标、统计表、统计图等方法,对资料的数量特征及其分布规律进行测定和描述;而统计推断是指通过抽样等方式进行样本估计总体特征的过程,包括参数估计和假设检验两项内容。
(一)统计描述1.计量资料的统计描述计量资料的统计描述主要通过编制频数分布表、计算集中趋势指标和离散趁势指标以及统计图表来进行。
(1)集中趋势。
指频数表中频数分布表现为频数向某一位置集中的趋势。
集中趋势的描述指标:1)算术平均数。
直接法:x为观察值,n为个数加权法又称频数表法,适用于频数表资料,当观察例数较多时用。
f为各组段的频数。
2)几何平均数(geometric mean)。
几何平均数用符号G表示。
用于反映一组经对数转换后呈对称分布的变量值在数学上的平均水平。
直接法:加权法又称频数表法,当观察例数n较大时,可先编制频数分布表,用此法算几何平均数:3)百分位数(percentile )与中位数(median )。
百分位数是一种位置坐标,用符号x P 表示常用的百分位数有 2.5P 、5P 、50P 、75P 、95P 、97.5P 等,其中25P 、50P 、75P 又称为四分位数。
百分位数常用于描述一组观察值在某百分位置上的水平,多个百分位结合使用,可更全面地描述资料的分布特征。
中位数是一个特定的百分位数即50P ,用符号M 表示。
把一组观察值按从小到大(或从大到小)的次序排列,位置居于最中央的那个数据就是中位数。
中位数也是反映频数分布集中位置的统计指标,但它只由所处中间位置的部分变量值计算所得,不能反映所有数值的变化,故中位数缺乏敏感性。
中位数理论上可以用于任何分布类型的资料,但实践中常用于偏态分布资料和分布两端无确定值的资料。
其计算方法有直接法和频数表法两种。
直接法:当观察例数n 不大时,此法常用,先将观察值按大小次序排列,选用下列公式求M 。
定量资料统计描述——集中趋势与离散程度
度量单位不同资料之间离散度的比较; 均数相差悬殊的资料之间离散度的比较。
【例4-11】
某研究收集了100例7岁男孩的身高和体重的资料,身高均数为 123.10cm,标准差为4.71cm;体重均数为22.92kg,标准差为 2.26kg,比较这100例7岁男孩的身高和体重的变异度。
身高 CV
4.71 100 % 3.83 %
M X n1
当n为奇数时,
() 2
, 位置居中的观察值
当n为偶数时,
M
(X n ()
X n )/ ( 1)
2 ,计算出位次居中的两个观察值的均数
2
2
例:7名病人患某病的潜伏期分别为2,3,4,5,6,9,16天,求其中位数。
本例n=7,为奇数
M X 71 X 4 5(天 ) () 2
例:8名患者食物中毒的潜伏期分别为1,2,2,3,5,8,15,24小时,求其中位数。
本例n=8,为偶数
M
1
2
X 8
() 2
X 8
( 1) 2
1 2
X
4
X5
1 3 5 4(小时)
2
(二) 中位数的应用
中位数可用于各种分布的资料,在正态分布资料中,中位数等于 均数,在对数正态分布资料中,中位数等于几何均数。
中位数不受极端值的影响,因此,实际工作中主要用于不对称分 布类型的资料、两端无确切值(>100)或分布不明确的资料。
患者编号:1 2 3 4 5 6 7 8 9 ... 117 118 119 120 住院天数:1 2 2 2 3 3 4 4 5 ... 40 40 42 45
n=120,120*5%=6,为整数:
P5
2 计量资料的统计描述指标
⎜ ⎟ ⎝ 2 ⎠ ⎜ ⎟ ⎝ 2 ⎠
例 在上述 7名中年知识分子 SCL - 90 总分的基础上,又 测得一名中年知识分子该总分为171,试求其中位数。
⎞ 1⎛ ⎞ 1 1⎛ M = ⎜ X n + X n ⎟ = ⎜ X 8 + X 8 ⎟ = ( X 4 + X 5 ) = 93.5分 ( +1) ( +1) 2 ⎝ (2) ⎠ 2 ⎝ (2) ⎠ 2 2 2
1. 算术均数
适用于单峰对称分布的资料,特别是正态
分布或近似正态分布的资料。
由于均数易受到极端值的影响,故不适用
于偏态分布资料的描述。
2. 中位数
中位数(median,M):是将一组观察值
由小到大排列后位次居中的观察值。
2. 中位数
直接法:
n 为奇数时
M = X ⎛ n +1 ⎞
⎜ ⎟ ⎝ 2 ⎠
例
某研究者随机抽取温州市正常成年男子120名,其红细 胞计数值(×1012/L)的频数表资料如下,求均数。
表 1 某地 120 名正常成年男子红细胞频数表 组 段 频数 频率(%) 累积频数 3.20~ 2 1.7 2 3.50~ 5 4.2 7 3.80~ 10 8.3 17 4.10~ 19 15.8 36 4.40~ 23 19.2 59 4.70~ 24 20.0 83 5.00~ 21 17.5 104 5.30~ 11 9.2 115 5.60~ 4 3.3 119 5.90~6.20 1 0.8 120 合 计 120 100.0 - 累积频率(%) 1.7 5.8 14.2 30.0 49.2 69.2 86.7 95.8 99.2 100.0 -
计量资料的统计指标
小结
z 同质的资料计算平均数才有意义 z 根据资料分布的特征选用适当的平均数
{ 均数:正态分布、单峰对称分布的资料 { 几何均数:等比资料、滴度资料、正偏态资料,呈对数正态分布 资料 { 中位数:理论上可用于任何分布资料,但当资料适合计算均数或 几何均数时,不宜用中位数。 (偏态分布、分布不明资料、有 不确定值的资料)
频数分布和频率分布性质
110名7岁男孩身高频数表
组段 106109112115118121124127130133-136 频数 2 6 13 21 24 17 15 9 2 1 累计频数 2 8 21 42 66 83 98 107 109 110 频率 1.82 5.45 11.82 19.09 21.82 15.45 13.64 8.18 1.82 0.91 累计频率 1.82 7.27 19.09 38.18 60 75.45 89.09 97.27 99.09 100
组
段 (1) 124 ~ 128 ~ 132 ~ 136 ~ 140 ~ 144 ~ 148 ~ 152 ~ 156 ~ 160 ~
频
数 (2) 1 2
累计频数 (3) 1 3 13 35 72 98 113 117 119 120
累计频率 (4) 0.83 2.50 10.83 29.17 60.00 81.67 94.17 97.50 99.17 100.00
频率密度图性质(n→∞)
•现(n≠110),假定在该地区随机抽了n个7岁男孩并 且n→∞,则各个组段的频率→各自的概率 •身高为各个组段的概率=各个组段的直方条面积 •各个组段的面积(概率)之和为1
频率密度图性质概率)为0.064 [118,121)的直方条面积(概率)为0.073 则身高在[115,121)的概率为 [115,121)的直方条面积= 0.064+0.073= 0.137
正态分布的集中趋势和离散统计指标
正态分布的集中趋势和离散统计指标在统计学中,正态分布是一种非常重要且常见的概率分布,也被称为高斯分布。
它具有许多重要特性,其中包括集中趋势和离散统计指标。
在本文中,我们将探讨正态分布的集中趋势和离散统计指标,以及它们在实际应用中的意义和重要性。
1. 集中趋势指标正态分布的集中趋势指标是描述数据集中取值位置的统计量。
常见的集中趋势指标包括均值、中位数和众数。
其中,均值是所有数据值的平均数,是最常用的集中趋势指标之一。
在正态分布中,均值通常位于分布的中心位置,并且具有对称性。
除了均值,中位数和众数也是描述集中趋势的重要指标。
中位数是将数据集等分为两部分的数值,而众数则是数据集中出现最频繁的数值。
在实际应用中,集中趋势指标可以帮助我们理解数据分布的中心位置,判断数据的平均水平,并做出相应的决策。
在财务报表分析中,我们可以利用均值来评估企业的盈利水平,进而制定财务策略和规划预算。
在医学研究中,研究人员也常用中位数来描述疾病的发病率,以便做出治疗方案和预防措施。
2. 离散统计指标除了集中趋势指标外,正态分布还具有离散统计指标,用于描述数据的分散程度和波动性。
常用的离散统计指标包括标准差、方差和极差。
标准差是数据偏离均值的平均距离,是描述数据离散程度的重要统计量。
方差则是标准差的平方,用于衡量数据的波动性和离散程度。
另外,极差是描述数据取值范围的统计量,可以帮助我们了解数据的最大和最小取值之间的差异程度。
在实际应用中,离散统计指标可以帮助我们评估数据的波动性和风险程度,从而制定相应的风险管理和控制策略。
在金融投资中,我们可以利用标准差来衡量资产价格的波动性,进而评估投资风险并调整投资组合。
在生产制造中,研究人员也常用方差来评估生产过程的稳定性和一致性,以便提高生产效率和质量。
个人观点和理解对于正态分布的集中趋势和离散统计指标,我认为它们在数据分析和决策制定中起着至关重要的作用。
集中趋势指标可以帮助我们理解数据的中心位置,从而判断平均水平和典型取值。
1计量资料统计描述(08硕)
(3)计算:直接法、间接法。 计算:直接法、间接法。 计算 计算机计算 (4)特征:∑(X- x 特征: )=0 估计误差之和为 。 估计误差之和为0。 特征 (5)应用:正态分布或近似正态分布 应用: 应用 (6)注意:合理分组,才能求均数,否则没有意义。 注意:合理分组,才能求均数,否则没有意义。 注意
M=51天 (QR=28.5天) 天 天
3.标准差和方差(Standard deviation and variance) 标准差和方差( 标准差和方差 ) 总体方差 总体标准差 样本标准差
σ2 = ∑
( X − µ)2 N
σ=
∑ (X − µ)
N
2
S=
∑(X − X)
n −1
2
样本标准差的简化计算公式: 样本标准差的简化计算公式: 例数较少 频数表资料
∑ X 2 − (∑ X )2 / n n −1
S=
S=
∑ fX 2 − (∑ fX)2 / ∑ f ∑ f −1
甲组5名同龄男孩的身高值 名同龄男孩的身高值( ) 例2-5 甲组 名同龄男孩的身高值(cm) X X2 90 8100 95 9025 100 10000 105 11025 110 12100 ΣX = 500 ΣX 2 = 50250
(1)单位不同时组间变异程度的比较 )
表 体脂与胆固醇的变异系数 指标 体脂( ) 体脂(%) 胆固醇( 胆固醇(mmol)
x
18.90 4.84
S 5.80 1.04
CV 30.69 21.40
集中趋势与离散趋势
允许用户自定义查询条件、筛选数据和调整图表 参数,以便更深入地探索数据的内在规律和关联 关系。
数据动画
将数据变化过程以动画形式展现出来,帮助用户 更直观地理解数据的变化趋势和动态特征。
06 总结与展望
CHAPTER
主要发现与结论
集中趋势描述
通过平均数、中位数和众数等指标,可以有 效地描述数据的集中趋势,反映数据分布的 中心位置。
众数
一组数据中出现次数最多的数。众数可能不唯一,也可能不存在。众数适用于分类数据和顺序数据,对于数值型 数据,如果数据分布的波动性较大,众数可能不能很好地代表数据的集中趋势。
03 离散趋势
CHAPTER
定义与概念
离散趋势
指一组数据中各数值之间的差异程度 或离散程度,是数据分布的另一个重 要特征。
直方图(Histogram)
将数据按照一定范围进行分组并用矩形条表示,通过矩形条的高度和宽度反映数据的分布 规律。
散点图(Scatter Plot)
用点的位置表示两个变量之间的关系,可通过观察点的分布情况和趋势线分析数据的集中 和离散趋势。
动态数据可视化在趋势分析中的应用
1 2 3
时间序列分析
通过动态展示数据随时间变化的情况,揭示数据 的长期趋势、季节波动和周期性规律。
• 关注数据质量和异常值处理:在实际数据分析中,异常值和数据质量问题是不 可忽视的。未来的研究可以关注如何有效地处理异常值和数据质量问题,以提 高集中趋势和离散趋势分析的准确性和可靠性。例如,可以采用稳健的统计方 法或者数据清洗技术对异常值进行处理,以保证分析结果的稳定性和可靠性。
谢谢
THANKS
Tableau
功能强大的数据可视化工具,支持交互式数据分析和动态图表展示, 适用于大数据处理。
统计学知识点
统计学知识点第一章概论1. 总体(Population ):根据研究目的确定的同质对象的全体(集合);样本(Sample ):从总体中随机抽取的部分具有代表性的研究对象。
2. 参数(Parameter ):反映总体特征的统计指标,如总体均数、标准差等,用希腊字母表示,是固定的常数;统计量(Statistic ):反映样本特征的统计指标,如样本均数、标准差等,采用拉丁字字母表示,是在参数附近波动的随机变量。
3. 统计资料分类:定量(计量)资料、定性(计数)资料、等级资料。
第二章计量资料统计描述1. 集中趋势:均数(算术、几何)、中位数、众数2. 离散趋势:极差、四分位间距(QR =P 75-P 25)、标准差(或方差)、变异系数(CV )3. 正态分布特征:①X 轴上方关于X =对称的钟形曲线;②X =时,f(X)取得最大值;③有两个参数,位置参数和形态参数;④曲线下面积为1,区间±的面积为%,区间±的面积为%,区间±的面积为%。
4. 医学参考值范围的制定方法:正态近似法:/2X u S α±;百分位数法:。
第三章总体均数估计和假设检验1. 抽样误差(Sampling Error ):由个体变异产生、随机抽样造成的样本统计量与总体参数的差异。
抽样误差不可避免,产生的根本原因是生物个体的变异性。
2. 均数的标准误(Standard error of Mean, SEM ):样本均数的标准差,计算公式:/X n σσ=。
反映样本均数间的离散程度,说明抽样误差的大小。
3. 降低抽样误差的途径有:①通过增加样本含量n ;②通过设计减少S 。
4. t 分布特征:①单峰分布,以0为中心,左右对称;②形态取决于自由度,越小,t 值越分散,t 分布的峰部越矮而尾部翘得越高;③当逼近∞,X S 逼近X σ, t 分布逼近u 分布,故标准正态分布是t 分布的特例。
5. 置信区间(Confidence Interval , CI ):按预先给定的概率(1-)确定的包含总体参数的一个范围,计算公式:/2,X X t S αν±或/2,X X u S αν±。
数值变量资料的集中趋势和离散趋势
2.几何均数(geometric mean)
常适用于一种特殊的偏态分布资料:等比资料或对 数正态分布资料(常见于抗体滴度)。
3.中位数(median,M) 10.12.9.7.11.39
主要适用于偏态分布资料。中位数是指将一组变 量值从小到大排列,位次居中的变量值。
S CV 100% X
CV: 单位不同,均数相差悬殊 S : 单位相同,均数相近
5.四分位数间距(quartile interval,Q):P75 、 P25分别表示第75百分位数和第25百分位数。
Q= P75-P25(上四分位数-下四分位数)
注:主要用于偏态分布资料离散程度的描述。
正态分布:集中趋势,平均数;离散趋势,方差 偏态分布:集中趋势,中位数;离散趋势,四分位数间距
最大值
统计结果
注:除了用“Frequencies”外,还可以使用 “Descriptives”进行统计描述 描述
三、用SPSS软件实现统计描述
操作步骤:
1.选择“Frequencies”
描述性统计
频数
操作步骤:
2.将变量选入变量框, 点击“Statistics”
操作步骤:
用Excel计算
2.选择相应描述性指标, 无几何均数,变异系数 点击“Continue” 均数
四分位数
间距 中位数 最小值 标准差 方差 极差
偏态分布பைடு நூலகம்集中位置偏向一侧,频数分布不对称的 分布。
正偏态
120 100
负偏态
80
60
40
20
0 0.0 10.0 20.0 30.0 40.0 50.0 60.0
卫生统计学课件 第二章 计量资料的统计描述(共33张PPT)
●计算公式: 13cm之间的占该地7岁男童的百分 比。
∑f · X=1638
双侧界值:P 2.5 ~ P 97..5 定义:又称参考值范围,是指特定健康人群的解剖、生理、生化等各种数据的波动范围。
特征: ∑(X- X)=0 估计误差之和为0。
估计的方法: 1、正态分布法
2、百分位数法
28
1.正态分布法
应用条件:正态分布或近似正态分布资料 ●计算 (双侧) 95% 正常值(医学参考值)范围公式:
(x1.96 · S,x1.96 · S )
即(x±1.96 · S ) 例:
1.96 × 3.79 )
即(156.41 cm , 171.27 cm )
1998年100名18岁健康女大学生身高的频数分布
数。 (3) 估计该地7岁男童身高在107.
确定组段:第一组段包括最小值,如本例为154 89 cm 取整数 2 cm 应用:单位不同的多组数据比较
13cm之间比的。占该地7岁男频童的数百分表(频数分布):表示各组及它们对
注意:合理分组,才能求均数,否则没有意义。
96 ·S,x 1. Q = Qu 一 Ql
单侧 上界: P 95
单侧 下界: P 5
31
习题:
1.各观察值加同一数后: A.均数不变,标准差改变 B.均数改变,标准差不
变
2.用均数和标准差可全面描述:
3.正态分布曲线下,从均数u 到u 的面积为; A.95% B.45% C. 97.5% D.47.5%
19
相关概念:离均差、离均差平方和、方差(2 S2 ) 标准差的符号: S
统计简答题
1.简述描述一组资料的集中趋势和离散趋势的指标。
集中趋势和离散趋势是定量资料中总体分布的两个重要指标。
(1)描述集中趋势的统计指标:平均数(算术均数、几何均数和中位数)、百分位数(是一种位置参数,用于确定医学参考值范围,P50就是中位数)、众数。
算术均数:适用于对称分布资料,特别是正态分布资料或近似正态分布资料;几何均数:对数正态分布资料(频率图一般呈正偏峰分布)、等比数列;中位数:适用于各种分布的资料,特别是偏峰分布资料,也可用于分布末端无确定值得资料。
描述离散趋势的指标:极差、四分位数间距、方差、标准差和变异系数。
四分位数间距:适用于各种分布的资料,特别是偏峰分布资料,常把中位数和四分位数间距结合起来描述资料的集中趋势和离散趋势。
方差和标准差:都适用于对称分布资料,特别对正态分布资料或近似正态分布资料,常把均数和标准差结合起来描述资料的集中趋势和离散趋势;变异系数:主要用于量纲不同时,或均数相差较大时变量间变异程度的比较2.举例说明变异系数适用于哪两种形式的资料,作变异程度的比较?度量衡单位不同的多组资料的变异度的比较。
例如,欲比较身高和体重何者变异度大,由于度量衡单位不同,不能直接用标准差来比较,而应用变异系数比较。
3.试比较标准差和标准误的关系与区别。
区别:⑴标准差S:①意义:描述个体观察值变异程度的大小。
标准差小,均数对一组观察值得代表性好;②应用:与均数结合,用以描述个体观察值的分布范围,常用于医学参考值范围的估计;③与n的关系:n越大,S越趋于稳定;⑵标准误SX:①意义:描述样本均数变异程度及抽样误差的大小。
标准误小,用样本均数推断总体均数的可靠性大;②应用于均数结合,用以估计总体均数可能出现的范围以及对总体均数作假设检验;③与n的关系:n越大,SX越小。
联系:①都是描述变异程度的指标;②由SX=s/n-1可知,SX与S成正比。
n一定时,s 越大,SX越大。
4.简述应用相对数时的注意事项。
集中趋势和离散趋势的描述
n +1 ) 2
1 M = X n +X n ( +1) 2 (2) 2
例
7名病人患某病的潜伏期分别为 2,3,4,5,6,9,16 求其中位数。 求其中位数。 本例n=7,为奇数 本例n=7,为奇数 天,
M=X
7 +1 ( ) 2
= X 4 = 5(天)
例 8名患者食物中毒的潜伏期分别为 1,2,2,3,5,8,15,24 15, 求其中位数。 求其中位数。 本例n 本例n=8, 为偶数 小时, 小时,
12 P25 = 36 + (118 × 25% − 21) = 39.2 (天) 32
12 P75 = 60 + (118 × 75% − 77) = 67.7 (天) 18
离散变量百分位数
产后出血的产妇中平均有几次人工流产史? 例 产后出血的产妇中平均有几次人工流产史?
Valid Frequency
百分数: 为整数: (1)第5百分数:n=120, ×5% = 6,为整数: ) 百分数 , 120
1 1 P5 = X ( 6 ) + X ( 7 ) = (3 + 4) = 3.5( 天 ) 2 2
住院天数: 住院天数: 2 2 2 3 3 4 4 5 ⋯ 40 1 序 (2)第99百分位数: 99百分位数: 百分位数
40 42 45 号:1 2 3 4 5 6 7 8 9 ⋯ 117 118 119 120
120 × 99% = 118.8
带有小数,故取整后 带有小数,故取整后trunc(118.8)= 118 )
P = X (trunc(118.8)+1) = X (119) = 42(天) 99
医学统计学简答题总结 必考大题总结 考前必看
描述计量资料的集中趋势和离散趋势的指标有哪些?各指标的适用范围如何?答:描述计量资料集中趋势的统计指标常见的有算数均数、几何均数、中位数。
算数均数适用于描述对称分布资料的集中位置,尤其是正态分布的资料;几何均数一般用来描述等比资料和对数正态分布资料的集中位置;中位数可以使用于任何分布的资料,尤其是偏态分布。
分布不明或分布末端无确定值的资料。
描述离散趋势的指标常见的有极差、四分位数间距、方差、标准差和变异系数。
极差与四分位数间距可以用于任何分布,后者比前者稳定,但是这两个指标都不能综合反映各观察值得变异程度;方差和标准差最常用,但要求资料近似正态分布;变异系数可以用于多组资料间量纲不同或均数相差较大的时候变异程度的比较。
频数分布表(图)的用途有哪些?1描述资料的分布类型,是对称分布还是偏态分布;2描述变量的分布特征:集中趋势和离散趋势;3便于发现某些离群值或异常值;4便于进一步的统计分析和处理;5当样本含量够大的时候,我们还可以以频率作为概率的估计值。
变异系数和标准差有何异同?答:不同点:变异系数主要用于量纲不同的变量间,或均数相差较大的变量间的变异程度的比较。
所以变异系数是没有量纲的,而标准差是方差的平方根,标准差的量纲与原指标的一致,它适用于近似正态分布的资料。
相同点和联系:变异系数和标准差都是用于对称分布资料,尤其是正态分布的资料,且还可以知道变异系数是由标准差计算得到的。
应用相对数的注意事项:1、防止概念混淆2.频率型指标的解释要紧扣总体与属性3、计算相对数时分母应有足够数量4.正确计算合计频率5、注意资料的可比性6.正确进行相对数的统计推断。
为什么不能以构成比代率?请联系实际加以说明。
率和构成比所说明的问题不同,因而绝不能以构成比代率。
构成比只能说明各组成部分的比重或分布,而不能说明某现象发生的频率或强度。
.二项分布:如果每个对象阳性结果的发生概率为π,阴性结果的概率为1-π,而且各个观察对象的结果是相互独立的,那么,重复观察N个人,发生阳性次数的概率分布为二项分布。
计量资料的统计描述
4.66 4.28 3.83 4.20 5.24 4.02 4.33 3.76 4.81 4.17 3.96 3.27
4.61 4.26 3.96 4.23 3.76 4.01 4.29 3.67 3.39 4.12 4.27 3.61
4.98 4.24 3.83 4.20 3.71 4.03 4.34 4.69 3.62 4.18 4.26 4.36
M
x
n
2
x
n
2
1
2
4
百分位数(percentile)
0%
PX
M 即50%分位数就是中位数
100%
27
1.直接计算法
28
例2-9 对某医院细菌性痢疾治愈者的住院天数统计, 119名患者的住院天数从小到大的排列如下, 试求第5百分位数和第99百分位数
患 者 1 2 3 4 5 6 7 8 116 117 118 119 住院天数 1 1 2 2 2 3 4 4 39 40 40 42
3.77 4.20 4.36 3.07 4.89 3.97 4.28 3.64 4.66 4.04 4.55 4.25
4.63 3.91 4.41 3.52 5.03 4.01 4.30 4.19 4.75 4.14 4.57 4.26
4.56 3.79 3.89 4.21 4.95 3.98 4.29 3.67 4.69 4.12 4.56 4.26
第一篇 基本统计方法
1
第二章 计量资料的统计描述
Descriptions of Measurement Data
2
Chapt 2
Frequency distribution
Description of central tendency
集中趋势和离散趋势的描述
集中趋势和离散趋势的描述
集中趋势是一组数据中数值聚集的特征,常见的集中趋势指标包括平均数、中位数和众数。
平均数是所有数值的总和除以数据的个数,中位数是将数据按大小排列后处于中间位置的数值,众数是一组数据中出现次数最多的数值。
离散趋势是一组数据中数值分散的特征,反映了数据的分布情况。
常见的离散趋势指标包括范围、标准差和方差。
范围是一组数据中最大值和最小值之间的差值,标准差和方差则是用来度量数据的离散程度的统计指标,标准差是方差的平方根。
离散趋势指标描述了数据的分布形状,离散程度和数据的变异性。
集中趋势、离散趋势的描述
频数 (2) 1 3 6 8 17 20 17 12 9 5 2 1 101
1´2.45 3´2.75 L1´5.75 409.75 X 4.06(mmol/L) 1 3L 1 101
2014-12-2 延安大学医学院计量资料统计描述 29
2、知识点:
①均数应用于呈正态分布或近似正态分布的计量资 料。 ②当资料呈正态分布时,均数位于分布的中心。 ③每个观察值都加一个常数A,则均数为原均数加
2014-12-2
延安大学医学院计量资料统计描述
23
二、平均水平(集中趋势)指标
统计上使用平均数(average)这一指标体
系来描述一组变量值的集中位置或平均水平。
常用的平均数有:
算术均数
几何均数 中 位 数
2014-12-2
众 数 调和均数
延安大学医学院计量资料统计描述
24
(一)算术均数
算术均数:简称均数(mean)
13.5
19.5
25.5
31.5
37.5
43.5.
血清转氨酶(mmol/L)
图2-2 115名正常成年女子血清转氨酶的频数分布
115名正常成年女子血清转氨酶(mmol/L)含量分布
转氨酶含量 12~ 15~ 18~ 21~ 24~ 27~ 30~ 33~ 36~ 39~ 42~45
2014-12-2 延安大学医学院计量资料统计描述
10
4.划记并统计频数
逐一划记
L X U
2014-12-2
延安大学医学院计量资料统计描述
11
101名正常成年女子的血清总胆固醇(mmol/L)频数分布
组 段
(1) 2.30~ 2.60~ 2.90~ 3.20~ 3.50~ 3.80~ 4.10~ 4.40~ 4.70~ 5.00~ 5.30~ 5.60~5.90 合 计
计量资料描述
计量资料的统计描述描述性统计分析是进行统计分析的第一步,做好这一步是正确进行统计推断的先决条件。
计量资料常用的统计描述指标和方法主要有:1、集中趋势指标(Central Tendency):包括均数、几何均数、中位数等。
其中均数适用于正态分布和对称分布资料;几何均数适用于对数正态分布和呈等比的数据资料;中位数适合于所有分布类型的资料,但在实际中,中位数主要应用于偏态分布资料、分布不明资料和开口资料。
2、离散趋势指标(Dispersion):包括全距、四分位数间距、方差、标准差、变异系数、标准误等。
方差、标准差用于正态分布资料,四分位数间距用于偏态分布资料,变异系数用于度量单位不同和均数相差悬殊的资料,标准误用于反映样本均数的离散程度,说明均数抽样误差大小。
SPSS的许多模块均可完成描述性统计分析,但专门为该目的而设计的几个模块则集中在Descriptive Statistics菜单中,最常用的是列在最前面的四个过程:Frequencies过程:产生频数表;按要求给出某百分位数。
对计量资料、计数资料和等级资料的描述都适用Descriptives过程:进行一般性的统计描述,用于服从正态分布的资料,计算产生均数、标准差等;Explore过程:用于对数据概况不清时的探索性分析;Crosstabs过程:完成计数资料和等级资料的统计描述和一般的统计检验,我们常用的X2检验也在其中完成。
本次实习练习前3个过程:Frequencies过程,Descriptives过程,Explore过程。
Crosstabs过程在X2检验实习讲述。
Frequencies过程案例:某地101例健康男子血清总胆固醇值测定结果如下,请绘制频数表、直方图,计算均数、标准差、变异系数CV、中位数M、p2.5和p97.5。
4.77 3.37 6.14 3.95 3.56 4.23 4.31 4.715.69 4.12 4.56 4.37 5.396.30 5.217.22 5.543.93 5.214.125.18 5.77 4.79 5.12 5.20 5.10 4.70 4.74 3.50 4.69 4.38 4.896.25 5.324.50 4.63 3.61 4.44 4.43 4.25 4.035.85 4.09 3.35 4.08 4.79 5.30 4.97 3.18 3.97 5.165.10 5.86 4.79 5.34 4.24 4.32 4.776.36 6.38 4.88 5.55 3.04 4.55 3.35 4.87 4.17 5.85 5.16 5.09 4.52 4.38 4.31 4.58 5.72 6.55 4.76 4.61 4.17 4.03 4.47 3.40 3.91 2.70 4.604.095.96 5.48 4.40 4.55 5.38 3.89 4.60 4.47 3.64 4.34 5.186.14 3.24 4.90 3.05一、建立数据文件1、定义变量:在数据窗口,点击,定义一个变量,变量名(Name)“x”,类型(Type)“数值()8,小数位数(Decimals)2,变量标签(Label):“血清总胆固醇”。
定量资料统计描述(1)
7
25 频数20
15 10 5 0
年龄(岁)
某市某年乙脑患者的年龄分布
8
0.5
2.5
4.5
6.5
8.5 10.5 12.5 14.5
16.5 18.5 20.5 22.5 24.5
26.5 28.5 30.5 32.5 34.5
36.5 38.5 40.5 42.5 44.5
46.5 48.5 50.5 52.5 54.5
56.5 58.5
3. 频数分布表的用途 1) 揭示资料的分布类型 2) 反映频数分布的两个重要特征
集中趋势(Central tendency) 离散趋势(Tendency of dispersion)
9
3) 利于发现某些特大或特小的可疑值 4) 便于进一步进行统计分析
10
4. 频数分布图 以观测变量为横轴,频数(或频率)为纵轴
所作的直方图,称为频数分布图。用途与频 数表类似,但更直观、形象。
11
二、集中趋势的描述
描述定量资料数量特征和分布规律的统计 指标有两类:
一类是描述数据分布集中趋势的指标,即 平均数(average);
另一类是描述数据分布离散程度(或变异 程度)的指标。
12
1. 算术均数(arithmetic mean) 简称均数(mean),它描述一组数据在
累计频数等于该组段及前面各组段的频数 之和;累计频率等于累计频数除以总例数。 累计频率描述了累计频数在总例数中所占比 重。
6
2. 频数分布的类型
① 对称分布:集中位置在正中,左右两侧大体对称。
② 偏态分布:集中位置偏向一侧,频数分布不对称。
正偏态分布
负偏态分布
频数分布类型不同,统计描述的方法不同。
数值变量资料统计分析--集中趋势
累计频率(%)
4.3 31.1 57.6 M 72.5 85.4 92.1 96.5 98.7 99.4 99.8
100.0 -
百分位数的应用
1.中位数是百分位数的特例。其特点是不易受异 常值的影响,适用于描述明显偏态分布、或两端 无确定数值数据的平均水平。 2.描述数据序列在某百分位置的水平。多个百分
(其 衡直单数方位值图。大)小所得的资料,一般有度量 2. 选用适当的统计指标
集中趋势指标、变异程度指标
第一节 频数分布
(Frequency Distribution)
由实验或临床观察等各种方式得到的原始数据, 如果是计量资料并且观察的例数较多,为了能够显 示数据的分布规律,可以对数据进行分组,然后制 作频数表或绘制直方图。
观察值水平
二、计数资料的统计描述
数值变量资料的统计描述
(Measures of Central Tendency)
要求:
掌握:计量资料的频数分布;算术
均数、几何均数、中位数适用的资料类 型及计算方法。
熟悉:百分位数。
计量资料的统计描述
方法有两类:
1.计统量计资图料表(measurement data):对每个 观察主对要象是的频观数察分指布标表用、定频量数方分法布测图定
如,2、3、5、 、9、11、12 7
直接法
n为奇数
有7个人的血压(收缩压)测定值(mmHg)为:
120、123、125、127、128、130、132, 求
中位数。
n为偶数
M=127(mmHg)
某病患者8人的潜伏期(天)分别为5,6,8,9,
11,11,13,>16。求中位数。
8人的平均潜伏期为10天,即M=10(天)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
t 检验
2
计量资料的统计描述,描述什么? 描述的对象:计量资料,群体
3
4
群体特征的描述:一般先有一个变量,然后会有一 系列的变量值,这些变量值就是一个群体。
针对这样一个群体,你想知道什么?(共性与特性, 有群体就有变异)
同样是计量资料,但其特点又各不相同(分布问题: 正态与非正态,计算均数时也不同)
身高组段 (1) 154~
156~ 158~ 160~ 162~ 164~ 166~ 168~ 170~ 172~174 合计
划记
11 1111 11111,11111,1 11111,11111,111 11111,11111,11111,11111,11 11111,11111,11111,1111 11111,11111,11111 11111,1111 1111
标准差的符号: S 标准差的意义:全面反映了一组观察值的变异程
度。(越大说明围绕均数越离散,反之说明较集中在均数
周围,均数代表性越好)
23
标准差的计算(公式): 例题: 100名18岁女大学生身高标准差的计算
结果:3.79 cm
标准差的应用:描述变异程度、计算标准 误、计算变异 系数、描述正态分布、估 计正常值范围
1
频数 f (2)
2
4 11
13 22 19 15
9 4 1
27
100
1、正态分布的图形
28
正态分布
29
2、正态分布的特征
均数处最高; 均数为中心对称; 2个参数 N(μ ,):决定图形的形状和位置 曲线下的面积有一定规律。
30
31
正态分布的特殊形式:
标准正态分布N(0 ,1);
有8份抗体血清的抗体效价分别为1: 5,1:10,1:20,1:40,1:80, 1:160,1:320,1:640, 求平均 抗体效价。
16
2.几何均数
ห้องสมุดไป่ตู้
意义:N个数值的乘积开N次方即为这N 个数
的几何均数。
表示:G = n x1x2...xn = ㏒-1∑ ㏒X
n
计算:
应用:原始数据分布不对称,经对数转换后 呈对称分布的资料。例如抗体滴度。
156~ 158~ 160~ 162~ 164~ 166~ 168~ 170~ 172~174 合计
划记
11 1111 11111,11111,1 11111,11111,111 11111,11111,11111,11111,11 11111,11111,11111,1111 11111,11111,11111 11111,1111 1111
24
3.变异系数
意义:标准差与均数之比用百分数表示。
符号: CV
计算: CV=(S/X)100%
无单位
应用:单位不同的多组数据比较
均数相差悬殊的多组资料
25
四、正态分布
什么是分布? 1、图形 2、特征 3、面积
26
1998年100名18岁健康女大学生身高的频数分布
身高组段 (1) 154~
13
1.算术均数(均数)
意义:一组性质相同的观察值在数量上的平 均水平。
表示 (总体) X(样本) 特征: ∑(X- X)=0 估计误差之和为0。 应用:正态分布或近似正态分布 注意:合理分组,才能求均数,否则没有意
义。
14
例题: 100名18岁女大学生身高均数的计算
直接法、间接法、计算机 结果:163.48cm
1
频数 f (2)
2
4 11 13 22 19 15 9 4 1 100
10
频数分布的特征:
集中趋势与离散趋势
11
二、集中趋势(集中位置的描述)
一般用平均值来描述。
平均值是一组(群)数据典型 或有代表性的值。这个值 趋向于落在根据数据大小 排列的数据的中心。
12
几种常用的平均值:
1.算术均数 2.几何均数 3.中位数
17
3.中位数、百份位数
意义:将一组观察值从小到大排序后,居于中 间位置的那个值或两个中间值的平均值。 将N个观察值从小到大依次排列,再分成 100等份,对应于X%位的数值即为第X百分位 数。中位数是百分位的特殊形式。
表示:M 、PX 计算: 应用:偏态资料,开口资料
18
三、离散趋势(离散程度的描述)
估计的方法: 1、正态分布法 2、百分位数法
5
主要内容
频数表 集中趋势 离散趋势 正态分布 正常值范围估计
原始资料(变量与变量值,资料性质)
7
一. 频 数 表
频数:当汇总大量的原始数据时,把 数据按类型分组,其中每个组的数据个 数,称为该组的频数。
频数表(频数分布):表示各组及它们 对应的组频数的表格称为频数表或频数 分布。
1998年100名18岁健康女大学生身高的频数分布
99%面积下的标准差 95%,99%的面积公式: z 与所对应的面积P成反比。
34
35
五、(医学)正常值范围
定义:又称参考值范围,是指特定健康人群的 解剖、生理、生化等各种数据的波动范围。
习惯上是确定包括95%的人的界值。(正态分 布的应用)
单双侧: 根据指标的实际用途,有的指标有 上下界值,过高过低均属异常;某些指标过高 为异常,只需确定上限;某些指标过低为异常, 只需确定下限。
描述一组数据参差不齐的程度
19
20
常用指标
全距 四分位数间距 方差 标准差 变异系数
21
1.全距、四分位数间距
R :最大最小值之差。 Q:上四分位数(P75)Qu与下四分位数Ql (P25) 之差,中间包含了全部观察值的一半。
22
2.标准差
相关概念(公式表示):离均差、离均差平方和 方差(2 S2 )
第二讲
集中趋势和离散趋势
(计量资料的统计描述)
计量资料 计数资料 相关与回归
基本内容
统计描述
频数分布 集中趋势 离散趋势
统计图表
相对数及其 标准化
统计图表
rb
统计图表
统计推断 应 用
抽样误差 正常值范围估计 标准误 t u F检验 可信区间的估计 秩和检验
u 、 2检 验
秩和检验
疾病统计 人口统计
标准正态变换(变换公式);
z
X
u
例题:一次统计测验的平均分是72,标准差是
15,求60分、93分、72分的标准分数。
上例中,身高为160cm女大学生的标准分是多 少?
32
33
3、曲线下面积 特点:
横轴上曲线下的面积为1 曲线下,横轴上对称于u的面积相等,从-到μ; 1个标准差位置的面积,95%面积下的标准差,