(精选)定量资料统计描述
定量资料统计描述——集中趋势与离散程度
![定量资料统计描述——集中趋势与离散程度](https://img.taocdn.com/s3/m/03b60ac7f5335a8103d2203f.png)
度量单位不同资料之间离散度的比较; 均数相差悬殊的资料之间离散度的比较。
【例4-11】
某研究收集了100例7岁男孩的身高和体重的资料,身高均数为 123.10cm,标准差为4.71cm;体重均数为22.92kg,标准差为 2.26kg,比较这100例7岁男孩的身高和体重的变异度。
身高 CV
4.71 100 % 3.83 %
M X n1
当n为奇数时,
() 2
, 位置居中的观察值
当n为偶数时,
M
(X n ()
X n )/ ( 1)
2 ,计算出位次居中的两个观察值的均数
2
2
例:7名病人患某病的潜伏期分别为2,3,4,5,6,9,16天,求其中位数。
本例n=7,为奇数
M X 71 X 4 5(天 ) () 2
例:8名患者食物中毒的潜伏期分别为1,2,2,3,5,8,15,24小时,求其中位数。
本例n=8,为偶数
M
1
2
X 8
() 2
X 8
( 1) 2
1 2
X
4
X5
1 3 5 4(小时)
2
(二) 中位数的应用
中位数可用于各种分布的资料,在正态分布资料中,中位数等于 均数,在对数正态分布资料中,中位数等于几何均数。
中位数不受极端值的影响,因此,实际工作中主要用于不对称分 布类型的资料、两端无确切值(>100)或分布不明确的资料。
患者编号:1 2 3 4 5 6 7 8 9 ... 117 118 119 120 住院天数:1 2 2 2 3 3 4 4 5 ... 40 40 42 45
n=120,120*5%=6,为整数:
P5
第二章 定量资料的统计描述
![第二章 定量资料的统计描述](https://img.taocdn.com/s3/m/f561bdd081eb6294dd88d0d233d4b14e85243e26.png)
第二章定量资料的统计描述一、选择题1.资料的统计分析包括统计描述和统计推断两部分内容,而统计描述是指A.由样本统计量推断总体参数B.对总体参数进行估计C.用统计指标、统计图表描述资料的特征D.对搜集到的资料进行整理E.比较指标间的差异有无统计学意义2.定量资料频数分布的两个重要特征是A.样本与总体B.统计量与参数C.样本均数与总体均数D.集中趋势与离散程度E.标准差与标准误3.常用的平均数指标是A.样本均数、总体均数、中位数B.均数、几何均数、中位数C.均数、几何均数、标准差D.均数、几何均数、变异系数E.均数、中位数、方差4.描述一组正态分布或近似正态分布资料的平均水平宜采用A.平均数B.几何均数C.中位数D.变异系数E.均数5.反映一组血清抗体滴度资料的平均水平,常选用的指标是A.平均数B.几何均数C.中位数D.变异系数E.均数6.描述传染病的平均潜伏期宜采用A.平均数B.几何均数C.中位数D.变异系数E.均数7.某病患者8人的潜伏期(天)如下:2、3、3、3、4、5、6、30+,则平均潜伏期为A.7天B.3天C.4天D.3.5天E.大于7天8.一组数据中各观察值均加(或减)某一个不等于0的常数后A.均数不变,标准差改变B.均数改变,标准差不变C.二者均改变D.二者均不改变E.变异系数不变9.以下资料类型中,适宜用均数与标准差进行统计描述的是A.任意分布B.正偏态分布C.负偏态分布D.正态分布E.对称分布10.某研究者测量了某地237人晨尿中的氟含量(/mg L),结果如下尿氟0.2~0.6~ 1.0~ 1.4~ 1.8~ 2.2~ 2.6~ 3.0~ 3.4~ 3.8~人数75 67 30 20 16 19 6 2 1 1对该资料的集中趋势和离散趋势进行描述宜采用A.均数与标准差B.中位数与四分位数间距C.众数与标准差D.均数与变异系数E.中位数与变异系数11.比较身高和体重两组数据的变异度大小宜采用A.标准差B.全距C.方差D.变异系数E.四分位数间距12.比较某地1~2岁与5~5.5岁儿童身高的变异度大小宜采用A.全距B.四分位数间距C.标准差D.方差E.变异系数二、计算分析题1.为了解某地区健康成年女性的血清总蛋白含量水平,某研究者于2013年在该地区随机抽取了110名健康成年女子,测得其血清总蛋白含量(/g L),结果见表2-1。
定量资料数据的统计描述
![定量资料数据的统计描述](https://img.taocdn.com/s3/m/32dc395abe1e650e52ea99fd.png)
f lg X lg f
1
X1,X2…Xn 为各组段的滴度或滴度倒数。 f1,f2…fn分别为各组段的频数。
例2-6 52例慢性迁延性肝炎患者的HBsAg滴度 数据见表2-4,求其平均滴度。
2 1.20412 7 1.50515 ... 7 2.7027 G lg 1 52 lg 1 108.06977/ 52 lg 2.7017 119.74705
①两端的组段应分别包含最小值或 步骤: 最大值; (1) 求全距:(极差) R=29.64-7.42=22.22 ②尽量取较整齐的数值作为组段的 端点,便于对数据进行表述; (2) 定组段数与组距 : 8~15个组段,组距i=全距/组段数 ③组距以相等为宜。 (3) 划组段:以一个稍小于或等于最小值的整数作为第一个
理的各种因素在个体之间都不会完全相同,即个体间存在差
异,因此导致某地18-35岁健康男性居民血清铁含量不会完全 相同,而是呈现或大或小的离散趋势。
一、描述集中趋势的统计指标
平均数:描述一组同质计量资料的集中趋势;反映一组观察值 的平均水平。 常用的平均数有算术均数,几何均数和中位数。 (一)算术均数(mean):简称均数,总体均数用希腊字母µ 表
四、频数分布的类型
对称分布型:指集中位置在正中,左右 两侧频数分布大体对称。
偏态分布型:指集中位置偏向一侧,频数 分布不对称。 正偏态分布:集中位置偏向数值小的一侧。
偏态分布型
频数分布
负偏态分布:集中位置偏向数值大的一侧。
频数表的用途
1. 揭示频数分布的分布特征和分布类型。文献中常 将频数表作为陈述资料的形式。
图中横轴为血清铁含量,纵轴为频率密度,直条面 积等于相应组段的频率。
定量资料的统计描述 (2)
![定量资料的统计描述 (2)](https://img.taocdn.com/s3/m/dcb6f9efb7360b4c2f3f6436.png)
频数
338.7 402.6 379.4 329.6 354.6 331.4 349.6 419.5 324.6
270~
2
313.6
3382.785~328.6正291.3
329.7
361.8 392.4 9
414.9
319.7
289.4 3663.200~387.4正2正98.4 408.7 389.8 11362.5 354.9 352.7
累计频数
(4) 3
10 26 59 83 97 101 102 —
累计频率(%) (5) 2.94 9.80 25.49 57.84 81.37 95.10 99.02
100.00 —
2002年某市150名20~29岁正常成年男子的尿酸浓度(umol/L)
362.6 359.7 285.9 300.2 333.6 334.0 288.8 338.5 341.9 344.6 337.5 298.3 364.2 367.1 338.1 316.9 332.7 324.0 282.6 369.8 398.7 338.7 308.9 392.1 368.7 352.6 378.2 346.1 278.6 318.3 323.2 322.6 382.1 322.6 309.6 352.0 372.5 399.8 335.6 341.1 371.0 355.9 362.7 368.1 332.4 405.6 328.8 358.8 405.9 362.7 316.3 338.7 402.6 379.4 329.6 354.6 331.4 349.6 419.5 324.6 329.8 357.8 312.0 313.6 338.7 328.6 291.3 329.7 361.8 392.4 414.9 319.7 327.6 395.8 358.9 289.4 366.2 387.4 298.4 408.7 389.8 362.5 354.9 352.7 316.6 348.9 348.7 401.6 334.6 308.9 367.0 345.6 401.6 357.1 304.6 338.5 388.2 355.8 329.4 321.1 320.4 313.5 339.8 409.4 387.4 378.5 392.0 352.7 376.2 388.4 344.6 308.6 347.0 428.7 369.1 311.4 376.3 349.4 289.2 366.8 371.0 387.5 413.6 348.7 392.7 401.0 313.6 366.8 387.2 319.7 329.4 357.5 348.5 346.8 406.6 357.6 338.7 341.6 349.8 289.4 366.2 357.5 298.4 336.8 387.5 342.3 366.7 387.6 332.7 329.4
定量资料的统计描述
![定量资料的统计描述](https://img.taocdn.com/s3/m/60a3f997c67da26925c52cc58bd63186bceb92dc.png)
例:求下表中血清铁含量的5%、 95%位数
从表2-2可判断出5%位于“10~”这个 组段:
px = L +
i n( x%
fx
f
)
L
= 10 + 21(20×5% 4 =)10.67
6
该组血清铁资料的5%位数为10.67 (μmol/L)。
从表2-2可判断出95%位于“24~”这 个组段:
px = L +
n为奇数时: M = X n + 1
2
n为偶数时:M =
1 2
X
+
n 2
X n+ 1 2
式中X*表示将n例数据按升序排列 后的第i个数据。
上式中n为一组观察值的总个数,
n +1
n
n +1
2
2
2
均为下标,表示有序数列中观察值 的位次。
例:某药厂观察9只小鼠口服高山红 景天醇提物(RSAE)后在乏氧条件 下的生存时间(分钟)如下:
一般设10~15个组段,每个组段的 起点称“下限”,终点称“上限”;第 一组段含最小值,最末组段含最 大值。
(4) 列表
频数分布的类型:
对称分布—集中位置在正中、左右 两侧频数分布大体对称
偏态分布
正偏峰分布-集中位 置偏向数值小的一侧
负偏峰分布-集中位 置偏向数值大的一侧
定量变量的特征数
= 119.75
52例慢性肝炎患者的HBsAg滴度 的平均水平为1:119.75。
3. 中位数(median, M)
将一组观察值从小到大按顺序排 列,位次居中的观察值就称中位数。 用M表示。
中位数适用于任何一种分布的定量 资料,一般多用于描述偏态分布或 数据一端无界资料的集中趋势。
定量资料的统计描述
![定量资料的统计描述](https://img.taocdn.com/s3/m/16fce045650e52ea54189812.png)
LOREM IPSUM DOLOR
主要内容
频数分布 集中趋势 离散趋势
被平均
中国人公共假期每年已有115天; 中国全国家庭平均住房面积116.4㎡; 北京平均月薪9227元; 中国男性平均身高174.2厘米; 中国人平均生育1.18个孩子; 中国家庭资产平均为121.69万元,城市家庭平均为
( kg )原始 数据如下, 试编制频数
表。
25.2 34.9 34.3 38.1 41.3 27.8 33.8 37.7 28.4 33.5 47.3 34.8 30.5 36.2 51.0 38.0 43.8 40.9 37.5 36.6 33.4 47.4 36.4 41.4 36.5 42.5 33.7 29.3 39.6 37.5 39.6 33.2 32.1 29.9 43.7 33.8 35.1 37.8 32.4 38.5 28.2 36.5 23.4 35.8 34.1 27.6 42.6 23.1 37.1 44.0 35.6 44.5 46.5 35.0 31.8 36.4 36.2 47.9 38.7 20.5 37.1 29.2 38.2 41.1 36.2 43.5 32.8 36.3 31.8 30.6 38.5 39.6 28.7 33.7 35.1 42.9 20.1 35.4 26.5 42.0 39.6 38.7 35.4 51.2 31.4 34.1 25.3 29.6 38.2 43.7 33.8 24.5 29.2 45.9 32.5 23.5 36.8 27.2 34.0 34.7 44.4 41.2 35.3 42.6 34.1 30.0 31.4 40.8 27.3 48.6 35.8 29.7 45.6 41.8 33.0 28.3 33.3 35.1 40.6 38.2 37.6 25.5 37.3 37.5 41.5 38.4 44.2 43.2 31.5 40.2 34.5 37.4
定性资料统计描述
![定性资料统计描述](https://img.taocdn.com/s3/m/ac9ff59803d8ce2f006623b5.png)
P1为病例组的暴露比例或在暴露状态下的发病率 P0为对照组的暴露比例或在非暴露状态下的发病率
Odds ratio
例4-4 母亲围孕期是否有发热或感冒病史与婴儿 神经血管畸形关系的病例对照研究的资料如下表 所示。试计算母亲围孕期是否有发热或感冒病史 引起婴儿神经血管畸形的比数比。
率某某 事事 物物 或或 现现 象 有 象 际 发 可 发 数 生 能 生 比 的 数 的 例 所实 基数
Rate
公式中的“比例基数”通常依据习惯而定。
需要注意的是,率在更多情况下是一个具有时间 概念的指标,即用于说明在某一段时间内某现象 发生的强度或频率,如出生率、死亡率、发病率 、患病率等,这些指标通常是指在1年时间内发 生的频率。
R R P1 P0
P1为暴露组的发病率;P0非暴露组的发病率。
Relative risk
例4-3 某地市区非吸烟女性饮酒者和不饮酒者 的肺癌发病资料如下表所示,试计算其相对危 险度。
表4-2 某地市区非吸烟女性饮酒者和不饮酒者的肺癌发病资料
饮酒与否
发病数 观察人年数 发病率(1/10万人年)
是
Odds ratio
四、标准化率
标准化率( standardization rate ):比较两个不 同人群的患病率、发病率、死亡率等资料时,为 消除其内部构成(如年龄、性别、工龄、病程长 短、病情轻重等)对率的影响,可以使用标准化 率。
Standardization rate
例4-5 试对下表资料计算甲乙两个医院的标准化
P0
b
b
d
1
P0
b
d
d
由OR计算公式可以得出
定量资料数据的统计描述
![定量资料数据的统计描述](https://img.taocdn.com/s3/m/c353a3b6690203d8ce2f0066f5335a8102d266a2.png)
求例2-2中某地120名正常成年男子的血清铁 含量的均数.
120名成年男子血清铁含量均数、标准差计算表加权法
组段
1
频数f 组中值X0 fX 0
2
一、描述集中趋势的统计指标
平均数:描述一组同质计量资料的集中趋势;反映一组观察值 的平均水平. 常用的平均数有算术均数,几何均数和中位数. 一算术均数mean:简称均数,总体均数用希腊字母µ表示,样本 均数用拉丁字母 表示. X
1. 计算方法 1 直接法:适用于样本例数n较少的资料.
X X1 X2 ... Xn X
Glg1
lngXlg1lg16lg3
2lg3 7
2..l.g512
lg 11.80 6624
7份HBsAg的平均滴度为1:64
2 加权法:适用于样本例数n较多的资料.
G l
g 1 f1l
g X 1f2l g X 2. .fn.l f1f2...fn
g X n
lg
1
f lg f
52例慢性肝炎患者的HBsAg滴度的几何均数为1:119.74705
二几何均数应用的注意事项: 1几何均数常用于等比级数资料或对数正 态分布资料. 2观察值中不能有0. 3观察值中不能同时有正值和负值.
三中位数和百分位数
中位数median,M:将一组变量值从小到大按顺序排列,位次 居中的那个变量值就是中位数.
等距分组 以横轴表示被观察变量,纵轴表示频率密度,以各
矩形宽度为组距的面积代表各组段的频率.
图中横轴为血清铁含量,纵轴为频率密度,直条面积等 于相应组段的频率.
《定量资料数据的统计描述》教案
![《定量资料数据的统计描述》教案](https://img.taocdn.com/s3/m/b41ee26cb5daa58da0116c175f0e7cd1842518d1.png)
《定量资料数据的统计描述》教案标题:定量资料数据的统计描述教案一、教学目标1.理解什么是定量资料数据的统计描述。
2.掌握常见的统计描述方法:集中趋势与离散程度。
3.能够应用统计描述方法对实际问题进行分析和讨论。
二、教学内容1.定量资料数据的统计描述的定义和意义。
2.集中趋势的统计描述方法:平均数、中位数、众数。
3.离散程度的统计描述方法:极差、四分位数、方差、标准差。
4.实例分析和练习。
三、教学步骤步骤一:导入(10分钟)1.向学生介绍定量资料数据的统计描述的概念和意义。
2.引导学生思考:为什么我们需要对数据进行统计描述?步骤二:集中趋势的统计描述(20分钟)1.介绍平均数的概念和计算方法。
2.分享实际应用平均数的例子,并提示其局限性。
3.介绍中位数的概念和计算方法。
4.引导学生分析什么情况下使用中位数比平均数更合适。
5.介绍众数的概念和计算方法,并解释其应用场景。
步骤三:离散程度的统计描述(25分钟)1.介绍极差的概念和计算方法。
2.引导学生思考四分位数的意义和计算方法,并分享实际应用的例子。
3.介绍方差的概念和计算方法。
4.介绍标准差的概念和计算方法,并解释其在数据分析中的重要性。
5.引导学生讨论方差和标准差的应用场景。
步骤四:综合分析和应用(25分钟)1.提供实际问题或案例,并引导学生运用所学内容进行分析和讨论。
2.给予学生时间思考和解答问题。
3.分享学生的分析和答案,并引导学生进行互动讨论。
步骤五:总结和拓展(10分钟)1.回顾本节课学习的内容和重点,确保学生对定量资料数据的统计描述有所掌握。
2.提示学生可以进一步了解其他统计描述方法,如箱线图等。
3.激发学生对数据分析和统计描述的兴趣,引导学生向实际问题应用所学方法。
四、教学评估1.教师针对学生的学习情况进行同步评估,包括学生积极参与讨论、能够正确运用统计描述方法等。
2.可以布置课后作业,要求学生分析和描述给定的数据集。
五、教学资源1.PPT或黑板/白板2.实际数据案例3.学生练习题和课后作业六、教学延伸1.引导学生自行寻找相关的应用案例进行研究和分析。
定量资料的统计描述
![定量资料的统计描述](https://img.taocdn.com/s3/m/744922f716fc700aba68fc6c.png)
1.集中趋势 (算术)平均数: 几何均数: 中位数:
2.离散趋势 全距: 四分位数间距: 离均差平方和: 方差: 标准差: 变异系数:
3.正态分布 特征: (P16) 应用 估计频率分布
确定医学参考值范围
4.t 分布
(正态近似法和百分位数法)
质量控制 理论基础 特征: (P22) 应用 区间估计 假设检验
(P42)
Ni N
p NNi pi
标准组选取方法 有代表性的
(P42)
两组合并 择其一
定量资料(计量资料)统计推断
一、定量资料的参数估计 (P23)
1.点估计: X
2.区间估计 σ未知,n较小: Xt.SX
σ已知: Xu.X
σ未知但n足够大:
Xu.SX
二、定量资料的假设检验 (P26)
t
检验
单个样本t检验:
3. yˆ 的含义( P138或见讲义) 。
4.回归与相关的区别和联系(见讲义) 5.等级相关的适用范围(P147)。 6.直线回归的应用(P142~ P143 )。
统计表与统计图
1.统计表的分类(P255) 2.统计表的编制要求(P253) 3.统计表的改错(P255)
4.常用统计图的适用条件及要求
(P256 ~ P259 )
基本概念(见讲义)
1.总体和样本(P3) 2.参数和统计量(见讲义)
3.变异(见讲义)
4.抽样误差(见讲义) 5.概率(P4) 6.样本含量(P3) 7.定量资料(P4) 8.定性资料(P4)
9.正偏态分布(P8) 10.负偏态分布(P8) 11.中位数(P11) 12.百分位数(P13) 13. 医学参考值范围(P18) 14.统计推断(P20) 15. 标准误(P22) 16.参数估计(P23)
定量资料的统计描述
![定量资料的统计描述](https://img.taocdn.com/s3/m/065c3191b9d528ea81c77928.png)
四分位数 间距
方差与标 准差 变异系数
频数分析(Frequencies )
下面我们结合人群的年龄(age)数据学习如何使用SPSS计算统计指 标。
部分中英文对照:
描述统计(Descriptives )
对于近似正态分布的资料,我们还可以通过Descriptives获取统计指 标。这是一组使用某法多次测定某水样中碳酸钙含量的数据,符从正态分 布,下面我们用Descriptives的方法计算这组数据的统计指标。
打开SPSS软件自带的数据demo.sav,找到car,这是一组 私家车价格的资料,我们将结合这组数据学习连续型定量资料 频数分布表和频数分布图的绘制。
变量视图
一般步骤
1.求极差 2.确定组段数和组距 3.根据组距写出组段 4.制作频数表和频数图
求极差
求极差
确定组段数和组距
1.极差:R=95.7≈100
定量资料统计描述
定量变量
定量变量可以分为两种类型: 1.离散型变量:只能取整数值,例如,一个月中的
手术病人数,一年里的新生儿数。
2.连续型变量:可以取实数轴上的任何数值,例如, 血压,身高,体重等。
统计描述
统计描述是通过绘制统计表、统计图 或计算相应的统计指标来说明资料的分布 规律及其数量特征,是进一步统计推断的
输出结果
探索分析(Explore )
探索分析(Explore )主要可以分为两个部分
1.未知分布类型数据的统计描述 2.对数据的分布形态进行检验
探索分析(Explore )
统计指标 正态性检验
正态性检验
探索分析(Explore )
四分位数间距
探索分析(Explore )
探索分析(Explore )
定量资料统计描述和正态分布
![定量资料统计描述和正态分布](https://img.taocdn.com/s3/m/af3fc4b7f605cc1755270722192e453611665b67.png)
变异系数
变异系数
标准差与平均数的比值,用于比较不同组数据的离散程度。
计算方法
标准差除以平均数。
意义
变异系数越大,说明数据的离散程度越大;变异系数越小,说明数 据的离散程度越小。
03
正态分布
正态分布的中,正态分 布是极其重要的,因为大部分的定量变量都服从或近似服从正态分布。
定量资料统计描述和正态 分布
• 引言 • 定量资料统计描述 • 正态分布 • 定量资料统计描述与正态分布的关系 • 实例分析 • 总结与展望
01
引言
主题简介
定量资料统计描述
对数值型数据进行的统计描述,包括 数据的集中趋势、离散趋势和分布形 态等。
正态分布
一种常见的概率分布,其特点是数据 呈现钟形曲线,且具有三个特征值: 均值、方差和标准差。
平均数与正态分布的关系
平均数是一组数据的总和除以数据的个数,用于描述数据的 集中趋势。在正态分布中,平均数与分布的对称轴重合,表 示数据的中心位置。
正态分布是一种常见的概率分布,描述了许多自然现象的概 率分布形态。在正态分布中,数据值以平均数为中心,向两 侧逐渐减少,呈现对称分布。
标准差与正态分布的关系
02
定量资料统计描述
平均数
平均数
表示一组数据的总体“平均水平”的统计量。
计算方法
将一组数据相加后除以数据的个数。
类型
算术平均数、调和平均数、几何平均数等。
中位数
中位数
将一组数据从小到大排列后,位于中间位置的 数。
特点
不受数据中极端值的影响,可以反映数据的中 心位置。
应用场景
当数据量较大或数据分布偏态时,中位数更有代表性。
它是一种钟形曲线,特征是“中间大,两头小”,即大部分数据都集中在均值附近, 极端值较少。
定量资料统计描述07224
![定量资料统计描述07224](https://img.taocdn.com/s3/m/e8317c8d767f5acfa1c7cdee.png)
频数fi (2)
1 3 4 8 12 17 21 20 14 10 6 3 1
120( f i )
组中值xi (3)
131 133 135 137 139 141 143 145 147 149 151 153 155
-
fixi (4)
131 399 540 1096 1668 2397 3003 2900 2058 1490 906 459 155
12
2.便于进一步计算指标和统计处理 利用频数表计算百分位数、中位数、标准差等
3. 便于发现某些特大或特小的可疑值。 对于频数表,如果连续某几个组段的频数为0, 接下来的组段出现频数不为0的数值,此数值 即为可疑值。
13
二、频数图(graph of frequency)
(一)、频数图的概念
频数图(graph of frequency)是以变 量值为横坐标、频数(频率)为纵坐标 (不等距分组时以频率/组距=频率密度为 纵坐标),以每个等宽的矩形面积表示每 组的频数(或频率)。
图 101名正常人血清肌红蛋白的频数分布
17
§2 集中趋势的描述
18
定量资料集中趋势的描述,常用平均数(average) —表达一组同质定量数据的平均水平或集中位置。
算术均数 几何均数 中位数 众数 调和均数
19
算术均数(arithmetic mean) 又称均数(mean),是用一组观察值 相加除以观察值的个数所得。样本均
QQUQL
49
【例4-12】根据例4-7资料,计算四分位数间距。
QLP251.54小时 QUp7536小时
四分位数间距: Q Q U Q L 3 1 6 .4 5 2.6 0 (小时)
定量资料的统计描述
![定量资料的统计描述](https://img.taocdn.com/s3/m/6246eb127cd184254b353568.png)
一、基本概念
总体与样本 变量 误差 概率
二、资料和统计分析
资料的两种类型
定量资料(计量资料) 定性资料(分类资料) 连续 离散 二项分类 多项分类
无序
有序(等级)
根据变量取值特点,计量资料分为:
连续性资料:变量值可以在实数轴上连续变
动。如红细胞数、身高、体重。
定量资料统计描述过程:
定量 资料 统计 描述
一、Descriptives过程
进行一般性的统计描述(统计指标) 适用于服从正态分布的定量资料 特殊功能:可对原变量进行标准正态 变换N(0,1)
Descriptives过程:
标准 正态 变换: Z+?
峰度系数、 偏度系数
二、Frequencies过程
涉及的统计指标比Descriptives过程全 面,可产生详细的频数表,并给出常用统 计图。 更适用于对分类资料以及不服从正态分 布的连续性变量进行描述。
Frequencies过程:
产生 频数 表
Frequencies过程:
正态 曲线
三、Explore 过程(探索性分析)
三个过程中功能最强大,对变量的描 述统计更深入详尽; 适用于对资料的性质、分布特点完全 不清楚时; 特殊功能:茎叶图、箱式图
2.Descriptive Statistic
3.Descriptives
optins
几何均数的计算
教材P45 例4.4 数据录入 分析过程
对数转换:Transform Compute
生成 新变 量lgx
Transform
Compute:
函数 组
练习
课后习题P394 第3题
定量资料统计描述
![定量资料统计描述](https://img.taocdn.com/s3/m/79276061a4e9856a561252d380eb6294dd88220f.png)
定量资料统计描述概述定量资料是指数据以数字形式呈现的资料,与定性资料(如文字、图片等)不同,定量资料的数据具有明确的数值意义,常常需要进行统计分析。
在众多的数据分析方法中,统计是最为基础和重要的一种。
在统计分析中,描述统计是对搜集的数据进行基本的描述和概括,为进一步分析打下基础。
本文将从以下几个方面介绍定量资料的统计描述:1.定量资料的类型2.定量资料的统计描述方法3.定量资料的图表展示定量资料的类型定量资料通常可分为连续型和离散型两种。
具体来说,连续型数据是指在一定区间范围内可以取任意值的数据,如身高、体重等。
而离散型数据则是指一个变量只能取有限个取值的数据,例如血型、班级人数等。
定量资料的统计描述方法1. 集中趋势集中趋势是描述一组数据中心位置的统计指标,常用来表征该组数据的一般水平。
主要指标包括均值、中位数及众数。
其中,均值是指某组数据所有数据之和除以数据的个数,中位数是在一组数据中,数值按照从小到大排列,处于中间位置的数据,众数则是指整个数据中出现最频繁的那个数据。
2. 离散程度离散程度是描述一组数据分散程度的统计指标,常用来表征该组数据的分布情况。
主要指标包括极差、方差和标准差。
其中,极差是指一组数据最大值与最小值的差,方差是各数据偏离它们算术平均数的平方和的平均数,标准差则是方差的非负平方根。
3. 偏态与峰态偏态和峰态是描述一组数据偏离正态分布情况的统计指标。
偏态是指一组数据分布的不对称程度,主要指标包括偏态系数。
而峰态是指一组数据分布峰值的高低程度,主要指标包括峰态系数。
定量资料的图表展示图表展示是定量资料描述的一种重要手段。
常用的图表形式包括直方图、折线图、箱线图等。
1. 直方图直方图是一种对连续性定量数据分布情况的图形表示。
在直方图中,数据被划分为几个区间,每个区间的数据频数用柱形的高度来表示。
直方图能够反映数据的集中趋势和分散程度。
2. 折线图折线图是一种用折线表示数据值的图形,常用来描述离散型定量数据的变化趋势。
【精品】定量资料的统计描述
![【精品】定量资料的统计描述](https://img.taocdn.com/s3/m/c4bbe071326c1eb91a37f111f18583d049640faa.png)
【精品】定量资料的统计描述定量资料的统计描述是指通过定量数据分布的一系列统计量来描述一个样本或总体的特征。
常用的统计量包括中心位置、离散程度、分布形态和相关性等。
中心位置中心位置是指数据分布的平均水平。
常用的中心位置统计量包括平均数、中位数和众数。
平均数是所有数据值的总和除以数据个数。
它具有良好的代表性,但受极端值的影响较大,因此需要谨慎使用。
中位数是将数据按大小排序后位于中间的数值,当数据存在极端值时,中位数比平均数更能正确反映数据的中心位置。
众数是数据中出现次数最多的数值,适用于分布具有明显峰值的情况。
离散程度离散程度是指数据分布的距离平均值的大小。
常用的离散程度统计量包括标准差、方差、极差和四分位数差等。
标准差是数据离均值的平均距离,是最常用的衡量数据分散程度的统计量。
方差是标准差的平方,由于平方的量级较大,因此比标准差不易解释。
极差是数据最大值与最小值之差,不考虑数据内部的分布情况,因此不具有代表性。
四分位数差是在数据中将数值分为四个部分,即25%、50%、75%三个分位点,然后用75%分位点减去25%分位点,用于描述数据离散程度。
分布形态分布形态是指数据分布的偏态和峰态。
常用的分布形态统计量包括偏度和峰度。
偏度是反映数据分布偏斜程度的统计量,正偏分布表示分布的长尾在分布的右侧,负偏分布表示分布的长尾在分布的左侧。
当偏度为0时,表示分布是对称的。
峰度是反映数据分布峰态的统计量,正峰分布表示分布的峰在分布的中心较高,负峰分布表示分布的峰在分布的中心较低。
当峰度为0时,表示分布的峰态基本接近正态分布。
相关性相关性是指两个变量之间的关联程度。
常用的相关性统计量包括相关系数和协方差。
相关系数是反映两个变量之间线性相关程度的统计量,取值范围为-1~1之间,正值表示正相关,负值表示负相关,0表示不相关。
协方差是反映两个变量之间相关性的统计量,数值大小表示两个变量之间的相关程度,但由于单位的影响,不易比较。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
因此,中位数可用于任何分布的定量资料。 但对于能用算术均数或几何均数描述集中趋势的资料, 应尽量使用算术均数或几何均数。
24
百分位数常用于确定医范围指特定健康人群的解剖、生理、 生化等指标的波动范围。
56.5 58.5
3. 频数分布表的用途 1) 揭示资料的分布类型 2) 反映频数分布的两个重要特征
集中趋势(Central tendency) 离散趋势(Tendency of dispersion)
9
3) 利于发现某些特大或特小的可疑值 4) 便于进一步进行统计分析
10
4. 频数分布图 以观测变量为横轴,频数(或频率)为纵轴
累计频数等于该组段及前面各组段的频数 之和;累计频率等于累计频数除以总例数。 累计频率描述了累计频数在总例数中所占比 重。
6
2. 频数分布的类型
① 对称分布:集中位置在正中,左右两侧大体对称。
② 偏态分布:集中位置偏向一侧,频数分布不对称。
正偏态分布
负偏态分布
频数分布类型不同,统计描述的方法不同。
适用于原始数据分布不对称,但经对数转换后对 称分布的资料;或各观察值之间呈倍数变化(等比关 系)的资料。
Gn X1X2Xn
Glg1(
lgX )
n
18
当资料中有相同观察值时,也可用加权 法计算几何均数
Glg1(
f lgX )
n
19
几何均数的应用 ① 常用于对数正态分布资料或等比资料:
如抗体平均滴度和平均效价、卫生事业 平均发展速度、人口几何增长的资料等。 ② 观察值不能有 0,不等同时有正有负。
f1f2fk
f n
15
f 起了“权数”的作用,权衡了各组中 值由于频数不同对均数的影响。
加权法计算的均数是近似的。
16
数据分布对称时,均数位于分布的中心, 它是频数分布最集中的位置。
若数据分布不对称,均数不位于分布的中 心,不能反映分布的集中趋势和平均水平。
17
2. 几何均数(Geometric mean. G)
P50 即中位数。
22
中位数与百分位数的计算
1) 直接法
1
M2(X(n2)
X(n1)) 2
M X(n1) 2
2) 间接法
Px
L i
fx
(n
x%fL)
23
中位数和百分位数的应用
中位数和百分位数一般用于描述偏态分布资料,它不受 两端特大或特小值的影响,也可用于所谓“开口资料”(即末 端无确切数据的资料)。
7
25 频数20
15 10 5 0
年龄(岁)
某市某年乙脑患者的年龄分布
8
0.5
2.5
4.5
6.5
8.5 10.5 12.5 14.5
16.5 18.5 20.5 22.5 24.5
26.5 28.5 30.5 32.5 34.5
36.5 38.5 40.5 42.5 44.5
46.5 48.5 50.5 52.5 54.5
百分位数可确定包括 x %的个体的界值。适用于任 何分布类型的资料。
双侧:WBC的95%参考值范围: P2.5 和 P97.5 单侧:肺活量的95%参考值范围:P5
尿铅的95%参考值范围:P95
25
三、离散程度的描述
三组同性别、同年龄的儿童体重(㎏) A 26 28 30 32 34 B 24 27 30 33 36 C 26 29 30 31 34
所作的直方图,称为频数分布图。用途与频 数表类似,但更直观、形象。
11
二、集中趋势的描述
描述定量资料数量特征和分布规律的统 计指标有两类:
一类是描述数据分布集中趋势的指标, 即平均数(average);
另一类是描述数据分布离散程度(或变异 程度)的指标。
12
1. 算术均数(arithmetic mean) 简称均数(mean),它描述一组数据
定量资料的统计描述
描述定量资料数量特征和分布规律 的统计方法有两类:
一是通过统计表(图)如频数分布表 (图),二是计算适当的统计指标定量描述 资料的集中趋势和离散程度。
1
一、频数分布表
1. 频数表(Frequency Table)的编制 ① 确定最大值、最小值、极差(全距)
2
② 划定组段和组距
根据全距大小和观测值多少确定“组段”数。制作频数 表是为了显示数据分布规律,故组段数不宜太多或太少。 各组段起点和终点分别称为下限和上限。 相邻两组段的下限之差称组距,一般采用等距分组,组 距近似等于极差/组段数。 第一组段应包括全部观察值中的最小值,最末组段应包 括全部观察值中的最大值并且同时写出其下限与上限。 各组段不能有重叠。
3
③ 统计各组段频数: 计数各组段内的数据个数(频数)
4
④ 计算频率与累计频率 各组频数之和等于总例数,将各组频数
除以总例数所得的比值称为频率。 频率描述了各组频数在全体中所占的比
重,各组频率之和为100%。
5
实际应用中,有时需知道在某个指定值以 下的频数或频率,这种频数或频率称为累计 频数或累计频率。
26
1. 极差(Range,R)
RA = 34- 26 = 8 RB = 36- 24 = 12 RC = 34- 26 = 8
缺点:① 不能反映所有数据的变异程度。 ② 样本例数相差悬殊时不宜比较级差。
27
2. 四分位数间距
四分位数(Quartile,Q):即特定的百分位数 P25和 P75。P25 为下四分位数QL ,表示全部观察值中有25%的观察值比QL 小, P75 为上四分位数QU ,表示有25%的观察值比QU大。
20
3. 中位数(Median. M)与百分位数 一组观察值从小到大排列,位次居中的
观察值即中位数,是一个位置指标。
21
百分位数(percentile):亦是位置指标,用 Px 表示。
Px 表示将全部观察值分为两部分,有 x % 的观察值比 Px 小,有 100 – x % 的观察值比 Px 大。
在数量上的平均水平。 注意:总体均数用希腊字母表示,
样本均数用英文字母表示。
13
1) 直接法 将所有数据直接相加,再除以总例数。
XX1...Xn X
n
n
14
2) 加权法
相同观察值较多时,可将其个数(频数 f )乘以该观 察值 x ,以代替相同观察值逐个相加。
Xf1X 1f2X 2fkX k fX fX