定量资料的统计描述
第二章--定量资料的统计描述
分类变量(名义变量 分类变量 名义变量) 名义变量 定性变量 有序变量(等级变量 有序变量 等级变量) 等级变量
变量
离散型变量 定量变量 连续型变量 统计描述: 统计描述:用统计图表或计算统计指标的方法表达一个特定群 这个群体可以是总体也可以是样本)的某种现象或特征, 体(这个群体可以是总体也可以是样本)的某种现象或特征, 称为统计描述。 称为统计描述。 统计描述可以使人们对资料有一个大致的了解, 统计描述可以使人们对资料有一个大致的了解,为进一步的统 计分析打下基础。 计分析打下基础。
图2-1 某地96名妇女产前检查次数频率分布 某地96名妇女产前检查次数频率分布 96
30 25 20
频率(%)
15 10 5 0 0 1 2 3 4 产前检查次数 5 >5
横坐标为产前检查 横坐标为产前检查 频率, 次数,纵坐标为频率 次数,纵坐标为频率, 即产前检查k次的妇 即产前检查 次的妇 女在被统计妇女中所 占的比例(%) 占的比例( ) 从表2-1和图 和图2-1可 从表 和图 可 以看出, 以看出,产前检查次 数为4次或 次或5次的孕妇 数为 次或 次的孕妇 数目最多, 数目最多,不检查或 检查次数很多的孕妇 不多, 不多,产前检查很多 次的孕妇也不多。 次的孕妇也不多。
与表2-2相比, 与表 相比,直方图可以更直观 相比 地表达出血清铁数据在各组段的分 布情况。 布情况。
三、频率分布表(图)的用途 频率分布表( (一)揭示资料的分布类型 1、对称分布 集中位置位于中央,左右两侧频数对称。 集中位置位于中央,左右两侧频数对称。
12 10 频 率 密度 (%) 8 6 4 2 0 7 9 11 13 15 17 19 血清铁 21 23 25 27 29
(精选)定量资料统计描述
因此,中位数可用于任何分布的定量资料。 但对于能用算术均数或几何均数描述集中趋势的资料, 应尽量使用算术均数或几何均数。
24
百分位数常用于确定医范围指特定健康人群的解剖、生理、 生化等指标的波动范围。
56.5 58.5
3. 频数分布表的用途 1) 揭示资料的分布类型 2) 反映频数分布的两个重要特征
集中趋势(Central tendency) 离散趋势(Tendency of dispersion)
9
3) 利于发现某些特大或特小的可疑值 4) 便于进一步进行统计分析
10
4. 频数分布图 以观测变量为横轴,频数(或频率)为纵轴
累计频数等于该组段及前面各组段的频数 之和;累计频率等于累计频数除以总例数。 累计频率描述了累计频数在总例数中所占比 重。
6
2. 频数分布的类型
① 对称分布:集中位置在正中,左右两侧大体对称。
② 偏态分布:集中位置偏向一侧,频数分布不对称。
正偏态分布
负偏态分布
频数分布类型不同,统计描述的方法不同。
适用于原始数据分布不对称,但经对数转换后对 称分布的资料;或各观察值之间呈倍数变化(等比关 系)的资料。
Gn X1X2Xn
Glg1(
lgX )
n
18
当资料中有相同观察值时,也可用加权 法计算几何均数
Glg1(
f lgX )
n
19
几何均数的应用 ① 常用于对数正态分布资料或等比资料:
如抗体平均滴度和平均效价、卫生事业 平均发展速度、人口几何增长的资料等。 ② 观察值不能有 0,不等同时有正有负。
定量资料数据的统计描述
f lg X lg f
1
X1,X2…Xn 为各组段的滴度或滴度倒数。 f1,f2…fn分别为各组段的频数。
例2-6 52例慢性迁延性肝炎患者的HBsAg滴度 数据见表2-4,求其平均滴度。
2 1.20412 7 1.50515 ... 7 2.7027 G lg 1 52 lg 1 108.06977/ 52 lg 2.7017 119.74705
①两端的组段应分别包含最小值或 步骤: 最大值; (1) 求全距:(极差) R=29.64-7.42=22.22 ②尽量取较整齐的数值作为组段的 端点,便于对数据进行表述; (2) 定组段数与组距 : 8~15个组段,组距i=全距/组段数 ③组距以相等为宜。 (3) 划组段:以一个稍小于或等于最小值的整数作为第一个
理的各种因素在个体之间都不会完全相同,即个体间存在差
异,因此导致某地18-35岁健康男性居民血清铁含量不会完全 相同,而是呈现或大或小的离散趋势。
一、描述集中趋势的统计指标
平均数:描述一组同质计量资料的集中趋势;反映一组观察值 的平均水平。 常用的平均数有算术均数,几何均数和中位数。 (一)算术均数(mean):简称均数,总体均数用希腊字母µ 表
四、频数分布的类型
对称分布型:指集中位置在正中,左右 两侧频数分布大体对称。
偏态分布型:指集中位置偏向一侧,频数 分布不对称。 正偏态分布:集中位置偏向数值小的一侧。
偏态分布型
频数分布
负偏态分布:集中位置偏向数值大的一侧。
频数表的用途
1. 揭示频数分布的分布特征和分布类型。文献中常 将频数表作为陈述资料的形式。
图中横轴为血清铁含量,纵轴为频率密度,直条面 积等于相应组段的频率。
定量资料的统计描述
•定量资料的统计分析定量资料的统计描述主要内容•频数分布表•集中趋势指标•离散趋势指标•频数/频率分布表(frequency distribution table•频数:将定量资料的变量值进行分组,则某组段所包含的变量值的个数称为频数,以f表示。
频率是频数在总例数中所占的百分比。
•频数表(频率表):表示各组段及它们对应的频数(频率)的表格称为频数表或频数分布表。
频数分布表格•编制频数表的步骤1.求全距(R)。
R=最大值-最小值=84.3-64.3=20(g/L)2.确定组数和组距。
频数表一般设8-15组。
各组段的起点和终点分别称为下限和上限。
组距为相邻两组段的下限差。
组距i=R/组数≈R/10.本例w=20/10=2(g/L)3.确定组段值。
原始数据表第一组段应包含最小值,最末组段应包含最大值并写出其下限和上限值。
4.列出频数表。
采用划记法或计算机汇总。
•编制频数表的意义:•⑴由频数表可以看出频数分布的两个重要特征:集中趋势和离散趋势。
•⑵可以根据频数分布的不同类型,选择适当的统计方法,进行计算与分析。
频数分布的两个特征:①集中趋势(central tendency):变量值集中位置。
②离散(/中)趋势(tendency of dispersion):变量值围绕集中位置的分布情况。
离“中心”位置越远,频数越小;且围绕“中心”左右对称。
频数分布的类型:对称分布例题直方图偏态分布(集中位置偏向小的一侧叫正偏态,偏向大的一侧叫负偏态)。
偏态分布图示频数表的用途:1. 揭示资料的分布特征和分布类型2. 发现特大值和特小值3. 由组中值近似代表原始数据,便于手工计算集中趋势指标与离散趋势指标。
•集中趋势指标•平均数(average)•描述一组性质相同的观察值的集中趋势、中心位置或平均水平的指标•平均数是一组数据典型或有代表性的值。
•常用平均数的种类有:•算术均数•几何均数•中位数• 众数*• 调和均数*• 一、算术均数(arithmetic mean )1.适用资料:算术均数简称为均数(mean ),适用于正态分布或近似正态分布资料。
定量资料的统计描述
例:求下表中血清铁含量的5%、 95%位数
从表2-2可判断出5%位于“10~”这个 组段:
px = L +
i n( x%
fx
f
)
L
= 10 + 21(20×5% 4 =)10.67
6
该组血清铁资料的5%位数为10.67 (μmol/L)。
从表2-2可判断出95%位于“24~”这 个组段:
px = L +
n为奇数时: M = X n + 1
2
n为偶数时:M =
1 2
X
+
n 2
X n+ 1 2
式中X*表示将n例数据按升序排列 后的第i个数据。
上式中n为一组观察值的总个数,
n +1
n
n +1
2
2
2
均为下标,表示有序数列中观察值 的位次。
例:某药厂观察9只小鼠口服高山红 景天醇提物(RSAE)后在乏氧条件 下的生存时间(分钟)如下:
一般设10~15个组段,每个组段的 起点称“下限”,终点称“上限”;第 一组段含最小值,最末组段含最 大值。
(4) 列表
频数分布的类型:
对称分布—集中位置在正中、左右 两侧频数分布大体对称
偏态分布
正偏峰分布-集中位 置偏向数值小的一侧
负偏峰分布-集中位 置偏向数值大的一侧
定量变量的特征数
= 119.75
52例慢性肝炎患者的HBsAg滴度 的平均水平为1:119.75。
3. 中位数(median, M)
将一组观察值从小到大按顺序排 列,位次居中的观察值就称中位数。 用M表示。
中位数适用于任何一种分布的定量 资料,一般多用于描述偏态分布或 数据一端无界资料的集中趋势。
【医学统计学】第4章 定量资料的描述(12-17)
4. 归组计数,整理成表 用计算机或手工划记法汇总,得到各组段观察单位个数,绘制成频
数分布表
定量资料的统计描述
表4-1 某市2010年120名正常成年男子红细胞计数值(×1012/L)的频数表
组段(×1012/L) (1)
组中值 (2)
3.20~ 3.50~ 3.80~ 4.10~ 4.40~ 4.70~ 5.00~ 5.30~ 5.60~ 5.90~6.20 合计
频数分布表(frequency table):由变 量值及其频数编制而成的表
定量资料的统计描述
(一)频数表的编制
1. 求极差(range): 极差又称全距,是指全部观察值中最大值与
最小值之差,用符号R表示 R=xmax-xmin
R 6.183.29 2.89cm
定量资料的统计描述
2. 确定组数和组距
组段(×1012/L) (1) 3.20~ 3.50~ 3.80~ 4.10~ 4.40~ 4.70~ 5.00~ 5.30~ 5.60~
5.90~6.20 合计
频数fi (2)
2 5 10 19 22 24 21 11 4 2 120( )
组中值xi (3) 3.35 3.65 3.95 4.25 4.55 4.85 5.15 5.45 5.75 6.05 47
1
86.9977 50
lg
11.7399
54
即50名麻疹易感儿接种麻疹疫苗后血凝 抑制抗体的平均滴度为1/54
2. 应用及注意事项
•几何均数应用于: •等比资料,如抗体平均滴度 •对数正态分布资料
• 使用几何均数时应注意:
• 观察值不能有0
• 观察值不能同时有正值和负值。若全为负值, 在计算时先把负号去掉,得出结果再加上负 号
《定量资料数据的统计描述》教案
《定量资料数据的统计描述》教案标题:定量资料数据的统计描述教案一、教学目标1.理解什么是定量资料数据的统计描述。
2.掌握常见的统计描述方法:集中趋势与离散程度。
3.能够应用统计描述方法对实际问题进行分析和讨论。
二、教学内容1.定量资料数据的统计描述的定义和意义。
2.集中趋势的统计描述方法:平均数、中位数、众数。
3.离散程度的统计描述方法:极差、四分位数、方差、标准差。
4.实例分析和练习。
三、教学步骤步骤一:导入(10分钟)1.向学生介绍定量资料数据的统计描述的概念和意义。
2.引导学生思考:为什么我们需要对数据进行统计描述?步骤二:集中趋势的统计描述(20分钟)1.介绍平均数的概念和计算方法。
2.分享实际应用平均数的例子,并提示其局限性。
3.介绍中位数的概念和计算方法。
4.引导学生分析什么情况下使用中位数比平均数更合适。
5.介绍众数的概念和计算方法,并解释其应用场景。
步骤三:离散程度的统计描述(25分钟)1.介绍极差的概念和计算方法。
2.引导学生思考四分位数的意义和计算方法,并分享实际应用的例子。
3.介绍方差的概念和计算方法。
4.介绍标准差的概念和计算方法,并解释其在数据分析中的重要性。
5.引导学生讨论方差和标准差的应用场景。
步骤四:综合分析和应用(25分钟)1.提供实际问题或案例,并引导学生运用所学内容进行分析和讨论。
2.给予学生时间思考和解答问题。
3.分享学生的分析和答案,并引导学生进行互动讨论。
步骤五:总结和拓展(10分钟)1.回顾本节课学习的内容和重点,确保学生对定量资料数据的统计描述有所掌握。
2.提示学生可以进一步了解其他统计描述方法,如箱线图等。
3.激发学生对数据分析和统计描述的兴趣,引导学生向实际问题应用所学方法。
四、教学评估1.教师针对学生的学习情况进行同步评估,包括学生积极参与讨论、能够正确运用统计描述方法等。
2.可以布置课后作业,要求学生分析和描述给定的数据集。
五、教学资源1.PPT或黑板/白板2.实际数据案例3.学生练习题和课后作业六、教学延伸1.引导学生自行寻找相关的应用案例进行研究和分析。
定量资料的统计描述
x i
i 1
N
2
N
S
x X
n i 1 i
2
n 1
xi xi i 1 i 1 n 1
n 2 n
2
n
步骤如下:
R=160.8-129.4=31.4。
组段数=10;组距=R/10=3.14≈30(cm);按要
求确定每一组段上下限。
分组统计每一组段的频数,编制频数表。
计量资料频数分布表
118 例 13 岁女孩身高(cm)资料频数表。 身高组段 (1) 129~ 132~ 135~ 138~ 141~ 144~ 147~ 150~ 153~ 156~ 159~162 合计 频数 (2) 2 2 8 20 26 25 20 9 3 2 1 118 组中值 (3) 130.5 133.5 136.5 139.5 142.5 145.5 148.5 151.5 154.5 157.5 160.5 —
3、方差(variance) 离均差平方和的算术平均数,即为方差。总体方差用 符号σ2(σ读seigama)表示,样本方差用S2表示。计算公 式分别为:
2
x
i 1
N
i
2
N
S2
x X
n i 1 i
2
n 1
4、标准差(standard deviation) 方差的平方根即为标准差。总体标准差用σ表示, 样本标准差用S表示。计算公式分别为:
集中趋势:指频数表中频数分布表现为频数向某一位置集中的趋势 分布特征 离散趋势:指频数虽然向某一位置集中,但频数分布表现为各组段都 有频数分布,而不是所有频数分布在集中位置的趋势。
定量资料的统计描述
1.集中趋势 (算术)平均数: 几何均数: 中位数:
2.离散趋势 全距: 四分位数间距: 离均差平方和: 方差: 标准差: 变异系数:
3.正态分布 特征: (P16) 应用 估计频率分布
确定医学参考值范围
4.t 分布
(正态近似法和百分位数法)
质量控制 理论基础 特征: (P22) 应用 区间估计 假设检验
(P42)
Ni N
p NNi pi
标准组选取方法 有代表性的
(P42)
两组合并 择其一
定量资料(计量资料)统计推断
一、定量资料的参数估计 (P23)
1.点估计: X
2.区间估计 σ未知,n较小: Xt.SX
σ已知: Xu.X
σ未知但n足够大:
Xu.SX
二、定量资料的假设检验 (P26)
t
检验
单个样本t检验:
3. yˆ 的含义( P138或见讲义) 。
4.回归与相关的区别和联系(见讲义) 5.等级相关的适用范围(P147)。 6.直线回归的应用(P142~ P143 )。
统计表与统计图
1.统计表的分类(P255) 2.统计表的编制要求(P253) 3.统计表的改错(P255)
4.常用统计图的适用条件及要求
(P256 ~ P259 )
基本概念(见讲义)
1.总体和样本(P3) 2.参数和统计量(见讲义)
3.变异(见讲义)
4.抽样误差(见讲义) 5.概率(P4) 6.样本含量(P3) 7.定量资料(P4) 8.定性资料(P4)
9.正偏态分布(P8) 10.负偏态分布(P8) 11.中位数(P11) 12.百分位数(P13) 13. 医学参考值范围(P18) 14.统计推断(P20) 15. 标准误(P22) 16.参数估计(P23)
定量资料的统计描述
编制频数分布表的步骤
第一组段包括最小值,最后 一组段包括最大值,除最后 一组段可同时标出上下限, 其他组段只标出下限。
一般 8- 15 之间 求出极差 确定组段数 确定组距
列出各个组段
确定每一组段频数 选 根据变量值大小 把各观察单位归 入各个组段
极差即最大值 与最小值之差
组距=R/组段数, 但一般取一方便 计算的数字
常用的平均数有: 算术平均数(均数)(mean) 几何平均数(geometric mean)
中位数 (median)与百分位数(percentile)
众数(mode)
一、算术平均数
算术平均数:简称均数(mean)
可用于反映一组呈对称分布的变量值
在数量上的平均水平或者说是集中位置
的指标值。
1、算术平均数的计算方法
M X 9 1 X 5 15
2
பைடு நூலகம்
如果只调查了8家外企,则
2 14 15 2 14.5 M X X 8 8 1 2 2
频数分布表资料的中位数
M 所在组段下限值 (n 50% 至该下限值的累计频数) 组距 所在组段下限值至上限值间的频数 (n 50% f L ) M L i fm
i , fm
下限值L
中位数M
上限值U
例1 频数表中位数的计算
N=∑f
中位数=71+3x[(130x50%-59)/26]=71.69
2、中位数的应用
各种分布类型的资料
特别适合大样本偏态分布资料或者 分布末端无确切数值的资料。
第二节 描述集中趋势的统计指标
统计上使用平均数(average)这一指标体系来描述 一组变量值或观察值的集中位置或平均水平。
定量资料的统计描述
四分位数 间距
方差与标 准差 变异系数
频数分析(Frequencies )
下面我们结合人群的年龄(age)数据学习如何使用SPSS计算统计指 标。
部分中英文对照:
描述统计(Descriptives )
对于近似正态分布的资料,我们还可以通过Descriptives获取统计指 标。这是一组使用某法多次测定某水样中碳酸钙含量的数据,符从正态分 布,下面我们用Descriptives的方法计算这组数据的统计指标。
打开SPSS软件自带的数据demo.sav,找到car,这是一组 私家车价格的资料,我们将结合这组数据学习连续型定量资料 频数分布表和频数分布图的绘制。
变量视图
一般步骤
1.求极差 2.确定组段数和组距 3.根据组距写出组段 4.制作频数表和频数图
求极差
求极差
确定组段数和组距
1.极差:R=95.7≈100
定量资料统计描述
定量变量
定量变量可以分为两种类型: 1.离散型变量:只能取整数值,例如,一个月中的
手术病人数,一年里的新生儿数。
2.连续型变量:可以取实数轴上的任何数值,例如, 血压,身高,体重等。
统计描述
统计描述是通过绘制统计表、统计图 或计算相应的统计指标来说明资料的分布 规律及其数量特征,是进一步统计推断的
输出结果
探索分析(Explore )
探索分析(Explore )主要可以分为两个部分
1.未知分布类型数据的统计描述 2.对数据的分布形态进行检验
探索分析(Explore )
统计指标 正态性检验
正态性检验
探索分析(Explore )
四分位数间距
探索分析(Explore )
探索分析(Explore )
定量资料的统计描述
几何均数的计算
直接法:是将n个观察值x1,x2,x3…xn 的乘积开n次方所得的根。
G n x1 x2 xn lg
1
lg x ) (
n
加权法:
G lg
1
f lg x ) ( f
几何均数应用的注意事项
观察值不能为0。因为0不能取对数,也不 能与任何其它数呈对数关系。可以把所有 的变量值均加上一个较小的常数,如加 0.001。 观察值不能同时有正值和负值。若全是负 值,计算时可把负号去掉,得出结果后再 加上负号。
均数的应用
描述呈对称分布的资料,特别是正态分布 或者近似正态分布的资料的平均水平,因 为这时均数位于分布的中心,最能反映分 布的集中趋势。
几何均数(geometric mean,G)
有些医学资料,如抗体的滴度、细菌计 数、传染病的潜伏期等,其频数分布明 显偏态,各观察值之间呈倍数变化,这 时应该用几何均数反映其平均增(减) 倍数。 用途:用于描述等比级数资料和对数正 态分布资料等的平均水平。
fx f
i
组中值
组段 20~ 23~ 26~ 29~ 32~ 35~ 组中值 21.5 24.5 27.5 30.5 33.5 36.5 频数f 2 7 10 15 25 35 频率(%) 1.3 4.7 6.7 10.0 16.7 23.3
38~
41~ 44~ 47~ 50~53 合计
39.5
42.5 45.5 48.5 51.5
23
18 8 5 2 150
15.3
12.0 5.3 3.3 1.3 100.0
均数的计算
f1 x1 f 2 x2 f n xn fxi x f f 2 21.5 7 24.5 2 51.5 2 7 2 5445 150 36.3kg
定量资料的统计描述
一、基本概念
总体与样本 变量 误差 概率
二、资料和统计分析
资料的两种类型
定量资料(计量资料) 定性资料(分类资料) 连续 离散 二项分类 多项分类
无序
有序(等级)
根据变量取值特点,计量资料分为:
连续性资料:变量值可以在实数轴上连续变
动。如红细胞数、身高、体重。
定量资料统计描述过程:
定量 资料 统计 描述
一、Descriptives过程
进行一般性的统计描述(统计指标) 适用于服从正态分布的定量资料 特殊功能:可对原变量进行标准正态 变换N(0,1)
Descriptives过程:
标准 正态 变换: Z+?
峰度系数、 偏度系数
二、Frequencies过程
涉及的统计指标比Descriptives过程全 面,可产生详细的频数表,并给出常用统 计图。 更适用于对分类资料以及不服从正态分 布的连续性变量进行描述。
Frequencies过程:
产生 频数 表
Frequencies过程:
正态 曲线
三、Explore 过程(探索性分析)
三个过程中功能最强大,对变量的描 述统计更深入详尽; 适用于对资料的性质、分布特点完全 不清楚时; 特殊功能:茎叶图、箱式图
2.Descriptive Statistic
3.Descriptives
optins
几何均数的计算
教材P45 例4.4 数据录入 分析过程
对数转换:Transform Compute
生成 新变 量lgx
Transform
Compute:
函数 组
练习
课后习题P394 第3题
定量资料统计描述
定量资料统计描述概述定量资料是指数据以数字形式呈现的资料,与定性资料(如文字、图片等)不同,定量资料的数据具有明确的数值意义,常常需要进行统计分析。
在众多的数据分析方法中,统计是最为基础和重要的一种。
在统计分析中,描述统计是对搜集的数据进行基本的描述和概括,为进一步分析打下基础。
本文将从以下几个方面介绍定量资料的统计描述:1.定量资料的类型2.定量资料的统计描述方法3.定量资料的图表展示定量资料的类型定量资料通常可分为连续型和离散型两种。
具体来说,连续型数据是指在一定区间范围内可以取任意值的数据,如身高、体重等。
而离散型数据则是指一个变量只能取有限个取值的数据,例如血型、班级人数等。
定量资料的统计描述方法1. 集中趋势集中趋势是描述一组数据中心位置的统计指标,常用来表征该组数据的一般水平。
主要指标包括均值、中位数及众数。
其中,均值是指某组数据所有数据之和除以数据的个数,中位数是在一组数据中,数值按照从小到大排列,处于中间位置的数据,众数则是指整个数据中出现最频繁的那个数据。
2. 离散程度离散程度是描述一组数据分散程度的统计指标,常用来表征该组数据的分布情况。
主要指标包括极差、方差和标准差。
其中,极差是指一组数据最大值与最小值的差,方差是各数据偏离它们算术平均数的平方和的平均数,标准差则是方差的非负平方根。
3. 偏态与峰态偏态和峰态是描述一组数据偏离正态分布情况的统计指标。
偏态是指一组数据分布的不对称程度,主要指标包括偏态系数。
而峰态是指一组数据分布峰值的高低程度,主要指标包括峰态系数。
定量资料的图表展示图表展示是定量资料描述的一种重要手段。
常用的图表形式包括直方图、折线图、箱线图等。
1. 直方图直方图是一种对连续性定量数据分布情况的图形表示。
在直方图中,数据被划分为几个区间,每个区间的数据频数用柱形的高度来表示。
直方图能够反映数据的集中趋势和分散程度。
2. 折线图折线图是一种用折线表示数据值的图形,常用来描述离散型定量数据的变化趋势。
【精品】定量资料的统计描述
【精品】定量资料的统计描述定量资料的统计描述是指通过定量数据分布的一系列统计量来描述一个样本或总体的特征。
常用的统计量包括中心位置、离散程度、分布形态和相关性等。
中心位置中心位置是指数据分布的平均水平。
常用的中心位置统计量包括平均数、中位数和众数。
平均数是所有数据值的总和除以数据个数。
它具有良好的代表性,但受极端值的影响较大,因此需要谨慎使用。
中位数是将数据按大小排序后位于中间的数值,当数据存在极端值时,中位数比平均数更能正确反映数据的中心位置。
众数是数据中出现次数最多的数值,适用于分布具有明显峰值的情况。
离散程度离散程度是指数据分布的距离平均值的大小。
常用的离散程度统计量包括标准差、方差、极差和四分位数差等。
标准差是数据离均值的平均距离,是最常用的衡量数据分散程度的统计量。
方差是标准差的平方,由于平方的量级较大,因此比标准差不易解释。
极差是数据最大值与最小值之差,不考虑数据内部的分布情况,因此不具有代表性。
四分位数差是在数据中将数值分为四个部分,即25%、50%、75%三个分位点,然后用75%分位点减去25%分位点,用于描述数据离散程度。
分布形态分布形态是指数据分布的偏态和峰态。
常用的分布形态统计量包括偏度和峰度。
偏度是反映数据分布偏斜程度的统计量,正偏分布表示分布的长尾在分布的右侧,负偏分布表示分布的长尾在分布的左侧。
当偏度为0时,表示分布是对称的。
峰度是反映数据分布峰态的统计量,正峰分布表示分布的峰在分布的中心较高,负峰分布表示分布的峰在分布的中心较低。
当峰度为0时,表示分布的峰态基本接近正态分布。
相关性相关性是指两个变量之间的关联程度。
常用的相关性统计量包括相关系数和协方差。
相关系数是反映两个变量之间线性相关程度的统计量,取值范围为-1~1之间,正值表示正相关,负值表示负相关,0表示不相关。
协方差是反映两个变量之间相关性的统计量,数值大小表示两个变量之间的相关程度,但由于单位的影响,不易比较。
第二章定量资料的统计描述
1.算数均数 1.算数均数(arithmetic mean) )
表2-3 加权法计算均数 组段 (1 ) 6~ 8~ 10~ 10~ 12~ 12~ 14~ 14~ 16~ 16~ 18~ 18~ 20~ 20~ 22~ 22~ 24~ 24~ 26~ 26~ 28~ 28~30 合计 组中值( 组中值(XO) (2 ) 7 9 11 13 15 17 19 21 23 25 27 29
X + X 2 + ... + X n = 1 X n=∑n来自i =1Xi n
=
∑
i
Xi n
=
∑
n
X
1.算数均数 1.算数均数(arithmetic mean) )
测得8 例2-3 测得8只正常大鼠血清总酸性磷 酸酶(TACP)含量(U/L) 4.20,6.43, 酸酶(TACP)含量(U/L)为4.20,6.43, 2.08,3.45,2.26,4.04,5.42,3.38。 2.08,3.45,2.26,4.04,5.42,3.38。 试求其算术均数。 试求其算术均数。 算术均数= 算术均数= (4.20+6.43+2.08+3.45+2.26+4.04+5.4 2+3.38)/8=3.9075 2+3.38)
1998年某地96名妇女产前检查次数分布 1998年某地96名妇女产前检查次数分布 年某地96
频数 (2) 4 7 11 13 26 23 12 96 频率(%) 频率(%) (3) 4.2 7.3 11.5 13.5 27.1 24.0 12.5 100 累计人数 (4) 4 11 22 35 61 84 96 累计频率(%) 累计频率(%) (5) 4.2 11.5 22.9 36.5 63.5 87.5 100.0 -
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
中位数
各种分布类型的资料,特别是偏峰分布资料; 分布一端或两端无确切数值的资料; 分布类型不明
百分位数 各种分布类型的资料
离散趋势
指标
应用条件
极差
对资料类型没有要求
四分位数 间距
方差与标 准差
变异系数
各种分布类型的资料,特别是偏峰分布资料
对称分布,特别是正态或近似正态分布 观察指标单位不同时变异程度的比较; 均数相差较大时变异程度的比较
输出结果
探索分析(Explore )
探索分析(Explore )主要可以分为两个部分 1.未知分布类型数据的统计描述 2.对数据的分布形态进行检验
探索分析(Explore )
统计指标 正态性检验
正态性检验
探索分析(Explore )
四分位数间距
探索分析(Explore )
探索分析(Explore )
End Thanks
写出组段
输出结果
输出结果
如果只需获得频数分布图,且对组段与组距没有什么特殊要求,可以通过如下操作 来完成。
输出结果
描述性统计指标
集中趋势:描述定量变量的平均水平 离散趋势:描述定量变量的变异情况
集中趋势
指标
应用条件
算术均数 对称分布,特别是正态或近似正态分布
几何均数 对数正态分布 等比数据资料(如抗体滴度资料)
打开SPSS软件自带的数据demo.sav,找到car,这是一组 私家车价格的资料,我们将结合这组数据学习连续型定量资料 频数分布表和频数分布图的绘制。
变量视图
一般步骤
1.求极差 2.确定组段数和组距 3.根据组距写出组段 4.制作频数表和频数图
求极差
求极差
确定组段数和组距
1.极差:R=95.7≈100 2.确定组段数和组距:i=100/5=20,组段数取5,组距为20
重点掌握 1.频数分布图和频数分布表的制作 2.定量资料统计指标的计算
离散型定量资料
下面我们打开SPSS软件自带的数据demo.sav,找到reside, 这是一组同居人数的资料,我们将结合这组数据学习离散型 定量资料频数分布表和频数分布图的绘制。
变量视图
输出结果
输出结果
连续型定量资料
频数分析(Frequencies )
下面我们结合人群的年龄(age)数据学习如何使用SPSS计算统计指 标。
部分中英文对照:
描述统计(Descriptives )
对于近似正态分布的资料,我们还可以通过Descriptives获取统计指 标。这是一组使用某法多次测定某水样中碳酸钙含量的数据,符从正态分 布,下面我们用Descriptives的方法计算这组数据的统计指标。
正态QQ图:图中的点代表数据,直线代表理想的正态数据,如果各个点都 落在了直线的周围并且在平均值的部分点的分布比较均匀,这就说明是符 合正态分布的,显然这组年龄数据不符合正态分布
ห้องสมุดไป่ตู้
总结
频数分析(Frequencies ):频数分布表、条图和直方图以及 集中趋势和离散趋势的各种统计量。 描述统计(Descriptives ):描述近似正态分布定量变量的集 中趋势和离散趋势的各种统计量,对变量做标准化转换(Z 转换)。 探索分析(Explore ):未知分布类型数据的统计描述,对 数据的分布形态进行检验,功能强大。
定量资料统计描述
定量变量
定量变量可以分为两种类型: 1.离散型变量:只能取整数值,例如,一个月中的 手术病人数,一年里的新生儿数。 2.连续型变量:可以取实数轴上的任何数值,例如, 血压,身高,体重等。
统计描述
统计描述是通过绘制统计表、统计图 或计算相应的统计指标来说明资料的分布 规律及其数量特征,是进一步统计推断的 基础。