数值变量资料的集中趋势和离散趋势
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
5. 四分位数间距( quartile interval , Q ): P75 、 P25分别表示第75百分位数和第25百分位数。 P75为上四分位数,%75的数比他小,%25的数比他大
Q= P75-P25(反应的是中间%50数据的变异程度,中间这部
分数据是 稳定的,所以适合描述偏态分布资料)
注:主要用于偏态分布资料离散程度的描述。最 适合的就是四分位数间距
三、用SPSS软件实现统计描述
操作步骤:
1.选择“Frequencies”
描述性统计
频数
操作步骤:
2.将变量选入变量框, 点击“Statistics”如果没
告诉你是什么分布要先确认是什么 分布,在选择参数
操作步骤:
2.选择相应描述性指标, 点击“Continue”
均数
四分位数
间距 中位数 最小值 标准差 方差 极差
3.方差(variance):是标准差的平方,表示一组变量 值的平均离散程度。方差越大,离散程度越大。
方差是最常用的指标
4.变异系数(coefficient of variation, CV )
S CV 100% X
CV: 单位不同,均数相差悬殊 S : 单位相同,均数相近才能用标准
差比较
2.标准差(standard deviation):和均数的单位一 致,表示一组变量值的平均离散程度。适合描述近 似正态分布资料的离散趋势。 (标准差,均数,原始数据三者单位一致)
样本标准差等于离均差平方和除以样本统计性质
公式应该背下来
常适用于一种特殊的偏态分布资料:等比资料(如 10,20,40,80.)或对数正态分布资料(常见于抗 体滴度)(原始数据是偏态,原始数据取了对数之 后,对数值成为正态分布)。
3.中位数(median,M)
主要适用于偏态分布资料。中位数是指将一组变 量值从小到大排列,位次居中的变量值。 描述偏态的是中位数和几何均数
统计描述包括两个方面:集中趋势的描述 和离散趋势的描述
跟总体有关的叫参数,希腊字母表示。 跟样本有关的叫统计量,用英文字母表示 集中趋势指标:均数,几何均数,中位数 离散趋势指标:
(一)集中趋势指标描述
1.算术均数(均数 mean) 适用于正态分布或者近似正态分布 总体均数:;样本均数:
2.几何均数(geometric mean)
最大值
统计结果
Spss或者SAS都没有几何均数,因为他们认为中位 数就可以代替了。Excel中是有几何均数的,可以 在里面算
注:除了用“Frequencies”外,还可以使用 “Descriptives”进行统计描述 这个是假设数据符合正态分布 描述
数值变量资料的集中趋势和离散趋势
一、分布类型
正态分布:集中位置居中,左右两侧频数 基本对称的分布。常见近似正态分布。
偏态分布:集中位置偏向一侧,频数分布不对称的 分布。
特点:有极端的数据。
120 100
80
60
40
20
0 0.0 10.0 20.0 30.0 40.0 50.0 60.0
二、统计描述
例子,体重和身高相比较,单位不一样,标准差的大小也变了, 所以单位不一样,没有可比性,比如身高单位是米,厘米。毫米 。比较结果是不一样的 例子二,婴儿和成人的体重的比较,用标准差的话,本来二者均 数就不在一个水平线上,即均数不一样,就算单位相同也没有可 比性,用变异系数的话,除以了均数,抵消了它的区别。
注意事项
对于偏态分布资料,中位数不受两端特大值和特小 值的影响,只和位置居中的观察值有关。而均数受 特大值和特小值的影响,会偏大或者偏小,所以对 于偏态分布的资料,均数的代表性差,不适合描述 偏态分布的集中趋势。
(二)离散趋势指标描述
1. 极差或者全距( range , R):表示一组变量值中 最大值和最小值之差。 R=最大值-最小值 计算简单,但是不能反映所有变量值的变异程度。