甘怡群《心理与行为科学统计》笔记和习题详解(集中量数与差异量数)【圣才出品】
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第3章 集中量数与差异量数
3.1 复习笔记
一、集中量数
集中量数又称集中趋势,是体现一组数据一般水平的统计量。
它能反映频数分布中大量数据向某一点集中的情况。
(一)算术平均数
1.含义
算术平均数(mean )是最常用的,也是最容易理解的一个集中量数指标。
算术平均数是所有观察值的总和与总频数之商,也简称为平均数、均值或者均数。
可以用μ来表示;如果想表示变量X 的平均数,可以表示为X 。
2.计算公式
假设X 1,X 2,…,X N 代表各次观测值,N 为观察的总频数,则其算术平均数为:
123N X +X +X ++X =
N
μ⋅⋅⋅ 记作: N 1
1=N i i X μ=∑ 其中,
∑表示连加,1N i =∑表示从1i =到i N =的所有观测值i X 的总和。
3.性质
(1)数据中如果每一个数据都加上一个常数C ,则算术平均数也需要加上C ,即
∑=+=+n
i C X C X n 1
)(1 (2)数据中如果每一个数据都乘以一个常数C ,则算数平均数也需要乘以C ,即
∑=⋅=⋅n i C X C X n 1
)(1 (二)中数
中数(median )又称为中位数,它将数据分为数目相等的两半,其中一半的值比它小,另外一半的值比它大,等价于百分位数是50的那个数。
如果将所有数据按照大小顺序进行排列,那么中数正好位于正中间。
中数用M d 表示。
对于一个分布而言,中数将其分为大小相同的两个组。
对于没有经过处理的原始数据,需要先将所有数据按照大小顺序排成一个数列。
以下三种情况,中数有各自不同的求法。
1.数列的总个数为奇数
假设数列共包含有n 个数(n 为奇数),如果处于数列中间的数跟相邻的值都不相等,则第2
1+n 个数就是这n 个值的中数。
2.数列的总个数为偶数
如果n 是偶数,那么数列之中没有一个相应的值将该数列分成相等的两半,则取位于中间的两个数(第2n 和第12
+n 个值)的平均数作为中数。
3.分布的中间有相等的数
如果按照大小顺序排列好之后,位于数列中间的数与其相邻的数有相等的情况,则要进行一定的处理。
其原则是将重复的数字看成一个连续体,利用中间分数的精确上下限使用插值法。
一般,如果数据的重复数目比较多而整个数列的数字个数不多,则较少使用中数作为整个数据的集中量数,算术平均数会更加合适一些。
(三)众数
众数(mode)是指出现次数最多的那个数或类目,用M o来表示。
需要注意的是,众数有可能不止一个。
(四)分布的形状与集中量数
算术平均数可以看作是数据分布的重心,中数正好把分布分成相等的两半,而分布最高点对应的就是众数。
1.对称分布:算术平均数=中数=众数(图3.5);
2.正偏态分布:算术平均数>中数>众数(图3.6);
3.负偏态分布:算术平均数<中数<众数(图3.7)。
图3.5对称分布图3.6正偏态分布图图3.7负偏态分布
(五)三种集中量数的比较
1.算术平均数
(1)优点:反应灵敏、计算严密、计算简单、简便易解、适合于进一步代数方法运算、较少受抽样变动的影响。
(2)缺点:易受极端数据的影响,不能在出现模糊数据时计算。
2.中数
(1)优点:计算简单、容易理解、不受极端值影响、能在有模糊数据情况下使用、可
在顺序型数据时使用。
(2)缺点:代表性低、不够灵敏、稳定性低、不能进一步做代数运算。
3.众数
(1)优点:能在数据不同质的情况使用,能避免极端值干扰。
(2)缺点:不稳定、代表性差、不够灵敏、不能做进一步的代数运算。
二、差异量数
差异量数是对分布的延伸和聚集状态程度的定量化描述。
差异量数越大,表示数据间的差别越大;差异量数越小,表明分数间越近似。
常用的差异量数包括全距、标准差和四分差等。
(一)全距
全距也称为极差,指数据中最大值与最小值之差,用符号R 表示。
全距小表示数据比较集中,全距大则表示数据比较分散。
全距是一个大致的、粗略的差异量数,一般只被用于预备性检查,用来了解数据大概的分布情况,确定分组的方法。
1.计算公式
min max X X R -=
其中,max X ,min X 分别表示数据中的最大值和最小值。
2.优缺点
(1)优点:计算简单。
(2)缺点:代表性差、易受极端值影响。
(二)标准差
标准差是一种最重要也是最常用的差异量数,它描述了分布中的每一个个体与某一标准
之间的距离。
标准差将分布中的所有信息都考虑在内。
1.标准差的概念和计算公式
标准差是分布中的点到均值的标准距离或典型距离。
其计算公式为
n
X X n i i ∑=-=
12)(S 2.总体的方差和标准差
(1)总体的方差
总体的方差是指和方除以总体容量所得出的数值,用公式表示:
2SS N
σ=
总体方差实际上就是离差平方的平均值,也被称做均方。
方差的本质是对距离的平方的一种量度。
(2)总体的标准差
总体的标准差是指总体方差的平方根,其公式为:
σ计算总体标准差的步骤:①计算出和方SS ;②用SS 除以容量N 确定方差;③取方差的平方根确定标准差。
推论统计中,方差是一个很有价值的量数。
但是,在描述数据的差异性方面,标准差比方差更为有用。
因为标准差和离差处于同一数量级别,是对距离的一种量度。
3.样本的方差和标准差
推论统计的目标是利用来自样本的有限信息推测出有关总体的信息或结论。
但由于样本变异性小于总体变异性,用这种方法计算出的方差和标准差实际上低估了实际的总体参数。
需要对总体的方差和标准差公式进行一定的修正。
样本的方差和标准差均以小写英文字母表
示,分别为s 2和s 。
(1)样本方差 为了校正样本数据所带来的偏差,在计算样本方差时,自由度可用来校正样本误差,有利于对总体参数的无偏差估计:
1
2-=n SS S 其中在计算样本的和方SS 时,需要用样本均值X 代替μ,用样本容量n 来代替总体大小N 。
用公式表示:
定义公式 2)(∑-=X X SS ;计算公式 n X X SS 22)(∑∑-=
(2)样本的标准差
S =
(3)自由度 自由度是指可自由变化的数值的个数。
也可用符号df 表示,其值为n-1。
由于其均值是确定的,在一个样本的分布中,固定了前n-1个分数,最后一个分数也就被固定了。
(4)标准差的性质
分布中的每一个分数加上一个常数所得的新的分布,其标准差不会改变;分布中的每一个分数乘上一个常数,所得分布的标准差是原分布的标准差乘以这个常数。
4.差异系数
(1)概念
差异系数是一组数据的标准差与平均数的比率,用符号CV 表示。
CV 属于相对差异量数,不具有测量单位。
差异系数越大,表示离散程度越大。
其计算公式为:。