第三章数据分布特征的定量描述
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Z aZ b
例如:早期智力测验中运用智力商数表示智 力测查的指标
MA(智力年龄) IQ 100 CA(实际年龄)
这种表示智力的方法后来被离差智商取代:
X X Z S
IQ 15Z 100
2、中位数 中位数简称为中数,是按顺序排列的一组数据
中位于中间位置的数。
中位数也是常用的一种对数据集中趋势的度量。
一般用Md 或 Mdn 表示。
原始数据中位数的计算方法
首先将一组数据按顺序排列
n 1 若n为奇数 , 则Md 为第 个数 2
Xn Xn 若n为偶数, 则Md
2 2 1
2
频数分布表的中位数计算法 由次数分布表计算中位数需要用到累积次 数分布表。 当表中数据的累积方向不同时,计算公式 也不同。
Mg N X 1 X 2 X N 4 1.11.10451.07 1.1077 1.095 2200 2430 2600 2880 2000 2200 2430 2600
1.1000 1.1045 1.0700 1.1077
Mg 4
4
2880 1.095 2000
M g n X1 X 2 X n
M g n1 Xn Xn X2 X3 n1 X 1 X 2 X n1 X1
注意 :几何平均数计算的是平均的变化情况,如果要计算 平均增长率,需要从几何平均数中减去基数1。
年度 1987 1988 1989 1990 1991 人数 2000 2200 2430 2600 2880 变化率
调和平均数 即倒数平均数的倒数,用于求平均速度
1 1 1 X1 X 2 XN X N
1
例:上行速度为30公里/小时,下行速度为45公里/小时, 求全程的平均速度
1 1 3 2 1 5 30 45 90 X 2 180 2 36
Q3 Q1 Q 2
,
四分位距实际上就是中间50%数据的全距,它反映了 中间50%数据的离散程度,其数值越小,说明中间的数
据越集中;反之,越分散。四分位距的大小在一定程度
上说明了中位数对一组数据的代表程度。所以它常与中 位数配合使用。
3、平均差
平均差是指一组数据中,每一个数据与该组数据的
平均数离差的绝对值的算术平均数,通常用AD或MD表示。
也比较容易。中位数不受极端数据的影响,但反应
不灵敏,也不适合进一步代数运算的要求。一般用
于下列情况:
一组数据中有极端数据时;
一组数据中有个别数据不确切、不清楚时。
3、众数
众数是一组数据中出现频数最多的变量值。用 Mo表示。也是对数据集中趋势的测度。 如果出现频数最多的有两个数,而且两个数是 相邻的,那么一般取两者的平均值作为众数;如 果这两个数不相邻,那么一般需要报告两个众数, 而且认为该组数据是双峰分布的。
Z 分数 甲 乙 1.500 1.900 1.0 -0.600 -0.125 0.375 0.500 -1.670 -0.375 1.500 2.500 1.505
利用Z分数表示心理与教育测验结果 经过标准化的心理和教育测验,常常用标准 分数表示测验结果。如果其常模分数分布接近正 态分布,为了克服标准分数出现的小数、负数和 不易为人们所接受等局限,常常对Z分数再进行 线性转换。
第三章 数据分布特征的定量描述
有了数据的分布,还需用一些统计量来具 体地描述数据分布的特征。 一般常对数据分布的以下三方面特征进行 定量描述:
集中趋势 离中程度(离散程度、变异程度) 偏态与峰度
一、集中趋势 --- 代表值
数据分布的集中趋势是指一组数据向某一中心 位置靠拢的倾向。测度集中趋势就是要寻找数据 中心位置的数值,这个数值称作代表值或中心值。
公式中: La为中位数所在组的精确上限 fa为中位数所在组上限以上的累积频数
n为数据总和
fMd为中位数所在组的频数 i为组距
表3-2 成绩
95 ~ 90 ~ 85 ~
52名学生数学成绩中位数计算表 频数f
2
2 3
累积频数
52 50 48 45 40 32 21 12 7 3 1
计
算
n 52 26 2 2
2
Hale Waihona Puke Baidu
2
2
S
X X n
方差与标准差是表示一组数据离散程度的最好的指标, 具有反应灵敏、公式严密确定、简明易懂、适合代数运算等 特点,是统计分析中最常用的统计量。常与平均数配合使用。 方差具有可加性和可分解性。 标准差具有如下性质:
• 如果
Y X C
则
SY S X
SY C S X
80 ~
75 ~ 70 ~
5
8 11
65 ~
60 ~ 55 ~ 50 ~ 45 ~
9
5 4 2 1 52
n i Md Lb f b 2 f Md 5 69.5 26 21 11
71.77
合计
中位数的特点及应用
中位数是根据全部数据的个数来确定其位置的, 意义简明,对按顺序排列的数据来讲,计算中位数
6岁组
19.02千克
2.12千克
11.15%
三、数据分布的偏度与峰度
描述一组数据不仅要了解其分布的中心位置和分散程 度,还需了解分布的对称性与相对峰度。 偏斜系数反映分布的偏斜方向及程度; 峰度系数反映分布的相对峰度。
四、数据的相对位置
在描述一组数据特征(分布形态、中心位置、离 散程度)的基础上,有时还需要确定某个数据在该 组中的相对位置。 通过对数据进行某种转换,可以确定其相对位置。
1975年上海市区6岁男童体重与身高数据:
平均数 体重 19.39千克
标准差 2.16千克
差异系数 11.14%
身高
115.87厘米
4.86厘米
4.19%
比较单位相同而平均数相差较大的两组数据的离散程度 1975年上海市区两组女童体重的数据: 平均数 2个月组 5.45千克 标准差 0.62千克 差异系数 11.38%
标准分数的优点
可比性:标准分数以团体的平均数为基准,以标准差为
单位,因而具有可比性。
可加性:标准分数使不同的原始分数具有相同的参照点, 因而具有可加性。 明确性:标准分数较原始分数的意义更为明确。 合理性:标准分数保证了不同性质的分数在总分数中的
权重相同,使分数更合理地反映事实。
标准分数的应用
用于比较几个分属性质不同的观测值在各自数 据分布中相对位置的高低。 计算不同质的观测值的总和或平均值,以表示 在团体中的相对位置。
常用的集中趋势的度量: 平均数 中位数 众数
1、平均数
算术平均数是最常用的(平均数算法不止一种) 一般说到平均数时都指的是算术平均数。
原始数据计算公式
X 1 X 2 X n 1 n X Xi n n i 1
1 X X n
频数分布表计算公式
f1 X C1 f 2 X C 2 f k X Ck 1 k X f j X Cj f1 f 2 f k n j 1
F*Xc
计 算
1 X fX C n
平均数的性质
一组数据的每一个数与平均数的差(离均差) 的总和等于零 一组数据的每一个数加上常数C,其平均数为 原来的平均数加常数C 一组数据的每一个数乘以常数C,其平均数为 原来的平均数乘常数C 一组数据的每一个数与常数C的差的平方和不 小于该组数据的每一个数与平均数的差的平方和
AD
X X n
平均差意义明确,计算容易,反应灵敏。但计算
时要用绝对值,不适合代数运算,因此在进一步统计
分析中应用较少。
4、方差与标准差
方差和标准差都是描述数据离散程度的最常用的 统计量。 方差(又称为变异数),常以S2表示; 标准差是方差的算术平方根,常以S表示。
X X S n
由下至上累积频数计算公式
n i Md Lb f b 2 f Md
公式中: Lb为中位数所在组的精确下限 fb为中位数所在组下限以下的累积频数
n为数据总和
fMd为中位数所在组的频数
i为组距
由上至下累积频数计算公式
n i Md La f a 2 f Md
当研究需要合成不同质的数据时,如果已知这些不同质 的观测值的次数分布为正态,这时可采用Z分数来计算不同 质的观测值的总和或平均值。
利用Z分数求总和
科目
语文 政治 外语 数学 理化 总计
原始分数 全体考生 甲 乙 平均数 标准差 85 89 70 10 70 62 65 5 68 72 69 8 53 40 50 6 72 87 75 8 348 350
4、平均数、中数和众数的关系 在正态分布中,三者相等 在正偏态分布中,M > Md > Mo 在负偏态分布中,M < Md < Mo
一般偏态情况下,Md 离M 较近,而离Mo 较远,
5、其它度量数据集中趋势的统计量
几何平均数
几何平均数是n个数值连乘积的n次方根,用 M g 或 X g 表示。计算公式为
X X
X 0
X C X C CX CX X
2
X
C
2
平均数的特点 优点 算术平均数具备一个良好的集中量所应具备 的一些特点:反应灵敏、有公式严密确定、简明 易懂、适合代数运算等等,因此是一个最常用的 集中量。 缺点:容易受极端数值的影响; 作为一组数据的代表值,当数据的离 散程度较大时其代表性不足。
1、百分等级转换
百分等级表明某个数据在全部数据中的相对位置, 例如一组数据中第一个四分点Q1以下的数据占全部数据的 25%,因此Q1的百分等级为25。同样,小于中数的数据占 50%,所以中数的百分等级是50。(注意:百分等级与百分 位数的区别) 将原本等距的数据转换成百分等级后,突出了相对位置 但失掉了数据“等距”的特征。 例如一个班里A、B、C、D四人的考试分数分别为110、 105、100、95,相邻两人都差5分,转换成百分等级有可 能为99、97.6、94.5、89,这时相邻两人的分差不相等了。
1
1
去尾平均数
去掉一个(或2个)最大值和一个(或2个)最小值 剩下的数据计算平均数
二、离中程度的度量(离散程度)
1、全距(极差)
全距是一组数据中的最大值与该组数据中最小值之差, 又称极差。
R=Xmax-Xmin
2、四分位距(四分差)
将数据排序后划分为4部分,每部分的数据个数占全 部的25%,这种划分的临界点即为四分位数(也称四分 点)。三个四分位数分别为:Q1、Q2 、Q3 其中Q1为第一个四分位数;Q2为第二个四分位数(即 中位数);Q3为第三个四分位数。 四分位距以Q表示,即:
1 X fX C n
表3-1
52名学生数学成绩平均数计算表
成绩 组中值Xc 频数f 95- 90- 85- 80- 75- 70- 65- 60- 55- 50- 45- 合计 97 92 87 82 77 72 67 62 57 52 47 2 2 3 5 8 11 9 5 4 2 1 52
• 如果
Y CX
则
5、变异系数
变异系数也可以看作是相对标准差,是标准差与其算 术平均数的百分比,它是没有单位的相对数。可以比较: 不同测量单位的两组数据的离散程度; 相同测量单位但平均数不同的两组数据的离散程度。 常以CV表示, 其计算公式为:
S CV 100% X
比较测量单位不同的两组数据的离散程度
2、标准分数转换(Z转换)
将数据Xi按下面公式转换,得到的Z称作标准分数.
X X Z S
式中称为原始数据, X 、S 分别为原始数据全体的 平均值与标准差。 Z分数没有测量单位,它表示X在全体数据中的相对 位置,这个相对位置是以平均值为参照点的(可通过 查正态分布表得到)。 Z转换是线性转换,所以Z分数既能反映数据的相对 位置,同时保持数据的“等距”特征。