统计学之数据的描述

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
统计学之数据的描述
数据的特征
任何一组计量数据都有两个重要的特征:
中心值
(典型值)
围绕中心值
(典型值)的变
动幅度
数据的标记
如果我们进行一系列的观察,得到 个数,我们可以使用简单的记号标注数据,这样对数据统计与分析大有帮助。
我们可以将数据按如下方式进行标注:
1 , 2 , 3 , … …
标准差:s = 2 =
1
σ=1
−1
2ቤተ መጻሕፍቲ ባይዱ
2
− ҧ
2
和的特性
ҧ
平均数和标准差适合概括没有异类点、完全对称的直方图。如右图所示。
5
8
9
13
200
中位数为:9,平均数为:47
此时用平均数不能体现总
体毕业生的薪资水平,扭
曲了毕业生的平均薪资
异类点(极
端数值)
变动度的测量
变动度是描述数据偏离中心值有多远的量。
例如:调查学校7个学生的体重,恰好都是145斤,那
如果学生重量轻重不一,如下图所示。
就根本没有变动度,用直方图表示会很窄。如下图所
举例:随机调查某大学毕业生中5个人薪资水平,数据如下:
学号
B0034
A0003
B0020
D1005
C0096
薪资(K)
5
8
9
13
10
中位数为:9,平均数为:9
如果随机调查某大学毕业生中5个人薪资水平,其中C0096号同学薪资为200K,则:
学号
B0034
A0003
B0020
D1005
C0096
薪资(K)
示。
直方图将会变宽
四分位数
基本思想:将所有数值由小到大排列并分成四等份,
分析步骤如下:
处于三个分割点位置的数值。这些分割点分别是
(1)、将数据按大小排序。
25%、50%(中位数)和75%位置上的数值。观察
(2)、将数据在中位数处分成项数相等的高低值两组(如果
25%~75%之间的距离是多大。
中位数为数列中间的一项,则它既包括在高值组中也包括在低
− 数据点的总数
例如:
观察点
1
2
3
4
5
数值
1
2
3
4
5
3 − 代表第三个数据点的值
中数(平均数)
中数或者平均数使用表示,它是中心值的一种表示方式。即用所有数据之和除以观察点数。
ҧ
数据之和 1 + 2 + 3 + ⋯ +
ҧ =
=


ҧ =
σ=1


或 ҧ = ෍
25%
1
中位数(50%)
值组中)。
75%
3
(3)、找出低值组中的中位数,取名为第一四分位数,或Q1。
(4)、高值组中的中位数叫第三四分位数,或Q3。
四分位数间距(IQR)就是Q3与Q1间的距离或者差。
= 3 − 1
四分位数可以使用箱线图表示
3 + 1.5IQR
1 − 1.5IQR
1
3
异类点
>1.5IQR+3
箱线图非常
适合展示组
与组之间的
差别
标准差

标准差从平均数入手计量变动度。通俗讲标准差就是各数据与其平均数之间的平均离差。
从 到的离差的平方表示为:
ҧ
− ҧ
2
1
离差的平方=方差= σ=1 − ҧ
1
样本方差: 2 = −1 σ=1 − ҧ
=1


对于1 + 2 + 3 + ⋯ + 可以使用希腊大写字母∑表示总和。即以上可以记作:σ=1
例如:
观察点
1
2
3
4
5
6
7
数值
7
5
3
29
6
9
4
1 = 7, 2 = 5, 3 = 3, 4 = 29, 5 = 6, 6 = 9, 7 = 4
ҧ =
7 + 5 + 3 + 29 + 6 + 9 + 4 63
=
=9
7
7
中位数
中位数是另一种中心值的表示方式。即一组数据的中点,就像路中间的分隔带一样。
如何找出一组数据的中位数,即中间值?
①将数据按照从小到大的顺序排列。
②如果数据总数为奇数,则中位数就是中间项的数值。
③如果数据总数为偶数,则中位数是中间两项数据的平均值。
中数(平均数)与中位数比较
区别:中位数对没有典型性的异类点或极端数值不敏感。
相关文档
最新文档