描述性数据分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
某班31名学生考试成绩如下: 25 45 50 54 55 61 64
68
83
72
84
75
84
75
84
78
85
79
86
81
86
87
92
89
100
89
89
90
Baidu Nhomakorabea
91
91
2 3 4 5 6 7 8 9 10
5 5 0 4 1 4 5 8
1 1 3 3 5 13 4 1
2 5 5 8 9 1 3 4 4 4 5 6 6 6 7 9 9 9 0 1 1 2 0
三、 茎叶图 茎叶图是探索性数据分析时对数据的初步形象 描绘,有点像直方图,但主要的差异在于茎叶 图是用数据代替直方图中的矩形。这样既有了 直观的图示,又对具体数据有大致了解。可以 更细致的看出数据的分布结构。 茎叶图制作的第一步是将每一个数据分解为三 个部分:茎、叶以及可忽略部分。一个数,从 哪一位开始可以归属于可忽略部分,需要看研 究的实际情况而定。
x, y
T
x y
2)变量X的方差
3)变量Y的方差
1 n 2 S xx ( xi x ) n 1 i 1 1 n 2 S yy ( yi y ) n 1 i 1
1 n 4)变量X,Y的协方差 S xy xi x ( yi y ) n 1 i 1
Q1 1.5R1 1.29 Q3 1.5R1 15.05
3、直方图: 直方图可以直观的观察数据的分布情况。 所谓直方图就是将数据按它们的取值范围划分 为若干子区间,以每一个子区间为底,在它的 上方作一个矩形,矩形的面积与位于该子区间 内的数据个数成比例。这些矩形的全体构成了 数据直方图。 方法:将数据范围分成若干自取件,一般 是等间距的。考虑落入每个区间的频率。
这两组数据的茎叶图可以忽略个位数而得, 被忽略的个位数一般不四舍五入。茎叶图实 际上是“带有数据的直方图”,忽略个位数 相当于选择划分区间的端点恰为10的倍数。 如果随意地将个位数四舍五入,则等于将一 个区间内的某些数据武断地转到右边的区间, 显然这是不妥当的。
通过此图可以粗略的得到, 高收入中,男性比女性多。 茎叶图中, 如果一行的数据过多, 可以分成两行显示。
4 i 1 i
n n 1
n
4
n 1 3 n 2 n 3
2
2、五数概括 1)中位数
x n 1 , 2 M 1 x n x n , 1 2 2 2
茎叶图与直方图一样,都可以直观的看出数
据分布的情况,但茎叶图用了所有数据,没
有丢失信息。从图上大致可以看出数据是否
对称,分散性如何,是否有异常值,数据中
间是否有间隙等。利用茎叶图也很自然的给
数据进行了排序。
数据分析中,常常要比较两组可比数据的分布 趋向,背靠背茎叶图为此提供了方便。假如从 某地区随机抽样男女居民各20名,对他们的月 收入进行调查,得数据如下(单位为元): 男 803,659,571,778,492,295,345 673,388,580,708,433,301,193 435,560,767,678,288,477 女 680,792,583,434,425,186,288 379,444,556,471,671,536,333 422,236,195,345,389,400
计算:平均数,方差,中位数,四分位数; 并判断是否有异常值。 解: 1 n 1
x
x n
i 1
i
19
161.253 8.487
1 n 2 Sn ( xi x ) 2 3.406 n 1 i 1
M 8.75
Q3 M 0.75 9.89 Q1 M 0.25 6.45
n为奇数; n为偶数.
2)最小数
x1 min xi
1 i n
3)最大数
4)极差 5) p 分位数
x n max xi
1 i n
R x n x1
xnp1 , M p 1 x np x np 1 , 2 np不是整数; np是整数.
§2 两样本数据
社会经济领域中数据组并非总是以单样本形式
出现,我们还常常需要研究两个变量之间的关
联程度,例如父亲的身高与成年儿子的身高;
丈夫的收入与妻子的收入;股票市场的上证综
合指数与深圳成份指数;货币投放量及通货膨
胀率;等等。本节将讲解两样本数据的初步整
理分析。
一 相关系数 .... 给定一组两样本数据 xi , yi i 1,2, n ,如果 根本不考虑其中一个变量的状态(比如先不 考虑x),那末对y数据的概括统计量当然是 和(或)。同样地单纯考虑变量x也有概括统 计量。在两样本数据中极重要的一个概括 统计量是x与y之间的相关系数。 n n 1 1 y yi x xi n i 1 n i 1 1)均值向量
注:第 组数据 第 j个因素 的数据
i
xi1 , xi 2 ,..., xip T
x
1j
, x2 j ,..., xnj
T
均值向量
x x1 , x2 ,..., x p ,
协方差矩阵
s11 s12 s12 s22 S .............. s p1 s p 2
6)上四分位数
7)下四分位数 8)极差
Q3 M 0.75
Q1 M 0.25
R1 Q3 Q1
9)上下截断点
Q1 1.5R1 ,
Q3 1.5R1
无数概括:最小数、下四分位数、中位 数、上四分位数、最大数和在一起称为 无数概括。
例:已知数据:
9.89 8.75 8.00 6.45 6.40 11.90 6.17 10.30 5.39 7.27 9.08 9.24 10.40 7.75 11.20 6.20 8.33 8.95 9.58
x
, xi 2 ,..., xip
T
样本观测矩阵:
x11 , x21 ,..., xn1 x12 , x22 ,..., xn 2 x1 , x2 ,..., xn , ................... x1 p , x2 p ,..., xnp
描述性数据分析
数据的描述性分析即是从数据出发概 括数据特征,主要包括数据的位置特性、 分散性、关联性等数字特征和反映数据整 体结构的分布特征,它是数据分析的第一 步,也是对数据进行进一步分析的基础。 §1 单样本数据 1、 一组单样本数据 x1 , x2 ,...xn ,样本数据 个数称为样本容量, 1 n 1)样本平均数 x x i n i 1
5)协方差矩阵
6)相关系数
rxy
S xx S S yx S xy
S xy S yy
S xx S yy
1)相关系数的绝对值最小为0,最大为1。
2)当为0时,表示两个变量不相关,即无线性 关系; 3)当绝对值为1时,表示完全相性相关。即 Y=KX+B 4)数值越大,关系越大。刻画两变量关系的 十分重要的物理量。
绘制直方图的关键之处在于子区间的划分,我们 将分别讨论两种情况:样本数据本身包含了子区 间的划分或至少提供了划分的信息,另一种是样 本数据只提供单纯的n个数字。 1、样本数据组提供了子区间的划分 例1 某市居民的月收入情况
2000元 以下
1%
2000 元~ 3000元
5.6%
3000 元~ 4000元
15.4%
4000 元~ 5000元
22.8%
5000 元~ 6000元
22.8%
6000 元~ 7000元
11.2%
7000元 以上
21.2%
宽度为组距,高度为落入该区间的频率
2、样本数据组只提供了n个数据 此时对数据绘制直方图需要制图者自己选 择与确定子区间的个数及如何划分,这两个因 素将直接关系到直方图的形状。 这是仍旧需要对数据进行子区间,划分大部分 采用均分的方式,区间的个数通常在6~20之 间(也有8~15个),具体要分成多少个,要 有实际问题确定。假设样本数据组要划分成k 个子区间,则具体划分数据的原则是,设n个 数据的最小值为a,最大值为b,则把 b -a 做 为区间的长度。这种分法是比较常见的 。
2)样本方差
1 n 2 2 Sn ( xi x ) n 1 i 1
3)样本标准差
Sn
1 n 2 ( xi x ) n 1 i 1
n
4)偏度
n 3 g1 (x x ) 3 i n 1 n 2 s i1
5)峰度 g 2
(x x ) n 1 n 2 n 3 s
... s1 p ... s2 p ... s pp
相关系数矩阵
... r1 p 1 r12 r12 1 ... r2 p R .............. ... 1 rp1 rp 2
§2 多元数据数字特征及相关矩阵
设 X ,X
1
,..., X p T 2
是P元总体,从中得到数据如下
x11 , x12 , ..., x1 p x x
第
22
T
, x22 , ..., x2 p , xn 2 , ..., xnp
i2
T
...........
T n2
i
组数据记为