探索性数据分析(EDA)
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
补充
当目标变量是分类型变量,解释变量是数 值型变量时可以利用方差分析的方法,来 判断目标变量在不同分类水平下解释变量 的均值是否存在显著差异。
初步结论
变量是否有缺失 变量是否有异常值 变量是否有冗余 变量的分布情况 样本是否有重复 样本是否存在不平衡类问题
简单的处理
对于缺失问题可以删除记录或者插补 对于异常值可以删除或者替换 对于变量冗余问题可以使用 变量选择方法来 消除冗余变量 对于变量分布的问题可以使用一些简单函数来 进行变量变换 若样本存在重复记录可以使用去重复过程来解 决 对于不平衡类问题可以使用过抽样来解决
EDA的定义
探索性数据分析是对调查、观测所得 到的一些初步的杂乱无章的数据,在尽量 少的先验假定下进行处理,通过作图、制 表等形式和方程拟合、计算某些特征量等 手段,探索数据的结构和规律的一种数据 分析方法。
EDA的主要特点
研究从原始数据入手,完全以实际数据为 依据 传统的统计分析方法通常是先假定数 据服从某种分布,然后用适应这种分布的 模型进行分析和预测。但实际上,多数数 据(尤其是实验数据)并不能保证满足假定的 理论分布。因此,传统方法的统计结果常 常并不令人满意,使用上受到很大的局限。
四分位数极差
• 四分位数极差定义:
R Q Q
1 3 1
• 判断数据异常点的方法:称
Q
1
1.5 R1 ,
Q
3
1.5 R1
为数据的下、上截断点。大于上截断点或 小于下截断点的数据均为异常点。
直方图
• 对于分类属性,每个值在一个箱中。对于 连续属性,将值域划分成箱(通常是等宽 的)并对每个箱中的值计数。
问题:当我们得到相关系数 后,是否就能直接判断两变量
之间的关系?
2. 相关系数的假设检验: 提出零假设:两变量无线性相关关系 选择检验统计量:Pearson相关系数的检验统计 量为t统计量,即
t
n2 1
2
其中,t统计量服从n-2个自由度的t分布。 计算检验统计量的观测值和p值。 决策。如果p值小于显著水平 ,应拒绝原假 设,认为两变量有线性相关关系,否则两变量 不存在线性相关关系。
探索性数据分析(EDA)
EDA的提出
1977年,美国统计学家John W. Tukey出 版了《探索性数据分析》一书,引起了统 计学界的关注。该书指出了统计建模应该 结合数据的真实分布情况,对数据进行分 析,而不应该从理论分布假定出发去构建 模型。EDA重新提出了描述统计在数据分析 中的重要性,它为统计学指明了新的发展 方向——和数据相结合。
1 2 n
1 i 0.375 , n 0.25 xi ,
1 i n.
若样本数据近似于正态分布,在QQ图上这些点 近似地在直线
y x
附近。
非参数检验方法 Kolmogorov-Smirnov 正态性检验: 检验统计量为 D max F x F x
正态性检验
• 正态分布是许多检验的基础,比如F检验,t 检验,卡方检验等。因此,对于一个样本 是否来自正态总体的检验是至关重要的。 图示法 1. 直方图:是否以钟型分布 2. 箱线图:观测矩形位置和 中位数,若矩形位于中间位 置且中位数位于矩形的中间位置, 则分布较为对称。
3. QQ图 对于样本 x , x ,...,x ,其次序统计量是x1 , x2 ,..., xn 。 QQ图是由以下的点构成的散点图:
其它的问题
是否需要抽样 是否需要降维 是否需要生成新的变量 是否需要对变量进行从新计算 连续属性是否需要离散化
谢谢
n o
F x 表示一组随机样本的累计频率函数 , F x 表示分布的分布函数。 Shapiro-Wilk的(W检验) 夏皮络—威尔克检验当 8 n 50 时可以使用。
n o
两个变量的关系
① 两个数值型变量线性相关(服从二元正态 分布) ② 秩相关(两个有序的分类变量) ③ 两个无序分类变量关联性分析
• 偏态型直方图: 偏态型直方图是指图的 顶峰有时向左偏、 有时向右偏。 • 孤岛型直方图: 在直方图旁边有孤立的小岛出现。
直方图作用
• • • • 数据是否接近对称 数据分散性如何 数据是否有异常值 数据中是否有间隙
箱线图
箱线图是一种显示 一维数值属性值分布 的图形。 它有6个数据节点: 上边缘、上四分位数 中位数、下四分位数 下边缘、异常值。 箱线图的作用: 识别异常值;判断数据的偏态;比较几批数 据的形状。
分析方法从实际出发,不以某种理论为依据 传统的统计分析方法是以概率论为理论 基础,对各种参数的估计、检验和预测给出 具有一定精度的度量方法和度量值。而EDA 在探索数据内在的数量特征、数量关系和数 量变化时,什么方法可以达到这一目的就采 用什么方法,灵活对待,灵活处理。方法的 选择完全取决于数据的特点和研究的目的。
两个数值型变量线性相关
1. 计算Pearson样本相关系数
x x y
n i 1 i
xi x
i 1
n
y y
2
i
y i
2
Pearson样本相关系数的取值范围和含义是:
相关系 数 的取值在-1~1之间。 >0表示两变量存在正的线性相关关系 , <0表示两变量存在 负的线性相关系数。 =-1表示两变量存在完全负 =1表示两变量存在完全正相关, =0表示两变量不存在线性相关关系。 相关, >0.8表示两变量之间具有较强的线性关系, <0.3表示两变量 之间的线性相关关系较弱。
应用时注意的问题
进行线性相关分析前,可以先绘制散点图。 要求两变量都来自正态总体的随机变量。 出现异常值时慎用。
秩相关
设 1 , 2 ,..., n 的秩统计量是R1 , R2 ,...,Rn , Y 1,Y 2 ,...Y n 的秩 统计量是S1, S 2 ,...,S n 。
xx x
则Spearman相关系数是:
q
xy
Ri R S i S
i 1 i 1
n
R R S S
n i 1 i i
2 n
2
对于Spearman相关系数,也可以做假设检验: 检验统计量: q
t
xy
1 q xy n2
2
其中t统计量服从n-2个自由度的t分布。
偏度和峰度
• 偏度的计算公式:
1
3 3
偏度是刻画数据对称性的指标。关于均值 对称的数据其偏度为0,呈现右偏的数据偏 度大于0,呈现左偏的数据偏度小于0。
• 峰度的计算公式:
2
wk.baidu.com
4 4
3
峰度是刻画分布状态的陡缓程度的指标。 峰度等于0,分布呈正态,峰度大于0,分 布呈尖峰状态,峰度小于0,分布呈平峰状 态。
分析工具简单直观,更易于普及 传统的统计分析方法都比较抽象和深 奥,一般人难于掌握,EDA则更强调直观及 数据可视化,使分析者能一目了然地看出 数据中隐含的有价值的信息,显示出其遵 循的普遍规律及与众不同的突出特点,促 进发现规律,得到启迪,满足分析者的多 方面要求,这也是EDA对于数据分析的的主 要贡献。
• 正常型直方图: 它的形状是中间高 两边低,左右近似对称。
• 双峰型直方图: 当直方图中出现了两个峰, 这是由于观测值来自两个总 体、两个分布的数据混合在 一起造成的。 • 平顶型直方图: 当直方图没有突出的顶峰, 呈平顶型 。形成的原因: 1.多个总体多个分布混合在 一起;2.变量在某个区间 均匀变化。
两个无序分类变量关联性分析
方法: 检验 检验统计量为:
2
2 i 1 j 1
2
n
m
Aij E ij
E
ij
2
统计量服从自由度为(n-1)(m-1)的 分布。 其中,
2
A 为观测频数,E 为期望频数。
ij
ij
多个数值型变量可以使用散点图矩阵
多个分类变量可以使用网状图
数据类型
结构化数据: 二分类型:如性别 多分类型:如职业 有序类型:如收入水平 数值类型:如年龄、收入 非结构化数据: 文本 音频 视频 图片
单变量分析
频率和众数:针对于无序的分类的变量 百分位数:针对于有序的或连续的变量 位置度量:均值和中位数 散布度量:方差、标准差、偏度、峰度、 四分位数极差