探索性数据分析简介

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

2020/5/27
试验优化技术
2
▪ 分析方法从实际出发，不以某种理论为依据
传统的统计分析方法是以概率论为理论基础，对各种参数的估计、检验和预测给出具有一定精度的度量方法和度量值。EDA则以不完全正式的方法处理数据。在探索数据内在的数量特征、数量关系和数量变化时，什么方法可以达到这一目的就采用什么方法，灵活对待，灵活处理。方法的选择完全服从于数据的特点和研究的目的，并且更重视数据特征值的稳健耐抗性，而相对放松对概率理论和精确度的刻意追求。
EDA认为，分析一组数据而不仔细考察残差是不完全的。EDA可以而且应该利用耐抗分析把数据中的主导行为与反常行为清楚地分离开。当数据的大部分遵从一致的模式，这个模式就决定一个耐抗拟合。耐抗残差包含对于这个模式的剧烈偏离及机遇起伏。
2020/5/27
试验优化技术
6
3. 重新表达（Re－expression）
2020/5/27
试验优化技术
9
2. 次序统计量（Order Statistics）
若把数据批x1，x2，…，xn排成从小到大的次序，
即 x(1)x(2)x(n)
则 x(1),x(2),,x(n) 叫做数据批x1，x2，…，xn的次序统计
量。而x(i)是第i个次序统计量。
在排序的基础上，从最小值到最大值各个数据值
dF=Fu－Fl
它给出数据批的中间一半的宽度，简称四分展布或F展布。 F展布强调数据批中心部分的行为而不强调极端值，它是对边远值不敏感的展布，这一点极差和标准差都做不到。
当然，两个极端值之差即极差也是展布，但是离群值对极差影响太大，一般极差没有什么耐抗性。
2020/5/27
试验优化技术
16
7. 临界值（Critical value）在EDA中，称Fl－1.5 Fl与Fu＋1.5 Fl分别为下、上
x(i)：36 37 45 52 56 58 66 68 75 90 100
由于n=11，中位数深度d(M)=(11+1)/2=6，中位数M＝x(6)＝58；四
分数深度d(F)=(6+1)/2=3.5，因而下四分数Fl=(x(3)+x(4))/2=48.5，上四分数Fu=(x(9)+x(8))/2=71.5
2020/5/27
试验优化技术
8
三、探索性数据分析的常用术语
1. 批（Batch）或数据批
批即由n个观测值x1，x2，…，xn组成的数据组。在
传统统计中，这个数据组常称为样本，但批只是原始数据组，没有像对样本那样的任何假设，如数据间独立、服从正态分布等。
注意：在传统统计中，常用的样本均值、方差等统计量是不耐抗的，即使只有一个异常数据也会对它们产生巨大的有害影响。而在EDA中，为了探索性目的，用基于排序和计数的简单的总括统计量，如中位数，常常是耐抗的，即一批数据的一小部分不论怎样变化也只对这个总括统计量有很小的影响。
探索性数据分析简介
Exploratory Data Analysis（EDA）
探索性数据分析（EDA）是一个崭新的统计研究方向。近几十年来，已有多本关于EDA方面的著作和许多学术研究论文，实际应用也取得了明显成效。目前，探索性数据分析已得到统计学界的公认，是一个极有发展前途的新领域。
➢ David C. Hoaglin等著，陈忠琏等译.探索性数据分析.北京：中国统计出版社，2019
2020/5/27
试验优化技术
4
二、探索性数据分析的四大主题
1. 耐抗性（Resistance）
所谓耐抗性即对于数据的局部不良行为的非敏感性，它是EDA追求的主要目标之一。对于具有耐抗性的分析结果，当数据的一小部分被新的数据代替时，即使它们与原来的数值很不一样，分析结果也只会有轻微的改变。人们关注耐抗性，主要是因为“好”的数据也难免有差错甚至是重大差错，因此数据分析时要有防御大错的破坏性影响的措施。EDA是一种耐抗分析方法，其分析结果具有较强的耐抗性。
2020/5/27
试验优化技术
1
一、探索性数据分析的主要特点
▪ 研究从原始数据入手，完全以实际数据为依据
传统的统计分析方法是先假定数据服从某种分布，如多数情况下假定数据服从正态分布，然后用适应这种分布的模型进行分析和预测。但客观实际的多数数据并不满足假定的理论分布（如正态分布），这样实际场合就会偏离严格假定所描述的理论模型，传统统计方法就可能表现很差，从而使其应用具有极大的局限性。EDA 则不是从某种假定出发，而是完全从客观数据出发，从实际数据中去探索其内在的数据规律性。
内界值，称最接近它们的数据为临界值，将小于下内界值和大于上内界值的数据称为界外值或离群值。
进一步，又称Fl－3 Fl与Fu＋3 Fl为下、上外界值，
而称这之外的数据为远外值或异常值。
EDA要求总括统计量要对离群值特别是异常值具有耐抗性。
2020/5/27
试验优化技术
17
四、耐抗线性回归
传统回归使用最广泛的是最小二乘回归，但最小二乘回归不能提供耐抗性。耐抗线性回归避免了这一困难。它把数据分成3个组，用组内中位数达到耐抗性。基本思路是：首先把n个数据
n2k1 n2k
d(M)n21kk12
n2k1 n2k
2020/5/27
试验优化技术
12
5. 四分数（Fourth）
EDA规定：深度为 [d(M)]1 的点为四分点，相应的数分别称为四分数。 2
四分数有下、上两个，分别记作 Fl、Fu ，则
d(F)[d(M2)]1ll12
[d(M)为 ] 奇数 [d(M)为 ] 偶数
试验优化技术
20
2. 确定总括点
在所形成的3个组内，先求组内x值的中位数，
然后单独求y值的中位数，得到总括点的x坐标和
y坐标：
(xL，yL)
(xM，yM)
(xR，yR)
得到的这3个总括点可能是数据点，也可能不是数据点，因为x和y的中位数是单独确定的。
这种确定组内总括点的方法给了拟合直线耐抗性。
把中位数、四分数和极端数放在一起组成五数总括，可以给出一些又用的信息。
2020/5/27
试验优化技术
14
【例1】Bendixen（1977）给出了需要24小时以上呼吸支持（一种强化治疗）的11类病人的生存百分率。分析什么百分率是典型的。次序统计量为
i： 1 2 3 4 5 6 7 8 9 10 11
[ ]表示取整运算，当d(F)遇有1/2时，表示四分数取深度d(F)相邻两数的平均。
2020/5/27
试验优化技术
13
由四分数的定义可知，每个四分数都在中位数和那个相应的极端值的半中间，从而两个四分数括住了这批数据的中间那一半，这一半通常被认为具有典型意义。显然，在次序统计量中，下四分数以下为“低值”部分，上四分数以上为“高值”部分。
10
3. 深度（Depth）
数据批中一个数据值的深度是它的升秩与降秩两者中的最小值。在EDA中规定：
次序统计量中，
两个极端值x(1)和x(n)的深度为1 两个次极端值x(2)和x(n-1)的深度为2 第i个数据值和第n+1-i个数据值的深度皆为i 在EDA中，用深度的概念可以规定怎样从数据批中提炼出各种探索性总括值。
2020/5/27
试验优化技术
21
3. 计算斜率和截距或中心值若回归直线为 yˆ abx，则，初始直线的斜率
b0
yR xR
yL xL
初始直线的截距
1 a 0 3 [y ( L b 0 x L ) (y M b 0 x M ) (y R b 0 x R )]
当所有的数据点的x值都远离0时，用斜率和
2020/5/27
试验优化技术
3
▪ 分析工具简单直观，更易于普及
传统的统计分析方法应用的数学工具越来越深奥，统计研究也越来越理论化，这样就使应用的人越来越害怕统计。EDA提供多种多样丰富多彩的详细考察数据的方法。例如，它运用简单直观的茎叶图、箱线图、残差图、字母值、数据变换、中位数平滑等与传统统计方法截然不同的方法，使得具有一般数学知识的人就可以进行复杂的数据分析。这不仅极大地扩大了统计分析的用户群体，而且为统计思想注入了新的活力。
将中位数、极端数、四分数放在一起的五数总括可知：这11类病人生存百分率的典型值是58%，尽管生存率可以高达100％，低到 36％，但其中一半的生存率是48.5%~71.5%
2020/5/27
试验优化技术
15
6. 展布（Spread）
展布是反映数据集中程度的一个指标，在EDA中，通常用两个分位点的差距来定义。如一个简单的耐抗量度是四分展布dF，它定义为
2020/5/27
试验优化技术
23
4. 残差拟合与迭代得到初始直线后，计算每个数据点的残差
eiyi[a0 *b0(xixM )]
按先前的分组找出eL，eM，eR，利用三个残
差数据的总括点
(xL，eL)
(xM，eM)
(xR，eR)
用相同的方法拟合直线，得到斜率和水平1、1
2020/5/27
试验优化技术
3个组，使组的大小尽可能相等。当xi之间没有等
值结时，组内的数据点数依赖于n除以3得到的余
数：
组
n=3k
n=3k+1
n=3k+2
左
k
k
k+1
中
k
k+1
k
右
k
k
k+1
2020/5/27
试验优化技术
19
当xi之间有等值结时，各组数据点个数可能不能达到上述配置，因为有同样x值的点应该进入
同一组。
2020/5/27
中位数平滑是一种耐抗技术。中位数（Median）是高耐抗统计量，而样本均值不是。
2020/5/27
试验优化技术
5
2. 残差（Residuals）
残差是数据减去一个总括统计量或模型拟合值以后的残余部分，即：残差＝数据－拟合。
例如：用若干对(xi，yi)拟合 yˆi abxi，则残差为 ei yi yˆi。
点(x1，y1)，…，(xn，yn)分成3个组，每个组内用
中位数形成一个总括点，再在这3个总括点的基础上得到一条线，然后通过迭代调整或平滑这条直线。
这种方法称为三组耐抗线法。
2020/5/27
试验优化技术
18
1. 形成3个组
首先把x的值排序，使得 x(1)x(2)x(n)，在
此基础上，把n个数据点 (xi，yi) 分成左、中、右
重新表达即找到合适的尺度或数据表达方式以更利于简化分析。EDA强调，要尽早考虑数据的原始尺度是否合适的问题。如果尺度不合适，重新表达成另一个尺度可能更有助于促进对称性、变异恒定性、关系直线性或效应的可加性等。
重新表达亦称变换（Transformation），一批数据
x1，x2，…，xn的变换是一个函数T，它把每个xi用新值
T(xi)来代替，使得变换后的数据值是
T(x1)，T(x2 ) ，…，T(xn )。
2020/5/27
试验优化技术
7
4. 启示（Revelation）
EDA强调启示。所谓启示就是通过EDA新的图解显示和各种分析显示，发现规律，得到启迪，满足分析者的需要：看出数据、拟合、诊断量度以及残差等行为，从而抓住意想不到的特点以及常见的一贯行为。
的先后名次，即为观测值的升秩（Upward rank），即
x(1)的升秩为1，x(2)的升秩为2，x(i)的升秩为i；
类似地，有降秩的概念，在排序基础上，从最大
值到最小值的先后名次即为降秩（Downward rank），
x(i)的降秩为n+1-i，同一个数据有：升秩＋降秩＝n+1
2020/5/27
试验优化技术
24
用残差拟合得到的斜率和水平对初始直线的斜ห้องสมุดไป่ตู้和水平进行调整，得到调整后的斜率和水平
b 1 b 01
a 1 * a 0 *1
然后用新的直线再计算残差，并进行残差拟
合，并用拟合结果对直线进行调整，直到斜率的
2020/5/27
试验优化技术
11
4. 中位数（Median）
中位数是处于次序统计量中间的数据，它用计数的方法给出数据批的中心，中位数将次序统计量分成 “低值”和“高值”两部分。中位数用字母M表示，
即 Mme xid
M 中位m 数的ex深id 度记x 1 2(为[k)x(dk)(Mx)(k1)]
截距来表示拟合直线意义不大，以斜率和中心值
来表示通常更有用。
2020/5/27
试验优化技术
22
以斜率和中心值来表示的初始直线是
yˆa0 *b0(xxM)
式中，斜率b0的计算和前面一样，中心值（又称水平）a0*用下式计算：
a 0 * 1 3 {y L [ b 0 (x L x M ) y M [y R b 0 (x R x M )]