探索性数据分析简介30页PPT
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一、探索性数据分析的主要特点
▪ 研究从原始数据入手,完全以实际数据为依据
传统的统计分析方法是先假定数据服从某种分布, 如多数情况下假定数据服从正态分布,然后用适应这种 分布的模型进行分析和预测。但客观实际的多数数据并 不满足假定的理论分布(如正态分布),这样实际场合 就会偏离严格假定所描述的理论模型,传统统计方法就 可能表现很差,从而使其应用具有极大的局限性。EDA 则不是从某种假定出发,而是完全从客观数据出发,从 实际数据中去探索其内在的数据规律性。
T(xi)来代替,使得变换后的数据值是
T(x1),T(x2 ) ,…,T(xn )。
31.05.2020
试验优化技术
6
4. 启示(Revelation)
EDA强调启示。所谓启示就是通过EDA新的图解 显示和各种分析显示,发现规律,得到启迪,满足分 析者的需要:看出数据、拟合、诊断量度以及残差等 行为,从而抓住意想不到的特点以及常见的一贯行为。
EDA认为,分析一组数据而不仔细考察残差是不 完全的。EDA可以而且应该利用耐抗分析把数据中的 主导行为与反常行为清楚地分离开。当数据的大部分 遵从一致的模式,这个模式就决定一个耐抗拟合。耐 抗残差包含对于这个模式的剧烈偏离及机遇起伏。
Baidu Nhomakorabea
31.05.2020
试验优化技术
5
3. 重新表达(Re-expression)
中位数平滑是一种耐抗技术。中位数(Median) 是高耐抗统计量,而样本均值不是。
31.05.2020
试验优化技术
4
2. 残差(Residuals)
残差是数据减去一个总括统计量或模型拟合值以 后的残余部分,即:残差=数据-拟合。
例如:用若干对(xi,yi)拟合 yˆi abxi,则残差 为 ei yi yˆi。
31.05.2020
试验优化技术
2
▪ 分析工具简单直观,更易于普及
传统的统计分析方法应用的数学工具越来越深奥, 统计研究也越来越理论化,这样就使应用的人越来越害 怕统计。EDA提供多种多样丰富多彩的详细考察数据的 方法。例如,它运用简单直观的茎叶图、箱线图、残差 图、字母值、数据变换、中位数平滑等与传统统计方法 截然不同的方法,使得具有一般数学知识的人就可以进 行复杂的数据分析。这不仅极大地扩大了统计分析的用 户群体,而且为统计思想注入了新的活力。
重新表达即找到合适的尺度或数据表达方式以更 利于简化分析。EDA强调,要尽早考虑数据的原始尺 度是否合适的问题。如果尺度不合适,重新表达成另 一个尺度可能更有助于促进对称性、变异恒定性、关 系直线性或效应的可加性等。
重新表达亦称变换(Transformation),一批数据
x1,x2,…,xn的变换是一个函数T,它把每个xi用新值
31.05.2020
试验优化技术
1
▪ 分析方法从实际出发,不以某种理论为依据
传统的统计分析方法是以概率论为理论基础,对各 种参数的估计、检验和预测给出具有一定精度的度量方 法和度量值。EDA则以不完全正式的方法处理数据。在 探索数据内在的数量特征、数量关系和数量变化时,什 么方法可以达到这一目的就采用什么方法,灵活对待, 灵活处理。方法的选择完全服从于数据的特点和研究的 目的,并且更重视数据特征值的稳健耐抗性,而相对放 松对概率理论和精确度的刻意追求。
n2k1 n2k
d(M)n21kk12
n2k1 n2k
31.05.2020
试验优化技术
8
2. 次序统计量(Order Statistics)
若把数据批x1,x2,…,xn排成从小到大的次序,
即 x(1)x(2)x(n)
则 x(1),x(2),,x(n) 叫做数据批x1,x2,…,xn的次序统计
量。而x(i)是第i个次序统计量。
在排序的基础上,从最小值到最大值各个数据值
31.05.2020
试验优化技术
3
二、探索性数据分析的四大主题
1. 耐抗性(Resistance)
所谓耐抗性即对于数据的局部不良行为的非敏感 性,它是EDA追求的主要目标之一。对于具有耐抗性 的分析结果,当数据的一小部分被新的数据代替时, 即使它们与原来的数值很不一样,分析结果也只会有 轻微的改变。人们关注耐抗性,主要是因为“好”的 数据也难免有差错甚至是重大差错,因此数据分析时 要有防御大错的破坏性影响的措施。EDA是一种耐抗 分析方法,其分析结果具有较强的耐抗性。
31.05.2020
试验优化技术
7
三、探索性数据分析的常用术语
1. 批(Batch)或数据批
批即由n个观测值x1,x2,…,xn组成的数据组。在
传统统计中,这个数据组常称为样本,但批只是原始 数据组,没有像对样本那样的任何假设,如数据间独 立、服从正态分布等。
注意:在传统统计中,常用的样本均值、方差等 统计量是不耐抗的,即使只有一个异常数据也会对它 们产生巨大的有害影响。而在EDA中,为了探索性目 的,用基于排序和计数的简单的总括统计量,如中位 数,常常是耐抗的,即一批数据的一小部分不论怎样 变化也只对这个总括统计量有很小的影响。
试验优化技术
9
3. 深度(Depth)
数据批中一个数据值的深度是它的升秩与降秩两 者中的最小值。在EDA中规定:
次序统计量中,
两个极端值x(1)和x(n)的深度为1 两个次极端值x(2)和x(n-1)的深度为2 第i个数据值和第n+1-i个数据值的深度皆为i 在EDA中,用深度的概念可以规定怎样从数据批中提 炼出各种探索性总括值。
的先后名次,即为观测值的升秩(Upward rank),即
x(1)的升秩为1,x(2)的升秩为2,x(i)的升秩为i;
类似地,有降秩的概念,在排序基础上,从最大
值到最小值的先后名次即为降秩(Downward rank),
x(i)的降秩为n+1-i,同一个数据有:升秩+降秩=n+1
31.05.2020
31.05.2020
试验优化技术
10
4. 中位数(Median)
中位数是处于次序统计量中间的数据,它用计数 的方法给出数据批的中心,中位数将次序统计量分成 “低值”和“高值”两部分。中位数用字母M表示,
即 Mme xid
M 中位m 数的ex深id 度 记x 1 2(为[k)x(dk)(Mx)(k1)]
▪ 研究从原始数据入手,完全以实际数据为依据
传统的统计分析方法是先假定数据服从某种分布, 如多数情况下假定数据服从正态分布,然后用适应这种 分布的模型进行分析和预测。但客观实际的多数数据并 不满足假定的理论分布(如正态分布),这样实际场合 就会偏离严格假定所描述的理论模型,传统统计方法就 可能表现很差,从而使其应用具有极大的局限性。EDA 则不是从某种假定出发,而是完全从客观数据出发,从 实际数据中去探索其内在的数据规律性。
T(xi)来代替,使得变换后的数据值是
T(x1),T(x2 ) ,…,T(xn )。
31.05.2020
试验优化技术
6
4. 启示(Revelation)
EDA强调启示。所谓启示就是通过EDA新的图解 显示和各种分析显示,发现规律,得到启迪,满足分 析者的需要:看出数据、拟合、诊断量度以及残差等 行为,从而抓住意想不到的特点以及常见的一贯行为。
EDA认为,分析一组数据而不仔细考察残差是不 完全的。EDA可以而且应该利用耐抗分析把数据中的 主导行为与反常行为清楚地分离开。当数据的大部分 遵从一致的模式,这个模式就决定一个耐抗拟合。耐 抗残差包含对于这个模式的剧烈偏离及机遇起伏。
Baidu Nhomakorabea
31.05.2020
试验优化技术
5
3. 重新表达(Re-expression)
中位数平滑是一种耐抗技术。中位数(Median) 是高耐抗统计量,而样本均值不是。
31.05.2020
试验优化技术
4
2. 残差(Residuals)
残差是数据减去一个总括统计量或模型拟合值以 后的残余部分,即:残差=数据-拟合。
例如:用若干对(xi,yi)拟合 yˆi abxi,则残差 为 ei yi yˆi。
31.05.2020
试验优化技术
2
▪ 分析工具简单直观,更易于普及
传统的统计分析方法应用的数学工具越来越深奥, 统计研究也越来越理论化,这样就使应用的人越来越害 怕统计。EDA提供多种多样丰富多彩的详细考察数据的 方法。例如,它运用简单直观的茎叶图、箱线图、残差 图、字母值、数据变换、中位数平滑等与传统统计方法 截然不同的方法,使得具有一般数学知识的人就可以进 行复杂的数据分析。这不仅极大地扩大了统计分析的用 户群体,而且为统计思想注入了新的活力。
重新表达即找到合适的尺度或数据表达方式以更 利于简化分析。EDA强调,要尽早考虑数据的原始尺 度是否合适的问题。如果尺度不合适,重新表达成另 一个尺度可能更有助于促进对称性、变异恒定性、关 系直线性或效应的可加性等。
重新表达亦称变换(Transformation),一批数据
x1,x2,…,xn的变换是一个函数T,它把每个xi用新值
31.05.2020
试验优化技术
1
▪ 分析方法从实际出发,不以某种理论为依据
传统的统计分析方法是以概率论为理论基础,对各 种参数的估计、检验和预测给出具有一定精度的度量方 法和度量值。EDA则以不完全正式的方法处理数据。在 探索数据内在的数量特征、数量关系和数量变化时,什 么方法可以达到这一目的就采用什么方法,灵活对待, 灵活处理。方法的选择完全服从于数据的特点和研究的 目的,并且更重视数据特征值的稳健耐抗性,而相对放 松对概率理论和精确度的刻意追求。
n2k1 n2k
d(M)n21kk12
n2k1 n2k
31.05.2020
试验优化技术
8
2. 次序统计量(Order Statistics)
若把数据批x1,x2,…,xn排成从小到大的次序,
即 x(1)x(2)x(n)
则 x(1),x(2),,x(n) 叫做数据批x1,x2,…,xn的次序统计
量。而x(i)是第i个次序统计量。
在排序的基础上,从最小值到最大值各个数据值
31.05.2020
试验优化技术
3
二、探索性数据分析的四大主题
1. 耐抗性(Resistance)
所谓耐抗性即对于数据的局部不良行为的非敏感 性,它是EDA追求的主要目标之一。对于具有耐抗性 的分析结果,当数据的一小部分被新的数据代替时, 即使它们与原来的数值很不一样,分析结果也只会有 轻微的改变。人们关注耐抗性,主要是因为“好”的 数据也难免有差错甚至是重大差错,因此数据分析时 要有防御大错的破坏性影响的措施。EDA是一种耐抗 分析方法,其分析结果具有较强的耐抗性。
31.05.2020
试验优化技术
7
三、探索性数据分析的常用术语
1. 批(Batch)或数据批
批即由n个观测值x1,x2,…,xn组成的数据组。在
传统统计中,这个数据组常称为样本,但批只是原始 数据组,没有像对样本那样的任何假设,如数据间独 立、服从正态分布等。
注意:在传统统计中,常用的样本均值、方差等 统计量是不耐抗的,即使只有一个异常数据也会对它 们产生巨大的有害影响。而在EDA中,为了探索性目 的,用基于排序和计数的简单的总括统计量,如中位 数,常常是耐抗的,即一批数据的一小部分不论怎样 变化也只对这个总括统计量有很小的影响。
试验优化技术
9
3. 深度(Depth)
数据批中一个数据值的深度是它的升秩与降秩两 者中的最小值。在EDA中规定:
次序统计量中,
两个极端值x(1)和x(n)的深度为1 两个次极端值x(2)和x(n-1)的深度为2 第i个数据值和第n+1-i个数据值的深度皆为i 在EDA中,用深度的概念可以规定怎样从数据批中提 炼出各种探索性总括值。
的先后名次,即为观测值的升秩(Upward rank),即
x(1)的升秩为1,x(2)的升秩为2,x(i)的升秩为i;
类似地,有降秩的概念,在排序基础上,从最大
值到最小值的先后名次即为降秩(Downward rank),
x(i)的降秩为n+1-i,同一个数据有:升秩+降秩=n+1
31.05.2020
31.05.2020
试验优化技术
10
4. 中位数(Median)
中位数是处于次序统计量中间的数据,它用计数 的方法给出数据批的中心,中位数将次序统计量分成 “低值”和“高值”两部分。中位数用字母M表示,
即 Mme xid
M 中位m 数的ex深id 度 记x 1 2(为[k)x(dk)(Mx)(k1)]