探索性数据分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
探索性数据分析
简介
探索性数据分析所谓探索性数据分析( Exploratory Data Analysis )以下简称EDA,是指对已有的数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进⾏探索通过作图、制表、⽅程拟合、计算特征量等⼿段探索数据的结构和规律的⼀种数据分析⽅法。
⽬录
1. 探索性数据分析的简要介绍
2. 探索性数据分析的必要性和意义
3. 探索分析的内容和考察⽅法
1. 探索性数据分析的简要介绍
探索性数据分析的简要介绍探索性数据分析的简要介绍探索性数据分析的简要介绍探索性数据分析(Exploratory Data Analysis, EDA)⾸先由 J.W.Tukey提出的。
Tukey从⽣物学家那⾥学了许多分析数据的⽅法,并引⼊统计学中。
1977年,Tukey出版了他的名著《探索性数据分析》(UNDERSTANDING ROBUST AND EXPLORATORY DATA ANALYSIS),引起了统计学界的关注,成为探索分析的第⼀个正式出版物。
80年代后期,我国⼀些统计学者将这本著作介绍给我国统计学界,对我国统计学理论研究和统计事业的实践起到了积极作⽤。
此后,国内也有不少关于探索性数据分析⽅法的⽂章发表到各种统计刊物。
随着计算机技术的飞跃发展,以及数据的复杂性越来越强,实施探索性数据分析成为数据分析中不可替代的⼀部分,从⽽在统计分析的过程中发挥着越来重要的作⽤。
2. 探索性数据分析的必要性和意义
统计学原理告诉我们,搜集到的数据在建⽴数据⽂件以后,并⾮⽴即投⼊统计分析,因为数据结构、数据中隐含的内在统计规律等尚不清楚,需要对数据进⾏考察和探索。
因此,应⽤数据分析的整个操作步骤⼤体可以划分为两⼤阶段:探索阶段和证实阶段。
探索性数据分析分分离出数据的模式和特点,把他们有⼒地显⽰给分析者。
常常,分析者现对数据做探索性数据分析,⽽后才能有把握地选择结构分量或随机分量的模型;探索性数据分析还可以⽤来揭⽰:数据对于常见模型的意想不到的偏离。
探索性⽅法的要点是灵活性:它既要灵活适应数据的结构,也要对后续分析步骤揭露的模式灵活反应。
证实性数据分析评估观察到的模式或效应的再现性。
传统的统计推断提供显著性或置信性陈述,证实性分析它。
可是,证实阶段通常还包括:(1)将其他密切有关数据的信息结合进来;(2)通过收集和分析新数据确认结果。
总之,探索性数据分析强调灵活探求线索和证据;⽽证实性数据分析则着重评估现有证据。
探索性数据分析与证实性数据分析在具体运⽤上可交叉进⾏,探索性数据分析不仅可⽤在正式建⽴统计分析模型之前,⽽且还可⽤在正式建⽴统计分析模型之后,对所拟合的统计模型进⾏进⼀步的检查、验证,提⾼统计分析的质量。
3. 探索分析的内容和考察⽅法
3.1 探索分析的内容
检查数据是否有错误:过⼤过⼩的数据均有可能是奇异值、影响点或错误数据。
要找出这样的数据,并分析原因,然后决定是否从分析中删除这些数据。
因为奇异值和影响点往往对分析的影响较⼤,不能真实反映数据的总体特征。
获得数据分布特征:很多分析⽅法对数据分布有⼀定的要求,例如很多检验就需要数据分布服从正态分布。
因此检验数据是否正态分布,就决定了它们是否能⽤只对正态分布数据适⽤的分析⽅法。
对数据规律的初步观察:通过初步观察获得数据的⼀些内部规律,例如两个变量间是否线性相关。
3.2 探索分析的考察⽅法
探索分析⼀般通过数据⽂件在分组与不分组的情况下,获得常⽤统计量和图形。
⼀般以图形⽅式输出,直观帮助⽤户确定奇异值、影响点、进⾏假设检验,以及确定⽤户要使⽤的某种统计⽅式是否适合。
详细内容参见银河统计之。