数据探索性分析方法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据探索性分析方法
1.1数据探索性分析概述
探索性数据分析(Exploratory Data Analysis,简称EDA),是指对已有的数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索,通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。特别是当我们对这些数据中的信息没有足够的经验,不知道该用何种传统统计方法进行分析时,探索性数据分析就会非常有效。探索性数据分析在上世纪六十年代被提出,其方法由美国著名统计学家约翰·图基(John Tukey)命名。
EDA的出现主要是在对数据进行初步分析时,往往还无法进行常规的统计分析。这时候,如果分析者先对数据进行探索性分析,辨析数据的模式与特点,并把它们有序地发掘出来,就能够灵活地选择和调整合适的分析模型,并揭示数据相对于常见模型的种种偏离。在此基础上再采用以显著性检验和置信区间估计为主的统计分析技术,就可以科学地评估所观察到的模式或效应的具体情况。
所以概括起来说,分析数据可以分为探索和验证两个阶段。探索阶段强调灵活探求线索和证据,发现数据中隐藏的有价值的信息,而验证阶段则着重评估这些证据,相对精确地研究一些具体情况。在验证阶段,常用的主要方法是传统的统计学方法,在探索阶段,主要的方法就是EDA。
EDA的特点有三个:一是在分析思路上让数据说话,不强调对数据的整理。传统统计方法通常是先假定一个模型,例如数据服从某个分布(特别常见的是正态分布),然后使用适合此模型的方法进行拟合、分析及预测。但实际上,多数数据(尤其是实验数据)并不能保证满足假定的理论分布。因此,传统方法的统计结果常常并不令人满意,使用上受到很大的局限。EDA则可以从原始数据出发,深入探索数据的内在规律,而不是从某种假定出发,套用理论结论,拘泥于模型的假设。二是EDA分析方法灵活,而不是拘泥于传统的统计方法。传统的统计方法以概率论为基础,使用有严格理论依据的假设检验、置信区间等处理工具。EDA处理数据的方式则灵活多样,分析方法的选择完全从数据出发,灵活对待,灵活处理,什么方法可以达到探索和发现的目的就使用什么方法。这里特别强调的是EDA更看重的是方法的稳健性、耐抗性,而不刻意追求概率意义上的精确性。三是EDA分析工具简单直观,更易于普及。传统的统计方法都比较抽象和深奥,一般人难于掌握,EDA则更强调直观及数据可视化,更强调方法的多样性及灵活性,使分析者能一目了然地看出数据中隐含的有价值的信息,显示出其遵循的普遍规律及与众不同的突出特点,促进发现规律,得到启迪,满足分析者的多方面要求,这也是EDA对于数据分析的的主要贡献。
1.2数据基本描述及可视化
1.2.1数据的类型
按照所采用的计量尺度不同,可以将统计数据分为分类数据、顺序数据和数
值型数据。分类数据是只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,用文字来表述的,例如,人口按性别分为男、女。顺序数据是只能归于某一有序类别的非数字型数据。顺序数据虽然也是类别,但这些类别是有序的。比如将产品分为一等品、二等品、三等品、次品等。数值型数据是按数字尺度测量的观测值,其结果表现为具体的数值。现实中所处理得到大多数都是数值型数据。
按照统计数据的收集方法,可以将其分为观测数据和实验数据。观测数据是通过调查或观测而收集到的数据,这类数据实在没有对事物认为控制的条件下得到的,有关社会经济现象的统计数据几乎都是观测数据。实验数据则是在实验中控制实验对象而收集到的数据。
按照被描述的现象与时间的关系,可以将统计数据分为截面数据和时间序列数据。截面数据是在相同或近似相近的时间点上收集到的数据,这类数据通常是在不同的空间上获得的,用于描述现象在某一时刻的变化情况,例如,2015年我国各地区食品中污染物数据。时间序列数据是在不同是时间上收集到的数据,这类数据是按时间顺序收集到的,用于所描述现象随时间变化的情况,例如2010-2015年,北京市某食源性疾病的发病率数据。
1.2.2数据的概括性量度
利用图表展示数据,可以对数据分布的形状和特征有一个大致的了解。但要全面把握数据分布的特征,还需要找到反映数据分布的各个代表值。数据分布的特征可以从三个方面进行测度和描述:一是分布的集中趋势,反映各数据向其中心值靠拢或聚集的程度;二是分布的离散程度,反映各数据远离其中心值的趋势;三是分布的形状,反映数据分布的偏态和峰态。这三个方面分别反映了数据分布特征的不同侧面。
1.2.2.1集中趋势
集中趋势是指一组数据向某一中心值靠拢的程度,它反映了一组数据中心点的位置所在。对分类数据,一般使用众数,众数是一组数据中出现次数最多的变量值。顺序数据一般使用中位数和分位数描述数据的集中趋势,中位数是一组数据排序后处于中间位置上的变量值,用Me表示,数值型数据一般使用平均数来描述数据的集中趋势,它是一组数据相加后初一数据的个数得到的结果。
1.2.2.2离散程度
离散程度是数据分布的另一个重要特征,它反映的是各变量值远离其中心值的程度。数据的离散程度越大,集中趋势的测度值对该组数据的代表性就越差;离散程度越小,其代表成都就越好。描述数据离散程度采用的测度值,根据所依据数据类型的不同主要有异众比率、四分位差、方差和标准差。
分类数据一般使用异众比率,异众比率是指非众数组的频数占总频数的比例,用V r表示。其计算公式为:
V r=∑f i−f m
∑i
=1−
f m
∑i
式中,∑f i为变量值的总频数;f m为众数组的频数。
异众比率主要用于衡量众数对一组数据的代表程度。异众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性就越差;异众比率越小,说明非众数组的频数占总频数的比重越小,众数的代表性越好。
顺序数据主要用四分位差,它是上四分数与下四分位数之差,用Q d表示。其计算公式为:
Q d=Q U−Q L
四分位差反映了中间50%数据的离散程度,其数值越小,说明中间的数据越集中;其数值越大,说明中间的数据越分散。
数值型数据离散程度的描述方法主要有极差、平均差、方差和标准差,其中最常用的是方差和标准差。方差是各变量值与其平均数离差平方的平均数。它在数学处理上通过平方的办法消去离差的正负号,然后再进行平均。方差的平方根成为标准差。
1.2.2.3分布形状
集中趋势和离散程度是数据分布的重要特征,但要全面了解数据分布的特点,还需要知道数据分布的形状是否对称、偏斜程度以及分布的扁平程度等。偏态和峰态就是对分布形状的测度。
“偏态”是对数据分布对称性的测度,测度偏态的统计量是偏态系数,记作SK。偏态系数的计算方法很多,在根据未分组的原始数据计算偏态系数时,通常采用下面的公式
SK=
n∑(x i−x̅)3 (n−1)(n−2)s3
式中,s3是样本标准差的3次方。
如果一组数据的分布是对称的,则偏态系数等于0,如果偏态系数明显不为0,表明分布是非对称的。若偏态系数大于1或小于-1,被称为高度偏态分布;若偏态系数在0.5~1或-1~-0.5之间,被认为是中等偏态分布;偏态系数越接近0,偏斜程度就越低。
“峰态”是对数据分布平峰或尖峰程度的测度。测度峰态的统计量则是峰态系数,记作K。在根据未分组数据计算峰态系数时,通常采用下式:
K=n(n+1)∑(x i−x̅)1−3[∑(x i−x̅)2]2 (n−1)(n−2)(n−3)s1
用峰态系数说明分布的尖峰和扁平程度,是通过与标准正态分布的峰态系数进行比较而言的。由于正态分布的峰态系数为0,当K>0时为尖峰分布,数据的分布更集中;当K<0时为扁平分布,数据的分布越分散。