第三章 探索性空间数据分析与可视化 B 2012
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 动态联系窗口(linking window)通过刷新技术将地 理空间和属性空间的各种视图组合在一起,是一种 交互式探索空间数据的选择、聚集、趋势、分类、 异常识别的工具。 • 这种动态交互技术的特点是: ①在一种信息窗口中点击或选择,其他的信息窗口产 生相应的响应,并以高亮度显示选中的信息,便于 对比观察。 ②ESDA将多种可视化的数据分析工具和地图分析结合 在一起,并提供了丰富的交互工具,不仅可以进行 选择的操作,而且能够进行改变数据参数等模式的 探索。
• 分位数(quantile)是一种利用数据的位序描 述数据特征的统计量。设p是介于0到1之间 的一个数值,有0≤p<1,有n个位序统计量, 则p分位数定义为
式中,[np]表示n*p的整数部分,于是x的下标是数据 位序上的位置,x(np)表示该位序位置上的数值。
• 最常用的分位数是p=0.75和p=0.25,记为 Q3,Q1,其含义是小于Q3和Q1的数据的个 数分别占数据总数的75%和25%,因此它 们又分别称为上、下四分位数。
3.4.1 地理空间和数据空间
• 地理空间(geographic space)就是由空间参考 数据构成的坐标空间,它使用地理坐标定义 地理事物和现象,也就是地图形式的地理表 示。 • 数据空间(data space)是地理实体属性所构成 的空间,其中每一个点代表地理事物在数据 空间中的位置。
3.4.2 交互分析—动态联系窗口和刷 新技术
直方图区间宽度选择
• 茎叶图中的行数选择实际上提供了区间选择的计算方法。 以下式为例,设数据的极差为H,区间宽度为h,则
• Scott(1979)和Freedman等从理论上推出了以下两个结果: • Scott推导的公式为 • Freedman推导的公式为
3.2.3 散点图矩阵
• 散点图的方法给出了两个变量之间关系的初步 描述,但是在很多的研究中需要分析多变量之 间的关系,散点图矩阵则能够提供有效的可视 化表示。 • 散点图矩阵相当于在由m个变量构成的矩阵中, 用相应的两个变量之间的散点图替代矩阵中的 元素构成的图形。 • 散点图矩阵的不足: 当所研究的问题中变量数足够多时,散点图 矩阵表示的细节信息可能不够充分。 散点图矩阵只能表示成对变量之间的关系。
• 平行坐标图重要的作用在于: ①可用于突出显示异常数据; ②根据某一变量选择数据子集; ③与其他可视化技术结合探索数据中的模式。
3.3 ESDA与空间数据可视化
• 地学可视化被定义为使用地理空间视觉显 示探索空间数据,并通过这种探索回答问 题,产生假设,提出问题解决方案,构建 领域知识等。
3.3.1 空间数据的地图化表示 ——主题地图
图3.3 某企业产品在各个销售区域上多年销售 的箱线图
• 表3.1 浦东新区唐镇2000年人口数据
• 根据下面的图3.4,可以看出总人口在各个 居委会中的分布基本属于正常的范围,而 人口密度的分布有极端值出现,大部分区 域的人口密度为1000~3 000人/km2,而王 港居委会的人口密度达到了6 000余人/km2。
• 确定数据分类数量的基本技术是Sturges规则: 分类的数量x介于2的n次方与2的n+1次方。 • 自然分割的分类方法。基本思想是最小化数据 集内部的变异、最大化类型间的变异。通常用 图形方法确定分割,即数字线、直方图、频率 曲线,GeogreJenks建立了“最优分类方法”作 为计算方法确定其理想的分割。 • 在利用GIS进行主题制图分析中,必须知道系统 所提供的分类方法以及这些方法的限制。
• ②图形EDA技术,即可视化的探索性数据分 析。 两种类型的EDA本质上是一致的,其目的都 是为了揭示数据中的模式、趋势、关系等。
常用的图形方法有: • 直方图(histogram) • 茎叶图(stem-leaf) • 箱线图(box-whisker plot) • 散点图(scatter plot) • 散点图矩阵(scatter plot matrix) • 平行坐标图(parallel coordinate plot) • 雷达图(radar plot)等。
3.2 EDA与可视化的基本方法
主要有两类方法: • ①计算EDA,包括从简单的统计计算到高级的探索 分析多变量数据集中模式的多元统计分析方法。 • 其中基本统计方法主要研究变量的分布,例如,集 中性统计量(包括均值—中位数等);分散性的统计 量(包括方差—分位数等);识别偏斜或非正态分布 (如双峰模式);识别异常数据,计算相关系数、相 关矩阵等; • 多变量探索技术(主要用于识别多变量数据集中的模 式,包括聚类分析、因子分析、判别分析、多维标 度、对数线性分析、典型相关、逐步回归和非线性 回归、对应分析、分类树、时间序列、广义加法模 型、广义分类树和回归树等)。
异常数据和极端数据
• 异常数据(outlier)是产生均值不稳健的原因,判别一个数据列中 的数据是否为异常值,需要一个标准,探索性数据分析技术给 出了一种简单的判别方法。 记A1、A3分别为异常数据的下、上截断点,则 A1=Q1-1.5H, A3=Q3+1.5H (3.11) 即非异常数据的分布区间为 (Al,A3)=(Q1-1.5H,Q3+1.5H) 数据列中的数据如果大于上截断点或小于下截断点都是异常数 据。 异常数据的分布区间分别为 (Xmin,Q1-1.5H), (Xmax,Q3+1.5H) 在异常数据中还可进一步地分离出极端数据(extreme data),分 布区间为 (Xmin,Q1-3H), (Xmax,Q3+3H)
• 由于茎叶图使用的是数据值本身,而不是 直方图那样的面积,因此茎叶图能够更为 细致地表现出数据分布的结构。
茎叶图的行数选择
• 合理地选择茎叶图的行数涉及数据的个数、范围以及经验 判断。 • Hoaglin等根据数据的个数n确定行数的方法主要有3个,公 式分别为
式中,L表示行数;[]表示取整数。 • Hoaglin等认为:样本数n小于100时用式(中式);n大于 100时使用式(上式)比较合理;式(下式)在样本数不 超过30或40时,可以使用。
第3章 探索性空间数据分析与可视化
3.1 关于EDA、ESDA与可视化 3.2 EDA与可视化的基本方法 3.3 ESDA与空间数据可视化 3.4 交互技术与ESDA
• 伴随着计算机技术的发展,适用于海量数 据环境的数据挖掘、空间数据挖掘方法正 在得到大力发展,其中探索性数据分析技 术(exploring data analysis,EDA)和数据可视 化技术(data visualization)是最基本的数据分 析方法。
3.4 交互技术与ESDA
• 交互性的分析技术主要有: 1)地图与其他图形显示方式之间通过刷新(brushing) 技术建立动态联系。 2)利用实时控制工具改变常规的制图方法的参数, 获得新状态下的分布特征等。 • 交互技术的重要特征是建立了地理空间和数据空间 的联系,或者将EDA方法紧密地融合于ESDA中。这 样就可以从空间特征到属性特征对地理现象进行全 面的研究和分析。
3.2.4 平行坐标图
• 平行坐标系中所有的变量轴都是平行的。 • 平行坐标图提供的是一种在2维平面上表示高维空 间中变量之间关系的技术。 • 在平行坐标图中每一条线可以设想为给定的一个观 测实例的“廓线”。 • 在实践中,对于连续变量需要首先进行标准化,然 后用标准化的数值画平行坐标图。
• 平行坐标系的优点是可以在2维空间上考察分析m维变 量的相关性,但是为了表示m维数据,所有的变量都以 折线的形式画在平行坐标图上,然而对于非常大的数据 集,平行坐标图容易引起视觉上的混淆。
图3.4 总人口和人口密度的箱线图
• 需要指出的是:如果在箱线图中选择均值 作为中间点,则分散性的范围可根据标准 差,或标准误差,或数据的最小-最大值来 确定。
3.2.2 茎叶图和直方图
• 茎Baidu Nhomakorabea图(stem-leaf)和直方图(histogram) 都是表示数据分布的图形,在揭示数据分 布特征方面有着许多共同点:数据分布的 对称性、集中性、分散性,以及异常数的 存在性等。
• 饼状图和柱状图是为了在地图上表示多变 量的分布特征及其空间差异性而设计的表 示方式,其中前者适合于表示结构关系, 后者着重于表示数量差异。
• 当变量个数多时,这种表示方式可能会超 出人的视觉判断能力,反而不利于信息的 表示。
3.3.2 主题地图表示的数据分类问题
• GIS软件都提供了相关的数据分类方法,主要有:等间 隔、等范围、自然分割法、分位数分类、自定义等。 • 当设计数据分类时,必须注意的因素是: ①包括所有范围的数据(最小和最大)。 ②使用不重叠的值和不空的类。 ③分类数量足够大以避免牺牲数据的精确性,但是这种 精确性不能超过采集数据所保证的精度。 ④划分数据集到合理的等价的观测组中。 ⑤如果可能给定一个逻辑数学关系。
ESDA的要求
• ESDA需要熟知空间数据的特殊性及数据分析的 探索性方法。探索性方法包括数据可视化并导 出为表格、图形、地图及其他显示形式。 • ESDA和数据挖掘一样是交互的、迭代的搜索过 程,其中数据中的模式和关系被用于精炼并搜 索更多的兴趣模式和关系。 • 在非常庞大的数据集中,ESDA等价于空间数据 挖掘,其基本的思想是极力使用数据来表示其 本身,以识别兴趣模式并帮助产生有关的假设。
箱线图
• 箱线图与描述统计中的五数 密切相关: • 最小值、下四分位数、中位 数、上四分位数、最大值 • 这些数值给出集中性、分散 性、极端数据的分布情况。
• 中位数(media,简写为M)是从小到大排列 的数据列中位于中间位置的数,用公式表 示为
• 极差(range,简写为R):与中位数对应的描 述分散性的统计量。
3.1 关于EDA、ESDA与可视化
• 19世纪60年代Tukey面向数据分析的主题, 提出了探索性数据分析的新思路。
• EDA技术的特点是对数据来源的总体不作假设, 并且假设检验也经常被排除在外。这一技术使 用统计图表、图形和统计概括方法对数据的特 征进行分析和描述。EDA技术的核心首先是 “让数据说话”,在探索的基础上再对数据进 行更为复杂的建模分析。因此可将EDA作为数 据分析的初级阶段。 • ESDA技术是EDA思想在空间数据分析领域的推 广。ESDA着重于概括空间数据的性质,探索空 间数据中的模式,产生和地理数据相关的假设, 并在地图上识别异常数据的分布位置,以发现 是否存在热点区域(hot spot)等。
图3.2中位数、分位数、异常值、极端值的分布
• 图中,矩形表示上下四分位数之间的数据 分布,中间的横线为中位数的位置,有时 中位数的位置用小的方形符号“口”来表 示,从矩形的两端各画一条直线到非异常 值的最大和最小数值点,这条线称为须线 (whisker),在这一点各画一条和须线垂 直的短画线表示非异常的最大和最小值的 位置。在最大、最小值之外的异常值用“o” 表示,极端值则用星号“*”表示。
①名义变量适合于用独立值表示,它只表示同类 地理对象的类型的区分。例如国家政区划分、 土地利用、气候类型区等通常这种方式表示。 ②序数变量可以使用等级符号和分层设色图表示。 但需要注意的是符号和颜色的选择需要体现序 数变量表示的等级概念的本质。 ③间隔变量和比率变量体现数据的连续变化,一 般使用等级符号、范围图等表示,但是点密度 图只适合于比率变量的表示。
• 均值x和中位数M都是描述数据集中性的统计量,但 是前者使用的是数据序列的全部信息,后者只用了少 量数据的信息,因此在没有异常数据的情况下,均值 比中位数更好地反映了数据的集中性,但这同时也是 后者比前者稳健的原因。
• 综合考虑代表性和稳健性两方面因素,探索性数据分 析方法中提出了利用中位数和上、下四分位数3个特 征量构造的一个“均值”,称之为三均值M,定义 为
• 分位数(quantile)是一种利用数据的位序描 述数据特征的统计量。设p是介于0到1之间 的一个数值,有0≤p<1,有n个位序统计量, 则p分位数定义为
式中,[np]表示n*p的整数部分,于是x的下标是数据 位序上的位置,x(np)表示该位序位置上的数值。
• 最常用的分位数是p=0.75和p=0.25,记为 Q3,Q1,其含义是小于Q3和Q1的数据的个 数分别占数据总数的75%和25%,因此它 们又分别称为上、下四分位数。
3.4.1 地理空间和数据空间
• 地理空间(geographic space)就是由空间参考 数据构成的坐标空间,它使用地理坐标定义 地理事物和现象,也就是地图形式的地理表 示。 • 数据空间(data space)是地理实体属性所构成 的空间,其中每一个点代表地理事物在数据 空间中的位置。
3.4.2 交互分析—动态联系窗口和刷 新技术
直方图区间宽度选择
• 茎叶图中的行数选择实际上提供了区间选择的计算方法。 以下式为例,设数据的极差为H,区间宽度为h,则
• Scott(1979)和Freedman等从理论上推出了以下两个结果: • Scott推导的公式为 • Freedman推导的公式为
3.2.3 散点图矩阵
• 散点图的方法给出了两个变量之间关系的初步 描述,但是在很多的研究中需要分析多变量之 间的关系,散点图矩阵则能够提供有效的可视 化表示。 • 散点图矩阵相当于在由m个变量构成的矩阵中, 用相应的两个变量之间的散点图替代矩阵中的 元素构成的图形。 • 散点图矩阵的不足: 当所研究的问题中变量数足够多时,散点图 矩阵表示的细节信息可能不够充分。 散点图矩阵只能表示成对变量之间的关系。
• 平行坐标图重要的作用在于: ①可用于突出显示异常数据; ②根据某一变量选择数据子集; ③与其他可视化技术结合探索数据中的模式。
3.3 ESDA与空间数据可视化
• 地学可视化被定义为使用地理空间视觉显 示探索空间数据,并通过这种探索回答问 题,产生假设,提出问题解决方案,构建 领域知识等。
3.3.1 空间数据的地图化表示 ——主题地图
图3.3 某企业产品在各个销售区域上多年销售 的箱线图
• 表3.1 浦东新区唐镇2000年人口数据
• 根据下面的图3.4,可以看出总人口在各个 居委会中的分布基本属于正常的范围,而 人口密度的分布有极端值出现,大部分区 域的人口密度为1000~3 000人/km2,而王 港居委会的人口密度达到了6 000余人/km2。
• 确定数据分类数量的基本技术是Sturges规则: 分类的数量x介于2的n次方与2的n+1次方。 • 自然分割的分类方法。基本思想是最小化数据 集内部的变异、最大化类型间的变异。通常用 图形方法确定分割,即数字线、直方图、频率 曲线,GeogreJenks建立了“最优分类方法”作 为计算方法确定其理想的分割。 • 在利用GIS进行主题制图分析中,必须知道系统 所提供的分类方法以及这些方法的限制。
• ②图形EDA技术,即可视化的探索性数据分 析。 两种类型的EDA本质上是一致的,其目的都 是为了揭示数据中的模式、趋势、关系等。
常用的图形方法有: • 直方图(histogram) • 茎叶图(stem-leaf) • 箱线图(box-whisker plot) • 散点图(scatter plot) • 散点图矩阵(scatter plot matrix) • 平行坐标图(parallel coordinate plot) • 雷达图(radar plot)等。
3.2 EDA与可视化的基本方法
主要有两类方法: • ①计算EDA,包括从简单的统计计算到高级的探索 分析多变量数据集中模式的多元统计分析方法。 • 其中基本统计方法主要研究变量的分布,例如,集 中性统计量(包括均值—中位数等);分散性的统计 量(包括方差—分位数等);识别偏斜或非正态分布 (如双峰模式);识别异常数据,计算相关系数、相 关矩阵等; • 多变量探索技术(主要用于识别多变量数据集中的模 式,包括聚类分析、因子分析、判别分析、多维标 度、对数线性分析、典型相关、逐步回归和非线性 回归、对应分析、分类树、时间序列、广义加法模 型、广义分类树和回归树等)。
异常数据和极端数据
• 异常数据(outlier)是产生均值不稳健的原因,判别一个数据列中 的数据是否为异常值,需要一个标准,探索性数据分析技术给 出了一种简单的判别方法。 记A1、A3分别为异常数据的下、上截断点,则 A1=Q1-1.5H, A3=Q3+1.5H (3.11) 即非异常数据的分布区间为 (Al,A3)=(Q1-1.5H,Q3+1.5H) 数据列中的数据如果大于上截断点或小于下截断点都是异常数 据。 异常数据的分布区间分别为 (Xmin,Q1-1.5H), (Xmax,Q3+1.5H) 在异常数据中还可进一步地分离出极端数据(extreme data),分 布区间为 (Xmin,Q1-3H), (Xmax,Q3+3H)
• 由于茎叶图使用的是数据值本身,而不是 直方图那样的面积,因此茎叶图能够更为 细致地表现出数据分布的结构。
茎叶图的行数选择
• 合理地选择茎叶图的行数涉及数据的个数、范围以及经验 判断。 • Hoaglin等根据数据的个数n确定行数的方法主要有3个,公 式分别为
式中,L表示行数;[]表示取整数。 • Hoaglin等认为:样本数n小于100时用式(中式);n大于 100时使用式(上式)比较合理;式(下式)在样本数不 超过30或40时,可以使用。
第3章 探索性空间数据分析与可视化
3.1 关于EDA、ESDA与可视化 3.2 EDA与可视化的基本方法 3.3 ESDA与空间数据可视化 3.4 交互技术与ESDA
• 伴随着计算机技术的发展,适用于海量数 据环境的数据挖掘、空间数据挖掘方法正 在得到大力发展,其中探索性数据分析技 术(exploring data analysis,EDA)和数据可视 化技术(data visualization)是最基本的数据分 析方法。
3.4 交互技术与ESDA
• 交互性的分析技术主要有: 1)地图与其他图形显示方式之间通过刷新(brushing) 技术建立动态联系。 2)利用实时控制工具改变常规的制图方法的参数, 获得新状态下的分布特征等。 • 交互技术的重要特征是建立了地理空间和数据空间 的联系,或者将EDA方法紧密地融合于ESDA中。这 样就可以从空间特征到属性特征对地理现象进行全 面的研究和分析。
3.2.4 平行坐标图
• 平行坐标系中所有的变量轴都是平行的。 • 平行坐标图提供的是一种在2维平面上表示高维空 间中变量之间关系的技术。 • 在平行坐标图中每一条线可以设想为给定的一个观 测实例的“廓线”。 • 在实践中,对于连续变量需要首先进行标准化,然 后用标准化的数值画平行坐标图。
• 平行坐标系的优点是可以在2维空间上考察分析m维变 量的相关性,但是为了表示m维数据,所有的变量都以 折线的形式画在平行坐标图上,然而对于非常大的数据 集,平行坐标图容易引起视觉上的混淆。
图3.4 总人口和人口密度的箱线图
• 需要指出的是:如果在箱线图中选择均值 作为中间点,则分散性的范围可根据标准 差,或标准误差,或数据的最小-最大值来 确定。
3.2.2 茎叶图和直方图
• 茎Baidu Nhomakorabea图(stem-leaf)和直方图(histogram) 都是表示数据分布的图形,在揭示数据分 布特征方面有着许多共同点:数据分布的 对称性、集中性、分散性,以及异常数的 存在性等。
• 饼状图和柱状图是为了在地图上表示多变 量的分布特征及其空间差异性而设计的表 示方式,其中前者适合于表示结构关系, 后者着重于表示数量差异。
• 当变量个数多时,这种表示方式可能会超 出人的视觉判断能力,反而不利于信息的 表示。
3.3.2 主题地图表示的数据分类问题
• GIS软件都提供了相关的数据分类方法,主要有:等间 隔、等范围、自然分割法、分位数分类、自定义等。 • 当设计数据分类时,必须注意的因素是: ①包括所有范围的数据(最小和最大)。 ②使用不重叠的值和不空的类。 ③分类数量足够大以避免牺牲数据的精确性,但是这种 精确性不能超过采集数据所保证的精度。 ④划分数据集到合理的等价的观测组中。 ⑤如果可能给定一个逻辑数学关系。
ESDA的要求
• ESDA需要熟知空间数据的特殊性及数据分析的 探索性方法。探索性方法包括数据可视化并导 出为表格、图形、地图及其他显示形式。 • ESDA和数据挖掘一样是交互的、迭代的搜索过 程,其中数据中的模式和关系被用于精炼并搜 索更多的兴趣模式和关系。 • 在非常庞大的数据集中,ESDA等价于空间数据 挖掘,其基本的思想是极力使用数据来表示其 本身,以识别兴趣模式并帮助产生有关的假设。
箱线图
• 箱线图与描述统计中的五数 密切相关: • 最小值、下四分位数、中位 数、上四分位数、最大值 • 这些数值给出集中性、分散 性、极端数据的分布情况。
• 中位数(media,简写为M)是从小到大排列 的数据列中位于中间位置的数,用公式表 示为
• 极差(range,简写为R):与中位数对应的描 述分散性的统计量。
3.1 关于EDA、ESDA与可视化
• 19世纪60年代Tukey面向数据分析的主题, 提出了探索性数据分析的新思路。
• EDA技术的特点是对数据来源的总体不作假设, 并且假设检验也经常被排除在外。这一技术使 用统计图表、图形和统计概括方法对数据的特 征进行分析和描述。EDA技术的核心首先是 “让数据说话”,在探索的基础上再对数据进 行更为复杂的建模分析。因此可将EDA作为数 据分析的初级阶段。 • ESDA技术是EDA思想在空间数据分析领域的推 广。ESDA着重于概括空间数据的性质,探索空 间数据中的模式,产生和地理数据相关的假设, 并在地图上识别异常数据的分布位置,以发现 是否存在热点区域(hot spot)等。
图3.2中位数、分位数、异常值、极端值的分布
• 图中,矩形表示上下四分位数之间的数据 分布,中间的横线为中位数的位置,有时 中位数的位置用小的方形符号“口”来表 示,从矩形的两端各画一条直线到非异常 值的最大和最小数值点,这条线称为须线 (whisker),在这一点各画一条和须线垂 直的短画线表示非异常的最大和最小值的 位置。在最大、最小值之外的异常值用“o” 表示,极端值则用星号“*”表示。
①名义变量适合于用独立值表示,它只表示同类 地理对象的类型的区分。例如国家政区划分、 土地利用、气候类型区等通常这种方式表示。 ②序数变量可以使用等级符号和分层设色图表示。 但需要注意的是符号和颜色的选择需要体现序 数变量表示的等级概念的本质。 ③间隔变量和比率变量体现数据的连续变化,一 般使用等级符号、范围图等表示,但是点密度 图只适合于比率变量的表示。
• 均值x和中位数M都是描述数据集中性的统计量,但 是前者使用的是数据序列的全部信息,后者只用了少 量数据的信息,因此在没有异常数据的情况下,均值 比中位数更好地反映了数据的集中性,但这同时也是 后者比前者稳健的原因。
• 综合考虑代表性和稳健性两方面因素,探索性数据分 析方法中提出了利用中位数和上、下四分位数3个特 征量构造的一个“均值”,称之为三均值M,定义 为