数据查询与分类
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
任意区间和等区间分类带有明显的主观 色彩,其应用范围有很大的局限性。
频率统计分类是对离散数据进行的,主 要观察其频率分布的特征从而决定类别; 连续分布数据分类是对连续性数据进行 的,需要计算其期望值及偏差。
如果分类涉及多个变量,那么需要考虑 这些变量的分布特征及相互关系,一般 采用主成分分析法和聚群分析法将它们 进行归类。
平均数
平均数反映了数据取值的集中位置,常以表示。
对于数据通常有简单算术平均数和加权算术平 均数。
简单算术平均数的计算公式为
1 n
X
n
xi
i 1
(6-1)
加权算术平均数的计算公式为
n
(Pi xi )
X i1 n Pi
i 1
(6-2)
式中Pi——数据 xi的权值。
利用ArcGIS进行学校选址
重分类 重分类即基于原有数值,对原有数值重
新进行分类整理从而得到一组新值并输 出。根据用户不同的需要,重分类一般 包括四种分类形式:用一组新值取代原 来值、将原值重新组合分类、以一种分 类
新值取代原来值
事物总是处于不断发展变化中的,地理 现象更是如此,所以为了反映事物的实 时真实属性,需要不断地去用新值代替 旧值。例如,气象信息的实时更新,土 地利用类型的变更等。
– 对数据集重新建立空间索引,以便于进行快 速查询。
– SuperMap会智能的提醒您何时要重建空间 索引
创建字段索引
为提高检索效率,适用于经常用 于查询的字段。
创建三级索引
三级索引是支持超大数据的空间索引,数据集 记录数越多,三级索引优势越明显,如果与本 地缓存同时使用效果会更好。目前只支持数据 库类型数据,且在数据并发编辑方面不如动态 索引,建议不经常编辑,超过10万条记录的数 据库数据采用三级索引。
可视化空间查询
可视化查询是指将查询语言的元素,特 别是空间关系,用直观的图形或符号表 示。可视化查询主要使用图形、图像、 图标、符号来表达概念,具有简单、直 观、易于使用的特点。例如某些空间操 作可用图6-1所示的图符表示。
可视化空间查询的主要优点是:自然、 直观、易操作,用不同的图符可以组成 比较复杂的查询。但也存在一些缺点, 如:当空间约束条件复杂时,很难用图 符描述;用二维图符表示图形之间的关 系时,可能会出现歧义;难以表示“非” 关系;不易进行范围(圆、矩形、多边 形等)约束;无法进行屏幕定位查询等。
SELECI SOIL.MAP
FROM SOIL, PARCELS
WHERE VALUATION>60000 AND OVERLAY (SOILS, PARCELS) 通过对标准SQL的扩展来实现空间数据查询的主要优点是:由于
是在标准SQL基础上进行扩展的,因而保留了SQL的风格,便于 熟悉SQL的用户掌握,通用性较好,易于与关系数据库连接。 但Egenhofer(1992)在分析了扩展SQL作为空间数据查询语言的 特点和局限后,根据空间数据库的特点以及空间数据表示的要求, 在关系型SQL上发展了一套空间结构化查询语言(Spatial SQL), 不 仅能完成空间数据的查询,而且能表达查询结果。
(4) 显示窗口(the window to be shown)。确定屏幕上显示窗口的尺寸。 (5) 相关的空间要素(the spatial context)。显示相关的空间数据,使查询
结果更容易理解。 (6) 查询内容的检查(the examination of the content)。检查多次查询后的结
超文本查询
超文本查询把图形、图像、字符等皆当 作文本,并设置一些“热点”,它可以 是文本、键等。用鼠标点击“热点”后, 可以弹出说明信息、播放声音、完成某 项工作等。但超文本查询只能预先设置 好,用户不能实时构建自己要求的各种 查询。
自然语言空间查询
在空间查询中引入自然语言可以使查询更轻松 自如。在GIS中,很多地理方面的概念是模糊 的,例如地理区域的划分实际上并没有像境界 一样有明确的界线。而空间数据查询语言中使 用的概念往往都是精确的。
数学期望
以概率为权值的加权平均数称为数学期 望,用于反映数据分布的集中趋势
众数
众数是指最有可能出现的数值。如果数 据是离散的,则称数据中出现最大可能 性的值为众数;如果数据是连续的,则 分布的概率取最大值时的数为众数。显 然,众数可能不是惟一的。
统计数据的分类分级
为了把GIS地理数据中的统计数据用专题 地图的形式表示出来,通常需要对统计 数据进行分类和分级。分类Байду номын сангаас分级的方 法很多,通常有两种在统计数据处理中 经常用到的算法。
系统聚类法 最优分割分级法
从统计学的角度看,非空间数据依据其 本身的特征可分为四类:
命名数据:这种数据涉及对象或事件的 概念及种类的划分,是按事物描述性的 本质属性进行命名,以区别于其他事物 的一种分类,如道路,河流等。城市信 息系统中空间实体的分类与编码就是这 样的数据类型。
排序数据:对实体按其某种属性进行排序,如 道路可分为一级道路、二级道路、三级道路; 工业用地可分为一类、二类、三类等。
空间数据的统计分析
统计方法是指对数据的收集、显示、分 析的方法。GIS中空间数据的统计分析是 指对GIS地理数据库中的专题数据进行统 计分析。这里只介绍基本统计量的计算 和常用统计数据的分类分级算法。
属性数据的集中特征数
频数和频率 将变量按大小顺序排列,并按一定的间
距分组。变量在各组出现或发生的次数 称为频数,一般用表示。各组频数与总 频数之比叫做频率。如果用纵轴表示频 率,横轴表示分组,就可作出频率直方 图,用来表示事件发生的频率和分布状 况。
扩展关系数据库的查询语言 (SQL)
由于关系数据库具有严谨的数学基础和简洁的概念,在一般的事 务性数据库中占有绝对的统治地位。在关系数据库中,几乎所有 的功能都由查询语言(SQL)实现,关系数据库的查询语言 (SQL)作为一种工业标准被广泛使用。
SQL语句通常是由关系运算组合而成的,非常适合于关系表的查 询与操作,但并不支持空间运算。由于标准的SQL不支持空间概 念,因此,不能进行空间数据的查询。
为了在空间查询中使用自然语言,必须将自然 语言中的模糊概念量化为确定的数据值或数据 范围。例如查询高气温的城市时,引入自然语 言时可表示为:
SELECT name FROM cities WHERE temperature is high 如果通过统计分析和计算,以及用模糊数学的
方法处理,认为当城市气温大于或等于35.5℃ 时是高气温,则对上述用自然语言描述的查询 操作转换为: SELECT name FROM cities WHERE temperature≥35.5
在对自然语言中的模糊概念量化时,必 须考虑当时的语义环境。例如,对于不 同的地区,城市为“高”气温时的温度 是不同的。因此,引入自然语言的空间 数据查询只能适用于某个专业领域的地 理信息系统,而不能作为地理信息系统 中的通用数据库查询语言。
查询结果的显示
GIS中的空间数据查询功能不能只是简单的数据查询, 即不能只给出查询到的数据,而应以最有效的方式将 空间数据显示给用户。例如对于查询到的地理现象的 属性数据,即可以用表格的形式显示,又可以用统计 图表的形式显示。以何种形式显示,完全根据用户的 要求来确定。
空间数据的最佳表示方式是地图,因而空间数据查询 的结果最好以专题地图的形式表示出来。但目前把查 询的结果制作成专题地图还需要一个比较复杂的过程。 为了方便查询结果的显示,可以在基于扩展SQL的查 询语言中增加图形表示语言,作为对查询结果的显示 表示。具有6种显示环境的参数可选定。
(1) 显示方式(the display mode)。 有5种显示方式用于多次查询结果的 运算:刷新、覆盖、清除、相交和强调。
(2) 图形表示(the graphical presentation)。用于选定符号、图案、色彩 等。
(3) 绘图比例尺(the scale of the drawing)。确定地图显示的比例尺(内 容和符号不随比例尺变化)。
空间数据查询与分类
主讲:冯贺珍 佘梦媛
空间数据查询的含义
数据查询是GIS的一个重要功能,一般定义为:作用在GIS数据上 的函数,它返回满足条件的内容。查询是用户与系统交流的途径, 是GIS用户最经常使用的功能,GIS用户提出许多问题都可以通过 查询的方式解决,查询方法和范围在很大程度上决定了GIS的应 用程度和应用水平。
目前,GIS中的空间查询大致可分为三类:针对空间关系的查询 (查询一条公路途经的所有城镇)、针对非空间属性的查询(查 询一个城市的人口数量)及结合空间关系和非空间属性的查询 (查询距某条河流≥500 m、种植玉米且面积大于53 km的土地利 用单元)。
GIS的空间查询主要有四种方式:扩展关系数据库的查询语言 (SQL)、可视化空间查询、超文本查询和自然语言空间查询。
数据分类方法
数据分类方法有外生分类、任意区间分类、等 区间分类、频率统计分类、连续分布数据分类 等。
外生分类是指按数据的表现特征(不是现象的 真是特征)分类,或者用可视界线代替那些不 可视特征的类别界线。如将某年代之前建筑的 房屋列入需改造或拆除的房屋类别中,又如根 据植被的种类来划分土壤类别。
类数据的要求(交通,规划,国土等)。 数据挖掘:随着GIS产业化的深入发展,越来越多的数据资料被
不同数据生产部门数字化,因此需要根据用户需求进行选择, 提取,加工和处理,以变成有效的信息和知识过程。 数据质量:数据质量是指数据适用于不同应用能力的数据。
空间数据的基本特征
空间数据描述:现实世界各种现象的 三大基本特征:空间、时间和专题 属性。
目前的空间数据查询语言是通过对标准SQL的扩展来形成的,即 在数据库查询语言上加入空间关系查询。为此需要增加空间数据 类型(如点、线、面等)和空间操作算子(如求长度、面积、叠 加等)。在给定查询条件时也需含有空间概念,如距离、邻近、 叠加等。
例如,“显示与价值超过60000的地块相交的土壤图”,可表示为:
GIS数据种类
1、基础制图数据 基础制图数据包括地形数据和人文景观数据。
1)图像结构(栅格)DOM,DRG 2)拓扑图形结构(矢量)DLG 2、自然资源数据 3、调查统计数据 4、数字高程(地面)模型数据(DEM,DTM) 获取和存贮高程数据的方法有4种基本方法:规 则格网法、离散等高线法、断面量测法和不规 则三角网法。 5、法律文档数据 6、已有系统数据
重新组合分类原值
经常在数据操作中需要将一些具有某种 共性的事物合并为一类,这时就可以用 重分类功能来进行重新组合分类。例如 可以将商场、超市、餐馆等同归并未服 务场所,也可将麦地、水稻、菜地等同 归并为耕地。
果。
通过选择这些环境参数,可以把查询结果以用户选择的不同的形式显示 出来,但离把查询结果以丰富多彩的专题地图显示出来的目标还相差很 远。
查询实例
重新计算范围和重建空间索引
重新计算范围
– 当删除了数据集中的对象时,整个数据集的 范围会发生变化,所以需要重新计算数据集 的范围;
重建空间索引
数值数据:是用仪器观测得到的数量上的信息, 如道路宽度值可能为60m、40m等。
比例数据:是指个体占总体的比例值,常见的 比例如30%、1/4、22%。等。
由于分类贯穿于整个GIS分析的各个环节, 前面的分类对后续的结果有决定的影响。 这说明分类时必须认真考虑数据的内涵 及分析工作的目的与要求。同时,分类 的方法的恰当与否也会影响分类的质量。
按照范围方式创建三级索引的基本原理是通过 划分范围的方法来提高索引效率。每个基本单 元划分范围宽度和高度的大小默认采用数据集 范围长宽各三十分之一。
重新计算范围
世界地图
删除除中国外的所有国 家
数据分类
GIS的数据 众所周知:GIS的一个重要组成部分就是数据。 数据类型:在开发一个特定的GIS时,要根据应用需求确定对各