空间数据库重点

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

●1、数据库基本概念
什么是数据库?
数据库的英文是DATA BASE,其意义为数据基地,即统一存贮和集中管理数据的基地。

(1)存储在计算机环境中的相互关连的数据集
(2)在这样的环境中,数据是永久的,也就是说它可以幸免于软件和硬件的问题(除非是磁盘崩溃)。

(3)大数据卷和持久性是数据库最大的两个特点。

数据库系统的构成
数据库是存贮在计算机内的有结构的数据集合;
数据库管理系统是一个软件,用以维护数据库、接受并完成用户对数据库的一切操作;
数据库系统指由硬件设备、软件系统(操作系统、数据库管理系统、应用软件)、专业领域的数据体和管理人员构成的一个运行系统。

数据库中的数据模型
主要的数据模型:层次,网状,关系,面向对象的数据模型,约束数据模型
空间数据库:指以特定的信息结构(如国土、规划、环境、交通等)和数据模型(如关系模型、面向对象模型等)表达、存储和管理从地理空间中获取的某类空间信息,以满足不同用户对空间信息需求的数据库。

●2、数据库查询索引
关系数据库的八个查询运算符
SELECT:这个运算符用来查询表中的行。

它可以列出所有的行或只有那些符合选择条件的行。

PROJECT:这个运算符用来查询表中的列。

它可以生成一个表的子集,并删除其中重复的值。

JOIN:这个运算符可以利用两表中特定列之间的关系将一个表中的一行与另一个表中的行实现横向连接(即串连)。

PRODUCT(积):两表的积,也被称为笛卡尔积,是由一个表中的每一行与另一个表中的每一行串联而得到。

UNION(并):这个运算符可以把两个表合成一个新表,而这个表中具有两个表中所有的数据。

要对表使用并运算,则这些表的列数和数据类型之间必须互相兼容。

在并运算中,重复的行将会被删除。

INTERSECT(交):这个运算符将生成一个包含了两个表中共有行的新表。

对表使用交运算,则这些表列数和数据类型之间必须可以互相兼容。

DIFFERENCE(差):这个运算符生成一个表,该表由第一个表中出现而第二个表未出现的所有有行构成。

要对表使用差运算,则这些表在列数和数据类型上必须互相兼容。

正如四则运算一样,差的顺序非常重要。

因此,如下图所示,表R -表S与表S - 表R的结果是不一样的。

DIVIDE(除):这运算符需要一个二元(即两列)表和一个一元(即一列)表产生一个新表,该表由二元表中与一元表中匹配的列值组成。

空间查询:
空间查询比常规数据库查询更加复杂,因为他们涉及的是二维或者三维数据,且查询结果以图形表示。

在空间数据库内容中,空间查询是利用一个或多个操作算子构成的,包括表达空间关系的谓词。

主要的空间查询包括点查询、区域查询和最邻近查询三种空间选取查询以及空间连接的方法。

点查询:给定一个查询点P,找出所有包含它的空间对象O。

区域查询:给定一个查询多边形P,找出所有与之相交的空间对象O。

空间连接:两个表R和S基于一个空间谓语θ进行连接时,该连接成为空间连接。

最近邻查询:空间聚集,即给定一个对象O,找出所有距离O最近的对象P。

空间查询处理:过滤筛选步骤(对象近似技术)和细化求精(相关技术)步骤;基本思想是首先用一个不精确的大致范围来进行查询,产生一个满足条件的较小的候选集合,然后对候选集合中的对象进行精确地筛选,产生最终的查询结果。

空间索引:就是指依据空间对象的位置、形状或空间对象之间的某种空间关系按一定的顺序排列的一种数据结构,其中包含空间对象的概要信息,如对象的标识、外接矩形及指向空间对象实体的指针。

空间索引的基本概念是近似的使用,即借以空间访问过程逐渐地缩小它的查询范围直至要求的数据库对象被找到。

换句话,空间数据索引的基本概念是将空间划分为一些可管理的子空间,子空间进一步被划分为更小的子空间的过程。

传统数据库索引技术有B树、B+树、二叉树、ISAM索引、哈希索引等。

空间索引方法:
格网索引:是将研究区域用横竖线条划分大小相等或不等的格网,记录每一个格网所包含的空间实体。

当用户进行空间查询时,首先计算出用户查询对象所在格网,然后再在该网格中快速查询所选空间实体,这样一来就大大地加速了空间索引的查询速度。

四叉树索引:四叉树索引就是递归地对地理空间进行四分,直到自行设定的终止条件(比如每个节点关联图元的个数不超过3个,超过3个,就再四分),最终形成一颗有层次的四叉树。

分为线性四又树和层次四叉树。

R树和R+树空间索引:R树是一种多级平衡树,是B树在多维空间上的扩展。

在R树中存放的数据并不是原始数据,而是这些数据的最小边界矩形(MBR),空间对象的MBR被包含于R树的叶结点中。

R+树索引允许矩形相互重叠,允许一个对象同时为多个虚拟矩形所包围。

3、专业数据库(分布式数据库,时态数据库)基本概念思想
专业数据库:分布式数据库演绎数据库时态数据库实时数据库
分布式数据库:
概念:逻辑上是一个统一的数据库系统
物理上分散在不同的场地(节点)
各场地通过计算机网络连接在一起
统一由一个分布式数据库管理系统( DDBMS )管理
优点:可靠性:单一部件失效不一定会使整体失效
自治性:DDB允许各个场所有各自的自主权
模块性:整个系统结构灵活,增减结点对系统的影响较小
高效率、高可用性:合理的分布布局,使得数据存储在常用的结点;对常用数据重复提高响应速度
特点:数据的物理分布性和逻辑整体性
数据的分布独立性(也称分布透明性):用户视角看DDB类似于集中式数据库
数据的冗余存储:适当冗余提高系统处理效率和可靠性
场地自治和协调性:每个结点既能执行局部应用请求,又能通过网络处理全局的应用请求。

演绎数据库:
基本概念:根据已知的事实和规则进行推理,回答用户提出的各种问题。

演绎数据库也被称为逻辑数据库、演绎关系数据库或虚关系数据库;具有很强的推理能力,这种推理能力起源于人工智能的研究;根据已知的数据和这些逻辑关系可推出另一些在数据库中并不存在而客观又是正确的数据
内容:实数据(事实);规则;虚数据(虚数据系根据已知的实数据经使用规则推理而得到
的,它不必存放在数据库中)
特点:演绎数据库可获得远远多于传统数据库中的数据,但其占有的实际物理空间与传统数据库差不多;易维护、易扩充、冗余度小和数据录入量少。

时态数据库:
时态数据库是指能支持现实世界中与时间有关的数据的存储与操作的数据库。

随时间而变化的数据为时态数据。

很多数据库应用都涉及到的时态数据。

这些应用不仅需要存取数据库的当前状态,也需要存取数据库随时间变化的情况。

管理时态数据的数据库系统需要对时间语义提供三方面的支持:时间点、时间间隔、与时间有关的关系。

特点:能够准确地表示时态数据的时间语义;能够区分随时间变化的信息和与时间无关信息并分别表示之;除了数据模型方面的要求以外,时间数据库应用在查询语言、存取方法、物理组织等数据库管理系统的各个方面都需要新的技术。

实时数据库:
实时数据库是用于实时应用的数据库;实时应用的实时性使得实时数据库系统中的事务具有严格的时间约束,如起始运行时间、结束时间等;
实时数据库系统的正确性不仅依赖于数据处理的结果,而且还依赖于结果产生的时间。

实时数据库系统的核心问题是如何把事务的时间约束处理和数据库完整性处理有机地结合为一体。

●4、空间数据指什么
数据:是指客观事务的属性、数量、位置及其相互关系等的符号描述。

空间数据:是对现实世界中空间对象(事物)的描述,其实质是指以地球表面空间位置为参照,用来描述空间实体的位置、形状、大小及其分布特征等诸多方面信息的数据
地理空间数据:是空间数据的一种特殊类型,指带有地理坐标的空间数据,包括资源、环境、经济和社会等领域的一切带有地理坐标的数据。

GIS中的地理空间数据是对地理实体的空间特征和属性特征的数字描述。

(空间)抽象数据类型(ADT):SQL3允许用户创建指定的带有自身行为说明和内部结构的用户定义类型称为抽象数据类型。

●5、矢量数据,影像数据基本概念
矢量数据:是在直角坐标系中,用X、Y坐标表示地图图形或地理实体的矢量数据位置的数据。

影像数据:主要来源于卫星遥感和航空遥感,包括多平台、多层面、多种传感器、多时相、多光谱、多角度和多种分辨率的遥感影像数据,构成多源海量数据,也是GIS 最有效的数据源之一。

●6、组织方法策略
空间数据组织:为了提高对海量空间信息进行有效的组织,需要对得到的地理数据重新进行分类、组织。

在多数情况下,人们习惯于按不同比例尺、横向分幅、纵向分层来组织海量空间数据。

纵向分层:按照用户一定的需要或标准把一定空间范围内具有相同属性要素的同类地理空间实体有机组合在一起成为图层。

横向分幅:将某一区域的空间信息按照某种分块方式,分割成多个数据块;将一幅地图划分为多个图幅,以文件或表的形式存放在不同的目录或数据库中。

●7、管理的关键技术,思想
空间数据的管理方式:文件管理、文件与关系数据库混合管理、全关系型数据库管理、面向对象数据库管理和对象-关系数据库管理。

1)关系型数据库管理:使用统一的关系型数据库管理空间数据和属性数据,空间数据以二进制数据块形式存储在关系型数据库中,形成关系型的空间数据库。

GIS应用程序通过空间数据访问接口访问空间数据库中的空间数据,通过标准的数据库访问接口访问属性数据。

优点:一个地物对应于数据库中的一条记录,避免了对“连接关系”的查找,使得属性数据的检索速度加快。

缺点:由于空间数据的不定长,会造成存储效率低下,此外,现有的SQL并不支持空间数据检索,需要软件厂商自行开发空间数据访问接口。

2)面向对象数据库管理:应用面向对象数据库管理空间数据,可以通过在面向对象数据库中增加处理和管理空间数据功能的数据类型以支持空间数据,并且允许定义对于这些几何体的基本操作。

优点:不仅实现了数据共享,而且空间模型服务也可以共享,使GIS软件可以将重点放在数据表现以及开发复杂的专业模型上。

缺点:目前对象数据库管理系统远未成熟,许多技术问题任需要进一步的研究。

3)对象-关系数据库管理:通过引入面向对象及处理复杂数据类型的构造来扩展关系数据模型。

(详情见orcale spatial)
●8、数据库事务及其处理方法,什么是事务,怎么处理
数据库事务:由于需要处理可能发生的冲突所造成的并发事务,使得数据库事务比数据查询的过程
更加复杂。

为了避免并发使用者间潜在的冲突,数据库事务按照如下规则设计:
1)原子性,这意味着事务的全部都被执行,或者全部都不执行(即事务不能部分完成)
2)一致性维护,即数据库中的数据在之前和之后的事务进行保持,在“一致的连续的状态”所指定的数据库架构和其他方面的限制和对数据库完整性规则。

3)独立性,同时发生的事务的结果彼此独立
4)耐久性或永久性的,即在一个交易完成,其结果可以一直追溯到系统失败或崩溃。

四种事务控制机制:
1)并发控制,数据锁
2)事务日志,轨道的变化和写在“重做”日志
3)事务确认,以防止任何数据库的变化,除非事务即将完成,而变化是登录。

4)回滚,撤消
每一个数据库事务处理是严格的被事务管理器的数据库引擎控制的。

传统数据库主要依靠短事务处理机制,时间短;空间数据库采用长事务处理机制,不会锁定。

长事务处理工作流程:多个编辑会议;多用户编辑;Check-out, Check-in事务;历史;针对变化的
转移的更新;松散耦合的复制的数据库管理系统。

●9、数据库系统与事务的完整性约束,一致性
数据建模和数据库操作中的三类完整性约束:域约束、键和关系约束、语意完整性约束
空间数据的完整性约束:
拓扑完整性约束,是关于空间要素间空间关系(如,邻接,包含和连接)的几何属性.
语义完整性约束,是控制数据库中对象空间行为的数据库规则(例如,地块不能位于水体中). 用户定义约束,类似于那些在非空间数据建模中确定的业务规则(例如,沿湖岸200米的缓冲区内禁止树木采伐)。

上面三类约束性条件中的每一个都可以既应用于一致性状态的数据也可以应用于事务处理中的数据。

这样就导致了下面六类空间数据完整性约束:
1)静态的拓扑完整性约束。

例如,所有的多边形必须是封闭的。

2)变换拓扑完整性约束。

例如,如果多边形边界被修改,那么多边形本身和所有与之结合
的多边形都必须同时被更新。

3)静态语义完整性约束。

例如,一块土地面积不得为负。

4)变换语义完整性约束。

例如,在一个地块被划分后,再分单元的面积总和必须与原来地块的面积相等。

5)静态用户定义完整性约束。

例如,宽于2米的河流和溪流必须作为多边形特征存储。

6)变换用户定义完整性约束。

例如,在一个地块的重新分区应用被批准后,有关地块的土地利用情况必须在两个工作日内更新。

●10、空间数据基本特征(三个)
空间数据是对现实世界中空间对象(事物)的描述,其实质是指以地球表面空间位置为参照,用来描述空间实体的位置、形状、大小及其分布特征等诸多方面信息的数据。

空间数据具有三大基本特征:空间、时间和专题属性。

空间特征:空间特征是指空间地物的位置、形状和大小等几何特征,以及与相邻地物的空间关系。

时间特征:空间数据总是在某一特定时间或时间段内采集得到或计算得到的专题特征:专题特征亦指空间现象或空间目标的属性特征,它是指除了时间和空间特征以外的空间现象的其他特征,如地形的坡度、波向、某地的年降雨量、土地酸碱度、土地覆盖类型、人口密度、交通流量、空气污染程度等。

此外,空间数据还具有多维、多尺度和海量等非空间数据所不具备的特征。

●11、时空数据库概念,序列快照等模型(三个)在时空数据库的组织管理中的特性,
思想。

时空数据库是一种四维(x,y,z,t)或(s,t)的信息系统,其中(x,y,z)或(s)表示空间系统,(t)表示时间,这是一种具有时空复合分析功能和多维信息可视化的系统。

时空数据模型(时空一体化数据模型)是时空信息系统及时空地学可视化的基础。

时空数据模型能有效组织和管理时态地学数据,是一种属性、空间和时间的语义更完整的地学数据模型。

序列快照模型也称为时间片快照模型。

基本思想:将某一时间段内地理现象的变化过程,用一系列时间片段的序列快照保存起来,反映整个空间特征的状态,根据需要对指定时间片段的现实片段进行播放,快照间的时间间隔不一定相同。

优点:非常直观和简单,容易理解,容易实现,甚至可以直接在当前的地理信息系统软件中实现。

缺点:由于将快照将未发生变化的时间片段的所有状态数据进行重复存储,造成大量的数据冗余,当应用模型变化频繁且数据量较大时,系统效率急剧下降。

离散网格单元列表模型:该模型将网格单元及其变化以变长列表形式存储,各个网格单元列表的一个元素对应于该位置上的一次时空变化。

不足:由于仍是基于位置模型,因此,对于基于时间的查询,仍需查询所有位置
基态修正模型也称之为底图叠加模式
基本思想:它按事先设定的时间间隔采样,不存储研究区域中每个状态的全部信息,只存储某个时间的数据状态,以及相对于基态的变化量,避免连续快照模型将每张未发生变化部分的快照特征重复进行记录。

优点:数据量大大减小、时态分辨率值与事件发生的时刻完全对应,只纪律一个数据基态和
相对基态的变化值,提高了时态分辨率,减少了数据冗余量。

保证了地学对象的完整性。

缺点:仍难以适应基于时间的空间查询
时空复合模型实现了用静态的属性表达动态的时空变化过程
优点:继承了基态修正模型的优点,易于用于矢量数据的gis中。

对时空数据的提取、分析非常方便,存储容量得到了更多的压缩
缺点:数据库中对象标识符的修改比较复杂,地理实体碎分导致检索量大和全局重构低效。

●12、spatial的内容!(新内容!)操作,它对空间数据的组织管理
Oracle spatial是Oracle数据库中的空间数据管理模块,是标准的对象-关系型数据库。

由以下组件构成:一种用来规定Oracle支持的空间数据类型的存储、语法、语义的模式,称为MDSYS;一种空间索引机制;一组用来处理空间区域的交叉、合并和联结的操作符和函数集;一组管理工具。

主要通过元数据表、空间数据字段(SDO_GEOMETRY字段)和空间索引来管理空间数据。

Oracle Spatial使用空间字段SDO_GEOMETRY存储空间数据;
用元数据表来管理具有SDO_GEOMETRY字段的空间数据表;
采用R树索引和四叉树索引技术来提高空间查询和空间分析的速度。

Oracle Spatial使用对象-关系模型的优点:
(1)Oracle Spatial采取了分解存储空间数据的技术,即一个地理空间分解为若干层,然后每层又分解为若干几何实体,最后将单个几何实体分解为若干元素。

使用这些几何对象进行组合,可以表示非常复杂的几何对象,满足几何对象表示的需要。

(2)在空间索引方面,Oracle Spatial提供了高效的索引机制,支持四叉树和R树空间索引。

外部数据通过转入到或直接通过SQL生成空间数据表,然后建立空间索引,这样就可以直接通过SQL实现对空间数据的存取、检索、空间分析等操作,同时这些索引完全由Oracle 的数据库服务器维护。

(3)Oracle Spatial支持的空间分析功能主要包括检索、关联、覆盖范围、缓冲分析和最近地物查找等,基本能满足GIS常规要求。

●13、结构化查询语言(不用记命令),它是干什么的,在特殊数据库中的地位作用,解
决的问题,要达到的基本要求。

SQL是数据库处理过程中用于和电脑交互事物用户接口,是查询和管理关系和面向对象数据库的标准语言,是非程序性质的计算机语言。

其优点体是非过程化语言、统一的语言、所有关系数据库的公共语言。

SQL是一种声明性语言,即用户只需要描述所需要的结果即可,而不必描述获得结果的过程。

SQL3就是SQL的最新标准。

SQL3标准不仅对SQL的语法规则做出了更加详细和准确的定义,而且对空间数据的支持也做出了一个统一的描述。

它详细的描述了空间数据类型点、线、面在数据库中的存储方式,并能够定义操作于空间数据的空间运算符。

数据定义语言(DDL):创建和修改的关系模式;模式对象包括关系,指标,等。

数据操作语言(DML):插入,删除,更新表中的行;查询表中的数据
数据控制语言(CCL):并发控制,事务;行政任务,如建立用户数据库,安全权限
数据库中SQL 的功能:
数据检索,允许用户检索存储在数据库中的数据。

数据定义,帮助用户对数据库中的数据进行组织并建立数据间的关系。

数据操作,允许用户通过插入新的数据、删除历史数据和修改现有的数据值来调整一个数据库的内容。

数据库连接和访问控制,通过启用/禁用用户的访问或修改数据库或部分数据库的权限
来保证数据库安全的措施。

数据共享,用以协调数据复制和控制数据库的并发访问。

数据完整性,定义完整性约束以防止由于不一致数据的输入、数据库更新或系统故障而导致数据库崩溃。

空间SQL:相对于SQL支持单原子简单数据的操作,空间SQL增加了对空间数据的支持,详细地描述了空间数据类型点线面在数据库中的存储方式,并能够定义操作与空间数据的空间运算符。

●14、有效时间:一个对象在现实世界中发生并保持的那段时间,即在现实世界中存在的
时间,或者该对象在现实世界中为真的时间段。

数据库时间:指目标数据录入数据库系统的时间,也就是事实处于数据库系统中的时间段。

●15、GIS和空间数据库系统的关系
GIS的主要任务:数据的采集与编辑;数据分析;生成地图及地图信息产品
DBS的主要任务:数据的存储与管理;数据索引;保证数据的一致性与安全性;空间数据查询
其中:GIS是面向应用的,是数据驱动的应用程序;而SDBS的焦点在于通过数据库执行和工程管理的系统方法来管理空间数据
空间数据库系统可以看做服务于一个机构的一般信息需求的基础设施的一部分,而这个机构无论它是否有特定的GIS需求。

因此SDBS为GIS提供数据,是为GIS服务的。

区别与联系:①利用GIS可以对某些对象和图层进行操作,而利用SDBMS则可以对更多的对象集和图层进行更加简单的操作
②SDBMS可以在GIS不能使用的某些领域进行使用,例如基因组学、天文学、多媒体信息系
统等
③GIS可以作为SDBMS的前端,利用一个高效的SDBMS可以大大提高GIS的效率和生产率。

●16、数据的存储(拓扑,非拓扑),基本思想,区别,各自好处
(1)拓扑数据结构是利用拓扑原理对空间数据进行存储。

它用于存储真实世界要素之间的固有关系,而不考虑它们的固定坐标。

不仅要存储属性信息,还要存储实体间的拓扑关系信息。

在非拓扑数据结构中,空间数据按照基本的控件对象为单位进行单独组织。

(2)拓扑数据结构的概念假定空间特征存在于一个二维平面上,所以空间关系的谓词可以定义为节点;边;多边形。

非拓扑数据结构中,地物用一系列坐标串表示,不考虑实体间的拓扑关系,其拓扑关系信息必须在数据文件中搜索所有实体信息,经过大量计算得到。

(3)拓扑数据结构:(特点)
优点:两个多边形之间没有空间坐标的重复,就消除了重复线。

拓扑信息与空间坐标分别存储,有利于空间关系的查询操作
拓扑结构在一致性检验及图形恢复等方面有较强的能力
缺点:拓扑表必须一开始就建立,这花费时间空间
因为图形表示需要的是空间坐标而非拓扑结构,所以一些简单的操作和图形显示表较慢。

非拓扑数据结构:
优点:数据按照控件对象为单位进行组织,操作简单,易于实现,数字化后无需大量编辑操作既可以方便的显示。

相关文档
最新文档