武汉大学2011 空间数据库复习资料
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1、数据库:就是为了一定的目的,在计算机系统中以特定的结构组织、存储、管理和应用的相关联的数据集合,是数据管理的高级阶段。
空间数据库是存取、管理空间信息的数据库,指的是地理信息系统在计算机物理存储介质上存储的应用相关的地理空间数据的总和,一般是以一系列特定结构的文件的形式组织在存储介质之上的
空间数据库与关系数据库间的主要区别:
1)和关系数据库相比,空间数据库没有固定的运算符集合
2)空间数据库处理对象复杂,具有空间范围,不能自然按一维排序
3)检测空间谓词需要用到大量复杂计算,所以CPU的代价不是主要由I/O决定
空间数据模型:是关于现实世界中空间实体及其相互联系的概念,它为描述空间数据的组织和设计空间数据库模式提供着基本方法
空间数据库管理系统:
1)一个SDBMS是一个软件模块,它利用一个底层数据库管理系统
2)SDBMS支持多种空间数据模型、相应的空间抽象数据类型(ADT)以及一种能够调用这些ADT的查询语言
3)SDBMS支持空间索引、高效的空间操作算法以及用于查询优化的特定领域规则
空间信息:也就是指在某个空间框架(如地球表面)中的位置信息。
空间信息是指与研究对象的空间地理分布有关的信息,它表示地理系统诸多要素的数量、质量、分布特征,相互联系和变化规律的图、文、声、像等的总称
地理信息系统:是用于采集、模拟、处理、检索、分析和表达地理空间数据的计算机信息系统,可以作为ADBMS的前端
数据模型:数据模型是一条或一组用于标识和表示空间参照对象的规则,数据模型是数据集的特定结构和模式,是对数据的文件描述,有利于某些性质的前期分析。
数据模型是数据库系统中关于数据内容和数据之间联系的逻辑组织的形式表示。
每一个具体的数据库都是由一个相应的数据模型来定义。
层次模型、网络模型、关系模型、面向对象模型
对象模型:对象模型很适合表示有固定形状的空间实体
场模型:用于表示连续的或无固定形状的概念
2、数据库的发展:(图)
数据库系统的前身为文件系统,数据库技术最初产生于20世纪60年代中期,根据数据模型的发展,可以划分为三个阶段:第一代的网状、层次数据库系统;第二代的关系数据库系统;第三代的以面向对象模型为主要特征的关系数据库系统
3、场操作可以分为三类:局部操作、聚焦操作、区域操作
局部操作:空间框架内一点给定位置的新场的取值只依赖于同一位置场的输入值
聚焦操作:在指定位置的结果场的值依赖于同一位置的一个假定小领域输入场的值
区域操作:与聚集运算符或微积分中的积分运算有关,如森林的例子中计算每个树种的平均高度
4、数据库设计的三个步骤:
首先,采用高层次的概念数据模型来组织所有与应用相关的可用信息:重点关注应用的数据类型及其联系和约束,设计过程的这个阶段不考虑具体实现细节。
概念模型通常用浅显的文字,结合简单一致的图形符号来表示。
实体-联系模型是所有概念设计工具中最为流行的一种;然后,逻辑建模阶段,与概念数据模型在商用DBMS上的具体实现有关;最后,数据库设计的第三步骤是物理设计的建模,它解决了数据库应用在计算机中具体实现时方方面面的细节
5、概念模型:是对真实世界中问题域内的事物的描述,不是对软件设计的描述。
E-R模型表示
逻辑模型:是指数据的逻辑结构。
关系模型表示
物理模型:1)概念数据模型在计算机内部具体的存储形式和操作机制,用一个有效容错的方式2)执行逻辑数据模型的理论基础,使用现在的构件
邻接表、邻接矩阵表示
基于内存的物理模型:邻接表、邻接矩阵
基于外存的物理模型:规范化表结构:用两个关系R和S来分别描述结点和边
非规范化表结构:采用非规范化表结构可以加快边的查询速度
6、象形图:
象形图是一种将对象插在方框内的微缩图表示,这些微缩图用来扩展ER图,并插到实体矩形框中的适当位置
7、空间索引:
是指根据空间对象的位置和形状或空间对象之间的某种空间关系按一定的顺序排列的一种数据结构,其中包含空间对象的概要信息,如对象的标识、外接矩形及指向空间对象实体的指针
空间索引文件:是用来提高空间数据查询效率的辅助文件。
索引文件的记录只有两个域,即码域和空间数据的页面地址
硬盘驱动器存取时间(t a)t a=t s+t v+t t t s为寻道时间,t v为延迟时间,t t为传
输时间通常,t s>t v>t t
9、从软件的角度,数据在磁盘上以域、记录、文件这种层次结构的形式存放的。
文件:文件是记录的集合,类似于整个关系表
域:域是一种管理边界,用于一组计算机共享共用的安全数据库,域实际上是一组服务器和工作站的集合。
是属性的取值范围,表示一个关系表或实体属性
记录:每条记录都是相同或不同类型的域的集合。
表的“行”称为“记录”,对应于关系表的一行,即一个实体,是属性的集合
文件结构:一种组织文件中记录顺序的方法,以便于对文件的各种操作。
包括:无序文件(堆)、散列文件、有序文件、聚类文件
10、空间填充曲线:空间填充曲线是利用一个线性顺序来填充空间,可以获得丛一端到另一端的曲线。
多维空间本身没有自然排序关系,但存在一对一的连续映射,可以将多维空间的点映射到一维空间,以达到对多维空间进行一维排序的目的。
常用的算法有Z曲线和Hilberlt曲线
Z曲线:1)读入x和y坐标的二进制表示 2)隔行扫描二进制数字的比特到一个字符串3)计算出结果二进制串的十进制值
Hilberlt曲线:
1)读入x和y坐标的n比特二进制表示。
2)隔行扫描二进制比特到一个字符串。
3)将字符串自左至右分成2比特长的串si,其中i=l,…,n。
4)规定每个2比特长的串的十进制值di,例如“00”等于0,“01”等于l;“10”等于3;“11”等于2。
5)对于数组中每个数字j,如果
·j=0把后面数组中出现的所有l变成3,并把所有出现的3变成1。
·j=3把后面数组中出现的所有0变成2,并把所有出现的2变成0。
6)将数组中每个值按步骤5转换成二进制表示(2比特长的串),自左至右连接
所有的串,并计算其十进制值。
Hilberlt曲线和Z曲线的比较:
Hilberlt曲线的方法要比Z曲线好一些,因为它没有斜线;
Hilberlt曲线算法和精确入口点及出口点的计算量都要比Z曲线复杂。
11、为什么用空间填充曲线?
1)空间数据所处的多维空间中没有天然的顺序,加强了多维空间中的位置顺序
2)允许在空间数据中使用传统的有效搜索
3)存储磁盘从逻辑上说是一维的设备,空间聚类技术就是要寻找一个从高维空间向一维空间的映射方法,空间上邻近的元素,映射为直线上接近的点,而且一一对应为达到这一目的,人们提出了很多种算法
12、R树:是B树在K维上的自然扩展。
R树中用对象的最小外包矩形(MBR)来表示对象
R+树:空间对象的MBR可能被树中非叶结点的矩形分割,中间结点的所有矩形都是不相交的13、空间查询:利用空间索引机制,从数据库中找出符合该条件的空间数据。
包括几何查询、属性查询和时态查询等
查询处理:从查询语句出发,获得查询结果的处理过程
查询优化:DBMS对描述性语言表达的查询语句进行分析,为其确定合理、有效的执行策略和步骤的过程。
就是在不改变查询结果的前提下,对该查询树进行变换,以达到降低查询时间和空间复杂性的目的
查询优化器:是一个用于产生不同的计算计划并确定适当的执行策略的数据库模块。
由于优化计算非常复杂,很难找到最优策略,一般优化的目的只是避免最差的策略。
查询优化器执行两部分任务:逻辑转换和动态转换
查询处理和优化可以分为两个步骤:
1)为每个基本的关系运算符设计并调整算法
2)利用第一步的信息把高层查询映射为这些基本关系运算符的组合并进行优化
14、空间操作包括四个部分:
1)更新操作:标准数据库操作,如修改、删除、添加等
2)选择操作:1、点查询:给定一个查询点P,找出所有包含它的空间对象
2、范围或区域查询:给定一个查询多边形P,找出所有与之相交的空间对象O 3)空间连接:当两个表R与S基于一个空间谓词Ð(如intersect相交、overlap交叠等)进行连接时,则该连接成为空间连接
4)空间聚集:(最近领域)即给定一个对象O’,找出所有距离O’最近的对象O。
空间聚集通常是“最近邻居”搜索的变体
15、分布式空间数据库DDMS系统的特点:
1)DDMS是一组物理上分布的数据库集合,这组数据库集合由数据库管理软件进行管理。
一个分布式数据库在逻辑上是一个统一的整体,在物理上则是分别存储在不同的物理节点上。
一个应用程序通过网络的连接可以访问分布在不同地理位置的数据库。
DDMS体系结构非常适用于SDB,因为空间数据是由不同组织采集的,而将数据库集中复制到一个站点也是非常困难的
2)在分布式数据库中,有一个特殊的连接操作称为半连接,这种操作在一些情况下可以极大减少数据传输的代价
3)DDMS是基于传统的空间数据库上做空间数据存取扩展,并且使其适应分布式系统的需要4)利用元数据技术实现分布式数据库的构架
5)利用统一的空间数据模型,统一的空间数据标准来实现分布式空间数据的构架
6)许多理论上提出的分布式体系结构难以在实际中应用
16、空间查询处理的“过滤——精炼模式”是什么?其目的?
目的:用两步走算法高效的处理复杂的数据模型
过滤:寻找Q最终结果的超集S;利用GIS处理S,来找到精确的Q的答案
17、传递闭包:图G(V,E)的传递闭包G*是满足下列条件的图,它与G有相同的顶点集V,但它的边集则由G的所有路径组成
18、图遍历:它是所有路径算法的基础,它沿着图的边,通过一个结点到另一个结点的遍历来搜索路径。
常用的图遍历有广度优先、深度优先、Dijkstra算法、层次策略算法等
广度优先搜索(BFS):给定一个图G以及G中的一个源结点V,BFS算法访问所有从V可以到达的结点,算法首先访问源结点V的所有直接邻居,然后再递归的访问其直接邻居的邻居
深度优先算法(DFS):DFS算法是先沿着边走完一条“路径”,然后返回到顶层去走其他的“路径”。
即给定图G中的一个源V,该算法先访问源的一个直接邻居,然后在访问其他直接邻居前访问该直接邻居的后继
Best-first算法:使用一个评估函数f(v,d)来低估结点v和d之间的最短路径的代价
层次寻径算法:1)找出源或目的到他们边界结点的代价2)用穿过分片图的代价来决定哪些边界结点一定在路径上3)找到通过边界图的路径4)使用边界路径的信息找到最短路径。
即把原来的图分解成一系列分片图和一个汇总图(叫做边界图)。
通过适当构建边界图,就可以把一个对原图的最短路径查询分解为一系列对更小图的最短查询路径
19、SQL:SQL是一种声明性语言,即用户只需描述所要的结果即可,而不必描述获得结果的过程。
SQL语言至少由两部分组成:数据定义语言,数据操作语言
20、关系代数:关系代数(RA)是与关系模型相关联的形式化查询语言
2. 用传统数据库系统管理空间数据不足之处:(1)传统数据库管理的是不连续的相关性较小的数字或字符,而空间数据是连续的,并且有很强的空间相关性;(2)传统数据库管理的实体类型较少,并且实体类型间关系简单固定,而GIS数据库的实体类型繁多,实体间存在着复杂的空间关系;(3)传统数据库存储的数据通常为等长记录的数据,而空间数据的目标坐标长度不定,具有变长记录,并且数据项可能很多,很复杂;(4)传统数据库只查询和操作数字和文字信息,而空间数据库需要大量的空间数据操作和查询。
3. 空间数据特征:空间特征、空间关系、非结构化、抽象特征、多时空性特征、分类编码特征、海量数据特征、多尺度与多态性。
4.空间数据组织方式:(1)数据分层式(Data Layer) 图层定义:将同区域的数据分成不同的类型或层级储存,例如依不同地类、专题、年代等,各储存类别称作“图层” ;可按照:专题、时间、高度等分层。
专题图定义:传统纸质地图通常依不同的专题,如人口分布图、地质图、地形图等,来表现不同的人文活动或是地表现象,这些图称作专题图(Thematic Map) ;数据层:目前大多GIS数字图则以数据项目分层,称作数据层(Data Layer),但也常被称作图层或专题图层。
层:空间数据处理的一个工作单元,不同的系统工作处理层方式不同;逻辑层:当一个层所包含的内容太多(如管线层),为了方便于显示、制图和查询,对其中的部分要素定义逻辑层,逻辑层不改变存储关系,仅建立对照表,每个逻辑层包含了哪些指向地物类的指针。
数据分层式优缺点:–这种方式是目前颇为普遍的数据组织方法,方便使用者选择合适的数据,适合与栅格或矢量数据数据结构,目前大多数GIS软件采用这一方法。
–其缺点是层与层之间的数据必须经过层叠置(Overlay)处理才能关联在一起,在叠置处理中,对栅格数据常需要大量存储空間来完成操作,而矢量数据则需大量的计算处理。
–同一图层内的图形数据的空间关系较为简单并易于处理,但不同图层之间的空间关系难以处理。
(2)空间分区式(Data Tiling) 定义:将大规模区域的数据划分为若干规则或不规则的小区域(工作区)来存储。
传统地图也通常采用这一方法来分区记录,它的划分称作图幅(Map sheet) 。
为了不使数据量太大而影响数据读取的效率,也常以分区方式来存储GIS数据。
数据分区式-优缺点:–分区式与分层式可同时采用,并不冲突。
–分区式也是目前大部份商业软件所采用的方法,适合与栅格和矢量数据结构,在数据量大的系统中,分区方法可提高数据存取的效率。
–图幅或区块间的衔接问题是分区法最大的困扰,尤其在空间数据查询、分析操作时更是这样。
(3)实体式(Entity Based) 以人所认知的实体(Entity)或对象(Object)为组织单元;GIS之精神所在;目前大多GIS都以点、线、面要素为单元,代表二维空间的实体,例如以点代表城市、学校或单位等;以线代表道路、河流、或电力线等;以面代表行政区域、湖泊或地籍宗地等。
实体方式优缺点:–该组织法符合人对现实世界空间现象的认知,同时便于与空间关系以及属性数据的联系,而形成所谓的实体关系(Entity-Relationship)数据组织模式,因此适合于空间数据的查询分析和空间关系的推导。
–可配合分区及分层的方式来建立效率高并符合GIS 操作的数据组织方式。
–由于人对地物或现象的认知或推理会随数据或应用的目的而改变,因此并无固定或标准的程序来把数据以实体的方式组织。
(4)面向对象式(Object Oriented)
5.属性数据组织方式:虽然属性数据可由RDBMS管理,但不同GIS的实现策略不同: (1)ARC/INFO:属性存储在coverage目录之下,在工作区目录下,通常有一个记录属性数据文件信息包括目录路径的文件,而且,一个Coverage仅有一个AAT或PAT表,还支持按每个地物类建立扩展属性表,通过PAT或AAT连接;(2)MGE:一个地物类对应于一个属性表文件,而且所有属性文件都在工程目录下,不要求每个地物类都具有属性;(3)Geostar:一个地物类有一个属性表,或多个地物类公用一个属性表。
一个属性文件包含了工程内所有同类空间对象的属性。