地理空间大数据创新技术及应用
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
异构云环境下时空信息双态云计算方法
• 多云共生平衡架构
双态云计算方法
• 本地存储、本地处理、独立服务
• 智能感知的计算任务调度体系
高 效
稳 定
• 最大限度减少数据传输损耗
• 适用分布式计算模型
• 多云并算协同机制
内存云
硬盘云
• 分布式部署的内存云,提供了海量内存计算空间
• 计算过程在内存云中,无硬盘I/O
关键技术二、地理国情大数据高性能地理计算
传统计算效率存在问题
单机处理方式效能低
• 计算作业时间长 • 交互等待时间长 • 无法应对大规模时空数据处理需求
MPP架构下大规模并行计算
• 基础设备昂贵 • 基于MPI框架,并行效率存在瓶颈 • 计算过程仍需网络I/O
16
关键技术二、地理国情大数据高性能地理计算
大要素集、计算频繁的数据以 WKT格式基于HDFS存储,并 使用HBase存储空间索引
影像数据、文档数据采用分布 式文件系统与元数据表结合的 方式管理
文件数据组织结 构 传感器名
年份
月份 日数 卫星名称
日数
矢量数据组织结
构 Geodatabase
地
分区数据
理
国
情
要 素
不分区数据
WKT
数 据
组
Geodatabase
网格包含的 geo_ID文件
合并文件
HBase
HDFS
查询任务1 (StartKey,
EndKey)
查询任务2
(StartKey,
...
EndKey)
查询任务n (StartKey,
EndKey)
查询结果合并
➢ 数据模型:OGC+WKT ➢ 空间定位:网格索引 ➢ 关键字查询:倒排索引 ➢ 空间查询:最小外接矩形过滤
织
WKT
数据节点1
文件 HDFS分布式文件系统
数据节点1
数据节点1
索引 Hbase
元数据与 表数据 Oracle
集 中 存 储
关键技术一、地理国情大数据多态云存储
2、泛化地理信息高效并发检索技术
➢ 实现了全省千万级
数据分块
地理国情矢量数据
的快速检索与统计
获取查询条件 (行政区编码、分类码)
生成查询任务
Map
Map
Map
Reduce
ImageOutputFormat
写 回 到 H D F S存 储
InputFile0 RDD<r0> PairRDD<pid,r0> PairRDD<pid,List<r0>>
InputFile1
… InputFilen
RDD<r1>
县级地表覆盖统计效果演示,以嘉善县为例的空间范围执行地表覆盖汇总统计,可达到秒 级响应。
关键技术一、地理国情大数据多态云存储
创新效果 全省地理国情数据分类分行政区统计:24秒(传统超过3小时)
浙江省全省700万条地表覆盖要素的三级类统计汇总效果演示,查询结果总长度为400多 万千米,总面积为12多万平方千米。
我们的应用技术方案
云计算环境下地理国情大数据高效存储计算关键技术
关键技术一、地理国情大数据多态云存储
1、大规模地理国情多态云存储模型
根据数据不同类型、不同需求, 选取不同的存储模型
待入库数据
矢量
影像
文档
规范化数据预处理入库工
具
数
检核
实体编 元数据
码
提取
...
据 整
合
小要素集、更新频繁的数据采 用Geodatabase模型管理
• 基于内存云GPU协同加速,并行能力强,效率高
关键技术二、地理国情大数据高性能地理计算
1、Hadoop、Storm、Spark多云共生平衡架构
逻辑架构图
2U 4U 4U 4U 4U 4U 4U 4U 4U
42 U 2U 4U
硬件架构图
42 U
通讯服务器
预处理服务器
4U
主节点
4U
4U
4U
4U
存算节点
4U 4U
Hadoop常用于离线的复杂的大数据处理,Spark常用于离线的快速的大数据处理,而 Storm常用于在线的实时的大数据处理。
关键技术二、地理国情大数据高性能地理计算
2、Disk、RAM、GPU多云并算协同机制
计算任务接口层
计算任务管理引擎 计算任务池 计算任务监控
Heartbeat
Daemon
对浙江省700万条地表覆盖要素进行检索和三级类统计,仅需24秒,解决了传 统GIS平台均无法处理的国际技术难题
关键技术一、地理国情大数据多态云存储
创新效果 覆盖全省PB级地理国情数据的高性能存储管理
地表覆盖数据 遥感影像数据
····
关键技术一、地理国情大数据多态云存储
创新效果 县域级别任意多边形的空间检索:秒级响应(传统超过100s)
Daemon
Daemon
并行加速云 GPU
GPU
GPU
计算内存云 RAM
RAM
...
RAM
Hale Waihona Puke 存储硬盘云 DiskDisk
Disk
从 H D F S中 读 取 影 像 文 件
ImageInputFormat
图像
文件
ImageSplit
ImageSplit
ImageSplit
ImageRR
ImageRR
ImageRR
背景
➢ 地理国情大数据——海量、多源、异构
背景
问题挑战
数据管理难
——传统数据管理技术存储模式单一,面向海量、多源、异构的时 空数据扩展存储能力有限。
高效计算难
——计算作业时间长、交互等待时间长、无法应对大规模地理国情 数据处理需求。
突破地理国情大数据关键技术,解决大规模地理国情数据异构海量存储、高性 能实时统计分析、增量更新技术瓶颈
背景
空天地海立体观测技术发展
海量空间数据爆炸式增长
地理国情大数据 应运而生
高
高
高
精
频
覆
度
度
盖
地理国情普查/监测数据获取能力:
日均获取原始影像超300GB 每年累计亿级矢量图斑要素 应急支撑需采集十余种数百TB数据
背景
➢ 以浙江省地理国情普查主要成果为例
背景
➢ 地理国情大数据——海量、多源、异构
关键技术一、地理国情大数据多态云存储
创新效果 多样化地理国情信息快速检索统计
传统 方法
对比
多态存 储方法
1. 使用单一存储模型,效率 低、性能差
2. 难以充分利用计算资源 3. 无法应对时空大数据存储
1. 分布式存储模型 2. 运行在分布式存算一体化环境,
检索资源利用率高
3. 专门应对时空大数据存储
地理空间大数据创新技术及应用
内容提要
地理国情大数据创新技术及应用
全国土地大数据创新技术及应用
高分遥感大数据创新技术及应用
点云数据高性能计算创新技术及应用
后云时代技术创新——雾计算
GIS-Transforming our World
地理国情大数据创新技术及应用
GIS-Transforming our World
• 多云共生平衡架构
双态云计算方法
• 本地存储、本地处理、独立服务
• 智能感知的计算任务调度体系
高 效
稳 定
• 最大限度减少数据传输损耗
• 适用分布式计算模型
• 多云并算协同机制
内存云
硬盘云
• 分布式部署的内存云,提供了海量内存计算空间
• 计算过程在内存云中,无硬盘I/O
关键技术二、地理国情大数据高性能地理计算
传统计算效率存在问题
单机处理方式效能低
• 计算作业时间长 • 交互等待时间长 • 无法应对大规模时空数据处理需求
MPP架构下大规模并行计算
• 基础设备昂贵 • 基于MPI框架,并行效率存在瓶颈 • 计算过程仍需网络I/O
16
关键技术二、地理国情大数据高性能地理计算
大要素集、计算频繁的数据以 WKT格式基于HDFS存储,并 使用HBase存储空间索引
影像数据、文档数据采用分布 式文件系统与元数据表结合的 方式管理
文件数据组织结 构 传感器名
年份
月份 日数 卫星名称
日数
矢量数据组织结
构 Geodatabase
地
分区数据
理
国
情
要 素
不分区数据
WKT
数 据
组
Geodatabase
网格包含的 geo_ID文件
合并文件
HBase
HDFS
查询任务1 (StartKey,
EndKey)
查询任务2
(StartKey,
...
EndKey)
查询任务n (StartKey,
EndKey)
查询结果合并
➢ 数据模型:OGC+WKT ➢ 空间定位:网格索引 ➢ 关键字查询:倒排索引 ➢ 空间查询:最小外接矩形过滤
织
WKT
数据节点1
文件 HDFS分布式文件系统
数据节点1
数据节点1
索引 Hbase
元数据与 表数据 Oracle
集 中 存 储
关键技术一、地理国情大数据多态云存储
2、泛化地理信息高效并发检索技术
➢ 实现了全省千万级
数据分块
地理国情矢量数据
的快速检索与统计
获取查询条件 (行政区编码、分类码)
生成查询任务
Map
Map
Map
Reduce
ImageOutputFormat
写 回 到 H D F S存 储
InputFile0 RDD<r0> PairRDD<pid,r0> PairRDD<pid,List<r0>>
InputFile1
… InputFilen
RDD<r1>
县级地表覆盖统计效果演示,以嘉善县为例的空间范围执行地表覆盖汇总统计,可达到秒 级响应。
关键技术一、地理国情大数据多态云存储
创新效果 全省地理国情数据分类分行政区统计:24秒(传统超过3小时)
浙江省全省700万条地表覆盖要素的三级类统计汇总效果演示,查询结果总长度为400多 万千米,总面积为12多万平方千米。
我们的应用技术方案
云计算环境下地理国情大数据高效存储计算关键技术
关键技术一、地理国情大数据多态云存储
1、大规模地理国情多态云存储模型
根据数据不同类型、不同需求, 选取不同的存储模型
待入库数据
矢量
影像
文档
规范化数据预处理入库工
具
数
检核
实体编 元数据
码
提取
...
据 整
合
小要素集、更新频繁的数据采 用Geodatabase模型管理
• 基于内存云GPU协同加速,并行能力强,效率高
关键技术二、地理国情大数据高性能地理计算
1、Hadoop、Storm、Spark多云共生平衡架构
逻辑架构图
2U 4U 4U 4U 4U 4U 4U 4U 4U
42 U 2U 4U
硬件架构图
42 U
通讯服务器
预处理服务器
4U
主节点
4U
4U
4U
4U
存算节点
4U 4U
Hadoop常用于离线的复杂的大数据处理,Spark常用于离线的快速的大数据处理,而 Storm常用于在线的实时的大数据处理。
关键技术二、地理国情大数据高性能地理计算
2、Disk、RAM、GPU多云并算协同机制
计算任务接口层
计算任务管理引擎 计算任务池 计算任务监控
Heartbeat
Daemon
对浙江省700万条地表覆盖要素进行检索和三级类统计,仅需24秒,解决了传 统GIS平台均无法处理的国际技术难题
关键技术一、地理国情大数据多态云存储
创新效果 覆盖全省PB级地理国情数据的高性能存储管理
地表覆盖数据 遥感影像数据
····
关键技术一、地理国情大数据多态云存储
创新效果 县域级别任意多边形的空间检索:秒级响应(传统超过100s)
Daemon
Daemon
并行加速云 GPU
GPU
GPU
计算内存云 RAM
RAM
...
RAM
Hale Waihona Puke 存储硬盘云 DiskDisk
Disk
从 H D F S中 读 取 影 像 文 件
ImageInputFormat
图像
文件
ImageSplit
ImageSplit
ImageSplit
ImageRR
ImageRR
ImageRR
背景
➢ 地理国情大数据——海量、多源、异构
背景
问题挑战
数据管理难
——传统数据管理技术存储模式单一,面向海量、多源、异构的时 空数据扩展存储能力有限。
高效计算难
——计算作业时间长、交互等待时间长、无法应对大规模地理国情 数据处理需求。
突破地理国情大数据关键技术,解决大规模地理国情数据异构海量存储、高性 能实时统计分析、增量更新技术瓶颈
背景
空天地海立体观测技术发展
海量空间数据爆炸式增长
地理国情大数据 应运而生
高
高
高
精
频
覆
度
度
盖
地理国情普查/监测数据获取能力:
日均获取原始影像超300GB 每年累计亿级矢量图斑要素 应急支撑需采集十余种数百TB数据
背景
➢ 以浙江省地理国情普查主要成果为例
背景
➢ 地理国情大数据——海量、多源、异构
关键技术一、地理国情大数据多态云存储
创新效果 多样化地理国情信息快速检索统计
传统 方法
对比
多态存 储方法
1. 使用单一存储模型,效率 低、性能差
2. 难以充分利用计算资源 3. 无法应对时空大数据存储
1. 分布式存储模型 2. 运行在分布式存算一体化环境,
检索资源利用率高
3. 专门应对时空大数据存储
地理空间大数据创新技术及应用
内容提要
地理国情大数据创新技术及应用
全国土地大数据创新技术及应用
高分遥感大数据创新技术及应用
点云数据高性能计算创新技术及应用
后云时代技术创新——雾计算
GIS-Transforming our World
地理国情大数据创新技术及应用
GIS-Transforming our World