ArcGIS地理大数据平台配置及性能优化策略
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
ArcGIS Data Store
X,Y 影像大数据平台 矢量大数据平台 实时大数据平台
GIS Server
提供GIS服务器能力
Geocoding
Business Analyst
Raster Analytics
GeoAnalytics Server
GeoEvent Server
GeoAnalytics Server
– 举例1,同时执行一个任务:集群中有三个节点,每个节点配置: 4core、12G内存,那么集群中总资源为:12core、48G内存。 同时执行一个任务时,GeoAnalytics参数设置计算: 12core x 80%=9.6core,16G x 80%=12.8G内存,结果取整,参数设 置为:CPU:9,内存:12。设置参数:
• • Maximum allowed memory per job per machine (GB): 6 Maximum allowed compute cores per job (CPU):4
2、软件平台性能|GeoAnalytics实例数
• 设置GeoAnalytics GP工具的最大实例数,是指可以同时运 行多少个任务数,系统默认的每个节点最大实例数为1, 集群中有三个节点,那么最大实例数为3 既:可以同时执行三个分析任务: 当前有一个任务正在执行:
10分钟
10%
38%
20%
78%
实践3:系统参数影响|面状数据统计
• 测试数据、分析内容
测试
耕地质量等别数 基期地类图斑数
据 100万条 据 100万条
数据描述
分析内容
1
2
200万条
200万条 数据类型为shp文件
Summarize Within叠
加,以TBMJ字段做 统计
3
480万条
1000万条
ArcGIS地理大数据平台配置及性能优化 策略
刘春影
目录
1、ArcGIS GeoAnalytics介绍 2、性能影响因子 3、性能优化实践 4、配置方案参考 5、总结
ArcGIS GeoAnalytics介绍
什么是ArcGIS GeoAnalytics
1. 对时空数据进行分布式计算处理的新平台
方案一 方案二
8core 8core
16G 64G
39分钟 9分钟
60% 90%
>95% ~50%
实践2:内存利用率|点聚合性能测试
• 方案一,内存利用率
• 方案二,内存利用率
实践2:DataStore内存密集型|copy to datastore
• 测试场景:
测试场景
基期地类图斑 (模拟)
存储类型
3、结果存储|Big Data Store
• • • • 分布式存储 横向扩展 高效检索 备份机制
4、内容发布、可视化显示
丰富的分析工具 5大类,11小类
涵盖了点、线、面的统计、分析、管理 汇总数据
• • • • • 聚合点 连接要素 轨迹构建 汇总属性 范围内汇总
分析模式
• • • • 计算密度 查找热点 创建时空立方体 创建缓冲区
1、输入数据
| 发布成服务
1、准备数据
2、选择注册大数据文件共享
3、输入数据路径注册
1、输入数据 | 服务查看
查看服务清单
查看服务目录
Portal里查看服务
2、分布式计算|与传统GIS Server处理区 别
传统GIS Server处理并发请求: • 启动多实例
GA Server大数据分布式计算: • 分解多个task
用率
40% 52%
率
55% 48%
率
40% 41%
方案一 方案二
方案三
方案四 方案五 方案六 方案七 方案八
480万
480万 480万 480万 480万 480万
1000万
1000万 1000万 1.3亿 1.3亿 1.3亿
80%
70% 60% 80% 70% 60%
37
42 45 54 60 60
临近分析
数据管理 • 拷贝到DataStore
位置查找
• 查找相似位置
性能影响因子
谈及性能,我们在谈什么?
响应时间
?
系统吞吐量
?
资源利用率 ?
是指系统正常运行时,各项计算资源利用率维持在理想范围内,且遇到峰值
访问时,依然保持健壮性、稳定性运行、具备良好扩展性、延展性的一种能 力
而这种能力,需要硬件平台、软件平台、部署模式、软件配置等各项指标综
4
480万条
1.3亿条
实践3:系统参数影响|面状数据统计
• 测试结果
场景 耕地质量 基期地 类图斑 系统参 数 耗时 GA CPU GA内存利 Datastore Datastore CPU利用 内存利用
等别数据
100万 200万
数据
100万 200万 80% 80%
(分钟) 利用率
4.4 25 84% 75%
云存储 • 优点: • 高可扩展性 • 高容错性 • 高吞吐量 • 缺点: • 需要专业的 运维
3、数据组织|③运行场景
关于计算、分析的理解:
– 计算:找出这间屋子里谁个子最高 – 分析:找出这间屋子里谁跟谁关系最好
内容分析:需要关联更多属性,消耗资源更多 • 点聚合统计:属于空间计算 • Join连接:属于空间分析,如分析出从一个ATM机,到另一 个ATM机的转账记录,要求一小时以内、且转出ATM机之 间距离在1KM以内、且转账金额为5万美金以内的要素 相同数据规模下,Join工具消耗资源更高!
2、分布式计算|与传统GIS Server区别
两者比较 数据量 数据来源 响应时间 处理过程 处理结果
GIS Server并发处理 百万、千万级 File、DBMS 秒级 多进程 响应出图
GA分布式计算 亿级数据 File、HDFS、Hive、 cloudStone 秒、分钟、小时 DAG 返回新要素
2、软件平台性能|GeoAnalytics参数配置
• 参数设置:站点(根) > System > GeoAnalyticsTools>参数
– CPU参数:是针对集群中总CPU核数进行设置 – 内存参数:是针对每个GA节点进行设置
2、软件平台性能|GeoAnalytics参数配置
• GeoAnalytics参数设置举例:
2. 时间、空间、属性多维分析 3. 可以结合现有数据分析、不仅仅局限于大数据 4. 可以在Portal、Pro中快速使用分析工具
ArcGIS GeoAnalytics地位
ArcGIS Enterprise
ArcGIS Web Adaptor
Portal for ArcGIS
ArcGIS Server
大数据成果库
1、输入数据 | 类型、来源
Web GIS Layer • 要素服务
Big Data File Share • • 分隔符文件(csv,tsv..) Shapefile
来源:
• • File GDB DBMS
来源: • File(CIFS、NFS) • HDFS • Hive • 云存储
CPU
虚拟化环境中,不建议过量使用
内存
虚拟化环境中,不建议过量使用
网络
管理网络、数据传输网络相分离
存储
高性能本地存储、独立存储
2、软件平台性能
1. 系统参数配置 2. GeoAnalytics参数配置 3. GeoAnalytics参数实例数配置
2、软件平台性能|系统参数
• 配置路径:Server Admin: Home > system > properties • 默认:80%,(既分布式运行框架,可以消耗的主机资源上限) • 编辑:根据运行情况,可以手动修改
4、部署模式
单机部署:
• 测试环境
• 计算集群:GA节点配置、数量 • 存储集群:spatioltemporal节点配 置、数量
集群部署:
性能优化实践
典型大数据分析场景
场 景 与 资 源 消 耗
CPU计算密集型
内存密集型 磁盘I/O密集型 网络I/O密集型
如点聚合运算(Aggregate Points)
合衡量
性能影响因子
1、硬件资源:
• • CPU、内存 网络、存储
2、软件平台:
硬件 平台
1 2 4 3
软件 平台 部署 模式
• • •
平台配置 参数调整 运行场景
3、数据组织:
•
• •
数据类型
数据来源 接入形式
数据 组织
4、部署模式:
• • 物理环境 虚拟化
1、硬件平台性能
可以没有长版 但不能有短板
如属性关联运算 ( Join )、 缓 冲区分析( Buffer)
大数据分析过程、结果数据写入
空间数据读取读取、加载过程
分析场景与资源利用
不同分析场景、对系统资源利用率概览:
实践1:CPU密集型运算|GA CPU利用率
点聚合运算,对GA CPU利用率较高
实践1:CPU密集型运算|DataStore CPU利 用率
3、数据组织
• Feature Service • bigdata file share
数据 1 类型
• •
csv shp
存储 2 形式
运行 3 场景
• 文件型存储 • 分布式存储 • 云存储
• 计算密集型 • 网络I/O密集型 • 磁盘I/O密集型
3、数据组织|①数据类型
数据预 处理
数据集 准备 Bigdata file share
Feature Service
3、数据组织|②数据存储形式
File
HDFS
Hive
CloudStone
•
公共存储: • Windows共享 • Linux共享 • 优点: • 使用便捷 • 缺点: • 性能瓶颈
• • 分布式文件存储 • 优点: • 海量数据处理速度快 • 冗余机制 • 缺点: • 大量小文件存储不适合
• •
分析流程: 1、输入数据源
Pro Portal Python Web GIS Layers
•
• •
2、分布式计算
3、结果数据库 4、内容发布
Portal
Server 集群
Files Files
wenku.baidu.com
Feature Services
Big Data File Shares
关系型数据库 时空大数据库
大数据分析源
• • Maximum allowed memory per job per machine (GB): 12 Maximum allowed compute cores per job (CPU): 9
2、软件平台性能|GeoAnalytics参数配置
GeoAnalytics参数设置举例:
– 举例2,同时执行两个任务,集群中有三个节点,每个节点配置: 4core、12G内存,那么集群中总资源为:12core、48G内存,同时执 行两个任务时,参数设置:12core x 40%=4.8core,16G x 40%=6.4G 内存,结果取整,参数设置为:CPU:4,内存:6。设置参数:
拷贝数据到Relational ,对DataStore CPU利用率较高
实践2:内存密集型|点聚合性能测试
• 测试数据
测试 测试场 景 数据量 3000万条 数据结构 较为复杂
数据描述
2014年纽约出租 车运行数据
分析内容 1km格网,点聚 合
• 测试结果
测试 CPU 内存 耗时
CPU资源利用
率
内存利用率
场景描述
copy
datastore
to
1000万
HDFS
1000万条基期地类图斑数据,由
HDFS分布式存储,拷贝到 Spatiotemporal时空大数据存储
• 测试结果:
测试场景 耗时 GACPU利 用率 copy datastore to GA内存 利用率 DataStore CPU利用率 DataStore 内存利用率
实践小结
系统性能优化是一个反复实践的过程!
综合影响因素:数据规模、分析场景、参数设置、节点配置
不要忽略了DataStore!
1. DataStore时空大数据存储,建议采用本地磁盘 2. 亿级数据,数据源采用HDFS分布式存储 3. 系统参数,设置为80%时最优
部署模式
基础WebGIS+分布式存储+分布式计算
80%
78% 82% 85% 85% 78%
68.5%
64% 61% 81.5% 78% 60%
50%
47% 41.9% 42% 49% 52%
40.5%
40.3% 41.2% 40.7% 41% 41%
实践3:系统参数影响
实践表明:系统参数设为系统默认时(既 80%),性能 最优
实践4:不同存储类型性能对比
文件存储与HDFS对比
数据量大时,HDFS优势明显 数据量小时,HDFS性能不如文件存储
测试 1 2 3 4 5 6 存储形式 HDFS NFS HDFS NFS HDFS NFS 数据量 251G 251G 27G 27G 12M 12M 聚合边长 1km 1km 1km 1km 1km 1km 分析耗时 14分钟 44分钟 3.4分钟 7.9分钟 42秒 11秒