矢量大数据分析利器
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
提高速度:美国金融违规交易分析(从不可以到可以)
10亿条美国金融交易数据
18个节点 每个节点8 Cores 每个节点24 GB RAM
10亿个点的时空联系
1 公里半径 1 小时时间窗口 分析向同一个银行转账的交易
<1 小时即可得出结果
找出可疑交易 辅助税务管理
ArcGIS 大数据分析工具效率对比(从慢到快)
• Esri美国:
- 4 核CPU/节点 - 16 GB 内存/节 - S3对象存储 - 基于Amazon云环境
• 数据内容:
‐ 2015年1-12月份 ‐ 纽约街区打车数据 ‐ 1.7亿点,4万街区面 ‐ 点聚合分析,1km六边形格网
1 节点 (传统)
60
缓冲分析
50
40
1 节点
4节点
16节点
30
ArcGIS 管理的数据源
GeoAnalytics Server - 系统架构图
WebAdaptors
1
Portal
2
ArcGIS Pro,
6
Portal,
Hosting
REST API
Server
Spatiotemporal ArcGIS Data store
GeoAnalytics Server
(大数据) (大数据)
(大数据)
20
10
0
1
2
4
8
16
32
64
1 节点 (传统)
30
25
20
15
10
5
0
1
2
网格点聚合
1 节点 (大数据)
4节点 (大数据)
16节点 (大数据)
4
8
16
32
64
1 节点 (传统)
多边形聚合
50
45
40
35
30
1节点
4节点
16节点
25
(大数据)
(大数据)
(大数据)
20
15
网络瓶颈
现在的Server集群
大数据分析引擎
分布式存储
Spark
Spark
Spark
Spark
一个任务可以通过分布式计算快速得到结果
GeoAnalytics Server - 系统架构图
Pro Portal Insights
Python Portal
新的 Web GIS 图层 Web GIS Layers
Relational data store
ArcGIS Data Store
Tile cache data store
Spatiotemporal big data store
ArcGIS GeoAnalytics Server中包含的开源框架
GeoAnalytics Server 集群
Spark 1.6.0
ArcGIS GeoAnalytics Server 矢量大数据分析利器
目录
• GA简介 • 为什么要使用GA • 大数据工具使用介绍 • 部署与配置 • 效率优化与常见问题 • 总结
GeoAnalytics Server是什么
• ArcGIS GeoAnalytics Server介绍
ArcGIS GeoAnalytics Server介绍
• 1 如果你想利用ArcGIS Desktop做更多的事情 - 处理单机处理不了的大数据 - 接入其他大数据文件
• 2 如果你想在任何平台上自动化对大数据进行空间挖掘 - 与常规工具组成大数据分析工作流 - 跨平台使用 - 多语言、多种终端调用
• 3 如果你想寻找一个“开箱即用”的时空大数据分析产品 - 简单的部署安装 - 快速上手
M1
M2
M3
GeoAnalytics Tools GP Service
4 3
Compute platform
Compute platform
Compute platform
5
为什么要GeoAnalytics Server?
GeoAnalytics Server产品目的及使用场景
使用GeoAnalytics的理由
GeoAnalytics Server产品目的
• Purpose: Distributed server-side computing to increase the speed of geoprocessing and extend these capabilities to the web
• 目的:利用分布式计算来提高进程处理速度并将这些能力扩展到Web上
四、道路流量统计结果分析
我们对福建全省的高速公路进行了汇总统计,下图是汇总渲染结果 右图是提取的泉南高速和银福高速的地图展示效果和统计图展示
泉南高速 银福高速
沈海高速
21-23均值
18-20均值
15-17均值
0 4500 9500 14500 19500 24500 29500 34500 39500 44500 49500 54500 59500 64500 69500 74500 79500 84500 89500 94500 99500 104500 109500 114500 119500 124500 129500 134500 137500 142500 147500 152500 157500 162500 165500 170500 175500 180500 185500 190500 195500 200500 205500 210500 215500 220500 225500 230500 233500 238500 243500 248500 253500 258500 263500 268500 273500 278500 283500 288500 291500 296500 301500 306500 311500 316500 321500 326500 331500 336500 341500 346500 351500 356500 361500 366500 367500 367500 372500 377500 382500
什么是ArcGIS GeoAnalytics Server
• ArcGIS has a new way of processing vector and tabular data with both spatial (location) and temporal (time)components that is designed for fast distributed analytics and storage
数据管理 复制到数据存储
不同一般的大数据分析工具
• 空间+时间维度 • 6个基于时间的分析工具
时空立方体
• Points into Bins
Server 集群
可以通过Pro、Portal、 Insights、
python以及Rest API 调用大数据工具
FiFleiles s
Enterprise Data Stores Big Data File Shares Big Data Stores
用户管理的数据源
Relational Spatiotemporal Data Store Data Store
分布式计算框架
ZooKeeper 3.5.0
分布式应用程序协调服务组件
RabbitMQ 3.2.3
用于在分布式系统中存储转发 消息的组件
之前的集群与现在的分布式计算的区别 以前的Server集群
任务1 soc
任务2 soc
任务3 soc
任务4 soc
通过集群可以启用多个SOC进程并发 处理多个任务
8 6 4 2 0
0 4500 9500 14500 19500 24500 29500 34500 39500 44500 47500 52500 57500 62500 67500 72500 77500 82500 87500 92500 97500 102500 107500 112500 117500 122500 127500 132500 137500 142500 147500 152500 157500 162500 167500 172500 177500 182500 187500 192500 197500 202500 207500 212500 217500 222500 227500 232500 237500 242500 247500 252500 257500 262500 267500 272500 277500 282500 287500 292500 297500 302500 307500 312500 317500 321500 322500 326500 331500 336500 341500 344500 349500 354500 359500
提高速度
扩展能力
挖掘信息
提高速度:广东电信信令数据分析(从不可以到可以)
• 5个节点
- 每个节点4 Cores - 每个节点16 GB RAM
• 26亿个广东电信信令
- 5公里格网
- 1公里网格
• <1小时即可得出结果
1km格网,共42000个格网,用时2.5个小时 5km格网,共3500个格网,用时40分钟
• 示例数据:
- 路面交通的两客一危数据 - 是指从事道路班线客运(三级公路以上)、包车(旅游)客运、危险货物运输企业所属的车辆
• 每天大于80万辆车数据上线 • 每天大约13亿条数据 • 每天数据增量大于1TB
现状:
已经做了怎样的数据挖掘?
• 国交信通利用Hadoop集群进行了基于属性字段的统计与分析 • 主要包括以下几个方面:
道路流量统计结果分析
取段提取展示
取段提取展示
四、道路流量统计结果展示
大数据工具的使用介绍
• 多端调用与组合调用
大数据分析工具介绍
丰富的大数据工具集
数据汇总
聚合点 连接要素 重新构建追踪 汇总属性 范围内汇总
位置查找
查找相似位置
分析模式
计算密度 查找热点 时空立方体(pro)
邻近分析
创建缓冲区
公路里程
有明显的车流量减少现象
公路里程
有明显的车流量增加现象
21-23均值
18-20均值
15-17均值
道路流量统计结果分析
泉南高速9月17日15-24时按公里数统计数据
车流量
40 35 30 25 20 15 10
5 0
银福高速9月17日15-24时按公里数统计数据
车流量 18
16 14 12 10
- 车辆流向统计 - 车辆异地经营统计 - 车辆运营半径统计 - 车辆运行时段统计 - 日行驶里程统计 - 货运区域分析 - ……
空间分析需求
我们的优势!
• 哪些道路测流量较大,每公里的车流量是怎样的? • 一条繁忙的道路车流量是怎样变化的?
三、道路运载力统计分析——点聚合分析
• 90G数据量 • 6亿4千+条记录 • 2台节点 • 点聚合 • 一个半小时
查找相似位置
分析模式
计算密度 查找热点 时空立方体(pro)
邻近分析
创建缓冲区 数据管理
复制到数据存储
场景1:广州信令大数据挖掘分析
背景情况
• 5个节点
- 每个节点4 Cores - 每个节点16 GB RAM
• 26亿个广东电信信令
- 5公里格网 ,共3500个格网,用时40分钟 - 1公里网格,共42000个格网,用时2.5个小时
10
5
0
1
2
4
8
16
32
64
扩展能力
• GeoAnalytics大大增强了ArcGIS的数据分析能力
地理处理工具
大数据分析
Web GIS 平台
Portal
分布式的计算和存储
more
new
extends
挖掘信息(能为用户带来什么价值?)
数据汇总
聚合点 连接要素 重新构建追踪 汇总属性 范围内汇总
位置查找
• GeoAnalytics Server是ArcGIS利用快速的分布式计算和存储专门用来处理带有时间和空 间属性的矢量或者表格数据的新产品
• 它Байду номын сангаас以下特点:
• 分布式架构 • 开箱即用 • 支持多种数据源 • 多终端访问
ArcGIS GeoAnalytics Server在10.5产品体系中的地位
ArcGIS GIS Server
ArcGIS Image Server
ArcGIS Enterprise
ArcGIS Server
ArcGIS GeoAnalytics Server
Portal for ArcGIS
ArcGIS GeoEvent Server
ArcGIS Web Adaptor ArcGIS Business Analyst Server
应用1:基于信令分析经济活动的空间聚集规律
应用2:基于信令分析道路交通流量与拥堵规律
应用3:基于信令辅助地铁周边商业选址分析
应用4:基于信令分析城市活动的时空变化规律
场景2:国交信通两客一危大数据分析
背景
• 单位背景:交通运输部直属事业单位,负责交通运输行业通信、导航、无线电和信息化政策 制定,国际海事卫星、搜救卫星系统的建设、运维、管理等相关工作……(见备注)