大数据平台方案设计

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

项目技术方案

大数据平台方案设计

1.1需求分析

1.1.1采购范围与基本要求

建设XX高新区开发区智慧园区的人口库(12万居民)、法人库(1200家企业)、地理信息库(已建设区域35平方公里的3维电子地图、未建设区域80平方公里的航拍电子地图)、视频库(1000个摄像点)、大数据处理平台、数据管理服务平台。

1.1.2建设内容要求

1.1.

2.1人口库

人口库的基本信息以公安部门户籍和暂住人口信息为基础,整合人社、计生、民政、教育等多个部门信息资源,建设统一规范的人口库和人口信息服务平台。

(1)人口库的内容目录

数据库层:能够安全存储人口库的内容目录中列出的信息内容,对居民、企业、政府提供安全的人口信息服务,为人口大数据分析提供基本数据源。

应用支撑层:包括门户框架、数据库维护、报表组件、数据挖掘等,用于为应用层提供应用支撑。数据挖掘提供常见的数据分析/挖掘工具、通用算法,利用大数据平台的计算能力进行分析,对人口库数据进行数据挖掘与发现,提供有价值的分析结果。

应用层:包括人口信息服务、人口专题分析、公共服务等。

1.1.

2.2法人库

法人库以工商部门的企业信息为基础,整合各参建部门系统中的法人信息,如机构代码、机构名称、机构类型、经济行业、业务经营范围、机构地址、法定代表人等字段信息,建成标识统一、结构科学、查询快捷、动态管理的法人信息库。制定与交换平台对应的相关标准、制度和规范管理体系,实现工商局、地税局、国税局、质量技术监督局等法人数据相关业务部门之间的网络互联和业务数据的实时交换与应用。

(1)法人库的内容目录

数据库层:能够安全存储法人库的内容目录中列出的信息内容,对居民、企业、政府提供安全的法人信息服务,为法人大数据分析提供基本数据源。

应用支撑层:包括门户框架、数据库维护、统计与报表组件、数据挖掘等,用于为应用层提供应用支撑。数据挖掘提供常见的数据分析/挖掘工具、通用算法,利用大数据平台的计算能力进行分析,对法人库数据进行数据挖掘与发现,提供有价值的分析结果。

应用层:包括法人信息服务、法人专题分析、公共服务等。

1.1.

2.3地理信息库

以国土资源部空间地理数据框架作为基础,采用分布式存储并行计算的技术思路统一搭建地理信息库,再与智慧园区建设涉及的各类专题图层进行融合、关联,实现统一共享,逐渐形成XX高新区权威、丰富的地理信息数据库。要求根据不同信息资源类别,提供数据库表结构设计。

地理信息库维护文件主要提供地图基本操作、地图测量、图层控制、空间分析等信息服务功能。

地理信息库配置一套高性能GIS工具软件,基于高性能云GIS平台搭建,实现空间数据的统一管理,完成空间数据检查、转换、入库、管理、制图显示、服务发布等一系列空间数据分析处理功能。

(1)地理信息库的内容目录

数据处理:格式转换、坐标转换、属性编辑、数据裁切。

数据质检:矢量数据检查、栅格数据检查、三维模型数据检查、元数据检查。

入库更新:矢量数据入库、影像数据入库、三维模型数据入库、元数据入库。

数据输出:矢量数据提取、栅格数据提取。

查询浏览:地图浏览、数据加载、SQL查询、空间查询、数据对比浏览、元数据查询。

历史数据管理:历史版本数据比较、版本数据提取。

系统管理:权限管理、日志管理、备份恢复。

1.1.

2.4视频库

(1)视频库的内容目录

与视频监控系统的接口、视频入库、视频目录管理、视频文件管理、视频特征文件生成、视频检索、视频异常发现等。

1.1.

2.5大数据处理平台

(1)大数据基础平台

提供基础管控、基础服务的大数据基础支撑功能。大数据基础平台要充分利用目前先进的大数据处理技术,保证系统技术的前瞻性和先进性。大数据基础平台要求提供海量数据的采集、存储、计算、接口服务能力;需要满足海量、异构的大数据的存储、共享、开放及分析挖掘方面的要求;需要采用主流的大数据的技术架构,全面满足结构化数据、半构化数据及非结构化数据的存储、处理及计算要求;提供多种数据采集工具,支持多种格式数据采集;提供接口服务,供二次开发应用等。

大数据基础平台要求能够管理大数据中心集群的物理服务器资源,控制分布式程序运行,隐藏下层故障恢复和数据冗余等细节,为大数据处理平台提供统一的管理、监控、维护等日常管理功能。主要包括:资源管理、安全管理、运维管理、集群部署及监控、任务调度等功能,同时配备友好的管理界面。

①数据采集要求

大数据处理平台数据主要来自数据资源中心,包括基础库(人口库、法人库、地理信息库、视频库)数据、主题库(业务数据库)数据和互联网数据,同时也支持其他外部系统数据来源。数据采集系统要求提供多种数据采集工具,支持多种格式数据采集。对于结构化数据、非结构化数据以及网络数据采用不同的采集工具进行数据导入。支持多种数据采集方式,比如ETL、FTP、文件导入导出、关系数据库数据等。

②分布式存储要求

平台能够根据结构化数据和非结构数据的不同特点,分别提供数据仓库和分布式列式数据库存储服务,底层支撑技术支持分布式文件系统,所有的数据可以形成多份副本均匀分布存储在各个服务节点的存储上,保证数据可靠性和提高读写效率。

③大数据计算引擎要求

离线计算引擎(Mapreduce):离线分布式计算作为一个海量结构化数据离线处理与分析服务,着力于实时性要求不高的海量数据(TB/PB级别)离线处理。支持并行化、容错、数据分布、负载均衡。离线计算引擎需要具有PB级的存储处理能力和计算吞吐能力,支持多应用多实例并发同时计算并隔离应用数据和程序的能力。

支持Mapreduce等批量数据分布式计算框架。

支持分布式内存计算框架。

支持作业查询预处理调度算法,可根据业务属性对指定的多个队列按照优先级的配置进行任务的提交。

具备高可靠性,支持主控节点双机,避免单点故障不可恢复。

具备高度可扩展,可动态增加/削减计算节点,真正实现弹性计算。

支持离线计算组件界面配置化,可以对配置进行查看和修改,并立刻生效。

支持离线计算组件性能指标界面可视化,通过界面实时监控组件性能指标。

支持多租户权限管理能力,支持不同用户之间的资源隔离。

支持多应用多实例并发同时计算并隔离应用数据和程序的能力。

内存计算引擎(Spark):基于内存的框架,适用于需要多次操作特定数据集的应用场合。由于中间输出和结果可以保存在内存中,从而不再需要读写分布式文件系统,能更好地适用于数据挖掘与机器学习等需要迭代的算法。

相关文档
最新文档