大数据平台描述
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据平台在系统结构上包括数据采集系统、数据库管理系统、数据融合系统、资源服务管理系统、平台管理系统、任务调度管理系统、数据分析系统、数据可视化系统,如图所示:
图:大数据平台系统结构
1.1.1.1数据采集系统
1)系统概述
数据采集子系统通过多种方式和途径,把政府和企业各个部门的数据、物联网的数据、互联网的数据汇聚到大数据中心。
基于大容量、消息和事件的数据导入,面向不同格式的结构化、非结构化和流形式的城市数据,提供易于运营的多种数据源管理和格式转换以及原始数据的临时存储。
2)系统结构
数据采集子系统通过丰富多样可供选择的采集方式,包括系统直采填写、数据导入、数据交换、网络抓取、API接口调用、感知设备
对接等多种方式把政府和企业各个部门的数据汇聚到数据服务中心。
数据格式包括传统的结构化数据,或视频、录音、图片、文本等非结构化的数据,并可实现采集自动归类和预处理。
其基本原理如下图所示:
图:数据采集总体架构
数据采集子系统通过不同数据节点,通过数据的推拉,将政府和企业各部门的数据汇聚到数据服务中心,形成数据服务中心的基础数据资源库。
3)系统功能
数据采集系统的功能包括数据源管理、指标项管理、集群管理、流程管理、流程日志、服务日志、插件管理。
(1)数据源管理:数据源管理主要解决政府各个部门、互联网爬取站点和物联网设备的数据源注册和管理,目前系统支持数据源包括:MySQL数据库、Oracle数据库、Hbase、Hive、NoSQL数据、云数据库、大文件系统、小文件系统等各种关系性数据库和非关系数据库。
数据源中存储了所有建立数据库连接的信息,就象通过指定文件名可以在文件系统中找到文件一样,通过提供正确的数据源名称,用户可以找到相应的数据库连接;能够实现多类型数据源的注册、查询和管理等功能。
(2)指标项注册:包括采集指标项注册,下发指标项注册,对需要做共享交换的数据进行登记,配置好交换数据的源和目标,这个功能就是对所有指标项做统一的管理。
(3)集群管理:集群是一组相互独立的、通过高速网络互联的计算机,它们构成了一个组,并以单一系统的模式加以管理。
一个客户与集群相互作用时,集群像是一个独立的服务器;集群配置是用于提高可用性和可缩放性;集群管理就是对所有的节点机的管理,包括节点机的激活,禁用,并对激活的节点机进行监控。
(4)流程管理:包括规则定制,流程定制,任务定制,流程监听和任务监听等模块。
流程管理是在多个参与者之间按照某种预定义的规则流程传递信息,或让任务的过程自动进行,从而实现预期的业务目标实现。
流程管理是业务整合的关键控制链,是业务协同处理的中心集成者和管理者。
规则定制解决交换过程中库之间格式不能正常交换等问题,在流程定制时根据需求选择规则来定制流程;流程定制完全是拖拽方式,可定制化流程配置即可实现数据传输;添加,启动任务调度流程运行,可设置任务执行的生效时间,频率;可分别对流程和任务做监听。
(5)监控管理:主要是对各种不同的数据源采集过程进行监控,
能监控到每一批数据采集的结果,能统计到每天数据采集的结果,通过监控管理能很清楚的了解数据汇聚的全部情况,为数据采集提供了良好的运维支撑。
(6)日志管理:包括,流程日志和服务日志,流程日志用于流程运行监控;服务日志,用于系统运行监控。
(7)插件管理:包括基础插件、数据库插件、本地文件、FTPServer、Windows远程共享、Linux远程共享目录、Cloud File。
1.1.1.2数据库管理系统
1)系统概述
数据库管理子系统为城市数据采集的结构化数据、非结构化数据的提供云存储和管理服务,存储和丰富日常操作数据的数据库系统和集中整合不同行业的历史和当前数据的数据仓库,实现各类数据按照约束条件进行汇聚,并提供数据访问的安全策略执行,并按照数据安全服务协议提供数据信息服务,实现对城市信息资源的统一汇聚和监控。
2)系统结构
数据服务中心对采集后的数据进行统一的存储,由计算节点的本地磁盘、存储阵列、分布式文件系统(如HDFS、CFS、GLUSTERFS等)、NAS等组成。
具体数据存储包括但不限于分布式文件系统、分布式缓存、分布式数据库和分布式索引等多种方式存储,既实现数据调用的灵活性和及时性,又保证数据的汇聚和融合的高效性。
数据库管理子系统根据数据类型和特征采用分层建模,方便数据管理,提高数据查询的速度。
数据库管理基本结构如下图所示:
图:数据库管理结构模型
3)系统功能
数据库管理系统的功能包括仪表盘、数据库管理、索引管理、数据导入导出、数据备份管理、文件存储管理、文件导入导出、文件备份管理。
(1)仪表盘:数据源表统计;
(2)数据库管理:数据存储配置、表管理、数据浏览;
(3)索引管理:索引库管理、索引表管理、索引规则定制、索引数据浏览;
(4)数据导入导出:数据导入、数据导出;
(5)数据备份管理:备份规则、备份任务、备份日志;
(6)文件存储管理:文件存储配置、存储路径配置、文件数据浏览;
(7)文件导入导出:文件导入、文件导出;
(8)文件备份管理:备份规则、备份任务、备份日志。
1.1.1.3数据融合系统
1)系统概述
数据融合子系统通过对采集的海量数据进行清洗、格式转换、时空化处理、关联、重组等操作,实现政务数据、互联网数据、物联网数据和互联网地图数据的按照“时间、空间、属性”三个维度进行融合,构建公共信息资源新次序,形成基础库、主题分析库,满足各业务系统基于地图进行处理和分析的需求,最终为管理和决策提供数据支撑。
2)系统结构
数据融合通过连接所需多源数据库并获取相关数据,研究和理解所获得的数据,梳理和清理数据,数据转换和建立结构,数据组合,建立以产生决策智能为目标将多种数据源中的相关数据提取、融合、梳理整合成一个分析数据集,通过服务发布,满足数据服务和数据应用需求,数据融合的总体架构如下图所示:
图:数据融合系统架构
3)系统功能
(1)数据源管理:数据源管理主要解决政府各个部门、互联网爬取站点和物联网设备的数据源注册和管理,系统支持数据源包括:MySQL数据库、Oracle数据库、Hbase、Hive、NoSQL数据、云数据库、大文件系统、小文件系统等各种关系性数据库和非关系数据库。
数据源中存储了所有建立数据库连接的信息,就像通过指定文件名可以在文件系统中找到文件一样,通过提供正确的数据源名称,用户可以找到相应的数据库连接;能够实现多类型数据源的注册、查询和管理等功能。
(2)流程定制管理:包括规则定制、流程定制、任务定制等模块。
流程管理是在多个参与者之间按照某种预定义的规则流程传递信息,或让任务的过程自动进行,从而实现预期的业务目标实现。
流程管理是业务整合的关键控制链,是业务协同处理的中心集成者和管理者。
规则定制解决交换过程中库之间格式不能正常交换等问题,在流
程定制时根据需求选择规则来定制流程;流程定制完全是拖拽方式,可定制化流程配置即可实现数据传输;添加,启动任务调度流程运行,可设置任务执行的生效时间,频率。
(3)云节点管理:云几点管理就是对所有的节点机的管理,基本信息如节点名称,节点IP,节点端口,web端口,包括节点机的激活,禁用,并对激活的节点机进行监控。
(4)日志管理:日志管理包括流程日志和操作日志两个板块;流程日志显示流程的执行状态,开始时间,结束时间并可查看本流程中所有插件的执行情况,包括插件名称,输入总数,输出总数,错误总数并记录运行时间;操作日志对每个使用系统的人员操作进行记录,显示操作结果和操作内容。
1.1.1.4资源服务管理系统
1)系统概述
资源服务管理系统对数据资源全生命周期的管理,对数据资源进行编目、发布、以服务的方式对外提供数据服务。
资源服务管理子系统作为数据服务中心SOA架构的基石,提供服务注册、应用适配、协议适配、消息转换、格式转换、智能路由、服务管理、服务编排、实时监控、多级互联、安全传输、安全验证、日志等功能,将分散的各应用系统以标准服务的形式联通为一个有机的整体,有效实现系统间的信息解耦,进而促进各应用系统之间的协作、以及信息的互联互通,解决阻碍智慧城市建设快速发展的信息孤岛问题。
2)系统结构
资源服务管理系统作为所有接入服务的开关,为城市的整合应用提供资源服务,对数据服务中心的各类服务进行统一接入、统一管理、统一授权发布和服务安全管理。
系统总体架构如下图所示:
图:资源服务管理系统架构
资源服务管理采用基于动态可插拔组件的系统架构,提供开放的、有针对性的二次开发API接口/SDK,使资源服务更容易与现有业务系统融合,为用户提供更高效、更稳定的服务。
同时,建立统一的资源服务体系,实现城市基础资源多级联动的互联互通。
3)系统功能
资源服务管理系统包括大数据中心和资源服务管理。
(1)大数据服务中心:包括数据集市、服务集市、个人中心、开发者中心。
(2)资源服务管理:包括数据采集管理(采集目录注册、指标
项管理、采集过程监控)、数据融合管理(规则定义、清洗比对规则、清洗比对结果、人工审计)、数据中心管理(数据目录定义、数据血缘分析、数据关联分析、数据中心数据监控)、资源发布管理(数据发布目录、服务发布目录)、资源审批管理(资源申请审批、资源共享审批)、资源使用统计(数据使用统计、服务使用统计)。
1.1.1.5平台管理系统
1)系统概述
平台管理系统作为数据服务中心的管理控制中心,为平台管理和平台运行提供系统支撑。
管理平台子系统是以各类硬件设备、应用平台、应用系统等云资源以及数据中心的服务对象作为管理对象,实现IT资源的全生命周期一站式服务,支持跨异构系统部署和应用,包括数据服务中心的调度、管理、监控、服务和运营。
2)系统结构
平台管理系统根据不同的用户需求,动态配置、调度各类软、硬件资源,实现用户应用环境的动态弹性扩展,满足客户的服务需求。
为用户提供高安全、高性能、可扩展、可管理和可伸缩的全面保障IT 资源保障。
通过平台管理为数据服务中心的监管部门、监管人员、管理部门、管理人员、使用部门、使用人员等相关组织和人员,进行严格的分级、分类授权管理。
通过平台运行支持,建立平台快速高效的运维管理体系。
系统总体架构如下图所示:
图:平台管理系统架构
3)系统功能
平台管理系统包括用户权限、组织机构、菜单授权、应用的快速部署等功能模块。
(1)自助服务:为各类用户提供一站式自助服务门户,满足不同用户的应用需求。
通过自助服务门户可以实现云服务产品查询、云服务申请等服务功能。
(2)资源管理:实现各类云服务资源的管理,包括物理机资源、虚拟机资源、应用平台和应用系统的管理。
(3)应用管理:实现对云资源的统一监控、性能管理、预警管理、故障报警等。
(4)运营管理:实现IT服务的订单管理、计量管理、计费管理等,满足企业IT运营管理的需求。
(5)服务产品管理:用户提供的资源和资源集合的服务模版,用户可以根据自己的需求对这些服务模版进行配置订购。
(6)安全管理:实现对系统用户的身份认证、访问控制、综合防护等功能。
(7)服务台管理:以ITIL V3为基准,规范化数据中心的IT运维管理流程。
1.1.1.6任务调度管理系统
1)系统概述
任务调度管理系统应用于数据服务中心所有数据处理工作的统一执行调度,基于元数据的数据关系和资源感知,实现零配置的调度任务生产;调度平台与开发平台是统一的,开发平台形成数据流形成实时的元数据信息,开发完成后上线无需在进行调度配置,从而充分发挥元数据管理的优势,为数据、程序、模型、系统的优化工作提供真实可靠的信息。
2)系统结构
利用任务调度可视化界面创建任务,支持基于内部调度任务,也支持基于外部接口的任务,在此基础上可将任务进行细分成多个任务,形成调度任务线程池。
如下图所示:
图:任务调度管理系统架构
3)系统功能
任务调度管理系统包括采集任务调度、资源调度、优先级设定等,任务调度能力包括任务调度配置、任务调度运行、资源控制、调度策略、调度监控等功能。
(1)任务管理:相关功能依据所配置的任务驱动条件启动调度任务,对调度流程的新增、修改、删除,调度任务分配执行,并向执行代理客户端发送任务,代理执行完成后返回任务执行结果和日志。
跨平台任务调度:能够跨平台的统一任务作业调度能力。
(2)任务调度配置:通过对图形化组件进行拖拽、流程连接等页面操作,完成调度配置。
(3)智能调度运行:传统的调度平台需要人工去配置作业流程、运行时间窗口,调度系统能够对资源情况智能调度运行。
(4)资源控制:可以将各种运行操作资源、权限合理的分配给作业,使核心权限得到有效保护,资源得到合理利用。
(5)优先级管理评估:根据静态优先级评估计算、动态优先级
评估计算,实现调度系统根据优先级执行任务。
(6)调度策略管控:前台页面提供简单任务逻辑的组合处理及配置,支持多个平台独立调度,及多个平台间依赖调度,对各种各样的调度情况提供统一的策略管控。
(7)调度全面监控:能够监控多种作业的执行情况,并分析作业执行效率,发现作业执行的关键环节。
(8)集中的作业告警与错误反馈:统一的作业告警,支持多种告警方式,并集中作业运行错误反馈,将问题日志抓取在平台统一查看。