大数据分析平台技术要求
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据平台技术要求
1.技术构架需求
采用平台化策略,全面建立先进、安全、可靠、灵活、方便扩展、便于部署、操作简单、易于维护、互联互通、信息共享的软件。
技术构架的基本要求:
➢采用多层体系结构,应用软件系统具有相对的独立性,不依赖任何特定的操作系统、特定的数据库系统、特定的中间件应用服务器和特定的硬
件环境,便于系统今后的在不同的系统平台、不同的硬件环境下安装、
部署、升级移植,保证系统具有一定的可伸缩性和可扩展性。
➢实现B(浏览器)/A(应用服务器)/D(数据库服务器)应用模式。
➢采用平台化和构件化技术,实现系统能够根据需要方便地进行扩展。2. 功能指标需求
2.1基础平台
本项目的基础平台包括:元数据管理平台、数据交换平台、应用支撑平台。按照SOA的体系架构,实现对我校数据资源中心的服务化、构件化、定制化管理。
2.1.1元数据管理平台
根据我校的业务需求,制定统一的技术元数据和业务元数据标准,覆盖多种来源统计数据采集、加工、清洗、加载、多维生成、分析利用、发布、归档等各个环节,建立相应的管理维护机制,梳理并加载各种元数据。
具体实施内容包括:
●根据业务特点,制定元数据标准,要满足元数据在口径、分类等方面的
历史变化。
●支持对元数据的管理,包括:定义、添加、删除、查询和修改等操作,
支持对派生元数据的管理,如派生指标、代码重新组合等,对元数据管
理实行权限控制。
●通过元数据,实现对各类业务数据的统一管理和利用,包括:
⏹基础数据管理:建立各类业务数据与元数据的映射关系,实现统一的
数据查询、处理、报表管理。
⏹ETL:通过元数据获取ETL规则的描述信息,包括字段映射、数据转
换、数据转换、数据清洗、数据加载规则以及错误处理等。
⏹数据仓库:利用元数据实现对数据仓库结构的描述,包括仓库模式、
视图、维、层次结构维度描述、多维查询的描述、立方体(CUBE)的
结构等。
●元数据版本控制及追溯、操作日志管理。
2.1.2数据交换平台
结合元数据管理模块并完成二次开发,构建统一的数据交换平台。实现统计数据从一套表采集平台,通过数据抽取、清洗和转换等操作,最终加载到数据仓库中,完成整个数据交换过程的配置、管理和监控功能。
具体要求包括:
●支持多种数据格式的数据交换,如关系型数据库:MS-SQLServer、MYSQL、
Oracle、DB2等;文件格式:DBF、Excel、Txt、Cvs等。
●支持数据交换规则的描述,包括字段映射、数据转换、数据转换、数据
清洗、数据加载规则以及错误处理等。
●支持数据交换任务的发布与执行监控,如任务的执行计划制定、定期执
行、人工执行、结果反馈、异常监控。
●支持增量抽取的处理方式,增量加载的处理方式;
●支持元数据的管理,能提供动态的影响分析,能与前端报表系统结合,
分析报表到业务系统的血缘分析关系;
●具有灵活的可编程性、模块化的设计能力,数据处理流程,客户自定义
脚本和函数等具备可重用性;
●支持断点续传及异常数据审核、回滚等交换机制。
●提供数据交换日志审计功能。
2.1.3应用支撑平台
作为系统的支撑平台,需要支持如下功能:
●用户及权限管理,包括:用户及组织架构维护,权限管理与分配等功能。
●统一工作门户,包括:门户菜单、栏目管理与维护,门户展现、个性化
制定、单点登录等功能。
●统一消息,要求提供通讯录管理,消息收发、状态监控等服务接口,支
持手机短信、即时消息、系统消息。
●统一日志,提供统一的日志存储、管理、查询、监控、审计等功能,方
便的集成到各应用平台和子系统模块中。
2.2主题集市管理子系统
主题集市的管理是业务数据采集、存储、查询、分析等一切应用的基础,如何提供方便完善的主题集市管理功能,是数据仓库建设成功与否的重要基石。
具体要求如下:
●支持主题集市方便的复制、备份、调整,并支持对集市描述信息的版本
管控。
●提供业务指标的增删改操作,以及对应的存储设计与字段的映射关系管
理,并提供完整的指标生命周期管控,指标统计口径调整过程和追溯功
能。
●支持派生指标的设置与维护,满足前后计算的两种统计模式。
●支持指标审核关系的自由设置,同时提供常规的审核公式函数库。
●提供图形化的报表表样配置工具,要求做到设计报表表样的所见即所得。
●提供维度(统计分类标准)管理,支持维度层级管理,唯独项基本信息
描述,包括:唯一标识、名称、显示名称、排序属性等。
1.1 信息报送子系统
●为我校部门间信息报送提供统一规范的填报任务管理功能,实现指标管
理、分组目录管理、报表表样管理以及调查样本抽取及管理工作,并提
供调查任务发布、信息报送、数据审核、归档以及任务监控等功能。
●信息报送子系统基于信息报送平台,结合实际的数据填报采集业务,实
现任务发布、信息报送、数据审核、信息归档、任务监控、报送情况统
计。
2.3数据资源管理子系统
建立数据资源管理子系统,为历年各业务系统的数据以及其它部门的数据提供一个统一的数据查询、处理、审核、统计等数据处理工作的平台,具体包括:
2.3.1数据库建设与管理
在元数据的统一管理下,对历年各业务系统进行梳理和加载,形成统一业务存储的数据格式;
●支持从各业务系统和软件中获取数据,支持从关系型数据库、EXCEL、DBF、
TXT等数据格式中获取数据;
●支持从其它政府部门的交换文件中获取数据,如教育部、工信部、党校
等,并提供相同指标不同数据的解决方案。
2.3.2数据浏览与处理
对各类数据按统一方式进行浏览与处理维护工作,包括:
●对不同来源的原始数据进行分类分层次展示,比如按数据类型、时间(年、
月)、专业等属性及其不同的组合方式进行展示;
●通过可视化工具,按照报表制度样式设计原始报表,实现对单个企业数
据的查询、审核和修改;