大数据量报表展现系统建设方案
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据量报表展现系统开发方案
----三期延续开发
一、目标与需求
该系统提出将信息中心建设成为数据集散中心、报表处理中心和决策辅助支持中心,成为信息资源管理体系的中心和枢纽。将分散在各个业务处理系统中的数据归集起来,为各级机构提供数据提取和查询服务;开发管理信息平台系统,实现综合查询与分析,实现综统报表、监管报表、业务报表等统计信息的共享,建立联动查询统计。
依据总体规划,借鉴经验,广泛征求意见后,提出立项开发数据分析系统,拟实现下列目标:
1、进一步的完善业务信息库,通过建立逻辑数据模型,按主题整合业务数据,并建立适合各类专题分析需要的数据集市,形成企业级中央数据仓库,以中央数据仓库为纽带完成业务数据向管理信息的过渡;
2、“工预善其事,必先利其器”,引进ETL、前端信息展现工具、系统集成门户等先进的数据仓库和商业智能解决方案,进一步完善管理信息平台技术架构,实现对数据的深层次挖掘,为各级信息使用者提供先进适用的分析管理工具,为管理部门提供个性化纯WEB信息展示平台;
3、优化全报表生成、报送、管理和使用体系,凡是数据仓库可以生成的报表由系统自动生成,实现资产负债分析、经营业绩分析、客户分析、风险分析和财务分析五个方面的专题统计分析,并为将来
引进决策分析模型进行决策支持奠定基础。
鉴于在项目整体开发阶段由于企业的自身业务调整和变化,特别是对前期调研所拟定的业务蓝图及相关开发计划进行了范围扩大的调整。导致前两期项目开发工作只完成其中一部分,在甲方的要求下此项目增加的开发范围作为三期工程(不排除报表业务继续扩大,项目需求继续扩大的可能),同时沿用此方案并需达到此方案中既定的目标来完成项目整体,且此项目需在本期结束后进入维护期。
二、应用范围
针对用户的不同级别,分别满足业务人员、管理人员、高级管理人员以及决策者对信息的不同要求。
三、与其他系统的关系
数据挖掘系统项目完成后管理信息平台的系统架构将如下图所示,管理信息平台系统架构从大的方面可以分为两个部分:数据仓库和商业智能。数据仓库以方便查询为目的,打破关系型数据库理论中标准泛式的约束,将业务数据库的数据重新组织和整理,为查询,报表,联机分析等提供数据支持。数据仓库建立起来后,定期的数据装载(ETL)成为数据仓库系统一个主要的日常工作。
商业智能应用就是利用现代智能计算技术进行数据挖掘(Data Mining)从大量数据中发现潜在规律、提取有用知识,实现企业报表的生成与管理,实现资产负债、风险管理、财务分析、客户关系分析和绩效考核等经营管理信息的统计分析。
四、项目主要工作内容
数据挖掘系统项目的主要工作内容包括:
(一)建设企业级数据仓库
随着信息技术运用的不断深入,积累了大量原始数据,而这些数据是按照关系型数据库结构存储,在更新,删除,有效存储(少冗余
数据)方面表现出色,但在复杂查询方面效率却十分低下。为充分利用已有数据,提供复杂查询,提供更好的决策支持,就需要采用数据仓库(Data Warehouse)技术。数据仓库与数据库(这里的数据库指关系型数据库)的区别在于,数据仓库以方便查询(或称为按主题查询)为目的,打破关系型数据库理论中标准泛式的约束,将数据库的数据重新组织和整理,为查询,报表,联机分析等提供数据支持。
数据挖掘系统将以业务信息库归集的核心业务系统、ERP、CRM 和一些外部数据等系统的原始数据为基础,以先进的数据建模理论对业务信息库进行重新规划,建立包括客户、产品、账户、交易、渠道和机构六大主题的基础业务信息库做为信息管理的基础数据支持平台。
1、数据仓库的逻辑结构
数据挖掘项目完成后的管理信息平台的逻辑架构将如下图所示。中央数据仓库的数据组织是商业智能中最重要的课题,中央数据仓库不是各系统数据简单的堆积,而是业务数据的有组织的存储。因此它不可能通过分析源系统来生成,而必须提前引入已成型的数据模型。这一数据模型在数据仓库范畴称为逻辑数据模型(LDM),它必须具有灵活性和可扩展性,适应将来的业务需求的增加和变动。
在数据层前是数据源和转换区,数据源是业务信息库中的原始数据, 转换区用于存放从数据源抽取到的数据,并在转换区进行转换,是ETL 的工作区域。
数据层负责所有数据的持久存储,包含中央数据仓库(DW ),数据集市(DM )和 多维模型OLAP(MDB)。
▪ 中央数据仓库(DM)存放从各个数据源抽取的数据,是经过转换后的细节数据。
▪ 数据集市(DM)存放的是面向业务应用宏观的汇总数据, 基于实用化和运行效率的考虑,数据集市ETL 采用数据库存储过程来实现。
▪ 多维模型(MDB)是将数据数据集市中的数据加载到 OLAP SERVER 中,为多维分析提供数据。
管理信息平台逻辑体系架构示意图
数据源
元数据 Admin Tools ETL 数据 建模 工具 数据
集市
RDB
数据
集市
RDB 数据层 中央数据 仓库 仓 RDB MDB
报表服务器 应用服务器
OLAP 服务器 应用层 WEBServe r Portal Server WEB 层 用户
2、逻辑数据模型
逻辑数据模型LDM 是信息平台/数据仓库体系结构的基础。根据管理信息平台的建设目标和建设原则,结合本项目的具体特点确定以下数据模型的设计原则:数据模型的设计既要满足本项目的业务需求,同时要充分考虑未来业务发展的需要,也就是说,数据模型应具有较强的扩展性;数据模型的设计应充分考虑最终用户的查询/分析效率和数据抽取、转换和加载的速度,保证系统具有较高的运行效率;数据模型的设计应充分考虑当今数据库技术和数据建模技术的发展动态,保证数据模型的设计方法、设计过程、设计结果的科学性和先进性;数据模型的设计应具有较强的可读性,数据模型应便于业务人员和技术人员理解,项目投入运行后,数据模型便于技术人员维护。
中央数据仓库存储所有最详细的业务数据,数据的组织方式依关系型数据库的第三范式规则。数据仓库逻辑数据模型主要包括六个主题域:客户、产品、帐户、交易、渠道和机构。
3、数据集市模型
根据业务需求将中央数据仓库数据分类成几个不同的数据集市,每个数据集市完成不同的分析和查询需求,数据集市中的数据通常由中央数据仓库的数据聚合而来,根据数据聚合程度的不同包含轻度聚合、中度聚合和高度聚合三种不同的层次。汇总的方式将依据数据量的大小和使用频率综合考虑。
4、数据仓库ETL的设计
ETL指源系统数据经过数据抽取、转换和加载处理进入数据仓库