集团数据仓库及BI系统建设初探
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
集团数据仓库及BI系统建设初探
[摘要] 建立数据仓库的目的,是把企业的内部数据和外部数据进行有效的集成,为企业的各层决策、分析人员使用。本文通过对数据仓库关键技术的分析,提出了集团数据仓库建设的基本思路,对如何确定数据仓库主题,如何分析数据仓库与BI系统架构等内容进行了探讨。并对实施过程和实施策略提出了建设性
意见。
[关健词]数据仓库商业智能数据挖掘
一、前言
科学的经济活动分析依赖于强有力的数据分析能力,而当前的实际情况是:企业的数据分析能力远远不适应企业经济活动分析和经营决策的需要,大量宝贵的数据资源没有得到充分的开发和利用,“数据丰富、信息贫乏”的现象十分普遍,由此严重制约了企业经济活动分析效果和企业决策。迅速提高数据分析能力,为经营决策提供更有力的支持是众多企业管理者的呼声。为此有必要在原有的生产业务系统基础上,构建一个数据仓库系统及构筑在其上的商务智能,来管理和合理利用信息,使之成为战胜竞争对手的有力手段。
BI的关键是从许多来自不同的企业运作系统的数据中,提取出有用的数据,进行清理以保证数据的正确性,然后经过抽取(Extraction)、转换(Transformation)和装载(Load),即ETL过程,合并到一个企业级的数据仓库里,从而得到企业数据的一个全局视图,在此基础上利用合适的查询和分析工具、数据挖掘工具、OLAP工具等对其进行分析和处理(这时信息变为辅助决策的知识),最后将知识呈现给管理者,为管理者的决策过程提供支持。
因此,BI是涉及一个很宽领域的,集收集、合并、分析和提供信息存取功能为一身的解决方案,包括ETL软件、数据仓库、数据集市、数据查询和报告、多维/联机数据分析、数据挖掘和可视化工具。
二、集团数据仓库建设思路
大型制造业企业集团信息化建设经过多年的发展和提升,已有的财务、营销、ERP中存有或将产生大量有价值的生产经营业务数据,已经有建设数据仓库和BI的应用和数据基础。可以将原有财务、营销系统、ERP系统、以及其它信息系统作为数据仓库的数据源,抽取、清洗这些分布异构的数据库中的有用信息形成数据集市,完成数据仓库基础准备工作。
1.数据仓库主题的确定
根据可提供的数据源,集团数据仓库和BI系统建设可以考虑围绕客户、销售、生产和库存这些企业普遍关心的问题展开详细的分析,并可初步归纳出如下相互关联的主要分析主题。除此之外,企业还可根据业务需求灵活设定财务、人事、定单、服务等其它主题,并进行相应分析。
企业宏观主题分析模块如图1:
图1.集团宏观主题分析模块
2.集团数据仓库与BI系统架构的确定
数据仓库与BI系统建设是一个相对独立的项目。建立数据仓库为企业带来了一个独特的机会,其结果立竿见影,不会影响正常的业务运营。企业集团数据
仓库与BI系统架构如图2所示:
图2.集团数据仓库系统架构
整个系统划分为四个层次:
数据集中层
数据集中层的主要功能是将决策支持系统所需的部分数据从各业务部门的数据源集中到数据仓库系统,安装在各业务部门的数据集中模块将所需数据从其数据存储中抽取出来,并对抽取的数据进行校验和必要的转换后(本地校验和转换),发送给位于中心数据仓库端的数据接收模块。
数据集中层在接收到数据之后,进行必要的数据校验和转换(全局数据校验和转换),以保证完整正确地获得各业务部门的数据。同时,由于各种数据源发来的数据时间和周期不同,因此,在必要时数据集中层会利用一个操作型数据存储进行数据暂存和处理。
当数据集中层搜集并整理完一定周期内(如每日)的数据后,将启动数据加载模块将数据加载进数据仓库中。
数据仓库层
数据仓库层是整个决策支持系统的核心,以“主题-维”的星型模式存储数据集中层采集来的数据,并根据查询效率的要求在这些基础数据上进行一定的聚合处理。中心数据仓库可以直接为应用层提供定制报表和即席查询服务。
数据展现层
数据展现层为用户提供基于数据仓库的数据访问服务,包括定制报表、即席查询、OLAP分析等。用户可以利用分析查询工具直接访问数据仓库,也可以利用应用服务器和WEB服务器实现基于浏览器的分析查询。
系统管理层
系统管理层是整个系统的监控维护模块,主要提供以下功能:
通过读取各数据集中模块的日志文件,获取其操作的状态,以监控数据集中层的运行;
利用数据仓库产品提供的管理工具,管理数据仓库的数据库服务器;
利用应用服务器提供的管理工具,管理数据仓库的应用服务器。
3.数据仓库与BI系统实施过程
数据仓库决策分析的业务处理流程主要分为四个阶段,如图3所示。
图3.数据仓库决策分析的业务处理流程
(1)业务数据集中
数据仓库必须建立在完整、统一的业务数据基础上,而在企业内部,业务信息分散在不同部门的不同业务系统中,这也是为什么原有的业务信息不能共享或信息不一致的主要原因。因此在建立数据仓库之前,有必要将所有需要的信息整合到一起。然后再在此基础上进行整理和分析。
在以前的业务系统数据传送中,总部对分支机构信息的获得大部分仅限于汇总信息,对于明细信息并不进行整理和传送。但对于数据仓库系统的即席查询等需求而言,很可能钻取到最小粒度,因此数据仓库的数据传送必须细化到最小粒度。这是数据仓库对信息传送的重要要求。同时随着数据仓库的不断深入,企业需要分支机构提供数据会有所变化,因此企业必须提供灵活的数据传输和同步方案,满足数据仓库当今和未来发展的需求。同时由于不同业务系统平台和软件可能完全不同,在数据集中过程中还必须考虑到异构平台和异构数据源的同步问题。
(2)数据抽取转换和加载
由于汇总的数据来源于不同的业务系统,因此出现信息不一致的现象不可避
免,因此有必要对汇总后的数据进行一定的内容整理和处理。并且原有的以业务为主的MIS、ERP、财务、营销等系统的存储模式也不一定适合于以分析为主的数据仓库维模型,也需要重新进行整理和转换。因此必须对数据进行清洗转换后,才可以加载到数据仓库中,供业务人员和领导使用。只有正确的数据才能分析出正确的结果,本身就不一致的数据不能提供任何价值信息。
数据抽取转换的过程可以根据转换复杂度,资金投入等不同因素考虑不同的实现方式,如手工处理方式或专业的ETL工具等,企业可根据自己的需求合理选择。但不论是采用手工处理方式还是工具自动处理方式,在实施该阶段必须注意的一个重要问题是:该阶段在整个数据仓库实施过程中工作量所占百分比。很多企业认为该过程只是一个任务整理过程,所以对该阶段任务估计不够,时间分配不足,这种心理上的轻视很大程度上影响了数据仓库项目的成功。而实际上,该阶段占据了整个数据仓库实施的大部分时间,在有些项目中甚至高达80%。
(3)数据存储和管理
数据仓库的应用目标和数据的组织管理方式决定了它有别于传统数据库。要决定采用什么产品和技术来建立数据仓库核心,则需要从数据仓库的技术特点着手分析。
数据仓库中的数据是来源于联机事务处理系统长期积累的历史数据,数据仓库所涉及的数据量比传统事务处理大得多,而且随时间的推移,其数据量还在不断的增加。从现有技术和产品来看,只有大型关系数据库系统能够担当此任,关系数据库经过近30年的发展,在数据存储和管理方面已经非常成熟,非其他数据管理系统可比。目前不少关系数据库系统已支持数据分割技术,能够将一个大的数据库表分散在多个物理存储设备中,进一步增强了系统管理大数据量的扩展能力。