(完整word版)建设数据仓库的八个步骤

合集下载

江西电信数据仓库简介

江西电信数据仓库简介
指标编码 W1 指标名称 总通话次数 主叫占比 长时通话占比 总通话时长 平均通话时长 0点—7点通话占比 7点—12点通话占比 12点—18点通话占比 18点—24点通话占比 0点—7点主叫通话占比 7点—12点主叫通话占比 12点—18点主叫通话占比 18点—24点主叫通话占比 指标描述 月均 主叫通话次数/总通话次数 长时通话次数/总通话次数 月均 总通话时长/总通话次数 0点—7点通话次数/总通话次数 7点—12点通话次数/总通话次数 12点—18点通话次数/总通话次数 18点—24点通话次数/总通话次数 0点—7点主叫通话次数/总通话次数 7点—12点主叫通话次数/总通话次数 12点—18点主叫通话次数/总通话次数 18点—24点主叫通话次数/总通话次数
A B
W2 W3 W4 W5 W6 W7
C
W8 W9 W10
D
W11 W12 W13
E
先找出一批已知固话的对应手机号码,用分类法挖掘出数据隐含的业务规则, 先找出一批已知固话的对应手机号码,用分类法挖掘出数据隐含的业务规则,再用此规则来预 测未知手机号码的客户, 测未知手机号码的客户,并从准确率和查全率两方面做模型考察 20
仓库 平台
数据仓库(集市) 数据仓库(集市)
ETL管理 ETL管理 平台
统一 数据 管理
- 11 -
平台工作
接口收敛:数据仓库目前收敛接口表130张 ODS106张 结算24张 接口收敛:数据仓库目前收敛接口表130张:ODS106张,结算24张 130 24 根据集团EDM3.0规范及江西电信实际情况,设计表数:633张 根据集团EDM3.0规范及江西电信实际情况,设计表数:633张(含ETL) EDM3.0规范及江西电信实际情况 ETL) 数据清洗任务: 数据清洗任务:1万条 数据容量:IP层 部分有压缩):1.4T; WH层 MK层 数据容量:IP层(部分有压缩):1.4T; WH层:3T ; MK层:2.4T ):

(完整word版)MicroStrategy(mstr)入门教程word版

(完整word版)MicroStrategy(mstr)入门教程word版

MSTR开发入门教程

目录

一、最简单项目开发流程 (4)

0.介绍元数据库 (4)

1.准备空的RDB,并定义ODBC (4)

2.配置元数据库 (4)

3.连接项目源 (9)

4.创建项目 (10)

5.定义数据库实例 (11)

6.选择数据仓库表 (13)

7.定义事实 (14)

8.定义实体 (19)

(1)定义Item实体 (20)

(2)定义Day实体 (25)

(3)定义Year实体 (27)

9.更新框架 (30)

10.创建度量 (30)

11.创建报表 (33)

12.设置I-SERVER (36)

13.Web浏览 (40)

二、完整项目开发 (40)

0.Tutorial DW及项目介绍 (40)

1.以服务器方式连接元数据库 (41)

2.添加数据仓库表 (41)

3.修改事实 (42)

(1)修改QTY(销售数量)事实 (42)

(2)修改AMT(销售金额)事实 (45)

(3)修改COST(成本)事实 (48)

4.修改实体 (50)

(1)Item(商品)实体 (50)

(2)Day(日期)实体 (50)

(3)Year(年)实体 (52)

5.创建新实体 (54)

用实体创建向导创建实体 (54)

修改Customer实体 (67)

修改Emp实体 (68)

6.创建0 base report (79)

7.报表1 derived metric (81)

8.报表2 阈值 (82)

9.Filter(筛选) (84)

10.Prompt(提示) (84)

11.Metric(度量) (84)

12.Drill Map(钻取图) (84)

数据仓库建立的步骤

数据仓库建立的步骤

数据仓库建立的步骤

数据仓库的建立可以分为以下步骤:

1. 需求分析和规划:首先需要明确数据仓库的目标和需求,了解业务需求、数据来源和数据量等信息。根据需求制定数据仓库的规划和架构设计。

2. 数据采集和清洗:确定需要采集的数据源,并进行数据抽取、转换和加载(ETL)工作。在这一步骤中,需要进行数据清洗、格式转换、数据集成等操作,确保数据的准确性和一致性。

3. 数据存储和管理:选择适当的存储技术和数据库,将清洗后的数据存储到数据仓库中。常用的存储技术包括关系型数据库、列存数据库、分布式文件系统等,选择合适的存储技术可以提高数据的查询效率和处理能力。

4. 数据建模和设计:在数据仓库中进行数据建模,包括维度建模和事实建模。维度建模主要是定义维度表和维度关系,事实建模则是建立与业务主题相关的事实表和维度表之间的关系。

5. 数据质量管理:建立数据质量管理机制,确保数据的准确性、完整性和一致性。可以通过数据质量规则、数据审查和数据质量监控等手段来管理和优化数据质量。

6. 数据分析和报表:根据业务需求,设计和开发数据分析模型和报表。通过数据仓库中的数据,进行数据挖掘和分析,帮助企业做出决策。

7. 数据安全和权限管理:保护数据的安全性,设置合适的数据权限和访问控制,确保只有授权的人员可以访问和操作数据仓库。

8. 持续优化和迭代:数据仓库建立后,需要进行持续的优化和迭代工作。根据实际使用情况,不断改进数据仓库的性能和功能,提高数据仓库的价值。

以上是数据仓库建立的一般步骤,具体的步骤和流程可能会因不同的业务需求和技术选型而有所差异。

大数据中心建设功能要求技术规范word

大数据中心建设功能要求技术规范word

大数据中心建设功能要求技术规范WORD版本下载后可编辑

一、数据服务中心建设规划

数据服务中心是整个智慧旅游大数据项目核心组成部分,在规划建设过程中,坚持以数据资源为核心,面向数据应用与服务、信息数据资源标准化与管理,实现数据资源横向集成、纵向贯通、全局共享的运转模式。数据服务中心数据流转图和逻辑架构如下图。

数服务中心逻辑架构图

整个数据服务中心逻辑组成部分有:数据存储、数据组织、数据处理、资源管理、数据服务支撑。

数据存储:基于大规模并行处理(Massively Parallel Processing,简称MPP)、Hadoop等分布式计算平台进行搭建,以满

足旅游行业结构化、图像视音频等非结构化多种类型格式的海量数据资源存储需求。

数据组织:对各类数据资源进行逻辑组织,形成基础数据资源库、专题应用资源库以及资源管理库,满足旅游行业数据资源应用、管理与服务的需求。

数据处理:主要包括数据整合汇集、数据标准化处理、通用数据处理、专题数据处理。从多个层面对数据资源进行分析挖掘,为不同业务需求提供数据处理服务支撑。

资源管理:资源管理从应用资源、数据资源、服务资源以及标准资源多个层面实现数据服务中心信息资源的管理与标准建设。

数据服务支撑:数据服务中心实现了智慧旅游云数据资源的存储和组织。主要包括基础数据资源库、专题应用资源库和资源管理库。

数据分析处理:面向具体业务需求,建立对应的数据分析处理模型,实现对数据资源的深度挖掘和综合利用。

1.1大数据平台建设

数据集中统一管理后,由于一体化业务为在线运行的系统,为避免大数据应用对现有生产系统造成影响,本期单独建设一套大数据平台,通过ETL将生产数据抽取到大数据平台中,进行分析处理,建立数据仓库,为上层应用提供支撑。

深入浅出数据仓库平台统一架构

深入浅出数据仓库平台统一架构
个 数据 分 发 中心 系统 ,包 括 以 下 基 本 功 能 。
・图形 化 灵 活 开 放 的 配 置模 式 。
接 口。 ・ 程 序 出 现 的 SQL 该 符 合 S 9 标 准 , 对 于 应 QL 2 DB 、 O a l、 Gre pu 2 rce e n lm、S b s 和T rd t中 不 符 y a e ea aa 合 S 标 准 的S 函数 或 用 法 , 应 使 用 A i l 供 的 函 QL QL l q提 s 数 调 用 , 如 果 已 有 函 数 不 能 满足 要 求 , 应 该 扩 展 Al q i l s
改 进 和 提 高 ,这 种 能 力恰 恰 是 业 务 价 值 的基 础 。 业 务 部 门则 从 业 务价 值 角 度 考 虑 , 以对 B 实 际 工 I 作 促 进 为 目标 ,结 果 导 致 B 系统 评 价 的偏 差 。 I
・元数据管理方案:元数据平 台。
・监 控 和 审 计 方 案 : 监 控 和任 务 平 台 。
・如何选用一个完 整的解决方案来满足快速 等 ,源 文件有带分隔符文件 、定长文件等外部 文
件导入。 ・每 个 数 据 库 或 者 数 据 文 件 字 符 编 码 不 同 ,
为 了在 目标 数 据 库做 数 据 准 备 必 须 进 行 转 码 操 作 。 ・需 要 在 规 定 的时 间窗 1 ,完 成 大 规 模 增 量 数 据 3内 抽取 。 ・在 线 数 据 实 时 接 收 。

如何建设数据仓库

如何建设数据仓库

如何建设数据仓库

作者:张中淋李亮陈涛

来源:《计算机世界》2013年第35期

经过多年的信息化建设,中石油四川成品油销售公司(下称四川销售公司)信息系统建设涵盖了公司经营管理各个层面,为数据仓库的建设提供了大量的数据源。

2008年,四川销售公司完成了ERP系统在全公司的全面推广,不仅实现了销售“一体化”管控,而且实现了财务业务无缝集成及物流、资金流、信息流的三流合一。2009年加油站管理系统在四川销售公司1400余座加油站部署实施,对加油站的采购、销售、结算、库存、客户、加油卡等进行全面的专业性管理,控制了零售业务的每一个环节,优化业务流程,提高运

行效率和管理水平。2011年二次配送系统和油库系统在全公司推广运用,实现对油品品种、运输路径、运输车辆、油站库存、配送时间的统筹安排和优化,并对配送过程进行跟踪与监控,提高了配送效率和管理水平。2012年以ERP为核心的五大信息系统全面集成,油库、加油站、二次配送和ERP系统实现了信息数据自动流转,减少人为干预,提高了数据的准确性。2013年,销售应用集成系统将在四川销售公司试点运用,实现与各销售信息系统管理者视图的集成。

四川销售公司的各个信息系统几乎覆盖了公司的各项经营和管理的方方面面,这些业务操作型信息系统的上马和推广运用,不仅实现公司各个层面的管控信息化,而且为数据仓库建设提供了大量的历史数据源。

建设省级数据仓库的意义

四川销售公司建设省级公司的数据仓库是对中石油总部数据仓库数据支持功能的补充和完善,有利于提高信息系统数据利用效率,弥补总部数据仓库无法满足四川销售公司对精细化管理等方面信息数据挖掘利用需求的缺陷。

数据仓库设计步骤

数据仓库设计步骤

数据仓库设计步骤

数据仓库是一个用于集中存储、管理和分析大量数据的系统。它的设

计过程是一个复杂的任务,需要经历多个步骤。下面是数据仓库设计的主

要步骤:

1.需求分析:首先,需要与业务用户和利益相关者合作,了解业务需

求和目标。这包括理解他们的数据分析需求、业务流程和决策支持要求。

这一步骤有助于确定数据仓库应该包含哪些数据和所需的数据分析功能。

2.数据源分析:在这一步骤中,需要识别和分析所有可用的数据源,

包括内部和外部系统。需要评估这些数据源的数据质量、结构和可用性,

以确定应该选择哪些数据源。

3.数据抽取、转换和加载(ETL):在这个步骤中,需要确定如何从

不同的数据源中提取数据,并将其转换为适合数据仓库的格式。这包括数

据清洗、数据集成和数据转换等过程。ETL过程还应该能够处理数据的增

量更新和历史数据的保留。

4.数据模型设计:在这一步骤中,需要设计数据仓库的逻辑模型和物

理模型。逻辑模型通常使用维度建模技术,包括维度表和事实表来描述数据。物理模型则定义了如何将逻辑模型映射到实际的存储结构,包括数据

库表和索引设计等。

5.数据仓库架构设计:在这一步骤中,需要确定数据仓库的整体架构。这包括确定数据仓库的结构、数据存储和访问机制。需要考虑到数据仓库

的可伸缩性、性能和可用性等方面。

6.数据仓库实施:在这个步骤中,需要根据设计的数据模型和架构来实施数据仓库。这包括创建数据库表、索引、视图等。还需要实施ETL过程和相关的数据访问工具。

7.数据质量管理:数据质量是数据仓库设计中一个重要的方面。在这一步骤中,需要定义数据质量规则和度量,并实施数据质量管理的过程。这包括数据清洗、数据验证和数据监控等活动。

数仓建设流程

数仓建设流程

数仓建设流程

数仓建设流程主要包括以下步骤:

1. 选择业务过程:挑选具体的业务线,比如论文的业务,则一条业务线对应一张论文的事实表。

2. 声明粒度:定义事务表中一行数据的具体定义,论文事实表中一行数据对应的是一条论文的记录。

3. 确认维度:支付事实表和那些维度有关系,比如是时间、用户等,时间包括日、周、月等,这里就是标题维度、摘要维度还有关键词维度。

4. 确认事实表(指标):每一张事实表的度量值是什么度量值为可以再报表中产生的数据,支付表里的支付记录拉链表、三范式、关系建模和维度建模、星型模型和雪花模型、星座模型的区别、拉链表是什么,这样做的好处。

5. 维度设计:包括时间维度、年龄段维度、地区等。维度分为公共维度和私有维度。

6. 建模步骤:包括确定业务流程、确定粒度、确定维度、确定事实等。

7. 范式模型:减少冗余,减少join操作。

8. 存储:数据仓库主题的划分,比如按照业务过程来划分,一个业务过程抽象出一个主题域,比如业务系统中的商品、交易、物流等。

以上步骤只是大致的框架,具体实施时可能需要根据实际情况进行调整。

数据仓库建模方法

数据仓库建模方法

数据仓库建模方法

每个行业有自己的模型,但是不同行业的数据模型,在数据建模的方法上,却都有着共通的基本特点。什么是数据模型

数据模型是抽象描述现实世界的一种工具和方法,是通过抽象的实体及实体之间联系的形式,来表示现实世界中事务的相互关系的一种映射。

在这里,数据模型表现的抽象的是实体和实体之间的关系,通过对实体和实体之间关系的定义和描述,来表达实际的业务中具体的业务关系。

数据仓库模型是数据模型中针对特定的数据仓库应用系统的一种特定的数据模型,一般的来说,

我们数据仓库模型分为几下几个层次。

图 2. 数据仓库模型

通过上面的图形,我们能够很容易的看出在整个数据仓库得建模过程中,我们需要经历一般四个过程: ?业务建模,生成业务模型,主要解决业务层面的分解和程序化。

?领域建模,生成领域模型,主要是对业务模型进行抽象处理,生成领域概念模型。

?逻辑建模,生成逻辑模型,主要是将领域模型的概念实体以及实体之间的关系进行数据库层次的逻辑化。

?物理建模,生成物理模型,主要解决,逻辑模型针对不同关系型数据库的物理化以及性能等一些具体的技术问题。

因此,在整个数据仓库的模型的设计和架构中,既涉及到业务知识,也涉及到了具体的技术,我们既需要了解丰富的行业经验,

同时,也需要一定的信息技术来帮助我们实现我们的数据模型,最重要的是,我们还需要一个非常适用的方法论,来指导我们自己针对我们的业务进行抽象,处理,生成各个阶段的模型。

为什么需要数据模型

在数据仓库的建设中,我们一再强调需要数据模型,那么数据模型究竟为什么这么重要呢?首先我们需要了解整个数据仓库的建设的发展史。

面向保险业的数据仓库模型分析与设计

面向保险业的数据仓库模型分析与设计

面向保险业的数据仓库模型分析与设计

吴菊华;曹强;莫赞;孙德福

【摘要】The insurance industry has gone through the computer informationlization construction development during the last decade, the scale of business data is constantly increasing. Enterprise executives face tremendous information from different business systems and more severe competition pressure, they need faster and more accurate analysis for the issue of enterprise decision-making. In this paper, based on the ECIF project of a life insurance company, data warehouse modeling problems and solutions are elaborated and analysed from business and management perspective of the entire insurance industry. The boundary of the data warehouse system is defined, the subject field is determined, and the insurance subject-oriented data warehouse model is built with conceptual model, logical model and physical model. Since the number and type of indicators in different industry differ from each other, the data warehouse indicators for the insurance industry is also tested. The whole process has a good reference value for the building of the insurance industry data warehouse.%保险业经历了十几年的计算机信息化建设发展,业务的数据规模也在不断地增大,需要对企业决策问题进行更准确的深度分析。在某人寿保险公司的客户信息整合(ECIF)的项目基础上,从整个保险行业的业务和管理角度,阐述和分析了保险行业数据仓库建模的过程和解决方案,界定了数据仓库系统边界和确定了主要的主题域,通过概念模型、逻辑模型和物理模型构建了面向主题

数据仓库构建流程

数据仓库构建流程

数据仓库构建流程

数据仓库是一个用于集成、存储和管理企业数据的系统,它能够支持企业在决策分析和业务智能方面的需求。数据仓库构建流程是指在建立数据仓库系统时所需的一系列步骤和方法。下面将介绍数据仓库构建流程的具体内容。

1. 需求分析阶段

在数据仓库构建流程的第一阶段,需要明确业务需求和目标。这包括确定数据仓库的用途、所需数据的种类和规模、数据的可靠性要求以及数据的使用方式等。通过与业务部门的沟通和需求调研,建立需求分析文档,明确数据仓库的范围和目标。

2. 数据采集阶段

在数据仓库构建流程的第二阶段,需要收集和整理各种数据源中的数据。数据源可以包括企业内部的各类数据库系统、文件系统、日志记录系统等。通过使用ETL(Extract、Transform、Load)工具,将数据从各个源系统中抽取出来,并进行清洗、转换和加载,以满足数据仓库的数据质量和一致性要求。

3. 数据建模阶段

在数据仓库构建流程的第三阶段,需要进行数据建模。数据建模是指将业务需求转化为数据模型的过程。常用的数据建模方法包括维度建模和实体关系建模。在维度建模中,需要确定事实表和维度表,

并定义它们之间的关系。在实体关系建模中,需要使用实体关系图描述各个实体表之间的关系。通过数据建模,可以为数据仓库提供一个结构化的数据模型,方便后续的查询和分析。

4. 数据存储阶段

在数据仓库构建流程的第四阶段,需要确定数据的存储方式和架构。常见的数据存储方式包括关系型数据库、多维数据库和列式数据库等。在选择数据存储方式时,需要考虑数据的规模、性能要求和访问方式等因素。同时,还需要设计合适的数据存储架构,包括数据分区、索引、分片等,以提高数据的访问效率和可扩展性。

(完整word版)经济运行综合数据平台实施方案

(完整word版)经济运行综合数据平台实施方案

附件二:

贵阳高新区经济运行综合数据平台

项目实施方案

贵阳国家高新技术产业开发区管委会

龙信思源(北京)科技有限公司

编制日期:二○一四年十二月

目录

第一章项目概述 (1)

第二章项目目标 (2)

第三章研究内容 (3)

3.1 数据资源与数据管理体系构建 (3)

3.1.1 规划构建高新区数据资源中心 (3)

3.1.2 规划建立数据管理体系 (4)

3.1.3 数据仓库设计及实现 (4)

3.2 三大业务分析体系构建 (5)

3.2.1 高新区动态综合评价分析 (5)

3.2.2 经济发展运行分析 (7)

3.2.3 精准招商引资分析 (10)

第四章技术实现 (11)

4.1 平台架构设计 (11)

4.2 三个子平台的开发实现 (11)

4.3 特殊功能模块研发 (11)

4.4 系统安全设计 (12)

4.4.1 系统安全设计原则 (12)

4.4.2 系统软件平台的安全管理 (13)

第五章工作步骤 (14)

5.1 业务调研 (14)

5.2 数据采集 (14)

5.3 数据整合 (14)

5.4 数据挖掘 (15)

5.4.1 业务理解 (15)

5.4.2 数据理解 (16)

5.4.3 数据准备 (16)

I

-----------------------------------------------------------------------------------------------------------------------------------------------------------------

建立数据仓库的步骤

建立数据仓库的步骤

建立数据仓库的步骤

数据仓库是一个用于存储和管理企业数据的集中式数据库系统。它可以帮助企业组织和分析大量的数据,从而支持决策和业务发展。建立数据仓库需要经过一系列的步骤,下面将详细介绍。

1.明确需求和目标

在建立数据仓库之前,首先需要明确需求和目标,了解企业的业务需求和数据分析的目标。这包括确定要分析的数据类型、数据来源、分析的维度和指标等。通过明确需求和目标,可以为后续的数据仓库设计和建设提供指导。

2.设计数据模型

数据模型是数据仓库的核心,它描述了数据仓库中数据的组织结构和关系。在设计数据模型时,需要考虑数据的维度、事实和粒度。维度是描述数据的属性,事实是描述数据的度量,粒度是描述数据的详细程度。通过合理的数据模型设计,可以提高数据仓库的查询效率和数据分析的准确性。

3.选择合适的ETL工具

ETL(抽取、转换和加载)是数据仓库中数据集成的关键环节。在选择ETL工具时,需要考虑数据的来源和格式、数据的清洗和转换需求、数据的加载和更新频率等因素。常用的ETL工具包括Informatica、DataStage、Talend等。选择合适的ETL工具可以

提高数据仓库的数据质量和数据集成的效率。

4.建设物理架构

物理架构是数据仓库的基础设施,包括硬件设备、操作系统、数据库管理系统等。在建设物理架构时,需要考虑数据仓库的规模、性能要求和可扩展性。常见的物理架构包括单机架构、集群架构和云架构等。选择合适的物理架构可以提高数据仓库的性能和可靠性。

5.实施ETL过程

ETL过程是将源系统中的数据抽取、清洗、转换和加载到数据仓库的过程。在实施ETL过程时,需要编写ETL脚本或使用ETL工具,按照预定的规则和流程进行数据的抽取、清洗和加载。同时,需要监控和管理ETL过程的运行状态,及时处理异常情况。有效的ETL 过程可以保证数据仓库中的数据准确和及时。

数据仓库的构建步骤

数据仓库的构建步骤

数据仓库的构建步骤

1 数据仓库的定义

数据仓库是一种集中的,结构化的,可查询的,用于支持管理决

策的一类数据集合。它存储来自在不同情况下生成的数据的历史信息,收集来自不同的源的当前事务数据信息,同时也可以收集经过特殊处

理的数据。而且数据仓库还可以提供可靠,应用程序独立的数据模型,以满足公司在决策分析和决策支持方面的各种需求。

2 构建数据仓库的过程

构建一个数据仓库的过程包括多个步骤:

1. 确定目标:识别你的业务目标,并确定需要构建什么样的数据

仓库来达成目标;

2. 数据收集:从各个数据源中收集所需要的数据;

3. 数据整合:将收集到的数据进行整合,确保它们能够在数据库

中正确使用;

4. 重新组织数据:组织整合好的数据以便于数据仓库以正确的顺

序进行存储;

5. 数据分析:分析整合后的数据,确定如何提高应用程序的效能;

6. 测试:进行功能测试,以确保数据仓库的稳定性;

7. 架设报表:架设报表,以便提供数据仓库的精确信息;

8. 学习总结:专业人员对数据仓库的运行情况进行记录,以帮助以后的维护工作。

3 结论

构建一个数据仓库是一个繁琐而复杂的工作,涉及到多个环节,需要专业人员进行管理和维护。它们能够在保持准确性和时效性的同时提高决策和学习的效率,从而推动企业发展。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

大数据技术部

建设数据仓库的八个步骤2017年04月25日编制

建设数据仓库的八个步骤

摘要:

建立数据仓库是一个解决企业问题的过程,业务人员往往不懂如何建立和使用数据仓库,发挥其决策支持的作用;信息部门的人员往往又不懂业务,不知道应该建立哪些决策主题。

关键词:数据仓库元数据

建设数据仓库

建立数据仓库是一个解决企业问题的过程,业务人员往往不懂如何建立和使用数据仓库,发挥其决策支持的作用;信息部门的人员往往又不懂业务,不知道应该建立哪些决策主题,从数据源中抽取哪些数据。因此数据仓库的项目小组应该由业务人员和信息部门的人员共同组成,双方需要相互沟通,协作开发数据仓库。

开发数据仓库的过程包括以下几个步骤。

1.系统分析,确定主题

建立数据仓库的第一个步骤就是通过与业务部门的充分交流,了解建立数据仓库所要解决的问题的真正含义,确定各个主题下的查询分析要求。

业务人员往往会罗列出很多想解决的问题,信息部门的人员应该对这些问题进行分类汇总,确定数据仓库所实现的业务功能。一旦确定问题以后,信息部门的人员还需要确定一下几个因素:

·操作出现的频率,即业务部门每隔多长时间做一次查询分析。

·在系统中需要保存多久的数据,是一年、两年还是五年、十年。

·用户查询数据的主要方式,如在时间维度上是按照自然年,还是财政年。

·用户所能接受的响应时间是多长、是几秒钟,还是几小时。

由于双方在理解上的差异,确定问题和了解问题可能是一个需要多次往复的过程,信息部门的人员可能需要做一些原型演示给业务部门的人员看,以最终确定系统将要实现的功能确实是业务部门所需要的。

2.选择满足数据仓库系统要求的软件平台

在数据仓库所要解决的问题确定后,第二个步骤就是选择合适的软件平台,包括数据库、建模工具、分析工具等。这里有许多因素要考虑,如系统对数据量、响应时间、分析功能的要求等,以下是一些公认的选择标准:

·厂商的背景和支持能力,能否提供全方位的技术支持和咨询服务。

·数据库对大数据量(TB级)的支持能力。

·数据库是否支持并行操作。

·能否提供数据仓库的建模工具,是否支持对元数据的管理。

·能否提供支持大数据量的数据加载、转换、传输工具(ETT)。

·能否提供完整的决策支持工具集,满足数据仓库中各类用户的需要。

3.建立数据仓库的逻辑模型

具体步骤如下:

(1)确定建立数据仓库逻辑模型的基本方法。

(2)基于主题视图,把主题视图中的数据定义转到逻辑数据模型中。

(3)识别主题之间的关系。

(4)分解多对多的关系。

(5)用范式理论检验逻辑数据模型。

(6)由用户审核逻辑数据模型。

4.逻辑数据模型转化为数据仓库数据模型

具体步骤如下:

(1)删除非战略性数据:数据仓库模型中不需要包含逻辑数据模型中的全部数据项,某些用于操作处理的数据项要删除。

(2)增加时间主键:数据仓库中的数据一定是时间的快照,因此必须增加时间主键。

(3)增加派生数据:对于用户经常需要分析的数据,或者为了提高性能,可以增加派生数据。

(4)加入不同级别粒度的汇总数据:数据粒度代表数据细化程度,粒度越大,数据的汇总程度越高。粒度是数据仓库设计的一个重要因素,它直接影响到驻留在数据仓库中的数据量和可以执行的查询类型。显然,粒度级别越低,则支持的查询越多;反之,能支持的查询就有限。

对数据操作的效率与能得到数据的详细程度是一对矛盾,通常,人们希望建成的系统既有较高的效率,又能得到所需的详细资料。实施数据仓库的一个重要原则就是不要试图包括所有详细数据,因为90%的分析需求是在汇总数据上进行的。试图将粒度细化到最低层,只会增加系统的开销,降低系统的性能。

5.数据仓库数据模型优化

数据仓库设计时,性能是一项主要考虑因素。在数据仓库建成后,也需要经常对其性能进行监控,并随着需求和数据量的变更进行调整。

优化数据仓库设计的主要方法是:

·合并不同的数据表。

·通过增加汇总表避免数据的动态汇总。

·通过冗余字段减少表连接的数量,不要超过3~5个。

·用ID代码而不是描述信息作为键值。

·对数据表做分区。

6.数据清洗转换和传输

由于业务系统所使用的软硬件平台不同,编码方法不同,业务系统中的数据在加载到数据仓库之前,必须进行数据的清洗和转换,保证数据仓库中数据的一致性。

在设计数据仓库的数据加载方案时,必须考虑以下几项要求:

·加载方案必须能够支持访问不同的数据库和文件系统。

·数据的清洗、转换和传输必须满足时间要求,能够在规定的时间范围内完成。

·支持各种转换方法,各种转换方法可以构成一个工作流。

·支持增量加载,只把自上一次加载以来变化的数据加载到数据仓库。

7.开发数据仓库的分析应用

建立数据仓库的最终目的是为业务部门提供决策支持能力,必须为业务部门选择合适的工具实现其对数据仓库中的数据进行分析的要求。

信息部门所选择的开发工具必须能够:

·满足用户的全部分析功能要求。数据仓库中的用户包括了企业中各个业务部门,他们的业务不同,要求的分析功能也不同。如有的用户只是简单的分析报表,有些用户则要求做预测和趋势分析。

·提供灵活的表现方式。分析的结果必须能够以直观、灵活的方式表现,支持复杂的图表。使用方式上,可以是客户机/服务器方式,也可以是浏览器方式。

事实上,没有一种工具能够满足数据仓库的全部分析功能需求,一个完整的数据仓库系统的功能可能是由多种工具来实现,因此必须考虑多个工具之间的接口和集成性问题,对于用户来说,希望看到的是一致的界面。

8.数据仓库的管理

只重视数据仓库的建立,而忽视数据仓库的管理必然导致数据仓库项目的失败。数据仓库管理主要包括数据库管理和元数据管理。

数据库管理需要考以下几个方面:

·安全性管理。数据仓库中的用户只能访问到他的授权范围内的数据,数据在传输过程中的加密策略。

·数据仓库的备份和恢复。数据仓库的大小和备份的频率直接影响到备份策略。

·如何保证数据仓库系统的可用性,硬件还是软件方法。

·数据老化。设计数据仓库中数据的存放时间周期和对过期数据的老化方法,如历史数据只保存汇总数据,当年数据保存详细记录。

然而,元数据管理贯穿于整个系统的建设过程中,元数据是描述数据的数据。在数据采集阶段,元数据主要包括下列信息:

·源数据的描述定义:类型、位置、结构。

相关文档
最新文档