第三章数据仓库开发应用过程
数据仓库系统的设计与开发课件
建立一个数据仓库系统的参考步骤 数据仓库系统的生命周期 创建数据仓库系统的两种思维模式 数据仓库数据库的设计步骤
2024/7/24
数据仓库与数据挖掘
1
建立一个数据仓库系统的参考步骤
数据仓库系统的建立是一个复杂而漫长 的过程。涉及到: 源数据库系统 数据仓库对应的数据库系统 数据分析与报表工具 ……
利用星形图进行数据仓库的逻辑模 型设计
根据分析需求与信息包图制作星形图
时间
客户 销售分析
产品
广告
区域
2024/7/24
数据仓库与数据挖掘
20
根据分析需求与信息包图制作雪花图
2024/7/24
时间
客户 销售分析
产品
产品类 别
广告
数据仓库与数据挖掘
区域
雪花模型对星型模型的维度表进一步标准化,对星型 模型中的维度表进行了规范化处理。
在SQL Server 2005数据库环境中安 装数据仓库组件、示例和工具
利用示例数据仓库 (AdventureWorks DW)环境及帮 助系统学习
2024/7/24
数据仓库与数据挖掘
30
3.3 使用SQL Server 2005建立多维 数据模型
创建一个新的数据仓库分析项目 定义数据源 定义数据源视图 定义多维数据集 部署“销售分析示例”项目 浏览已部署的多维数据集 提高多维数据集的可用性和易用性
事实表的特征有:
数据仓库与数据挖掘
记录数量情况
维度表情况
23
事实表的类型与设计
事实是一种度量,所以事实表中的这种指标往往 需要具2有024数/7/值24 化和可加性的特征。即: 要考虑决策分析的需要(必要的数据) 要考虑系统运行的需要(派生的数据)
叙述数据仓库的开发流程
叙述数据仓库的开发流程下载温馨提示:该文档是我店铺精心编制而成,希望大家下载以后,能够帮助大家解决实际的问题。
文档下载后可定制随意修改,请根据实际需要进行相应的调整和使用,谢谢!并且,本店铺为大家提供各种各样类型的实用资料,如教育随笔、日记赏析、句子摘抄、古诗大全、经典美文、话题作文、工作总结、词语解析、文案摘录、其他资料等等,如想了解不同资料格式和写法,敬请关注!Download tips: This document is carefully compiled by theeditor. I hope that after you download them,they can help yousolve practical problems. The document can be customized andmodified after downloading,please adjust and use it according toactual needs, thank you!In addition, our shop provides you with various types ofpractical materials,such as educational essays, diaryappreciation,sentence excerpts,ancient poems,classic articles,topic composition,work summary,word parsing,copy excerpts,other materials and so on,want to know different data formats andwriting methods,please pay attention!数据仓库的开发流程一般包括以下几个步骤:1. 需求分析:与业务部门沟通,了解他们的需求和业务目标。
数据仓的设计及开发过程.pptx
数据仓库体系结构
数据分析、DM
OLTP 数据源
生产
财务
数据仓库
数据集市
航线 分析
总量 分析
终端用户
结算
外部 InfoPump 数据的映射规则、模型
市场 分析
终端用户
。。(。元数据管理)
数据? 采集及整合
数据? 展现及决策
数据仓库项目流程管理及系统性能管理和监控
从操作型的现存系统到数据仓库中数据 转换工作的难点
❖现有系统缺乏数据集成,跨越不同应用的数据 集成性很差
❖存取现存系统的效率,扫描已有文件成了数据 仓库体系结构设计者主要面对的问题 ❖时基的变化 ❖数据要浓缩
概念:数据周期、简要记录
❖元数据
关于数据的数据,指在数据仓库建设过程中所产生的有关 数据源定义,目标定义,转换规则等相关的关键数据。同 时元数据还包含关于数据含义的商业信息。
❖粒度
数据仓库的数据单位中保存数据的细化或综合程度的级别 。细化程度越高,粒度级就越小;相反,细化程度越低, 粒度级就越大。
❖分割
结构相同的数据被分成多个数据物理单元。任何给定的数 据单元属于且仅属于一个分割。
数据无时基 数据算法上的差异 抽取的多层次 外部数据问题 无起始的公共数据源
❖生产率低
根据全部数据生成企业报表 定位数据需要浏览大量文件 抽取程序很多,并且每个都是定制的,不得不克服很多技术上 的障碍。
❖数据转化为信息的不可行性
数据没有集成化 缺乏将数据转化为信息所需的历史数据
体系结构设计环境的层次
操作层
数据仓库的设计与开发
02
在物理设计时,我们常常要按数据的重要程度、使用频率以及对响应时间的要求进行分类,并将不同类的数据分别存储在不同的存储设备中。
01
重要程度高、经常存取并对响应时间要求高的数据就存放在高速存储设备上,如硬盘;
02
存取频率低或对存取响应时间要求低的数据则可以放在低速存储设备上,如磁盘或磁带。
03
10
主键
Product-Name
char
25
产品名称
Product-SKu
char
20库存单位ຫໍສະໝຸດ 销售员维表包括不同地区的所有销售员信息
Salpers-Key
integer
15
主键
Salpers-Name
char
30
销售员姓名
Territory
char
20
销售员所在区域
Region
char
20
所在地区
订单事实表
销售数据和维
销售数据
商品
促销
时间
部门
城市
地区
商店
图4.2 销售业务的多维数据
(4)确定数据汇总水平
(5)设计事实表和维表
按使用的DBMS和分析用户工具,证实设计方案的有效性 根据系统使用的DBMS,确定事实表和维表的具体实现。由于不同的DBMS对数据存储有不同的要求,因此设计方案是否有效还要放在DBMS中进行检验
包括公司收到的所有订单
Order-Key
integer
10
订单键
Order-Name
char
20
订单名称
Product-ref
integer
10
参考产品主键
数据库开发过程
数据的分布能力是指应用是否有数据分布处理的要求,大型的应用往往将数据分布到不同的数据库服务器上,为了实现数据的透明访问,ADO与OLE DB是值得采用的技术。
应用的数据安全性。数据是否需要高度的安全保证,数据是否涉及商业的经济命脉?一般只有大型的数据库服务器才具有数据安全保证,比如在银行的数据库应用中,安全性是最重要的因素。
除此之外,数据库选择还要考虑开发的方便性,是否便于数据的访问,是否具有丰富的编程接口。
3.5 阶段5:选择数据库访问技术
开发数据库应用时,恰当选择访问数据数据的分布能力以及选择的数据库系统等因素有关。
软件测试是一个艰难的历程,也是保证软件质量的最后关卡,没有经过充分测试的软件是不能发行的。测试一般需要花费与开发相同甚至更长的时间,需要开发人员与测试人员配合进行。
从处理上来分,测试分自动测试与手动测试;从测试的内容上分,测试分功能测试、稳定性测试、界面友好性测试。有些软件开发公司开发了计算机辅助测试软件,更加完整地控制测试的全面性与质量。
第3章 数据库开发过程
开发一个数据库应用,通常需要经过如下的阶段:
阶段1:调查与分析。获得软件的需求信息与基本的功能定义,形成基本的软件功能描述。
阶段2:数据建模。根据应用调查分析得到的信息,建立应用中涉及的数据以及操作数据的方法、流程,形成数据的流动图表。
阶段3:功能设计。针对应用调查与分析结果与数据建模,进行应用的详细功能设计,形成应用的软件设计文档。
数据仓库开发应用过程
Money(flo at) ……
17
5.4.5 数据仓库的实体定义
实体
容量
更新频率
Customer 中等容量,有100个重点客户, 每月对客户情况进行一次分析,更
2000个跟踪客户
新频率也为每月一次
Product 小容量,500种商品
大约有500种商品,商品的更新是每 月一次,数据更新也照此。
4
5.2.4 数据仓库使用方案和项目规划预算
1.实际使用方案还可以将最终用户的决策支持要求与 数据仓库的技术要求联系起来 2.开发方案的预算进行估计 3.编制数据仓库开发说明书 :
➢说明系统与企业战略目标的关系,系统与企业急需处理的、范围相对有 限的开发机会。 ➢业务机会的说明以及任务概况说明、重点支持的职能部门和今后工作的 建议。 ➢计划中需要阐明期望取得的有形和无形利益 ➢业务价值计划最好由目标业务主管来完成 ➢规划书中要确定数据仓库的开发目标实现范围、体系结构和使用方案及 开发预算。
……
商品种类(7) 年龄组 经济类 信用
商品小类
(8) (10) (10)
(40)
…… ……
……
商品(220)
……
7
4.CRUD矩阵
实体 客户 功能
销售单输入 CRUD 销售单处理
商品管理
R
预算系统
R
财务计算
RU
库存控制
R
后勤
R
销售单
CRUD CRUD
R R R RU RU
商品 销售代表 供货商
R
2.逻辑模型最终设计成果:
➢每个主题的逻辑定义,并将相关内容记录在数据仓库 的元数据中 ➢粒度划分 ➢数据分割策略 ➢表划分和数据来源等。
数据仓库的开发设计过程
数据仓库之路FAQFAQ目录一、与数据仓库有关的几个概念31.1目录3二、数据仓库产生的原因9三、数据仓库体系结构图11四、数据仓库设计124.1数据仓库的建模124.2数据仓库建模的十条戒律:13五、数据仓库开发过程145.1数据模型的容145.2数据模型转变到数据仓库145.3数据仓库开发成功的关键15六、数据仓库的数据采集166.1后台处理176.2中间处理176.3前台处理186.4数据仓库的技术体系结构18 6.5数据的有效性检查206.6清除和转换数据216.7简单变换226.8清洁和刷洗246.9集成256.10聚集和概括276.11移动数据28七、如何建立数据仓库307.1数据仓库设计317.2数据抽取模块327.3数据维护模块33一、与数据仓库有关的几个概念1.1目录☐Datawarehouse☐Datamart☐OLAP☐ROLAP☐MOLAP☐ClientOLAP☐DSS☐ETL☐Adhocquery☐EIS☐BPR☐BI☐Datamining☐CRM☐MetaDataData warehouse本世纪80年代中期,“数据仓库之父”William H.Inmon先生在其《建立数据仓库》一书中定义了数据仓库的概念,随后又给出了更为精确的定义:数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合。
与其他数据库应用不同的是,数据仓库更像一种过程,对分布在企业部各处的业务数据的整合、加工和分析的过程。
而不是一种可以购买的产品。
Data mart即数据集市,或者叫做“小数据仓库”。
如果说数据仓库是建立在企业级的数据模型之上的话。
那么数据集市就是企业级数据仓库的一个子集,他主要面向部门级业务,并且只面向某个特定的主题。
数据集市可以在一定程度上缓解访问数据仓库的瓶颈。
OLAP联机分析处理(OLAP)的概念最早是由关系数据库之父E.F.Codd于1993年提出的。
数据库应用系统的开发基础步骤
数据库应用系统的开发基础步骤
数据库应用系统的开发基础步骤包括以下几个方面:
1.需求分析:分析用户需求,了解用户的业务流程,确定数据库应用系统的功能和特性。
2.数据库设计:选择合适的数据库管理系统,建立数据库,设计数据库结构,确定数据字典和数据关系的建立方式。
3.编写程序:根据需求分析和数据库设计,编写数据库应用程序,包括用户界面、数据输入输出、查询统计等功能。
4.测试与调试:对数据库应用系统进行测试和调试,以保证其运行效率、数据完整性和安全性。
5.上线运行:将数据库应用系统部署到生产环境中,并进行正式运行和维护。
6.系统更新与维护:根据系统运行情况和用户反馈意见,不断进行系统更新和维护,提高系统的稳定性、性能和功能。
数据仓库技术的搭建步骤与流程
数据仓库技术的搭建步骤与流程数据仓库技术是现代企业管理中至关重要的一环,它通过将企业内部的各种数据进行整合和分析,帮助企业管理层做出更加准确和科学的决策。
在实际应用中,搭建一个稳定高效的数据仓库需要经历一系列的步骤与流程。
本文将从需求分析、数据抽取、数据清洗、数据转换和数据加载等方面详细阐述数据仓库技术的搭建步骤与流程。
需求分析阶段是数据仓库技术构建的第一步。
在这个阶段,企业需要清晰明确自己的需求和目标,明确数据仓库将用于何种用途,以及需要哪些关键指标来支撑决策。
此外,还要考虑数据的粒度和数据更新频率等因素。
通过一系列的讨论和沟通,确定了数据仓库的需求和目标后,接下来进行数据抽取的工作。
数据抽取是数据仓库搭建过程中的关键步骤。
在这个阶段,首先需要明确从哪些数据源抽取数据。
根据需求分析阶段的结果,确定需要抽取的数据源,并建立与源系统的连接。
然后,通过编写抽取逻辑和抽取脚本,将需要的数据从源系统中抽取出来,通常采用的方法有全量抽取和增量抽取。
通过数据抽取,将企业需要的数据从源系统中提取到数据仓库的暂存区。
数据清洗是确保数据质量的关键步骤。
在数据抽取过程中,由于不同的源系统格式、数据粒度、业务规则的不同等原因,数据可能存在错误、重复、缺失等问题。
因此,在数据抽取后需要对数据进行清洗和去重的处理。
首先,通过数据质量评估的方法,对抽取的数据进行评估,发现数据质量问题。
然后,根据问题的种类和严重程度,采取不同的数据清洗策略进行处理,包括数据去重、数据填充、数据变换等。
通过数据清洗的过程,可以提高数据的准确性和完整性,为后续的数据分析提供可靠的基础。
数据转换是将数据从暂存区转换成可用于分析和决策的形式的过程。
在这个阶段,需要对数据进行一系列的转换操作,例如数据合并、数据关联、数据归约等。
通过建立数据模型和定义数据仓库的维度和指标,将数据转换为适合分析和决策的形式,便于用户进行数据查询和分析。
数据加载是将数据转换后的结果加载到数据仓库的最后一步。
三、数据仓库组件以及开发流程
三、数据仓库组件以及开发流程核⼼组件数据仓库的核⼼组件有四个:各源数据库,ETL,数据仓库,前端应⽤。
如下图所⽰:1. 业务系统业务系统包含各种源数据库,这些源数据库既为业务系统提供数据⽀撑,同时也作为数据仓库的数据源(注:除了业务系统,数据仓库也可从其他外部数据源获取数据);2. ETLETL分别代表:提取extraction、转换transformation、加载load。
其中提取过程表⽰操作型数据库搜集指定数据,转换过程表⽰将数据转化为指定格式并进⾏数据清洗保证数据质量,加载过程表⽰将转换过后满⾜指定格式的数据加载进数据仓库。
数据仓库会周期不断地从源数据库提取清洗好了的数据,因此也被称为"⽬标系统";3. 前端应⽤和操作型数据库⼀样,数据仓库通常提供具有直接访问数据仓库功能的前端应⽤,这些应⽤也被称为BI(商务智能)应⽤;数据集市(data mart)数据集市可以理解为是⼀种"⼩型数据仓库",它只包含单个主题,且关注范围也⾮全局。
数据集市可以分为两种,⼀种是独⽴数据集市(independent data mart),这类数据集市有⾃⼰的源数据库和ETL架构;另⼀种是⾮独⽴数据集市(dependent data mart),这种数据集市没有⾃⼰的源系统,它的数据来⾃数据仓库。
当⽤户或者应⽤程序不需要/不必要/不允许⽤到整个数据仓库的数据时,⾮独⽴数据集市就可以简单为⽤户提供⼀个数据仓库的"⼦集"。
数据仓库开发流程数据仓库的开发流程和数据库的⽐较相似,因此本⽂仅就其中区别进⾏分析。
下图为数据仓库的开发流程:较之数据库系统开发,数据仓库开发只多出ETL⼯程部分。
然⽽这⼀部分极有可能是整个数据仓库开发流程中最为耗时耗资源的⼀个环节。
因为该环节要整理各⼤业务系统中杂乱⽆章的数据并协调元数据上的差别,所以⼯作量很⼤。
在很多公司都专门设有ETL⼯程师这样的岗位,⼤的公司甚⾄专门聘请ETL专家。
数据仓库的开发流程PPT课件
原型法
第8页/共53页
数据仓库的开发流程
规划 与确定 需求
开发 概念 模型
开发 逻辑 模型
规划分析阶段
设计 体系 结构
数据库 与元数
据设计
数据 仓库 评价
数据仓库 使用维 开发过程 护阶段
设计实施
阶段
确定 数据源
抽取
数据
仓库 维护
数据 仓库
填充与 测试数
开发 中间件
应用
据仓库
第9页/共53页
第52页/共53页
数据仓库的开发流程
数据仓库系统的开发是一个经过不断循环、 反馈而使系统不断增长与完善的过程,这 也是原型法区别于系统生命周期法的主要 特点。
第10页/共53页
数据仓库的设计步骤
概念模型设计 技术准备工作 逻辑模型设计 物理模型设计 数据仓库生成 数据仓库使用与维护
第11页/共53页
数据仓库的设计步骤
第43页/共53页
举例
零售个性化系统。 在系统中,客户阅读到由零售商编制的目录或 宣传广告后促使他有了购买的念头,或者至少 想查询一下目录,结果是给零售商打电话。
第44页/共53页
举例
第45页/共53页
举例
当客户定货或咨询情况时,零售商代表查出一 些与此有关的其他信息,如: 客户上次购物的时间; 上次购物的类型; 客户所属的市场地段。
帮助得到目标系统明确而严格的需求,促进客 户和各阶段系统人员之间的相互有效的信息交 流,并以此为基础进行需求分析和系统设计。
从本质上看,原型是未来目标系统的一个模型。
第6页/共53页
原型法
原型不是系统开发的最终产品,而是在某 个开发阶段中为达到一定的目的所生成的 系统简化模拟版本;
数据仓库模型开发流程
2019/12/14
Step 1:数据需求分析
Entry
数据需求分析
现有模型满足度 及差异分析
模型验证及调优
源系统分析
模型实施 逻辑模型物理化
逻辑模型设计
过程的入口 需求发起的方式
应用驱动 数据驱动 模型优化
2019/12/14
Step 2:模型满足度及差异分析
Entry
数据需求分析
现有模型满足度 及差异分析
源系统资料的学习 业务培训 业务专家的交流 字段级的分析 取舍的策略 定期更新源系统分析报告
2019/12/14
Step 4:逻辑模型设计
Entry
数据需求分析
现有模型满足度 及差异分析
模型验证及调优
源系统分析
模型实施 逻辑模型物理化
逻辑模型设计
2019/12/14
逻辑模型的实体、属性的 设计
数据仓库模型开发流程
Tony
2019/12/14
模型建设范围
A区
M区汇总层 B区模型层
S区
数 据 源
2019/12/14
数据仓库
ODS
•最终用户
•内部集市 •外部集市
•面向业务分析主题 •汇总数据 •Star Schema 建模 •视图
•逻辑数据模型 •保留详细交易数据 •面向关键主题域
•3NF
HAIER-LDM
逻辑模型设计
2019/12/14
Step 7:模型验证及调优
Entry
数据需求分析
现有模型满足度 及差异分析
模型验证及调优
源系统分析
准备工作
数据情况统计、生产运行 日志的分析
模型优化的方面
数仓开发流程
数仓开发流程数仓开发流程是一种用于构建和管理企业数据仓库的方法论。
它旨在通过一系列的步骤和活动,将分散的、重复的和不一致的数据转换为结构化和有价值的信息,以支持企业的决策和分析需求。
下面将详细介绍数仓开发流程的各个阶段和关键步骤。
第一阶段:需求分析在数仓开发流程的开始阶段,需求分析是关键步骤。
这一阶段的目标是了解企业的需求、期望和目标,并将其转化为具体的技术要求。
数仓团队需要与业务部门密切合作,收集、整理和梳理需求,并与相关方进行确认和沟通。
在这个阶段中,数仓团队还需要定义数据质量和数据管理的标准,以确保数据的准确性和一致性。
第二阶段:数据模型设计在需求分析阶段完成后,数仓团队将根据业务需求设计数据模型。
数据模型是一个对数据结构和关系的抽象表示,其目的是为了提供一个可理解、易于维护和高效查询的数据结构。
在进行数据模型设计时,数仓团队需要考虑数据的粒度、精确度和稳定性,以及适用的ETL(抽取、转换和加载)工具和技术。
第三阶段:数据抽取与清洗数据抽取与清洗是数仓开发流程中的重要一环。
在这个阶段,数仓团队需要从各个源系统中提取数据,并进行清洗和转换,以满足数据模型的需求。
数据抽取与清洗包括数据筛选、数据验证、数据处理和数据转换等步骤。
在这个过程中,数仓团队需要使用ETL工具来自动化数据抽取与清洗的过程,并确保数据的准确性和完整性。
第四阶段:数据加载与集成在数据抽取与清洗完成后,数仓团队将数据加载到数据仓库中,并将不同的数据源集成在一起。
数据加载与集成是将数据从源系统导入到数据仓库的过程,包括数据转换、数据映射和数据加载等步骤。
在这个过程中,数仓团队需要确保数据的一致性和完整性,并实施适当的数据管理和数据安全措施。
第五阶段:数据分析与报告在数据加载与集成完成后,数仓团队将为用户提供数据分析和报告服务。
数据分析与报告是数据仓库的核心功能,旨在为用户提供可视化、交互式和实时的数据分析和报告。
在这个阶段中,数仓团队需要根据业务需求和用户反馈,设计和实施合适的BI(商业智能)工具和技术,并提供相应的培训和支持。
数据仓库的构造和使用过程
数据仓库的构造和使用过程1.引言1.1 概述数据仓库是当今信息化技术中非常重要的一个概念,它可以帮助组织和企业有效地管理和利用海量的数据资源。
数据仓库的构建和使用过程涉及多个环节,包括数据收集与清洗、数据转换与集成、数据查询与分析以及数据挖掘与决策支持等。
通过构建数据仓库,组织和企业可以更好地理解数据的价值,并基于数据进行决策和规划。
在数据仓库的构造过程中,数据收集与清洗是首要的一步。
数据收集涉及到从不同数据源中提取数据,并进行筛选和汇总,以满足特定的业务需求。
清洗则是对数据进行处理和加工,包括去除重复数据、修正错误数据以及标准化数据格式等,以确保数据的质量和准确性。
数据转换与集成是构建数据仓库的核心环节。
它涉及将各种不同类型的数据进行整合和转换,使其能够被统一地使用和分析。
这个过程通常包括数据的抽取、转换和加载(ETL)等步骤,通过ETL工具可以进行数据的清洗、转换和整合,以满足数据仓库架构的需求。
在数据仓库的使用过程中,数据查询与分析是最基本的功能。
通过数据查询,用户可以灵活地获取所需的数据信息,并进行各种分析和统计。
数据挖掘与决策支持则进一步利用数据仓库中的数据,通过挖掘数据中潜在的模式和规律,为决策提供有价值的支持和参考。
总的来说,数据仓库的构造和使用过程是一个相互补充的过程。
构建一个高效、可靠和稳定的数据仓库不仅需要合理的设计和规划,还需要合适的技术和工具的支持。
而数据仓库的使用则需要用户具备一定的数据分析和挖掘能力,以充分发挥数据仓库的潜力和价值。
未来,随着大数据技术的不断发展,数据仓库将会发展出更多的应用领域,并进一步推动组织和企业的数字化转型和创新发展。
1.2 文章结构本文分为引言、正文和结论三个部分。
在引言部分,我们将对数据仓库进行概述,介绍其定义、作用和重要性。
同时,我们还将说明本文的目的,即探讨数据仓库的构造和使用过程。
正文部分分为两个主要部分:数据仓库的构造过程和数据仓库的使用过程。
数据仓库开发应用过程
数据仓库开发应用过程数据仓库开发是指通过收集、存储和处理各种数据源的大量数据,以便提供全面且可靠的数据支持给企业决策者。
在数据仓库开发的过程中,需要经历以下几个关键步骤:1. 需求分析:首先,需要与企业决策者和各个部门的用户沟通,了解他们的需求和期望。
通过与用户进行会议、访谈和调查等方式,梳理出明确的需求和目标。
2. 数据抽取:在数据仓库开发中,通常需要从多个数据源中抽取数据,并进行清洗和转换。
为了保证数据的质量和一致性,需要对数据进行校验和处理,确保数据的准确性和完整性。
可以使用ETL(抽取、转换和加载)工具来帮助完成这个过程。
3. 数据建模:在数据仓库开发中,数据建模是一个重要的环节。
通过将数据进行逻辑和物理建模,可以更好地组织和管理数据。
常见的数据建模方法包括维度建模和星型模型。
数据建模的目标是提供一个直观、灵活且易于理解的数据结构,以支持用户的查询和分析需求。
4. 数据加载:在数据仓库开发中,数据加载是将数据从源系统移动到数据仓库的过程。
这包括将数据转化为目标数据仓库的结构,并进行插入、更新和删除等操作。
在数据加载过程中,需要考虑数据的容量和性能等因素,确保数据的快速加载和准确性。
5. 数据质量管理:数据质量管理是数据仓库开发的一个重要方面。
通过使用数据质量工具和技术,对数据进行监控和评估,以确保数据的准确性、一致性和完整性。
这包括数据清洗、数据校验和数据纠错等过程,以及建立数据质量指标和度量标准。
6. 数据访问和分析:在数据仓库开发完成后,用户可以通过相关工具和应用程序访问和分析数据。
这可以通过使用在线分析处理(OLAP)工具和报表工具来实现。
用户可以使用这些工具进行数据查询、报表生成、数据分析和决策支持等操作,以获得对业务情况的深入了解。
综上所述,数据仓库开发包括需求分析、数据抽取、数据建模、数据加载、数据质量管理和数据访问等多个步骤。
通过按照这些步骤进行系统化和规范化的开发过程,可以确保数据仓库的可靠性、高效性和可用性,为企业决策者提供有力的数据支持。
数据仓库开发步骤
数据仓库开发步骤嘿,咱今儿就来说说这数据仓库开发的那些事儿哈!你想啊,数据仓库就像是一个超级大的宝库,里面装满了各种各样的数据宝贝。
那要怎么打造这么个宝库呢?首先呢,得做好规划。
就跟咱盖房子一样,你得先想好要盖个啥样的房子,多大面积,几个房间。
这数据仓库也得有个清晰的蓝图,要明确咱到底需要存哪些数据,这些数据要怎么分类整理,这可是基础中的基础呀!然后呢,就是数据的采集啦。
这就好比去收集各种宝贝,把它们都搜罗到咱的仓库里来。
这可得细心点儿,不能有遗漏,还得保证数据的准确性,不然可就麻烦啦!采集完了数据,就得开始清洗啦。
就像咱洗菜似的,把那些脏的、坏的去掉,留下干干净净的好数据。
这一步可不能马虎,不然带着杂质的数据进了仓库,以后用起来可就闹心咯!接下来就是数据的转换啦。
把这些数据按照咱设定的规则和格式进行整理,让它们变得整整齐齐的,就像把衣服叠得板板正正一样。
再之后呢,就是数据的加载啦。
把处理好的数据安安稳稳地放进仓库里,让它们在里面好好待着,随时等着咱来调用。
到了这一步,可别以为就大功告成啦!还得经常对这个仓库进行维护呢。
就像咱家里得时常打扫卫生一样,得看看有没有数据出问题啦,有没有需要更新啦,这才能保证仓库一直好用呀!你说这数据仓库开发是不是挺有意思的?咱可得一步一步来,不能着急。
要是哪一步没做好,那后面可就麻烦大啦!就好像盖房子根基没打好,那房子能结实吗?所以啊,咱得认真对待每一个步骤,把这个数据仓库打造得稳稳当当的,让它能为咱的工作和生活提供有力的支持!你说是不是这个理儿呀?总之呢,数据仓库开发可不是一件容易的事儿,但只要咱用心去做,按照步骤来,就一定能打造出一个超级棒的数据仓库!让我们一起加油吧!。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
对于超市的销售主题,采用多重粒度较
为适宜,考虑到销售记录数量的庞大,以及
对销售的分析以销售统计以及销售趋势分析
为主,商品销售数据的综合层次可以分为每
1.概念模型的需求调查
概念模型的需求调查,是以DW开发任务 书(包括组织现状、业务功能及范围、组织 发展的战略、需决策支持的方面等)为基础 进行的。
第三章数据仓库开发应用过程
•CH 3
调查对象 包括组织中的DW项目负责人、知识用户、
信息用户和信息管理人员。 项目负责人
—— 通过项目负责人在开发者和用户之 间进行沟通,以确定用户的信息需求、定义 系统以及界定系统边界。
第三章数据仓库开发应用过程
•CH
2.DW的螺旋式开发方法
3
如前所述,DW的一个生命周期包含三个
阶段。然而,一个完善的DW需要经历若干个
生命周期完成——每个DW生命周期积累的经 验,一方面可以用于未来其他主题的开发应 用,另一方面,可以用于完善原DW。
上述过程便构成了数据仓库的螺旋式开
发方法,该方法是目前DW开发的主要方法。
——评审标准:是否真实反映了开发DW的
目的,信息需求表准确否,DW的主题全面否,
ERD、星形/雪花模型是否如实反映了用户的决
策分析环境等。
第三章数据仓库开发应用过程
•CH
§4 DW逻辑模型设计
3
逻辑模型是物理模型和概念模型之间的
桥梁,它与DW物理实现时所使用的数据库相
关 ——大多为RDBMS,故此,逻辑模型主要
第三章数据仓库开发应 用过程
2020/12/7
第三章数据仓库开发应用过程
•CH
§1 DW开发应用的特点
3
DW的开发也具有其特有的、完整的生命 周期——DW规划分析阶段、DW设计实施阶段 以及DW使用维护阶段。该三个阶段将循环往 复,直至一个完善的DW开发完毕。
1.DW开发的阶段性
借鉴Nolan阶段模型,可以将DW的开发阶 段划分为:创始阶段、成长阶段、控制阶段 和成熟阶段等四个阶段。[课后阅读]
可见,DW的目标非常繁多复杂,需开发 人员与用户不断交流来确定。
第三章数据仓库开发应用过程
•CH
实现范围:
3
基于用户的角度
➢ 谁[人员/部门]使用DW;
➢ DW有哪些查询——它们确定了概括、 聚集、集成、重构等的技术要求以及报表的
种类等。
基于技术的角度
➢ 确定DW的元数据库的规模——间接地 确定了DW要管理的数据量。
第三章数据仓库开发应用过程
•CH
1.分析主题域
3
数据仓库的建立是一个循环的过程——
一般每次循环建立建立一个/几个主题域。
超市DW概念模型中,确立了三个基本主 题域(商品、销售、客户)——经分析可发 现,其中销售是超市的基本业务,也是进行 决策分析的主要领域,因此,决定首先建立 并实施销售主题域。
第三章数据仓库开发应用过程
第三章数据仓库开发应用过程
•CH 3
• 用于描述DW数据源的 物理状况。
第三章数据仓库开发应用过程
•CH
3.概念模型的分析
3
Байду номын сангаас
概念模型主要在设计者与用户之间交流
对业务过程的认识,一般用ER图表示,仍以
超市为例——考虑决策者的分析需求,确定
超市DW的三个基本主题域:销售主题、商品
主题和客户主题,则其概念模型如下:
概念模型是否准确、完整地描述了用户的决
策分析环境。
第三章数据仓库开发应用过程
•CH
概念模型的评审人员
3
——DW项目负责人、DW分析人员、DW设计
人员、DW用户,一般限制在十人以下。
概念模型的评审内容
——评审资料有:DW开发任务书,用户信
息需求表,DW主题说明书,ERD,概念模型设
计成果(星形模型或雪花模型);
第三章数据仓库开发应用过程
•CH 3
例 —— 某超市的DW设计 日趋激烈的竞争环境,要求决策者能够
更准确地了解超市的经营状况,跟踪市场趋 势,制定合理的采购与销售策略。之前由于 业务需求,已建立了若干业务处理系统,如 人事、库存、销售、采购等。由于这些业务 处理系统各自为政,缺乏全局性,因此,难 以从中进行全局性的分析工作并获取相关报 表。所以,决策者决定建立一个DW。[明确决 策需求,进一步确定所需信息]
第三章数据仓库开发应用过程
•CH
➢ 不断循环的启发式过程
3
DW的开发是一个动态反馈的、启发式的
循环过程:
一方面,DW的数据内容、结构、数据粒
度、分割及其他物理模型及其设计需根据用 户的反馈信息不断调整和完善,以提高系统
的效率和性能;
另一方面,通过不断理解用户的决策分
析需求,来调整和完善DW,以提供更为准确
第三章数据仓库开发应用过程
•规划分析阶段
•数据仓库 •开发过程
•使用维护阶段
•设计实施阶段
•CH 3
DW的螺旋式开发方法
第三章数据仓库开发应用过程
•CH
3.数据仓库开发的特点
3
➢ 数据驱动的设计方法
① 用业务系统的数据创建DW
DB系统有什么→对DW有何影响;
DB数据→主题领域[联系];
数据模型→DB与主题数据的共同性。
•CH
② DW的技术平台结构
3
➢ 单层结构——数据源与DW共享平台或
数据源、DW、数据集市、最终用户工作站使
用同一平台;
➢ C/S结构;
➢ 三层C/S结构——包括基于工作站的
客户层、基于服务器的中间层、基于主机的
第三层;
➢ 多层式结构——在三层结构基础上发
展起来的,可多达五层(存储层、服务层、
查询层、应用层、客户层)。
第三章数据仓库开发应用过程
•CH 3
3.选择DW的体系结构 一般基于DW的应用结构和DW的技术平台
结构两个方面来考虑。 ① DW的应用结构
➢ 基于业务处理系统的DW——虚拟DW; ➢ 单纯DW(所有应用都在DW中进行); ➢ 单纯数据集市(部门级DW); ➢ DW与数据集市(最佳体系结构)。
第三章数据仓库开发应用过程
第三章数据仓库开发应用过程
•CH
① DW用户的决策分析
3
基于开发DW的初衷,超市决策者迫切希
望掌握超市的库存情况和销售情况。
为制定一个营销策略,决策者要进行以
下分析:超市促销效果,客户购买趋势,商
品供应市场变化趋势以及供应商和客户的信
用等级等。
② 支持决策的数据需求分析
为完成上述分析,决策者需要促销策略
第三章数据仓库开发应用过程
•CH
给出每个主题的属性后,便得到完整的 3 概念模型了:
第三章数据仓库开发应用过程
•CH 3
4.概念模型的设计 以概念模型的分析结果以及概念模型的
定义中收集到的数据为基础,完成星形或雪 花模型的设计。
前面的 ERD只适合于业务处理系统的设 计而不能用于DW的设计。
实际中,选取星形模型还是雪花模型取 决于用户的决策分析需求。
报表形式?等等。
③ DW成功因素的建议、希望DW做什么?
第三章数据仓库开发应用过程
•CH
知识用户与信息用户
3
—— 主要调查信息的来源,包括:
① 用户承担的工作及所需信息?信息的
来源?信息处理方式?所在部门使用哪些信
息系统?这些系统提供哪些分析信息?
② 用户使用什么样的计算机系统?其中
有哪些应用程序?对这些程序的熟悉程度?
第三章数据仓库开发应用过程
•CH 3
4.建立DW使用方案和项目规划预算 使用方案——实际上是DW需求的一个重
要的原型,体现了用户参与的原则。 规划预算——估算项目投资额,可根据
以往软件开发确定,或根据参照结构估算。
最后,要撰写规划说明书。
第三章数据仓库开发应用过程
•CH
§3 DW概念模型设计
3
概念模型设计包括概念模型的需求调查、 概念模型的定义、概念模型的分析以及概念 模型的设计四个阶段。
第三章数据仓库开发应用过程
•CH 3
第三章数据仓库开发应用过程
•CH 3
第三章数据仓库开发应用过程
•CH
5.概念模型文档与评审
3
概念模型设计文档
——主要包括DW开发需求分析报告、概
念模型分析报告、概念模型以及概念模型评
审报告。
概念模型的评审
——DW开发中经常出现这类的阶段性评
审[好处?]。概念模型的评审主要用于确定
第三章数据仓库开发应用过程
•CH 3
② 自下而上策略 ➢ 较灵活——一般从某个原型开始,常
用于开发数据集市; ➢ 一般用于试点[对DW技术的评价,运
行DW的各种费用等]; ➢ 适合采用螺旋式的原型开发方法。
③ 混合策略 难以操作——需要精通方方面面的专家。
第三章数据仓库开发应用过程
•CH 3
2.确定DW的开发目标和实现范围 为此,需要对用户说明DW应用和发展趋
③ 了解DW否?希望DW达到什么目的?如
何衡量是否达到此目的?工作中尚未获得哪
些信息?
④ 如何评价DW(同前)?
第三章数据仓库开发应用过程
•CH 3
信息管理人员 —— 主要调查组织所用的系统环境,比
如组织有否DSS?其用户是谁?提供什么支持 信息?等等。
可见,需求调查过程中,开发人员应该 关注的是管理决策中关于信息的需求、用户 的基本情况、用户使用信息的情况,而非像 业务处理系统开发那样,向被调查人员询问 系统应该具有哪些功能!
采用的是关系模型——利用关系模型不仅可
以设计指标实体,还可以设计维实体以及详