数据仓库系统的设计及开发

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
例:新用户入网业务流程: • 1:首先把SIM卡和号码在交换网络上做对应关系的注册; • 2:市场部把SIM卡存入一定的金额,发给销售商,收取销售商的货款; • 3:销售商把卡卖给用户,用户填写入网合同,SIM装入手机可以立即
通话; • 4:销售商把入网合同交给市场部,市场部资料录入人员将用户的资料
数据仓库系统的设计及开发
思考
•需求建模与业务建模
•需求建模与业务建模谁先谁后?
•软件开发过程是否应该是:业务调研,业务建模 (业务分析),(业务模型分析)需求调研(这时,已 经有一部分需求可从业务模型中获得), 需求建模, 需求分析……
2020/11/21
数据仓库系统的设计及开发
业务建模—组织结构分析
• 一旦逻辑模型到位, 物理模型就有了可 参照的依据,开发 工作内容也同时得
数据仓库到系统明的确设计及开发
数据仓库概念模型 主题域的设计
•DW主题的划分必须是基于需求的主题划分,而不 仅仅是基于已有查询和报表数据的主题划分
•DW主题是通过对业务人员的访谈,充分了解业务 流程和信息使用需求为主要根源的
数据仓库建模人员所需的技能和能力
• 分析能力
见树又见林 模拟 论证
• 学习能力
抽象 综合
• 交流能力
组交互 演示 调查访谈
• 原型设计能力
• 企业体系架构
2020/11/21
数据仓库系统的设计及开发
数据仓库设计建模的要点和原则
建模原则 •选择创建什么模型对如何动手解决问题和如何解决
方案有深远影响 •每一种模型可以在不同的精度级别上表示 •最好的模型是与现实相联系 •单个模型不充分,需要一组模型去处理
2020/11/21
数据仓库系统的设计及开发
组织结构,用户及权限的分析
客户组织结构的分析
公司组织机构 区域位置 集团/省/地市
用户的分析
用户 组 角色
权限的分析
功能权限分析 数据权限分析
2020/11/21
数据仓库系统的设计及开发
例:三大运营商的组织架构调整
2020/11/21
数据仓库系统的设计及开发
• 反馈域(Feedback Area):可选项,这部分数据模型主要用于相应前端的 反馈数据,数据仓库可以视业务的需要设置这一区域。
2020/11/21
数据仓库系统的设计及开发
数据模型的技术功能结构划分
• 分段存储区(Staging Area)
− 是为了保证数据移动的顺利进行而开 设的阶段性数据存储空间,它是业务 系统原始数据进入数据仓库前的缓存 区。
• 缺点: 在某些时候反而限制了整个数据仓库模型的灵活性,性能等
2020/11/21
数据仓库系统的设计及开发
数据仓库建模方法—维度建模法
• 优点:维度建模非常直观,紧紧围绕着业务模型,可以直观的反映出业 务模型中的业务问题
• 缺点:如果只是依靠单纯的维度建模,不能保证数据来源的一致性和准 确性
2020/11/21
数据仓库的模型—雪花模型
• 许多维度存在着比较复杂的结构,它们有的还具有多层的层次结构。 因此,很难将这样的维表只采用一个关系表的形式表达出来,必须将 这些维表规范成有多个外键关联的关系表
2020/11/21
数据仓库系统的设计及开发
星型模型 VS 雪花模型
比较项目
优点
缺点
星型模式 雪花模式
1.查询效率高,事实表作连接时其 增加了存储空间 速度较快;
数据仓库建模的三个阶段
• 概念模型设计(Concept Data Modeling):
这一阶段之前的首要工作是通过需求分析,明确需求所涵盖的业务范围。然后再 对需求范围内的业务及其间关系进行高度概括性的描述,把密切相关业务对象进 行归类,即划分主题域。
概念模型的设计是为逻辑模型的设计做准备,它没有统一的标准,主要根据设计 者的经验。
2020/11/21
数据仓库系统的设计及开发
数据仓库数据模型星型模型与雪花模型
2020/11/21
数据仓库系统的设计及开发
数据仓库建模的原则
1 兼顾效率与数据粒度的需要 2 支持需求的变化 3 避免对业务运营系统造成影响 4 满足不同用户的需要 5 考虑末来的可扩展性
2020/11/21
数据仓库系统的设计及开发
• 宽表 − 在横表的基础上拓展,强化处理方便性 − 开放给业务人员使用,直接解决业务问题 − 单条记录包括用户基本信息、产品选择和使用量 、费用信息
2020/11/21
数据仓库系统的设计及开发
数据仓库建模方法—范式建模法
• 优点: 从关系型数据库的角度出发,结合了业务系统的数据模型,能够 比较方便的实现数据仓库的建模
• 领域建模,生成概念模型,主要是对业务模型进行抽象处 理,生成领域概念模型。
• 逻辑建模,生成逻辑模型,主要是将领域模型的概念实体 以及实体之间的关系进行数据库层次的逻辑化。
• 物理建模,生成物理模型,主要解决,逻辑模型针对不同 关系型数据库的物理化以及性能等一些具体的技术问题。
2020/11/21
• 基础数据仓库
− 根据业务需求的不同,基础数据仓库的 组织形式以三范式模型为主,在有的系 统中也可能采用星型或雪花模型。
• 数据集市(Data Mart)
2020/11/21
wk.baidu.com
− 数据集市中的数据通常由基础数据仓 库的详细数据聚合而来,根据数据聚 合程度的不同包含轻度聚合、中度聚 合和高度聚合三种不同的层次。汇总 的方式将依据数据量的大小和使用频 度综合考虑 数据仓库系统的设计及开发
2.便于用户理解。比较直观,通过 分析星形模式,很容易组合出各 种查询
1.在一定程度上减少了存储空间2. 规范化的结构更容易更新和维护
1.比较复杂,用户不容 易理解;
2.浏览内容相对困难3. 额外的连接将使查询 性能下降
2020/11/21
数据仓库系统的设计及开发
宽表
• 横表与纵表 − 处理方便性与业务支撑灵活性的差异
一旦逻辑模型到位,物理模型就有了可参照的依据,开发工作内容也同时得到明确。
物理模型设计一般在架2构02设0/1计1/2阶1段
数据仓库系统的设计及开发
数据仓库系统所采用的建模流程
2020/11/21
• 概念模型为逻辑模 型的设计作准备, 没有统一标准,主 要根据设计者经验
• 逻辑模型对概念模 型的各个主题域进 行细化,根据业务 定义、分类和规则, 定义其中的实体并 描述实体之间的关 系,并产生实体关 系图(ERD)
1.业务核理改善业务流程
1) 能够全面了解业务系统的业务架构图和整 个业务运行情况
2) 能够将业务按照特定的规律进行分门别类 和程序化
2.解决信息孤岛及数据差异
1) 建立全方法的数据视角; 2) 保证整个企业的数据的一致性; 3) 消除各个部门之间的信息孤岛;
3.灵活性
1) 能够很好的分离出底层技术的实现和上层业 务的展现
建模的要点 •正确认识建模方法论
2020/11/21
数据仓库系统的设计及开发
利用图形来建立数据模型
•图形具有直观性、简单性以及可理解性等优点 •图形能自然地表达客观世界 •理解图中路径探索
2020/11/21
数据仓库系统的设计及开发
什么是数据模型
• 业务建模,生成业务模型,主要解决业务层面的分解和程 序化。
业务建模—业务流程分析
2020/11/21
数据仓库系统的设计及开发
什么是业务流程
2020/11/21
数据仓库系统的设计及开发
业务流程分析的内容
•(1)原有流程的分析。 •(2)业务流程的优化。 •(3)确定新的业务流程 •(4)新系统的人机界面。
2020/11/21
数据仓库系统的设计及开发
业务流程分析的步骤
2) 当上层业务发生变化时,通过数据模型, 底层技术实现可以较为轻松的完成业务的变 动,从而达到整个数据仓库系统的灵活性
4.加快数据仓库系统的建设
1) 开发人员和业务人员能够很容易达成系统建 设范围的边界的界定
2) 能够使整个项目组明确当前的任务,加快整 个系统建设的速度
2020/11/21
数据仓库系统的设计及开发
数据仓库系统的设计及 开发
2020/11/21
数据仓库系统的设计及开发
日程安排
数据仓库设计—数据建模 数据仓库设计—ETL设计
2数. 据仓库设计—建模过程 数据仓库设计—界面设计 3数. 据仓库的开发应用过程 最佳实践—构建高性能的数据仓库
2020/11/21
数据仓库系统的设计及开发
为什么需要数据模型
• 逻辑模型设计(Logical Data Modeling):
分别对概念模型的各个主题域进行细化,根据业务定义、分类和规则,定义其中的实体并描 述实体之间的关系,并产生实体关系图(ERD),然后遵照规范化思想在实体关系的基础上明 确各个实体的属性。实体产生于中国移动开展的业务、服务及其涉及的对象(如客户、帐户、 员工、机构、资源),实体间的对应、约束关系则来自于各业务过程中的规则。可以说,这
一阶段面对的是业务。
• 物理模型设计(Physical Data Modeling):
物理模型设计主要依据逻辑模型针对具体的分析需求和物理平台采取相应的优化策略。此时 会在一定程度上增加数据冗余或者隐藏实体之间的关系或者进行实体的合并和拆分,目的是 提高数据分析的速度,适应具体数据库的容量、性能等限制。可以说,这一阶段面对的是具 体软硬件平台和性能要求。
录入系统; • 5:计费系统按照用户选择的资费对话单进行计费; • 6、市场部按照用户的消费情况给销售商计算佣金和返利。
思考:真正的业务模型(需求)是什么?
2020/11/21
数据仓库系统的设计及开发
从业务流程中提取概念和逻辑模型
• 心得体会: • 看到背后的商业需求,你会发现模型原来非常稳定 • 不需要急于知道所有的细节性的需求,只要了解比较重要的20%的需求
数据仓库的模型—关系模型
2020/11/21
数据仓库系统的设计及开发
数据仓库的模型—星型模型
• 通过数据预连接和建立有选择的数据冗余,设计者为访问和分析过程大大简化了数据。 • 星型连接应用于设计数据仓库中很大的实体,而数据模型则应用于数据仓库中较小的实
体。
2020/11/21
数据仓库系统的设计及开发
2020/11/21
数据仓库系统的设计及开发
数据仓库建模方法—实体建模法
• 优点:能够很轻松的实现业务模型的划分,因此,在业务建模阶段和领 域概念建模阶段,实体建模法有着广泛的应用
• 缺点:不太适用于物理建模
2020/11/21
数据仓库系统的设计及开发
数据仓库建模的十大戒律
• 1) 必须回答紧迫的问题; • 2) 必须有正确的事实表; • 3) 将有正确的维表,描述必须按最终用户的业务术语表达; • 4) 必须理解数据仓库所影响的公司过程或影响数据仓库的公司过程; • 5) 对于事实表,应该有正确的“粒度”; • 6) 根据需要存储正确长度的公司历史数据; • 7) 以一种对于公司有意义的方式来集成所有必要的数据; • 8) 创建必要的总结表; • 9) 创建必要的索引; • 10) 能够加载数据仓库数据库并使它以一种适宜的方式可用。
•DW主题的设计必须能够满足业务人员的内在的分 析需求
•DW主题设计的过程中,业务环节点分析是关键
•DW细化分析主题,解决指标的歧义问题,为模型 设计、数据提取、数据展现等多个方面奠定基础
2020/11/21
数据仓库系统的设计及开发
数据仓库的数据模型
• 系统记录域(System of Record):这部分是主要的数据仓库业务数据存储 区,数据模型在这里保证了数据的一致性。
• 内部管理域(Housekeeping):这部分主要存储数据仓库用于内部管理的元 数据,数据模型在这里能够帮助进行统一的元数据的管理。
• 汇总域(Summary of Area):这部分数据来自于系统记录域的汇总,数据 模型在这里保证了分析域的主题分析的性能,满足了部分的报表查询。
• 分析域(Analysis Area):这部分数据模型主要用于各个业务部分的具体的 主题业务分析。这部分数据模型可以单独存储在相应的数据集市中。
•1.系统环境调查 •2. 组织机构和职责的调查 •3.功能体系的调查与分析 •4.管理业务流程的调查与分析
2020/11/21
数据仓库系统的设计及开发
案例学习: 新业务客户服务业务流程—新业务查询流程
2020/11/21
数据仓库系统的设计及开发
业务流程可以代替业务建模吗
• 在业务流程的背后,有一个更加根本的因素——商业需求。商业需求 才是真正的业务模型,业务流程只是一种实现手段而已。
相关文档
最新文档