数据集成管理
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
调研方式
当面访谈 访谈前先联系,预约好访谈时间和地点,确定参加访谈人员及负责人,提醒访 谈对象做好准备工作。访谈时,与业务人员面对面地进行交流,双方就调研提纲中 提出的内容和问题进行详细的调研和分析,包括现有的应用系统、拥有的数据资源 等,并进行详细的记录。访谈结束后,对调研情况进行整理,并形成访谈记录,供 调研结束后需求整理之用。 问卷调查 采用问卷调查的方式,对业务需求进行调研和分析,包括:有哪些应用系统, 应用系统的功能和使用情况如何,分别生成哪些数据,生成时间和频率如何,生成 的数据的用途,这些数据能对哪些需求提供支持等。 采用问卷调查方式没有访谈方式那样直接和有效,因此对问卷中提出的问题必 须要认真设计,力求简单、明了,并与调研对象的业务紧密结合,让调研对象能准 确把握调研内容并进行有针对性的回答。 在问卷调查表中,为尽量减少被调查人员的工作量,尽量采用封闭式问题,如 选择题的形式,并适当配合一些开放式的问题,让愿意提供更深层次需求的人员有 地方表述。 如在进行销售电量主题分析分析时,针对供电指标制定的需求调查表可采用如 下的形式:
建设过程中各步骤的迭代关系
在针对某一个或几个具体的主题进行数据仓库构建的过程中,大体需要进行 需求分析,逻辑分析,ODS建模,数据仓库建模,数据源分析,数据的获取 需求分析,逻辑分析,ODS建模,数据仓库建模,数据源分析,数据的获取 与整合,应用设计等几个大的步骤,通常情况下,是按照一个大致的方法逐 步执行这几个大的步骤,但并不是一次就能够完成所有的工作,它是一个不 断完善,反复迭代的过程。
柱图:按照单位、单位类别、时间的组合综合展示多个指标本期值; 柱图:按照单位、单位类别、时间的组合展示单个指标的排行情况; 仪表盘:显示当前计划完成情况 折线图:按照单位,时间段内,各项指标变化曲线
调研百度文库容
对企业领导层
– – – – – – – – – 领导层目前的工作重点有哪些和此主题相关,和哪几个指标相关? 领导层最关心哪几个指标? 针对这些指标,领导层目前采用何种获取方式? 针对这些指标,领导层目前都进行哪些分析,采用何种分析手段,采用何种分析方法? 目前状况下,针对这些指标都有哪些展现方式? 领导层对数据仓库的期望是什么? 领导层希望决策分析系统能提供哪些分析功能? 领导层希望以何种方式来看这些指标? 领导层希望对这些指标进行哪些方面的比较? 中间管理层通常需要上报哪些指标?和此分析主题相关的有哪些指标? 平时领导层通常询问哪些指标?在这些指标中哪几个和此分析主题有关? 中间管理层目前的工作重点有哪些和此主题相关,和哪几个指标相关? 中间管理层本身最关心哪几个指标? 中间管理层对下属的工作人员都考核哪些指标?哪几个指标与此分析主题有关? 针对这些指标,中间管理层目前采用何种获取方式? 针对这些指标,中间管理层目前都进行哪些分析,采用何种分析手段,采用何种分析方法? 目前状况下,针对这些指标都有哪些展现方式? 中间管理层对数据仓库的期望是什么? 中间管理层希望决策分析系统能提供哪些分析功能? 中间管理层希望以何种方式来看这些指标? 中间管理层希望对这些指标进行哪些方面的比较?
对中间管理层
– – – – – – – – – – – –
调研内容
对业务人员
– 平时工作中最关心的是哪些指标?有哪几个指标与此分析主题有关? – 平时直属领导通常询问哪些指标?在这些指标中哪几个和此分析主题有 关? – 业务人员目前的工作重点有哪些和此主题相关,和哪几个指标相关? – 业务人员对数据仓库的期望是什么? – 业务人员希望系统能提供哪些分析功能? – 业务人员希望以何种方式来看这些指标? – 业务人员希望对这些指标进行哪些方面的比较?
处理逻辑分析
处理逻辑分析采用自上而下和自下而上相结合的分析方法, 首先对单项需求的处理逻辑进行分析确定处理流程,然后 再对这些处理流程进行整合。 由于数据中心的建设是一个不断完善和迭代的过程,不可 能一次把所有的分析主题都建设完成,因此,在进行每一 个主题分析时,对其处理逻辑都不能进行孤立的分析,而 应该考虑其与已经建成的和尚未建设但以后需要建设的各 主题的关联。 例如在进行销售电量主题分析时,我们在分析销售电量的 业务逻辑时,需要同时考虑为以后的线损电量分析做好准 备。
逻辑分析 逻辑分析过程是通过需求调研获取的资料和需求 分析报告,仔细分析各信息资源,根据业务逻辑 定义分析问题的角度、指标体系、关键指标以及 这些指标分别由哪些数据提供支撑等,最终将上 述内容在逻辑分析说明书详细描述。该步骤面向 整个系统的分析需要有熟悉数据仓库及决策系统 和各个业务系统的人员共同完成。
– 要全面了解所选用的数据库管理系统,特别是存储结构和存取方 法。 – 了解数据环境、数据的使用频度、使用方式、数据规模以及响应 时间要求等,这些是对时间和空间效率进行平衡和优化的重要依 据。 – 了解外部存储设备的特性,如分块原则,块大小的规定,设备的 I/O特性等。 I/O特性等。
数据仓库建模
数据源分析
范围分析是分析综合数据的计算、统计方法,确定每一个 综合数据需要哪些数据源中的哪些原始数据。即确定从哪 些系统中获取哪些数据。 格式分析是分析原始数据在数据库中的物理存储格式。包 括存储类型,存储长度,数据精度等指标。 更新分析是分析原始数据在应用系统中的更新方式、更新 频率、更新内容。即原始数据何时进行更新,如何更新, 更新哪些内容等。 质量分析是分析原始数据的质量。主要分析数据完整性、 数据准确性、数据一致性。同时还要分析数据的物理存储 格式和实际存储的数据是否一致。通常,质量分析是数据 源分析中最重要、工作量最大的部分。
调研、确认表
项目 分析主题 分析指标 维度组成 维度层次 公司供电指标 自治区范围各单位供电量、计划售电量、售电量、购电量 时间、单位、类别 【时间】年-->月; 【供电单位】省公司->下级各地市 所需数据项 数据来源 源数据数量及质量 源数据更新频度 分析指标 展现方式 本月供电量、去年同月供电量、本月同比增长率、本年累计供电量、去年同期累计供电 量、本年累计同比增长率; 本年计划售电量、本月售电量、去年同月售电量、本月同比增长率、本年累计售电量、 去年同期累计售电量、本年累计同比增长率、本年计划完成率 本月购电量、去年同月购电量、本月同比增长率、本年累计购电量、去年同期累计购电 量、本年累计同比增长率 供电量 计划售电量 本月购电量 本月售电量 说明
汇报内容
1.数据中心实施建议 1.数据中心实施建议 3.数据中心 3.数据中心 2. ETL数据抽取 ETL数据抽取 3.BI商业智能报表 3.BI商业智能报表 4.Q&A
对数据仓库建设步骤的建议 由于数据仓库的建设是一个复杂的反复迭代的过 程,不可能一蹴而就。而且就具体的分析主题来 说也不是一次把所有的主题都建设完成,而是根 据需要建设的主题的复杂程度、迫切程度、建设 的成本和建成后的成效等多种因素综合考虑的结 果。因此,在各数据中心建设的过程中,建议采 用分主题的方式逐步的建设完善数据仓库。
ODS逻辑模型 ODS逻辑模型 ODS是基于某个主题的一组数据的集合,而 ODS是基于某个主题的一组数据的集合,而 不局限在某个应用系统,从业务关联的角度看数 据,而不是基于传统的应用角度看数据。 ODS设计与DW设计在着眼点上有所不同, ODS设计与DW设计在着眼点上有所不同, ODS重点考虑业务系统数据是什么样子的,关系 ODS重点考虑业务系统数据是什么样子的,关系 如何,在业务流程处理的哪个环节,以及数据抽 取接口等问题。
汇报内容
1.数据中心 1.数据中心 2. ETL数据抽取 ETL数据抽取 3.BI商业智能报表 3.BI商业智能报表 6.Q&A
开始之前
ETL综述 ETL综述
ETL是数据抽取(Extract)、转换(Transform)、加载 (Load )的简写,它是指:将OLTP系统中的数据抽取出来,并将不 同数据源的数据进行转换和整合,得出一致性的数据,然后加载到 数据仓库中。 在这一转换过程中,我们就完成了对数据格式的更正、对数 据字段的合并、以及新增指标的计算三项操作。类似地,我们也可 以根据其他需求,完善数据仓库中的数据。 在数据仓库的构建中,ETL贯穿于项目始终,它是整个数据仓库的 生命线,包括了数据清洗、整合、转换、加载等各个过程。如果说 数据仓库是一座大厦,那么ETL就是大厦的根基。ETL抽取整合数据 的好坏直接影响到最终的结果展现。所以ETL在整个数据仓库项目 中起着十分关键的作用,必须摆到十分重要的位置。 简而言之,通过ETL,我们可以基于源系统中的数据来生成数 据仓库。ETL为我们搭建了OLTP系统和OLAP系统之间的桥梁
对IT人员 IT人员
– – – – – 此主题所需要的数据源都取自哪些业务系统? 与本主题有关的现有的业务系统的数据结构怎样? 与本主题有关的现有的业务系统的数据更新频率如何? IT人员对数据仓库的期望是什么? IT人员对数据仓库的期望是什么? IT人员在平时的工作中最关心的哪些指标? IT人员在平时的工作中最关心的哪些指标?
多维数据建模以直观的方式组织数据,并 支持高性能的数据访问。每一个多维数据 模型由多个多维数据模式表示,每一个多 维数据模式都是由一个事实表和一组维表 组成的。多维模型最常见的是星形模式。 在星形模式中,事实表居中,多个维表呈 辐射状分布于其四周,并与事实表连接。
星形模式
雪花模式
数据源分析
数据源分析是指对数据源中的原始数据进 行分析,得出原始数据范围、格式、更新 方式、更新频率、质量等各方面分析数据 的分析过程。 数据源分析的过程分为范围分析、格式分 析、更新分析、质量分析四个方面。
数据抽取方法包括 数据抽取方法包括
轮询、 触发器、 增量、 全表抽取等
其中轮询和触发器抽取方法适用于实时采集阶段,增量和全表抽 取方法适用于非实时采集阶段。抽取方法可以根据需要进行灵活的配 置,满足了抽取准确性、完整性的要求。
数据清洗
数据清洗的任务是过滤那些不符合要求的数据,将过滤的结果 数据清洗的任务是过滤那些不符合要求的数据,将过滤的结果 交给业务主管部门,确认是否过滤掉还是由业务单位修正之后 再进行抽取。
ODS物理模型 ODS物理模型
ODS物理模型设计是对ODS数据的物理层进行设计, ODS物理模型设计是对ODS数据的物理层进行设计, 也就是对数据的存储方式进行设计的步骤,主要包括确定 数据的存储结构,确定索引策略,确定数据存放位置,确 定存储分配等。 确定ODS实现的物理模型,要求设计人员必须做到以下几 确定ODS实现的物理模型,要求设计人员必须做到以下几 方面:
确定调研目标
需求调研需要达到以下目标:
– 通过发放调研表格、召开座谈会和个别访谈等方式对数据中心需 求进行调研,整理出明确、具体的需求,对需求范围进行界定, 并经过确认,让系统分析人员、系统建设者和各级领导对系统建 并经过确认,让系统分析人员、系统建设者和各级领导对系统建 设目标达成共识; 设目标达成共识; – 对现有应用系统和信息资源进行调研,确定数据来源,分析数据 现有应用系统和信息资源进行调研,确定数据来源,分析数据 生成的时间和频率,并对信息资源进行整理,全面分析和掌握现 有信息资源的情况,并确定哪些类型的数据能对上述数据中心需 求提供支持; – 确定哪些需求需要外部数据(同行业甚至是其它行业的数据), 确定哪些需求需要外部数据(同行业甚至是其它行业的数据), 这些数据如何获得,所需费用等; – 通过实地考察和案例分析,对电力行业以及其它行业数据仓库建 设的成功案例进行调研,进行相关经验的交流和学习,为系统建 设提供支持和借鉴意义。
ETL开发方式比较 ETL开发方式比较
开发方式 采用ETL工具 采用ETL工具 比较方面 灵活性 难易程度 管理和维护 可移值性 性能和效率 开发周期 价格 比较灵活 相对容易 容易 好 较高 较短 较高 最灵活 要求一定技术水平 较难 差 取决于编写者水平 较长 相对较低 手工编码
数据抽取方法