数据仓库的规划与开发
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2.数据挖掘模型设计
3.信息传递
。 通常用户和数据仓库包括六个阶段的交 互过程:
(1)依据数据仓库中的数据来定义需求; (2)从数据仓库中来选择合适的数据子集 ;
(3)用计算机来操作丰富的子集; (4)将行业含义和选择的数据结合起来;
(5)将结果构建成适合用户的格式;(6) 用各种方式来表示结构化的结果。
2.企业建设数据仓库的必要性分析
4.1.2数据仓库的投资回报及风险分 析
1.定量分析
定量分析通常使用的是ROI(Return of Investment,投资回报率)和投资回报周期来 衡量。投资回报率是投资获得的收益部分除 以投资所耗的部分,即:
ROI=收益成本/成本现值
2.定性分析
4.7.2分布式数据仓库的模型建立与 数据划分
4.7.3分布式数据仓库的建设策略
(一)建设的策略 一般有四种开发机制。 1.独立建造数据仓库 2.分布式(不同地域同时) 开发方式 这种策略主要针对一些业务分散在多个地域
的大型企业,业务间的交互比较密切。 3.在多个层次上建造数据仓库 4.多个开发者建立当前细节层
4.3.6数据仓库部署
数据部署的工作主要包括用户认可、初始装载、桌 面准备和初始培训等内容。
1.用户认可。主要工作是测试所有用户的界面和 系统的性能。
2.初始装载。运行接口的驱动程序,将数据装入 到数据仓库中。
3.桌面准备。桌面准备的主要工作是安装好所有 需要的桌面用户工具,测试每个客户的计算机。
、密码等手段,在数据仓库周围建立屏障。
4.7分布式数据仓库
4.7.1采用分布式数据仓库的优点 第一,整个代价低。对于一个数据仓库,当最
初采用分布式技术时,软、硬代价要比最初采 用大的、中央集成的技术代价低; 第二,存放在数据仓库中的数据量理论上无 限制。如果数据仓库中的数据量将要超过分 布式处理器的限制时,只要在网中加入另一个 处理器即可。这也符合企业的发展趋势; 第三,研制、见效周期短。在短期内局部数 据仓库就能建好、运行并使局部组织受益。
恢复过程中需要注意一些问题: (l)要有一个清楚的恢复计划。将不同的
灾难情况列表,指出每种情况下如何进行恢 复。 (2)考虑公司的条件,建立恢复步骤,估 计恢复的期望停机时间,正确、迅速地通知 用户。 (3)如果必须去源系统完成恢复过程, 要保证源系统可用。
4.5提高数据仓库性能
可以通过以下四点来提高数据仓库的性能。 提高I/O性能 缩小查询范围 采取并行优化技术 选择适当的初始化参数
4.4.4数据备份与恢复
1.数据备份 (1)只有当前数据才应当不断的备份。 (2)可以考虑使用日志备份和差异备份的
方法。 (3)建立良好的备份规划,周期性地将数
据存档。 (4)一般备份的时间是在夜间进行,但也
可以使用备份与每日装载同步进行。 (5)备份介质的选择
2.数据恢复
3.风险分析
建立数据仓库系统的过程中会面临以下几方面 的风险:
(1)企业将建立数据仓库系统的目标定得过于远 大,不切合实际,最终难以实现。
(2)系统的实现周期过长在一定程度上将导致项 目风险的加大。
(3)由于项目控制不当而产生的风险。
(4)由于忽视了数据仓库系统的后期维护而产生 的风险。
单击数此据处仓库编的辑规母划版与开标发题样 式
单击此处编辑母版副标题样式
4.1数据仓库的投资分析
4.1.1建设数据仓库的必要性 1.企业应用数据仓库的目标
大致可以划分为三类: (1)将数据仓库作为企业的核心业务进行发展。
(2)利用数据仓库来优化企业内部管理控制,如 人力资源的管理、成本的管理、产品质量和服务质 量的管理等等。 (3)利用数据仓库为企业增加商业机会,这主要 包括帮助市场、销售部门对客户情况和市场情况进 行分析,帮助企业决策者提供辅助决策信息。
(5)从操作型数据库中提取、转换和净化 数据并加载到数据仓库。
(6)选择访问和报表工具。 (7)选择数据库连接软件。 (8)选择数据分析和数据展示软件。 (9)更新数据仓库。
4.3.2需求分析
数据仓库开发过程中每一个阶段的每一 项任务都是由需求决定的。
(1)数据仓库的需求 。用户必须能够从数据仓 库中找到他们所需要的所有战略信息,必须 能够方便地访问数据仓库,运行查询,得到 结果,并且毫无阻碍地进行结果分析。
(二)建设的原则
建设的一般原则可归结为:
第一,在单元节点建立数据仓库搭好框架, 然后抽取数据建立数据集市。
第二,首先完成急需和最关键的目标,而后 逐渐完善。
第三,先进行试点,后推广成功节点。
第四,先建立分公司节点,后建设总公司节 点。
3 .物理模型设计
通过物理模型设计,可以确定数据的存储结 构,存放位置,索引策略及存储分配。
4 .数据装载接口设计
编制数据装载程序,该程序包括了数据装载 功能和数据综合功能。数据装载功能负责数 据抽取、转换、清洗、集成,数据综合功能 负责将集成的细节数据转化为不同综合层次 的数据。
4.2数据仓库的开发方法
4.2.l瀑布式开发方法
4.2.2螺旋式开发
4.3数据仓库的建立过程
4.3.1数据进入数据仓库的过程与建 立数据仓库的步骤
1.数据进入数据仓库的基本过程
操作数据向数据仓库的移动包括以下五个过程: 提取、变换、净化、加载和汇总。
2.建立数据仓库的步骤
(1)收集和分析业务需求。 (2)建立数据模型和数据仓库的物理设计。 (3)定义数据源。 (4)选择数据仓库技术和平台
4.初始培训。这部分工作是让用户能够了解如何 使用数据仓库。
4.4数据仓库的维护
4.4.l数据周期 从操作型环境数据发生改变起,到这个
变化反映到数据仓库中所用的时间就是数据 周期。 4.4.2参照完整性 数据的参照完整性是指数据仓库中的数 据表之间动态连接。
4.4.3数据环境信息
4.6数据仓库的安全性
4.6.1安全类型
从类型上可以分以下四种: Individual个体 Group组 Hierarchical层次 Conglomeration集成
4.6.2安全方法
1.建立外部安全 通常我们可以通过建立防火墙、数据库试图
、密码等手段,在数据仓库周围建立屏障。 2.建立内部安全 通常我们可以通过建立防火墙、数据库试图
4.3.4技术路线
技术路线将会确定数据仓库的基础构造 。并且这种基础构造包括两类:操作型基础 构造和物理基础构造。
1、操作型基础构造 操作型基础构造包括人员、流程、培训和管
理软件。 2.物理基础构造 物理基础构造主要包括计算机平台和一系列
的工具。
4.3.5应用路线
数据仓库的应用设计主要包括OLAP模型设计、数 据挖掘模型设计和信息传递设计等。 1.OLAP模型设计
(2)综合分析之后形成一份需求定义文档 。
4.3.3数据路线
1.概念模型设计 概念模型设计的操作主要是对原有数据
库系统中的数据进行集成和重组而形成的数 据集合。 2.逻辑模型设计 通过逻辑模型设计,可以对每个当前要装 载的主题的逻辑ຫໍສະໝຸດ Baidu现进行定义,并将相关的 内容(如适当的粒度划分,合理的数据分割 策略,合适的数据来源等)记录在数据仓库 的元数据中。
(1)能否提高产品质量和服务质量? (2)能否优化内部资源配置,提高效率,降低成本? (3)能否改善企业与客户之间的关系,为客户提供更多、更好
的服务?
(4)能否改善管理层的管理能力、管理水平和管理效果? (5)能否为企业决策层的决策提供有效的支持? (6)能否提高企业的市场反应能力、反应速度? (7)能否为企业的技术创新和产品创新提供有效支持?