3-4数据仓库设计-物理模型设计

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
完整清晰的数据定义; 合适的数据格式等。
数据仓库中的每个组件或部件都确定相应 的设计标准。
数据仓库索引的创建
索引创建策略
建立索引时,按照索引使用的频率,由高到低逐步添 加。 按主关键字和大多数外部关键字建立索引
事实表索引的创建
事实表中一定要设置主键 可以设计多种索引结构
维表索引的创建 数据加载索引的创建
数据仓库的物理模型设计
内容提要
数据仓库的物理模型设计
索引的建立 存储系统的设计
数据仓库的实施 数据仓库的测试 数据仓库的应用支持与增强
数据仓库的物理模型设计
物理模型设计的工作:
表的数据结构类型; 索引策略; 数据存放位置; 数据存储分配。
物理模型设计因素:
I/O存取时间; 空间利用率; 维护的代价。
数据仓库的实施
实施过程中需要完成的工作:
建立数据仓库与业务处理系统的接口; 数据仓库的体系结构建立; 实现数据仓库物理仓库与元数据库; 进行数据仓库的数据初次加载; 完成数据仓库的中间件设计; 进行数据仓库的测试。
数据仓库与业务处理系统接口的设计
接口应该具有这样一些功能:
从面向应用和操作环境生成完整的数据; 数据基于时间的转换; 数据的聚集; 对现有数据系统的有效扫描,以便今后数据仓库 的数据追加。
数据仓库的中间件设计
中间件种类
拷贝中间件 网关中间件 监控中间件
拷贝中间件包含的部件
代码发生器 数据复制工具 数据泵 广义数据获取工具和设备
数据仓库的中间件设计
拷贝中间件所做的工作
拷贝中间件还应该能够进行数据清洁工作 可对记录或列重组、去除业务数据、供给已丢 失的字段值和检查数据的完整性和一致性 对列值的解码和转换 增加数据的时间戳 数据的概括或者衍生值的计算
确定存储分配
存储分配的相关内容
表空间大小划分 块的大小 缓冲区的大小和个数
物理模型设计评审
物理设计评审的目标要确定:
物理模型在满足数据仓库使用的灵活性、性能、 数据完整性、系统可用性、数据的当前性和用户 的满意度等
具体的评审项目有:
表空间、分区、表格、数据压缩、控制表和引用 表、索引、数据量、数据分布、线路通信量、数 据仓库的更新、概况数据、预期变动和数据的文 档化。
可以先卸载索引再加载数据,最后重新生成索引
确定数据存放位置
数据的布局原则:
不要把经常需要连接的几张表放在同一存储设备 上。 如果几台服务器之间的连接会造成严重的网络业 务量的问题,则要考虑服务器复制表格。 考虑把整个企业共享的细节数据放在主机或其他 集中式服务器上。 别把表格和它们的索引放在同一设备上。一般可 以将索引存放在高速存储设备上,而表格则存放 在一般存储设备上,以加快数据的查询速度。
数据仓库的创建
关系型数据库、多维数据库和对象数据库 创建数据仓库的工具:
MS SQL Server2000 Oracle9i Sybase Informix Red Brick Decision Server
数据仓库的数据加载、复制
数据加载之前,首先需要对准备加载的数 据进行清理 ; 复制技术 ,复制结构应完成以下的复杂任 务:
对数据仓库用ቤተ መጻሕፍቲ ባይዱ的支持
对数据仓库应用成功案例的推广 初始阶段的支持 技术人员、商业分析人员与用户一起讨论
数据仓库的使用方式
数据仓库的使用方式
信息处理 分析处理 数据挖掘
数据仓库使用中的数据刷新
从已有数据资源中获取更多数据 从单位内部获取新的数据源 获取新的或更多的行业数据源
数据仓库的增强
元数据库的局限性 缺乏外部数据源 数据仓库数据加载性能不能满足要求 数据仓库应用范围的扩大 数据仓库整体性能的调整 数据仓库重新规划
数据仓库的测试
单元测试
单元测试的目的是寻找出存在于单个程序、存储 过程和其它位于一些独立环境中模块的错误。
系统集成测试
测试目的是验证每个单元与数据仓库系统和子系 统之间的接口是否完好,是否能够正常传递数据 与执行系统的整体功能。
数据仓库的应用、支持和增强
数据仓库的用户培训及支持
用户的培训:
向用户解释清楚数据仓库的作用与原理; 用各种案例向用户说明如何使用数据仓库
不会受到系统失败等问题的影响,保证提供可 靠的数据复制。 只传送符合数据完整性规则的一致数据。 可以优化传送过程,减少在捕获或修改数据和 复制品作为结果传送之间的等待时间。
数据仓库的数据发行
技术和数据结构应保证数据发行系统完成 以下的功能:
保证数据以适时和有效的方式发行。 保证只发送被排序的数据。 建立正确的和所需要的服务水平标准。
数据仓库的物理模型设计
设计工作前提
全面了解所选用的数据库管理系统,特别是存储 结构和存取方法。 了解数据环境、数据的使用频率、使用方式、数 据规模以及响应时间要求等。 了解外部存储设备的特征。
数据仓库设计的规范
保证数据仓库的设计、实施和管理保持稳 定,不产生混乱,需要对物理数据模型中 的实体、表、列等进行规范化处理。使整 个数据仓库的物理数据模型能够保持一致。 规范化内容主要有:
相关文档
最新文档