什么是数据仓库
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
什么是数据仓库?
什么是数据仓库
数据仓库是一个环境,而不是一件产品,提供用户用于决策支持的当前和历史数据,这些数据在传统的操作型数据库中很难或不能得到。
数据仓库技术是为了有效的把操作形数据集成到统一的环境中以提供决策型数据访问的各种技术和模块的总称。
所做的一切都是为了让用户更快更方便查询所需要的信息,提供决策支持。
数据仓库的组成
数据抽数据净化数据载入
信息发布系统
操作型数据和外界数据
数据集市
报表,查询, EIS工具
OLAP 工具
数据挖掘工具
操纵平台
元数据
管理平台
无双回复于:2003-08-03 17:43:11
数据仓库数据库
是整个数据仓库环境的核心,是数据存放的地方和提供对数据检索的支持。
相对于操纵型数据库来说其突出的特点是对海量数据的支持和快速的检索技术。
数据抽取工具
把数据从各种各样的存储方式中拿出来,进行必要的转化、整理,再存放到数据仓库内。
对各种不同数据存储方式的访问能力是数据抽取工具的关键,应能生成COBOL程序、MVS作业控制语言(J CL)、UNIX脚本、和SQL语句等,以访问不同的数据。
数据转换都包括,删除对决策应用没有意义的数据段;转换到统一的数据名称和定义;计算统计和衍生数据;给缺值数据赋给缺省值;把不同的数据定义方式统一。
元数据
元数据是描述数据仓库内数据的结构和建立方法的数据。
可将其按用途的不同分为两类,技术元数据和商业元数据。
技术元数据是数据仓库的设计和管理人员用于开发和日常管理数据仓库是用的数据。
包括:数据源信息;数据转换的描述;数据仓库内对象和数据结构的定义;数据清理和数据更新时用的规则;源数据到目的数据的映射;用户访问权限,数据备份历史记录,数据导入历史记录,信息发布历史记录等。
商业元数据从商业业务的角度描述了数据仓库中的数据。
包括:业务主题的描述,包含的数据、查询、报表;
元数据为访问数据仓库提供了一个信息目录(information directory),这个目录全面描述了数据仓库中都有什么数据、这些数据怎么得到的、和怎么访问这些数据。
是数据仓库运行和维护的中心,数据仓库服务器利用他来存贮和更新数据,用户通过他来了解和访问数据。
访问工具
为用户访问数据仓库提供手段。
有数据查询和报表工具;应用开发工具;管理信息系统(EIS)工具;在线分析(OLAP)工具;数据挖掘工具。
数据集市(Data Marts)
为了特定的应用目的或应用范围,而从数据仓库中独立出来的一部分数据,也可称为部门数据或主题数据(subject area)。
在数据仓库的实施过程中往往可以从一个部门的数据集市着手,以后再用几个数据集市组成一个完整的数据仓库。
需要注意的就是再实施不同的数据集市时,同一含义的字段定义一定要相容,这样再以后实施数据仓库时才不会造成大麻烦。
数据仓库管理:安全和特权管理;跟踪数据的更新;数据质量检查;管理和更新元数据;审计和报告数据仓库的使用和状态;删除数据;复制、分割和分发数据;备份和恢复;存储管理。
信息发布系统:把数据仓库中的数据或其他相关的数据发送给不同的地点或用户。
基于Web的信息发布系统是对付多用户访问的最有效方法。
无双回复于:2003-08-03 17:43:29
建立数据仓库
为什么要建立数据仓库:
商业上:利用所有可能的数据快速而正确的做出决策;用户是业务领域的专家,而不是计算机专业人员;企业数据每18个月翻一番,需要有一种有效的访问这些数据的方法;在商业智能和有利用效企业数据方面,竞争的加剧。
技术上:计算机的计算能力越来越便宜(MIPS价格的下跌);存储介质价格的下跌;
网络带宽的增长,网络的传输能力越来越便宜;整个企业的计算机环境越来越复杂,各个时代各个不同厂家的应用系统同时存在;新的应用要访问其他应用的数据。
实施数据仓库应注意的问题:
商业上(考虑投资回报率)
实施的步骤:从上到下还是从下到上
人力资源的问题:培训还是雇佣
设计上(think big, but start small)
可能要用到很多类型的数据源,历史数据可能很“老”,数据库可能变得非常大。
数据仓库相对于OLTP来说,更加是业务驱动(business-driven)的而不是技术驱动的(IT-dri ven),需要和最终用户不断的交流,建立的过程可能永远不会结束。
要点:
1) 数据仓库中应该包含细节数据(清理过的)。
2) 用户能看到的任何数据都应该在元数据中有对应的描述。
3) 考虑当数据量迅速增长到一台服务器放不下时,数据仓库中的数据在各个服务器总如何分配,按主题、地理位置、还是时间?这些策略对整个数据仓库的性能影响很大。
4) 当选用数据仓库设计工具时应注意:工具支持的元数据格式是否与数据仓库支持的元数据格式相容?不同工具的元数据格式之间能否自由转换?
5) 最终用户对数据仓库的使用方式对数据仓库的性能影响很大,在设计数据仓库模型时为了提高性
能应将用户对数据仓库的使用方式考虑在内。
无双回复于:2003-08-03 17:43:47
设计数据仓库的九个步骤:
1) 选择合适的主题(所要解决问题的领域)
2) 明确定义fact表
3) 确定和确认维
4) choosing the facts
5) 计算并存储fact表中的衍生数据段
6) rounding out the dimension tables
7) choosing the duration of the database
8) the need to track slowly changing dimensions
9) 确定查询优先级和查询模式。
技术上
硬件平台:数据仓库的硬盘容量通常要是操作数据库硬盘容量的2-3倍。
通常大型机具有更可靠的性能和和稳定性,也容易与历史遗留的系统结合在一起;而PC服务器或UNIX服务器更加灵活,容易操作和提供动态生成查询请求进行查询的能力。
选择硬件平台时要考虑的问题:是否提供并行的I /O吞吐?对多CPU的支持能力如何?
数据仓库DBMS:他的存储大数据量的能力、查询的性能、和对并行处理的支持如何。
网络结构:数据仓库的实施在那部分网络段上会产生大量的数据通信,需不需要对网络结构进行改进。
实现上
无双回复于:2003-08-03 17:44:07
建立数据仓库的步骤:
1) 收集和分析业务需求
2) 建立数据模型和数据仓库的物理设计
3) 定义数据源
4) 选择数据仓库技术和平台
5) 从操作型数据库中抽取、净化、和转换数据到数据仓库
6) 选择访问和报表工具
7) 选择数据库连接软件
8) 选择数据分析和数据展示软件
9) 更新数据仓库
数据抽取、清理、转换、和移植
1) 数据转换工具要能从各种不同的数据源中读取数据。
2) 支持平面文件、索引文件、和legacy DBMS。
3) 能以不同类型数据源为输入整合数据。
4) 具有规范的数据访问接口
5) 最好具有从数据字典中读取数据的能力
6) 工具生成的代码必须是在开发环境中可维护的
7) 能只抽取满足指定条件的数据,和源数据的指定部分
8) 能在抽取中进行数据类型转换和字符集转换
9) 能在抽取的过程中计算生成衍生字段
10) 能让数据仓库管理系统自动调用以定期进行数据抽取工作,或能将结果生成平面文件
11) 必须对软件供应商的生命力和产品支持能力进行仔细评估
主要数据抽取工具供应商:Prism solutions. Carleton's PASSPORT. Information Builders Inc. 's
EDA/SQL. SAS Institute Inc.
无双回复于:2003-08-03 17:44:23
元数据
是整个数据仓库环境运行和维护的中心,各种软件和工具都要访问这部分数据。
Prim提供了Dire ctory Manager来开发和管理元数据。
用户
偶然用户(Casual User):只需要访问一些预定义的查询、生成报表等。
不需要任何工具,只是看一看。
高级用户(Power User):通常需要自己定义一些简单的查询或把预定义好的查询组合一下,通常需要drill-drown。
此类用户需要哪些为非计算机人员开发的数据查询工具。
专家(Expert):此类用户通常需要自己定义复杂的查询,直接分析数据仓库中存放的各种数据。
建立数据仓库的好处
数据仓库应用包括:数据定位;数据呈现(报表和图表);检验假设;知识发现;共享分析。
有形的好处
改善产品库存控制;降低常品推广费;更加高效的制订决策;能提供一个关于整个企业的bigpictu re。
无形的好处
通过把所有的数据放在一个地方,方便存取,提高生产效率;减少重复数据处理和分析;提高用户种程度;为商务流程再造成提供支持
作者:
相关网络站点,所有权利属于原作者
daiyingxin 回复于:2003-08-06 16:34:00
很好,需要学习的东西真多,学不完了
无双回复于:2003-08-06 18:24:10
一步一步来
如果不去学
就不知道自己不知道
但是学了
不知道的东西又少了一点
二二回复于:2003-08-08 09:01:39
数据仓库的缩写是什么?BI吗?
二二回复于:2003-08-08 13:31:18
没人知道?
穷惯了回复于:2003-08-09 20:03:12
刚到公司的时候,部门里组织了几个人(包括本人)去搞当时还是比较新的东西---数据仓库。
忙了一个月,感觉就是云里雾里的那种,数据仓库这东西太大,建议大家对整个概念有所了解就够了。
我想现在国内也不会有什么厂家说自己去搞个这方面的产品,所有的项目也就是用IBM。
ORACLE还有SAS什么的产品客户话一把。
sandyqin 回复于:2005-08-22 12:33:10
原文作者是谁
CU管理员回复于:2005-08-25 10:33:46
[quote:831bfd63d1="sandyqin"]原文作者是谁[/quote:831bfd63d1]
没有注明作者有可能是当时转摘的网友没看到原作者的信息,如果你知道作者信息还请告知,我们会马上加上的.感谢你对CU的关注.
innovate511 回复于:2005-08-25 16:09:21
[quote:4d3bc871b9="二二"]数据仓库的缩写是什么?BI吗?[/quote:4d3bc871b9]
汗,真没想到这里还有人讨论数据仓库。
:mrgreen:
要知道更多数局仓库的信息和知识,还得去国内最专业的DW网站,我2003年初才去注册,不过我2000年就开始做BI了。
数据仓库和BI关系很大,但是不是同一个概念,数据仓库的英文全称是Data warehouse,很多时候简称DW。
数据仓库是复杂BI项目的基础,有的项目没有用DW,但是可以算是广义的BI,因为他用了BI的一些概念,只是有的人只做过OLTP方式的报表系统就号称做过数据仓库就有点贻笑大方了。
数据仓库中,楼主的介绍忽略了维表的重要性,在很多情况下,维表的复杂程度是数据仓库项目是否是大项目的重要指标,即使事实表量再大,但可供分析的维很少,也不能叫大项目。
目前在上海,BI和SAP等知名ERP项目一样很吃香,薪水比同等IT技术职位高,原因是这个项目不容易自学,必须去做实际项目,而且是大的数据仓库项目才能去竞争好的职位,因为数据仓库项目涉及技术多,工具多,有商业业务要求。
现在从业人员的水平也参差不齐,因为每个人接触的项目大小、行业、从业时间都不同,而且国内项目的设计和国外的水平相差很大,自然对深层次的东西也很难学到。
而这不象ERP有自己的软件产品,BI没有一个独立产品的,BI方案是由N个产品或技术组成的,导致了上述差距很难缩小。
综上所述,这个方向前景很好,但是挑战也很大!。