数据仓库与数据挖掘项目建设方案措施

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据仓库与数据挖掘项目建设

1. 数据仓库知识简介

1.1软件质量控制

软件质量控制的主要目的是为了获得更高的开发效率,避免返工,提高产品的市场竞争力,从而为客户提高符合质量需求的稳定可靠的软件产品,同时它也是控制方法的集合,包括软件建模、度量、评审以及其他活动。

1.2用于软件控制的一般性方法如下:

1.目标问题度量法,即通过软件质量目标并持续观察这些目标是否达到软件质量控制的一种

方法

2.风险管理法,即识别与控制软件开发中对成功达到质量目标危害最大的哪些因素的系统性

方法

3.PDCA循环。这种方法发源于日本,是指计划plan,做do,检查check,和行动action

1.3信息化的需求:

随着信息化的高速发展,各行各业,各组织单位积累了大量的业务数据,这些数据存在于各单位的数据库,各种报表、文档中,真可谓是数据的海洋。这些数据中蕴含着组织业务活动的大量规则,包含着组织管理决策所需要的重要知识,从这些数据中挖掘出有价值的信息,为管理决策提供支持是政府和企业事业单位共同面临的问题。

解决这个问题主要依赖于亮相技术:

一是对整个组织各部门生产的各种业务数据进行统一和综合,把业务数据转化为商业信息,支持决策,即数据仓库。

二是发现隐藏在各种数据之中有用的知识,即数据挖掘。

1.4以银行为案例的IT整体架构

1.5数据仓库的定义

数据仓库系统是指面向主题的、集成的、稳定的同时又是随时间变化的大量的数据集合。

在综合使用一些应用软件下,用户获得想要的信息,最终为经营管理的决策提供有力的帮助

数据仓库系统的业务特征是业务需求的范围和内容,不像业务系统那样清晰和明确:系统建设的一个主要风险是体现在软件工程质量和串接方面存在较大的过程风险:系统建设的成功标准应该由应用系统的用户数及其使用频率作为重要参考依据。

1.6数据仓库的建设过程的挑战

如何来控制风险、如何来保证质量呢?把质量控制作为数据仓库建设的生命线,把它贯穿于数据仓库建设整个过程的始终。那么质量控制的中心环节又是什么呢?

简单而言,包括事前控制:对方案和计划进行充分的咨询和论证;事中管理:对建设开发阶段进行持续不断的过程控制;事后控制:对于建设成果通过测试、评审、验收、试运行

等方式进行面向结果的管理控制。

1.7数据仓库的质量控制

关于数据仓库中的质量管理问题的研究,目前有几个主要的切入点:

(1)从数据仓库的设计入手,简历适合全方位质量控制的体系结构

(2)遵从生命周期观点,全过程控制数据仓库建设质量

(3)按照数据仓库凶的工作机制和部件构成来制定质量控制标准

数据仓库质量从本质上说是总体数据质量的问题。数据仓库的质量问题是一个主观的标准问题,不同层次的人员对数据仓库的质量有不同的要求,必须根据追求的目标来制定质量的测评、预测标准并加以实现,才能真正达到质量控制的目的

1.8数据仓库的精确定义

上世纪80年代中期,“数据仓库之父”William.H.Inmon先生在其《建立数据仓库》一书中定义了数据仓库的概念,随后又给出了更为精确的定义:数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的数据集合。与其他数据库应用不同的是,数据仓库更像是一种过程,是对分布在企业内部各处的业务数据整合、加工和分析的过程。而不是一种可以购买的产品。

1.9数据仓库的特点

1.9.1 数据仓库是面向主题的

主题是一个比较抽象的概念,是一种在较高层次上将企业信息系统中的数据综合、归类后进行分析利用的抽象。在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象,是针对某一决策问题而设置的

面向主题的数据组织方式,就是在较高层次上对分析对象数据的一个完整、统一、一致的描述,能完整及统一地描述出各个分析对象所设计的相关企业的分项数据,以及数据之间的联系

1.9.2 数据仓库是集成的

全面而正确的数据是进行有效分析和决策的首要前提。在某一个主题的统帅下,需要对数据进行抽取、清晰、转换和加载等集成操作。因为:

(1)数据仓库的数据不是直接从原有数据库系统复制得到,因为原有数据库系统记录的是每一项业务处理的流水账,这类数据不适合用于分析处理。在进入数据仓库之前必须经过综合计算,抛弃分析处理不需要的数据项,增加一些可能涉及的外部数据。(2)数据仓库每一个主题所对应的源数据在原数据库中有可能有许多重复或不一致之处,必须将这些数据转换成全局统一的定义,消除不一致和错误之处,以保证数据的质量。

显而易见的是,对不准确,甚至不正确的数据进行分析得出的结果将不能用于知道企业领导者做出科学的决策

1.9.3数据仓库是相对稳定的

操作型数据库中的数据通常实时更新,数据根据需要发生变化。数据仓库的数据主要供企业领导者决策分析之用,所涉及的数据操作主要是数据查询和分析,一旦某个数据进入数据操作主要是数据查询和分析,一旦某个数据进入数据仓库之后,一般情况下将会被长期保留,也就是数据仓库中一般有大量的查询操作和分析,修改和删除操作一般不多,通常只需要定期的加载、刷新。

1.9.4数据仓库是相对时间变化的

由于数据仓库中的数据是为了分析用的,这使得数据仓库中的数据总是拥有时间维度。数据仓库实际上就是记录系统的各个瞬态,并将各个瞬态连续起来形成动画,从而在数据分析的时候再现系统运动的全过程。数据提取的周期决定了动画间隔的时间,数据提取的周期越短,则动画的速度越快

1.10数据成熟度

*商业智能包含(数据仓库和数据挖掘)

1.11商业智能(仓库和挖掘)能够帮助我们做什么

增加销售额

深化客户关系

研发客户关系

相关文档
最新文档