决策支持系统的重要信息技术基础

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

附加专题讲稿:决策支持系统的重要信息技术基础(数据库、网络略)一个只有30人左右的小公司,却要向报纸和杂志的广告代理机构提供他们与竞争对手对抗中的相对地位信息,从而帮助他们决策,这个复杂任务需要跟踪有关报纸和杂志的数千万条广告信息,而这数千万条广告信息就存储在一个数据仓库里。

1.数据库与数据仓库

1.1 传统数据库技术支持决策层面的困难

20世纪80年代,数据库技术在联机事务处理OLTP方面取得了巨大成功。联机事务处理包括输入信息的收集、处理并利用收集到和经过处理而得到的信息去更新已存在的信息。联机事务处理数据库最常见的是业务数据库,如产品数据库,我们可以去更新产品的单价,也可以因为增加了新的生产线而去增加产品的种类。再如图书查询系统、商场销售系统、航空售票系统、银行事务系统。所有的数据库管理系统,小到Access,大到Oracle,全都支持联机事务处理。

数据库技术能够支持操作层面的联机分析处理,也能够支持中间管理控制层面的管理信息系统,却常常无法很好支持复杂一些的决策层面。为什么?

进行决策时,需要通过不同方式从不同角度综合数据,而数据往往分散存放在各自为政的数据库中,各个部门各自独立地从自己的原始数据库中抽取数据,这种横向与纵向的抽取开始形成蜘蛛网,随后是抽取之上的抽取,接着就是在此基础上的再次抽取。对于一个大公司,每天进行多达5万次的抽取是很正常的。

而抽取将导致数据缺乏可信度。

例如:某部门在今天上午9:00抽取了分析所需的数据,而另一个进行分析的部门在今天中午12:00抽取了数据,这两份数据相同吗?很可能不同。公司内的数据总在变化。不同时刻抽取出来的不同数据集,分析结果当然不会相同,这称为数据无时间基准。

再例如:一个部门选择所有的旧帐号作分析,而另一个部门选择所有的大帐号作分析,旧帐号的顾客和大帐号的顾客之间存在必然的相关性吗?不一定,因此,分析结果大相径庭也就不足为奇,这称为数据在算法上存在差异。

每次抽取结束后,因为时间或算法上的差异,抽取结果出现差异的可能性增大了。对一个公司而言,从数据进入公司系统到为决策者准备好分析结果,经过八九层抽取并不罕见,这其中有抽取、抽取的抽取、抽取的抽取的抽取。每一个新层次的抽取都会使要发生的问题变得更严重,这称为抽取的多层次问题。

从外部数据源获取决策所需的数据时,也往往会产生问题。外部数据来源不明或丢失。例如:一个决策分析人员从某财经网站取得外部数据,在加入分析流时,却无意中忘掉了外部数据的来源,外部数据的来源不明,自然缺乏可信度。

数据没有公共起始数据源,也将导致数据缺乏可信性,例如:部门A的分析工作源于文件F,部门B的分析工作源于数据库D,不论文件F与数据库D之间关系怎样,都不存在数据同步或数据共享。

决策所需的数据缺乏可信性,自然就无法保证决策分析的可信性。

决策支持系统处理,常常要访问大量集成的数据包括若干年前的历史数据,并从中找出趋势,进行分析型处理。传统数据库技术,往往只对若干关联的数据库的记录进行操作,进行事务型处理。

例如:银行信息需求的典型问题:本月的账号活动同过去5年中每年的各个月份有什么不同?

决策支持系统分析员很可能会首先发现银行系统中虽然有分离的储蓄应用、借贷应用、信托应用,然而,这些应用在建立时从来没有考虑过集成。决策支持系统分析员想要对它们进行解释几乎不可能。

很快,决策支持系统分析员又会发现,没有存储足够的可以满足决策分析需求的历史数据。贷款部门只有2年的有用数据,存折处理部门只有1年的数据,数据库设计、实现、处理时,需要满足当前收支处理的需要,很少会考虑过保存若干年前的数据以满足决策支持系统分析的需求。

确实,要了解本月存款、取款、贷款的信息都非常方便,但要综合了解、分析本月所有的帐号活动同过去5年中每年各个月份的活动区别,用传统的数据库技术,几乎是不可能完成的。

因此,大量的企业选择构建数据仓库。

1.2 数据仓库

由于数据库技术存在的缺陷:随着企业处理的数据量越来越大、数据源越来越多,传统的数据库技术在支持决策层面上的数据综合、分析、集成出现了困难,也无法从大量杂乱无章的数据中寻找趋势,导致决策支持系统的发展长期以来停滞不前,例如:经理们没有办法去获取在确定有效决策时所需要的信息,因为可供选择的信息太多、信息的格式相互矛盾。在这样的历史背景下,数据仓库之父、美国的Inmon在1992年提出了”数据仓库”的概念,为决策支持系统的发展开辟了方向,成为基于大规模数据库的决策支持系统环境的核心。

特别需要强调的是:数据仓库是数据库的一种体系结构或框架,也可以称为一种方案,而不是一种技术,这种体系结构从许多业务数据库中提取用于支持特定决策的信息。为了大家并不容易理解,举个例子:进入北京,你会看到独具特色的立交桥,你马上就会知道:这不是武汉,因为武汉立交桥的外观和风格跟这不一样。立交桥的外观和风格我们称为立交桥这种建筑物的体系结构。而这种体系结构是由钢筋水泥构成的,但钢筋水泥本身并不是体系结构,他门是独立的技术。数据仓库和数据库的关系,类似于立交桥建筑的体系结构和钢筋水泥之间的关系。

数据仓库之父、对数据库、数据仓库研究长达36年的美国专家Inmon给数据仓库最权威的定义:数据仓库是一个面向主题的、集成的、永久的且随时间不断变化的数据集合,用于支持管理层的决策。这一定义显然与数据库有很大差别。

数据仓库表达了与传统信息组织和管理截然不同的思维方法。

为方便大家在对比中更好地理解数据仓库的概念,将数据仓库与数据库的主要特征列表比较说明如下:

商品进销存、图书查询、银行业务处理、航空售票、人事管理、工资管理。数据仓库是面向在高层企业数据模型中已定义好的企业主要主题领域的,典型的主题领域有:顾客、商品、交易、保险单、索赔、帐目等等。

数据库主要处理当前或近期业务数据,如商品进销存系统内的商品数据库,主要存储和处理的是近期进货、销售、库存的商品信息。数据仓库中则集成存储和处理若干年前(5~10年甚至更长)的历史数据,并从中找出趋势,进行分析型处理,以有效辅助决策,如数据仓库中的商品数据,往往是5年左右的,从中可以分析出商品的销售趋势,某种商品什么时侯好卖、什么时候不好卖,那些商品一直好卖?顾客买某种商品之后,他还会买别的什么商品?

在企业中,大多数数据库支持联机事务处理OLTP,面向业务。数据仓库通过支持联机分析处理OLAP来支持决策,不面向业务。联机分析处理OLAP是一种提供决策支持的信息处理方式,能对大量数据进行组织和汇总,分析程序能对数据进行快速评价,适用于大量的企业解决方案,如企业报告、企业分析、数据建模、决策支持。绝大部分大型数据库管理系统都具备联机分析处理功能,如SQL Server 2000 Analysis Services。例如:对于某书城的销售部门,以前往往需要一大批研究分析不同计算机内存储的大量数据库的业务人员,花费大量时间按书号、书名、单价、作者、出版社、出版时间、购买时间、购买地区、购买群体来收集图书销售信息。而采用联机事务处理和数据仓库,只需要几分钟就可以完成相同的工作。

在关系数据库模型中,信息是用一系列二维表格来表示的,包含行和列。如桌面数据库管理系统Access中,数据库内包含表、查询、窗体、报表、页、宏、模块七种对象,所有对象都是二维的。而绝大多数数据仓库不是二维结构,而是包含若干层的行和列。数据仓库中的层根据不同的维度来表达信息,这种多维度的信息图表被称为立方体结构。

例如:一个来自于多个业务数据库的表达图书商品信息的数据仓库。

相关文档
最新文档