基于数据挖掘技术的决策支持系统设计
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1 决策 系统 的基 本结构
首先 ,需要将不 同部门级系统 中的数据综合、归类 ,并进行必要 的 抽象 ,即建立数据仓库 ( a aeos ,D ),以D dt w rhue W a W为基础进行联 机 分析处理 (nieoa s rcs n ,O A ol nl ipoes g L P)和数据挖掘 ( aamnn , n . ys i d t iig D M),为科学决策提供依据支持。 D W、O A 和D L P M是 三种相互独立 又相互关联的技术。DW是从数据 库技术发展中出现的一种 为决策服务 的数据组织 、存储技术 。D W由基 本数据 、历史数据 、综合数据和元数据组成 ,能提供综合分析 、时问趋 势分析等决策信息。0L P A 是对多维数据进行分析的技术。由于大量数据 集中于多维空 间中 ,O P 技术提供从多视角分析途径获取用户所需要的 辅助决策的分析数据 。D 对数据库或D M W中的数据使用一系列方法进行 挖掘 、分析 ,从中识别和抽取隐含 的潜存的有用信息 ,并利用这 技术 进行辅助决策 ,如图l 。
1 )分类模 式 :分类模式是一个分类 函数 ,能够把数据集 中的数据 项映射到某个给定的类 上。分类 模式往往表现为一棵分类树 ,根据数据 值从树根开始搜索 .沿 着数据满足的分 支往上走 ,走到树叶就能确定类 别 。2)回归模式 :回归模 式的函数定义与分类模式相似 ,它们的差别 在于分类模式的预测值是离散的 ,回归模式 的预测值是连续 的。3)时 间序列模式 :时间序列模式根据数据随时间变化 的趋势预测将来 的值 , 这 里 要考 虑 到 时 间 的特 殊 性 质 ,像 一些 周 期性 的 时间 定 义 如星 期 、月 、 季节 、年等 ,不同的 日子如节假 日可能造成的影响 ,日期本身 的计算方 法 ,还有一 需要特殊考虑的地方 如时间前后 的相关性等。只有充分考 虑 时 间 因素 ,利用 现有 数 据 随 时 间变 化 的 一 系 列 的值 ,才 能更 好 地 预测 将 来的值 。4)聚类模式 :聚类模式把数据划分到不同的组中 ,组之 间 的差别尽可能大 ,组 内的差别尽可能小 . .与分类模式不同,进行聚类前 并 不 知 道 将 要划 分 成 几个 组 和什 么 样 的 组 ,也 不 知 道 根据 哪一 个 数据 项 来定 义组 。一般来说 ,业务知识丰 富的人应该 可以理解这些组的含义, 如果产生的模式无法理解或不可用 ,则该模式 可能是无 意义的 ,需要 回 到 上 阶段 重 新 组织 数 据 。
图1基于D M的决策支持系统结构 图
数 据 包 含 的信 息 更 抽 象 的描 述 。所 谓 处 理 过 程 是 指 D M是 一 个 多 步 骤 的
2 数据仓 库
DW作 为 决 策 支 持 系 统 的基 础 ,它 是 面 向 主 题 的 、集 成 的 、稳 定 的 、随时间变化的数据集合。D w具有如下特征
对大量数据进行分析的过程,包括数据预处理 、模式提取 、知识评估及
过 程 优化 。D M主 要提 供 了以下 几 种模 式 :
1 W是 面向主题 的。面 向主题的组织数据是DW的基本特征 ,主 )D 题从逻辑意义上讲对应企业某一分析领域所分析 的对象 。2)D W是集 成 数据 的统一体。DW的数据来源于事务数据库 ,这些数据是构成DW的基 础 。这 些 事 务 数据 库 的数 据 通 过清 洗 处 理 后 ,形 成 整合 的 、结 构 化 的 、 易于导航的数据+能够对决策分析快速正确地反应 。3)D W是随时闻而 变的、持久 的数据集合 。D W包含大量 的数据 ,是对事务数据库不 同历 史时期的数据的综合 、重组 、统计导出的数 据集合 。事务数据库需要频 繁地进行增 、删 、改等事务操作 ,而在 D W中更多 的是增 ,很 有删 、 改,D W在一定的周期保持稳定 。 DW把 高 校 分 散 的 、难 以访 问 的 日常 营 运 数据 转 化 为 集 中 统 一 、随 时 可用 的信 息 。D W结 构 上 可 分 为 :数 据 源 、后 端 加 工、 前 端 服 务 以及 数 据仓 库 的管 理 。 1 )数 据 源 为D W提 供 源 数 据 ,如 各种 子 系 统 数 据 库 、联 机 事 务 处 理 系统 的事务数据 、外部数据源等都可 以作为D W的数据源。2)后端加 [ J具即数据E L( 一 T 抽取 、转换 、装载 ):负责从数据源中抽取数据 ,对
D M的过 程 也 就 是 从数 据 库 或 数 据 仓 库 中识 别 出有 效 的 、新 颖 的 、 潜 在 有 用 的 , 以及 最 终 可理解 的模 式 的 高级 处 理 过程 。所 谓 模 式 ,可 以 看 作 是 我 们 所说 的知 识 ,它 给 出 了数 据 的特 性 或 数据 之 间的 关 系 ,是 对
数据进行检验和整理 .并根据D W的设计要求 ,对数据 进行重新组织和 加T ,装 载到D w的目标数据库 中,并且可 以周期性地刷新D W以反映源 的变化以及将D W中的数据作转储 。3 )前端工具主要是DMT具和O A _. LP 分析丁具 .这些工具从D W获取数据 ,O A H 务器存储数据立方体 ,它 L P ̄ 是功能强大的多用户的数据操纵引擎 ,特别用来支持 和操作多维数据结 构 。4 数据仓库管理主要是通过 元数据来实现 的,元数据仓储用于存 ) 储数据模型和元数据 .其中 ,元数据描述 了D W中源数据和 目 标数据本 身的信 息 ,定义 了从源数据到 目标数据 的转换过程,这些可以通过数据 建模T具 管理 以适应高校事务的发展 ,来满足高校决策和综合分析的需 要 。5)D w监控和管理工具对 D W的运行 提供监控和管理手段 ,包括系 统资源的使用情况、用户操作的合法性 、安全管理 、存储管理等多方面 的 内容。D W存储经检验 、整理、加工和重新组织后 的数据 ,它可以是 关系数据库或多维数据库 。 3 联 机分 析处 理
敞袱 碰撤
利用关系数据库中的数据进行O A ,往往会 因查询的数据信息不是 LP 缺乏分析能力 ,就是 困各信息系统之间相互隔离、结构各异 ,使决策人 员不能据此对某一主题 的相关数据进行多角度的比较 、分析 ,从 而得出 科 学的分析结果。而基 于D W的O AP U L 贝 较好地避免了该类 问题 。它根据 用户对企业业务理解 的各种维度 ,或者说从用 户分析企业时的各种宏观 领域 出发 ,从企业具有的各种原始数据转换出各类信 息, 提供给分析、 管理和领导人员快速 、方便 、交互地访问 ,从不 同领域 、不 同角度查看 企业情况 ,获得企业信息 ,了锯企业发展动态,从而为快速响应市场 、 抢 占市场先机、完善企业管理 、提高企业竞争力和做出有效决策提供坚 实的基础。Ol 主要有两个特点 ,一是在线性 ,体现为对用户请求的快 AP 速响应和交互式操作 ,它的实现是 由CS d 这种体系结构来完成 的;二是多 维分析 ,这也是O A  ̄术的核心所在 。 LP 4 数据 挖掘
淼霸
信 系统设 计
彭 奕 平
( 西 旅 游 商 贸 职 业 学 院 ,江 西 南 昌 3 0 0 江 3 0 0)
摘 要 为有效 利用高校部 门级信息 系统 的衍生数据 ,以支持 高层管理决 策 ,建 立基 于数据挖掘技 术的决策支持 系统 。设计 系统结构并对 数据 仓库 、联机分 析处理 、数 据挖掘等 关键概念进行 阐述 ,通 过挖掘实例 验证决策 支持 系统的有效性 和实用性 。 关 键词 数据挖掘 ;数据仓 库 ;联机分 析处理 ;决策 支持系统 中 图分 类号 T 文 献标 识码 A P 文 章编 号 1 7 ~ 6 1 (0 012 0 3 一 l 6 3 9 7 一2 1)0 — 0 3 O