数据挖掘技术分析及其在高校管理决策中的应用

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

数据挖掘技术分析及其在高校管理决策中的应用
【摘要】本文通过对数据仓库、数据挖掘技术和决策支持系统的研究，提出了基于数据挖掘的高校管理决策支持系统。

该系统能为高校决策提供科学的依据和指导其发展方向。

【关键词】数据挖掘；决策支持系统；数据仓库；决策树
随着高校招生规模逐年扩大以及教育方式更加灵活多样，几乎每所高校都面临着学生人数的急剧增加与教学资源日趋紧张的矛盾，同时高校的一些机构也在不断地改革变化，这些都给高校的管理带来了前所未有的发展和挑战。

在这样的形势下，高校应如何以最小的代价获得最大的发展成为一个亟待解决的新课题。

具体来说，现在要求高校领导层从整体的、宏观的角度认清形势，解决问题，优化教育资源配置，提高教育资源利用率。

为此，建立一个有效的高校管理决策支持系统(Decision Supporting System，简称DSS)则显得十分必要。

该系统的各项功能除了满足日常简单的查询、统计和维护、全局统筹规划管理高校各种信息、协调各部门工作顺利开展，还能够为高校决策者提供有关教育形势的瞬时变化、发展趋势以及通过高科技手段来开发历史数据，提取隐含在其中的事先未知的、潜在的、深层次的、有价值的信息，以利于管理和决策的开展和进行。

一般在建立DSS时，会利用传统的数据库DB(Database)技术，但传统的DB
技术目前无法为数据的合成、分类和综合提供强大的功能支持。

此外，为实施有效的分析，信息应以与决策密切相关的主题为中心组织起来，这些都是DB满足不了的。

而数据仓库技术的出现给决策支持系统的发展注入了新的活力，它把决策者所需的信息从原始的操作数据中分离出来，把分散的、难以访问的原始数据操作数据转化为集中统一、随时可访问的信息，即数据仓库对信息实现合理、全面而高效的管理。

因此，研究数据仓库和它的相关技术并应用于高校决策支持系统中是极其有效的途径。

本文所采用的解决方案，就是一个以数据仓库(Data Warehouse，简称DW)技术为基础，以数据挖掘(Data Mining，简称DM)工具为手段的高校管理决策支持系统。

该系统中，DW用于存储和组织高校的基础数据，而DM则可以利用该基础数据，通过一系列技术挖掘出有价值的知识信息，验证和预测高校的各项资源，辅助决策，以便在快速变化的竞争中把握高校的发展方向。

一、数据仓库和数据挖掘技术分析
(一)数据仓库技术分析
1．数据仓库的概念
DW作为决策支持系统的基础，不同的人对数据仓库有不同的定义。

公认的数据仓库之父W．H．Immon将其定义为：“数据仓库是支持管理决策过程的、面向主题的、集成的、随时间变化的、持久的数据集合。

”
数据仓库中的数据大体分为四级：远期基本数据、近期基本数据、轻度综合数据和高度综合数据。

还有一部分重要数据是元数据，即关于数据的数据，数据仓库中用来与终端用户的多维模型与前端工具间建立映射的元数据，称为决策支持系统的元数据。

一个完整的数据仓库系统应当具备建立、管理和使用等功能。

W．H．1mmon
认为，数据仓库系统可以分为三个组成部分：
(1)数据源：提供源数据；
(2)后端加工处理：包括来自数据源数据的接受、析取、汇总、变换、打包和储存等；
(3)前端服务：面向用户的数据需求，完成数据提取和计算分析等功能。

2．开发数据仓库的流程
开发数据仓库的流程包括以下几步：
(1)建立开发数据仓库工程的目标及制定工程计划；
(2)建立技术环境，选择实现数据仓库的软硬件资源；
(3)根据决策需求确定主题，进行数据建模，选择数据源，对数据仓库的数据进行逻辑结构设计；
(4)设计数据仓库中的数据库，基于用户的需求，着重于某个主题，开发数据仓库中数据的物理存储结构，即设计多维数据结构的事实表和维表；
(5)数据转换程序实现从源系统中抽取数据、清理数据、一致性格式化数据、装载数据等过程的设计和编码；
(6)定义元数据，即表示、定义数据的意义及系统各组成部件之间的关系。

元数据包括关键字、属性、数据描述、物理数据结构、源数据结构、映射及转换规则、综合算法、代码、缺省值、安全要求、变化及数据时限等；
(7)开发用户决策的数据分析工具，建立结构化的决策支持查询，实现和使用数据仓库的数据分析工具，包括优化查询工具、统计分析工具、客户机／gR务器工具、联机分析处理工具及数据开采工具等，通过分析工具实现决策支持需求；
(8)管理数据仓库环境，包括质量检测、管理决策支持工具及应用程序．并定期进行数据更新，使数据仓库正常运行。

3．高校管理中的数据仓库建立
从上可知，DW不是业务数据的简单堆积，而是从大量的事务型数据库中抽取数据，并将其清理、转化为新的存储格式，即为决策目标把数据聚合在一种特殊的
格式中。

随着此过程的发展和完善，这种支持决策的、特殊的数据存储即被称为DW。

对高校管理来说，DSS建立数据仓库的数据可能来自如人事处、学生处、教务处、财务处、设备处、后勤管理等职能部门和二级学院、系及不同地域的分校等，所有这些数据从结构上看，是相对独立的，是不利于高校决策者进行全面分析和查询的。

根据高校DSS的需求，就必须要求数据仓库从较高层次上把分散的、难以访问的数据从不同信息系统中分离／：U来，经过抽取、净化、转换、迁移为统一、随时可用的信息，通过深层次加工把信息转换成大小不一、各式各样的数据集市(DataMart)以利于各个职能管理部门和院系作专题分析和辅助领导层决策。

同时，它应由系统定期自动完成分散数据源的采集、入库和刷新丁作，还要充分考虑今后的扩展性与外部数据的接口。

总之，DW把高校分散的、难以访问的日常营运数据转化为集中统一、随时可用的信息。

一般来说，完整的DW具备建立、管理和使用全部成分。

由此也可知，建立数据仓库是一个长期复杂的过程。

数据仓库主要应用于对全局把握和事件的复杂分析等领域。

它的真正价值在于帮助人们制定能够改进过程的决策，而不仅仅是工作流程的自动化。

因此，有了数据仓库，高校领导层决策时就可以依据事实，而不再是只依赖直觉。

(二)数据挖掘技术分析
1．高校管理需要数据挖掘
根据目前高校管理信息系统的特点，首先需要在较高层次—亡将不同信息系统中的数据综合、归类，并进行分析利用的抽象，即建立数据仓库，在数据仓库的基础上进行联机分析处理和数据挖掘，为科学决策提供依据支持。

DM就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，抽取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

从更广义角度来讲，DM就是在一些事实或观察数据的集合中寻求模式的决策支持过程。

因此，它除了处理传统数据库中的数值型的结构化数据外，还可以对文本、图形、图像、WWW信息资源等半结构、非结构数据进行挖掘。

DM意味着在一些事实或观察数据的集合中寻找模式的决策支持过程，DM的对象不仅是数据库，也可以是文件系统、数据集合或DW。

基于DW的DM技术，其任务是发现DW中尚未被发现的知识。

对于那些决策者明确了解的信息，可以用查询等其它工具直接获取，而另外一些隐藏在大量数据中的关系、趋势等信息就需要DM技术。

DM技术可从DW中找出大量真正有价值的信息和知识，可以更好地对高校的发展历程和未来趋势做出定量的分析和预测。

为各高校的管理决策者提供更科学的决策基础，从而有效地提高教学质量，有针对性地加强教学管理。

2．数据挖掘的任务
DM的任务是发现知识，主要包括以下几类知识的发现：广义型的知识，反映同类事务共性的知识；特征型知识，反映事物各方面特征的知识；差异性知识，反映不同事物之间属性差别的知识；关联型知识，反映事物之间依赖或关联的知识；预测性知识，根据历史和当前的数据推测未来的数据；偏离型知识，揭示事物偏离常规现象。

3．数据挖掘的流程。

DM就是利用数据挖掘技术，从存放在数据库、数据仓库及其其它信息库的大量数据中挖掘有价值的知识的过程。

可以将数据挖掘分为四个步骤：
(1)业务对象：首先应熟悉应用领域的数据、背景知识，清晰地定义出业务问题，明确所要完成的数据挖掘的任务，完成数据定义工作。

(2)数据准备：包括数据抽取和预处理工作。

主要对数据质量进行分析，完成消除数据噪声，清除不一致数据，进行多个数据库的集成、组合工作。

然后从数据库中选择挖掘的对象，将数据转换成数据挖掘系统要求的统一格式。

(3)数据挖掘：是知识发现的核心步骤。

包括选择合适的算法和技术、执行挖掘算法、搜寻提取数据模式等。

(4)结果分析：依据要解决的问题，对挖掘出的模式进行确认或者解释，将发现的知识以用户能够理解的方式提供给用户。

4．数据挖掘的方法
DM的结果体现在知识的发现上，而知识的发现是一个极其复杂的过程。

面对高校管理的数据挖掘这个领域，如何从众多的挖掘技术中精心选择出有效的技术和方法，是研究和开发高校管理数据挖掘系统的首要问题。

数据挖掘可采用有下面的方法：
(1)决策树方法：主要用于数据分类。

它利用信息论中的信息增益寻找数据库中具有最大信息量的字段，建立决策树的一个节点，再根据字段的不同取值建立树的分支；在每个分支子集中重复建立树的下层节点和分支的过程，即可建立决策树。

接着进行剪枝处理，然后把决策树转化为规则，利用这些规则对新事物进行分析。

(2)遗传算法：主要用于分类和关联规则的挖掘。

遗传算法是基于达尔文进化论中基因重组、突变、自然选择和适者生存等概念，试图通过组合或“繁殖”现存的最好的解法来产生更好的解法。

(3)人工神经网络：用于分类、聚类、特征挖掘、预测和模式识别。

人工神经网络从结构上模仿生物神经网络，通过简化、归纳、提炼总结出来的一类并行处理网络。

以模拟和学习规则为基础，建立三类多种神经网络模型：前馈式网络、反馈式网络、自组织网络。

(4)粗糙集理论：用于数据简化、数据意义评估、对象相似性或差异性分析、因果关系及泛化式挖掘等。

主要思想是：把对象的属性分为条件属性和决策属性，按各属性值相同分等价类。

条件属性上的等价类E与决策属性上的等价类Y分三种情况，分别为：下近似，Y包含E；上近似，Y和E交集非空；无关，Y和E的交集
为空。

对下近似建立确定性规则，对上近似建立不确定性关系，对无关情况则不存在规则。

(5)关联规则方法：用于对大型关系数据库发现有价值的关联模式，也可对半结构化数据(如文档数据)进行关联规则挖掘。

它通过统计方法对数据中的if--then规则进行寻找、归纳和提取。

就目前高校的情况而言，现有的管理信息系统大都具有分类特性，因此高校管理DSS的数据挖掘方法主要采用能实现分类模式分析的方法，以分类模式分析为主线，关联模式分析为辅线结合其他分析方法进行。

二，决策支持系统技术分析
1．基本概念
管理的核心是“决策”。

随着时代的发展，高校比以往任何时候都面临着更为复杂的生存环境，更难以形成并维护其竞争优势，竞争的压力对高校制定决策的质量、速度都提出了更高的要求。