数据仓库与数据挖掘_课程教学实践与探索
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2011年1月第1期 高教论坛
H igher Education Forum
Jan 2011 No 1
数据仓库与数据挖掘 课程教学实践与探索
韦艳艳,张超群
(广西民族大学 数学与计算机科学学院,广西 南宁 530006)
摘要:本文从 数据仓库与数据挖掘 课程的本科教学特点出发,讨论了在授课过程中遇到的一些实际问题,介绍了理论教学环节和实验教学环节的各项内容及侧重点,并给出具体的实验教学方案。
关键词:教学实践;数据仓库;数据挖掘
中图分类号:G642 文献标识码:A 文章编号:1671-9719(2011)01-0094-03
作者简介:韦艳艳(1974-),女,广西贵港人,讲师,主要研究方向为数据挖掘、机器学习。
收稿日期:2010-10-11
一、前言
数据仓库与数据挖掘技术出现于20世纪80年代,90年代有了突飞猛进的发展。这是信息和数据深度处理的必然需要,也是体现信息价值的重要工具。现在, 数据仓库与数据挖掘 作为一门既有理论基础又有实际应用价值的学科,已经成为计算机、信息系统等很多专业本科生的学习内容之一,由此可见这门学科在当今科学中的重要性以及应用的广泛性。
本课程是计算机科学与技术本科生在第三学年开设的选修课程。作为一门前沿性学科,数据仓库与数据挖掘有许多技术和方法是开放式、或仍处于探索阶段的。因此,学生除了掌握基本的概念与方法之外,对该门学科中许多面临的问题、有待拓展的研究方向应有所了解,这样有助于为学生提供对该学科的一个广博且适度的概览,提高自主学习的能力,并为有志于在该领域进行深入研究的学生提供一个学习的机会。
由于该课程原本属于研究生阶段开设的专业课程,教材也大多侧重于介绍体系结构、算法原理、效率分析与改进等理论知识,其中所涉及的内容大多比较深,许多知识都超出了本科生的接受范围;此外,教材对相关理论在实际应用方面的说明也比较少,不利于安排实验教学。因此,要实现 数据仓库与数据挖掘 课程的教学目标,必须在理论教学和实验教学环节综合考虑学时多少、教学条件以及学生的接受情况等因素,灵活地加以选择安排[1-2]。
二、课程的教学内容
本课程的任务主要是从数据库角度出发,全面、系统地介绍数据仓库与数据挖掘的基本概念、基本方法以及该领域的最新进展。通过本课程的学习,使学生对数据仓库与数据挖掘的整体结构、概念和技术有深入的认识和了解,并且熟悉相关算法的基本原理,提高学生分析数据的思维能力与计算能力。
教材方面,我们采用的是清华大学出版社出版,由安淑芝等编著 数据仓库与数据挖掘 ,同时还向学生推荐阅读韩家炜编著的 数据挖掘:概念与技术 ,这是一本得到业内广泛认可的的经典教科书[3]。
该课程理论课时共22学时,各章节授课学时安排如表1所示。
表1 各章节的授课学时
章节学时第一章 绪论2
第二章 数据仓库7
第三章 数据预处理3
第四章 数据挖掘的基础知识2
第五章 数据挖掘的常用算法8
表2 实验教学内容
实验内容课时
数据仓库的基本构造方法及实施联机分析
处理
4
构建N or thwind数据仓库系统4
数据收集及预处理2
各类数据挖掘及分析8
实验课时共18学时,实验内容主要配合教学环节来设置。具体安排如表2所示。
三、理论教学环节
数据仓库与数据挖掘 这门课程所涉及的是多
个学科的交叉领域,要求学生有扎实的计算机专业知识,且应当掌握如数据库系统、程序设计、概率统计、数据结构、机器学习等学科的基础知识。但由于本科生课程在教学设置及课时安排方面的原因,学生不可能完全了解相关的学科内容,因此,本课程在理论讲解时,对涉及到学生比较生疏的知识点,比如决策支持对数据的特殊要求、知识的定义及表示方法、信息熵的计算等等,应根据学生已有的知识水平,结合实例予以说明。
数据仓库与数据挖掘 这门课程与数据库有着紧密的联系,在讲解数据仓库部分时,应当首先让学生了解数据管理技术从数据库发展到数据仓库的过程,以便理解数据仓库技术和数据挖掘技术产生的原因,进而出现数据挖掘这一类深层次的数据分析的发展过程。而在讲解数据仓库与数据挖掘的关系时,应当指出数据仓库系统能够满足数据挖掘技术对数据环境的要求,可以直接作为数据挖掘的数据源。反之,数据挖掘的数据源不一定必须是数据仓库系统,它可以是任何数据文件或格式,但必须事先进行数据预处理,处理成适合数据挖掘的数据。数据仓库可以为企业管理人员提供决策分析所需要的数据环境,而数据挖掘则可以从大量数据中发现知识,是一类深层次的数据分析方法。
而在讲授数据挖掘部分,则应把侧重点放在所用方法的概念和属性,而不是机械地应用不同的数据挖掘工具。因为对数据挖掘而言,深入地理解挖掘方法、模型以及它们的工作原理是有效和成功运用数据挖掘技术的基本条件。我们在课程讲授过程中,也应向学生强调说明这一点,即任何数据挖掘的研究者和实践者都要清楚地了解:某种挖掘技术的应用场合是什么?有何局限性?可以从哪些方面着手改进它等,为其将来在实际工作中使用数据挖掘工具打好基础。
四、实验教学环节
实验是计算机类课程教学过程中的一个重要环节,对于绝大多数本科生而言,只有在实践中才能真正地理解与掌握理论。 数据仓库与数据挖掘 是一门与实际应用结合非常紧密,实践性非常强的课程。因此,实验教学一方面要结合学生的实际动手能力,侧重于与实际应用紧密结合,充分调动学生的主动积极性,而不是简单让学生进行验证式的操作实验或仅仅局限于机械地使用、熟悉某种软件工具。但另一方面,学生对相关的软件工具本身并不熟悉,如何使学生很好地利用工具进行系统设计或数据分析工作,是完成实验教学任务所必须考虑的问题。
(一)实验环境
本课程实验主要涉及构建数据仓库及实施数据挖掘,根据实验室的硬件条件及教材提供的实验内容,我们选择微软的SQL Server2000(含Analysis Serv ice组件以及SPSS的Climent ine8 0作为实验软件。
(二)实验项目设置
1.使用数据仓库开发工具
SQ L Ser ver2000提供了一套完全的数据库和数据分析解决方案,其中的Analysis Service组件支持数据仓库的创建和应用,并提供了多功能强大的工具和服务以帮助完成数据仓库的建立、维护,进行OLAP联机分析和数据挖掘。A nalysis Serv ice自带有一个实例教程,非常适合初学者使用。
由于学生从未使用过SQL Server的Analysis Serv ice,也不了解这一组件,所以首先让学生熟悉这个软件,具体做法是根据实例教程学习如何在Anal ysis Service中怎样创建和使用数据仓库,在实验过程中学生不应只局限于只完成指定的操作步骤,而是围绕着下列问题进行:
Analysis Service中是如何创建多维数据集的,包含哪些步骤?
多维数据集的元数据有哪些内容?
怎样使用多维数据集对数据进行各种OLAP 分析操作(切片/切块、上钻/下钻、旋转)、如何理解分析的结果?
这些问题集中归纳了Analysis Service的基本使用方法,较好地帮助学生解决了 这样做意义何在? 的问题。这部分实验由学生根据教程自行完成,教师不安排演示和解说,只是在学生遇到无法解决的问题时才提供帮助,这样不仅大大提高了实验效率,也使学生的自主学习能力上了一个台阶。
通过这个实验内容,学生基本上熟悉了Analy sis Serv ice的工作环境,掌握了数据仓库的创建和使用方法,同时也理解了课本中提到的多维数据、事实表、维度表、元数据以及OLA P分析等重要的知识点。有了这个作基石,接下来就可以安排学生自行设计完成一个数据仓库系统了。
2 构建数据仓库系统
构建数据仓库系统属于开放性实验,它能够让学生在掌握有关知识和技能的同时,获得较高的创新意识和创新能力。该实验要求学生根据SQL Serv er2000的样例数据库N ort hw ind来构建数据仓库。Nort hw ind是一家虚构的公司,从事世界各地的特产食品进出口贸易。Nort hw ind样例数据库包含有这家公司的销售数据,数据内容多,而且数据量也较大,符合我们的实验要求。
构造No rt hw ind数据仓库的第一步,是首先理解业务数据,No rt hw ind数据库中的表非常多,需要重点关注的是下面几个表的内容及其相互间的关