数据挖掘教学大纲
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
西北师范大学计算机科学与技术专业课程教学大纲
数据挖掘
一、说明
(一)课程性质
数据挖掘是计算机科学与技术专业的选修课程,本课程以数据挖掘为主要内容,讲述实现数据挖掘的各主要功能、挖掘算法和应用,并通过对实际数据的分析更加深入地理解常用的数据挖掘模型。先修课程:《数据库原理》、《概率论与数理统计》、《高级程序设计语言》、《数据结构》等。
(二)教学目的
数据挖掘是20世纪末刚刚兴起的数据智能分析技术,由于有广阔的应用前景而备受重视。数据挖掘作为一门新兴的学科,在它的形成和发展过程中表现出了强大的生命力,广大从事数据库应用与决策支持,以及数据分析等学科的科研工作者和工程技术人员迫切需要了解和掌握它。数据挖掘涉及的内容较为广泛,已成为迅速发展并在信息社会中广泛应用的一门综合性学科。数据挖掘已成为统计学专业的一门重要课程。通过数据挖掘课程的教学,使学生理解数据挖掘的基本概念和方法,为进入更深入的智能数据分析研究打好基础。
(三)教学内容
本课程主要学习的内容包括数据预处理、分类与预测、聚类分析等内容
(四)教学时数
本课程的教学时数为课堂36学时,上机18学时,2.5学分。
(五)教学方式
本课程将采用课堂讲授、上机实验相结合的方法。
二、本文
第一章数据挖掘概述
教学要点:
1.理解和掌握数据挖掘的基本概念、数据挖掘过程以及数据挖掘功能。
2.了解数据挖掘的应用和面临的问题。
3.对数据挖掘能够解决的问题和解决问题思路有清晰的认识。
教学时数:
3学时。
教学内容:
第一节什么是数据挖掘(0.5学时)
数据挖掘(Data Mining)就是从大量的、不完全的、模糊的、随机的实际应用数据中,提取隐含在其中的、事先不知道的但又是潜在有用的信息和知识的过程。
第二节数据挖掘——在何种数据上进行?(0.5学时)
关系数据库、数据仓库、事务数据库
第三节数据挖掘功能——可以挖掘什么类型的模式(1学时)
关联分析、分类和预测、聚类分析
第四节数据挖掘系统的分类(1学时)
数据挖掘系统可以根据所挖掘的知识类型分类。即,根据数据挖掘的功能,如特征、区分、
关联、聚类、局外者、趋势和演化分析、偏差分析、类似性分析等分类。一个全面的数据挖掘系统应当提供多种和/或集成的数据挖掘功能。此外,数据挖掘系统可以根据所挖掘的知识的粒度或抽象层进行区分,包括泛化知识(在高抽象层),原始层知识(在原始数据层),或多层知识(考虑若干抽象层)。一个先进的数据挖掘系统应当支持多抽象层的知识发现。数据挖掘系统还可以分类为挖掘数据规律(通常出现的模式)和数据反规律(如例外或局外者)。一般地,概念描述、关联分析、分类、预测和聚类挖掘数据规律,将局外者作为噪音排除。这些方法也能帮助检测局外者。
第二章数据仓库与OLAP
教学要点:
1.了解数据集市、数据仓库的基本内涵。
2.掌握数据仓库的实现方法,包括如何建立多维数据模型。
3.了解数据仓库系统的结构。
4.掌握OLAP的典型操作,并能根据实际问题进行OLAP操作。
教学时数:
3学时。
教学内容:
第一节数据仓库(0.5学时)
数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合,支持管理决策制定。这个简短、全面的定义指出了数据仓库的主要特征。四个关键词,面向主题的、集成的、时变的、非易失的,将数据仓库与其它数据存储系统(如,关系数据库系统、事务处理系统、和文件系统)相区别。
第二节多维数据模型(1学时)
星形模式、雪花模式、事实星座模式
第三节数据仓库的系统结构和实现(1学时)
1.数据仓库的设计步骤和结构
2.三层数据仓库结构
3.OLAP 服务器类型
第四节由数据仓库到数据挖掘(0.5学时)
1.数据仓库的使用
2.由联机分析处理到联机分析挖掘
第三章数据预处理
教学要点:
1.了解数据预处理的目的和意义。
2.掌握如何读取不同数据源的数据。
3.掌握如何对数据进行清理。
4.掌握如何对不同数据源的数据进行合并。
5.掌握如何对数据进行变换,使之适合建模的需要。
6.掌握如何对数据进行消减,使得在消减后的数据集上挖掘更有效。
7.了解目前数据预处理发展及研究动态。
教学时数
4学时。
教学内容:
第一节数据清理(1学时)
遗漏值、噪音数据
第二节数据集成和变换(1学时)
西北师
范大学课程教学大纲
1.数据集成
2.数据变换
第三节数据归约(1学时)
1. 数据方聚集:聚集操作用于数据方中的数据。
2. 维归约:可以检测并删除不相关、弱相关或冗余的属性或维。
3. 数据压缩:使用编码机制压缩数据集。
4. 数值压缩:用替代的、较小的数据表示替换或估计数据,如参数模型(只需要存放模型参数,而不是实际数据)或非参数方法,如聚类、选样和使用直方图。
第四节离散化和概念分层产生(1学时)
1.数值数据的离散化和概念分层产生。
2.分类数据的概念分层产生。
第四章挖掘频繁模式、关联和相关
教学要点:
1.了解关联规则的基本思想、概念和意义。
2.了解关联规则挖掘的应用背景;掌握常用的关联规则算法。
3.掌握关联规则分析如何通过数据挖掘软件实现。
4.了解其它方法的内容、了解关联规则挖掘的研究动态。
教学时数:
4学时。
教学内容:
第一节基本概念和路线图(0.5学时)
1.购物篮分析
2.频繁项集、闭项集和关联规则
3.频繁模式挖掘:路线图
第二节有效的和可伸缩的频繁项集挖掘(2学时)
1.Apriori 算法:使用候选项集找频繁项集
2.由频繁项集产生关联规则
3.提高Apriori 算法的有效性
第三节挖掘各种类型的关联规则(1学时)
1.多层关联规则
2.挖掘多层关联规则的方法
第四节由关联挖掘到相关分析(0.5学时)
1.强关联规则
2.由关联分析到相关分析
第五章分类与预测
教学要点:
1.了解分类及预测的基本思想、概念和意义。
2.掌握常用的分类及预测算法(或模型)。
3.了解分类及预测挖掘的研究动态。
教学时数:
12学时。
教学内容:
第一节什么是分类,什么是预测(0.5学时)
分类和预测的定义
第二节用决策树归纳分类(1学时)