数据挖掘技术教学大纲说课材料
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据挖掘技术教学大
纲
《数据挖掘技术》课程教学大纲
一、课程基本信息
二、课程教育目标
(一)总体目标
数据挖掘是高级数据处理和分析技术。通过本课程学习,使学生了解数据挖掘这种现代数据分析和知识挖掘方法的思想与技术,了解数据挖掘的基本理论,掌握重要的数据挖掘方法,掌握如何利用Clementine实现数据分析和挖掘,并使学生具有进一步学习的基本与能力。
(二)具体目标
1. 能够导入、输出各种类型的数据,并对数据进行简单描述统计
2. 能够编写建立线性回归模型、非纯性回归模型、编写回归模型的程序,并能够通过程序检验模型
3. 能够对数据进行聚类分析、分类分析、关联分析、能够对文本数据进行数据挖掘
三、课程学时分配
四、课程内容
第一章数据挖掘和Clementine使用概述
【教学内容】
1.1 数据挖掘的产生背景
1.数据挖掘产生的背景
2.数据挖掘的发展
3. 数据挖掘概述
1.2 什么是数据挖掘
1. 数据挖掘概念
2. 数据挖掘分类
3. 数据挖掘体系结构
1.3 Clementine软件概述
1. Clementine的配置
2. Clementine操作基础
【学习目标】
本章作为绪论,其目的是让学生对数据挖掘技术有一个总体的认识。因此,主要内容是对数据挖掘技术的概念、产生背景、发展趋势以及应用等进行提炼和概括,并熟悉Clementine软件的使用环境。要求学生掌握以下内容:1.数据挖掘的发展
2.数据挖掘基本知识
3.数据挖掘功能
4. 数据挖掘应用
5. 数据挖掘的热点问题
6. 熟悉Clementine软件
【重点、难点】
1.重点:
(1)数据挖掘概念
(2)数据挖掘分类
2.难点:Clementine操作基础
【教学方法】
1.通过多媒体课件和传统教学相结合,阐明课程与教学基本原理,丰富学生课程与教学的基本知识结构,培养学生的职业规范;
2.通过案例分析,强调理论与实践相结合,促进学生知识整合,培养学生的反思能力。
第二章 Clementine数据管理
【教学内容】
2.1 数据源节点(Sources)
1.从开放数据库中导入数据
2.从文本文件中读取数据
3. 导入Excel格式的数据
4. 用户手动创建数据
2.2 记录选项节点(Record Ops)
1. 选择节点
2. 对数据的抽样
3. 修正数据集中的不均匀性
4. 统计汇总
5. 对节点数据的排序
6. 区分节点来清除重复记录
2.3 字段选项节点
1. 变量说明
2. 变量值的重新计算
3. 变量类别值的调整
4. 生成新变量
5. 变量值的离散化处理
6. 生成样本集分割变量
【学习目标】
本章中的数据管理主要是指数据挖掘中的数据预处理部分。对数据进行预处理,不但可以节约大量的空间和时间而且得到的挖掘结果能更好地起到决策
和预测作用。数据预处理一般包括:数据清理,数据集成,数据变换,数据归约等方法。要求学生掌握本章讲授的所有数据管理技术。
【重点、难点】
1.重点:
(1)数据源节点
(2)记录选项节点
(3)字段选项节点
2.难点:无
【教学方法】
1.通过多媒体课件和传统教学相结合,阐明课程与教学基本原理,丰富学生课程与教学的基本知识结构,培养学生的职业规范;
2.通过案例分析,强调理论与实践相结合,促进学生知识整合,培养学生的反思能力。
第三章 Clementine数据的基本描述分析
【教学内容】
3.1 数据质量探索
1.数据的基本描述与质量探索
2.离群点和极端值的修正
3. 缺失值的替补
4. 数据质量管理的其他功能
3.2 数据基本描述分析
1. 计算基本描述统计量
2. 绘制散点图
3.3 两分类变量相关性的研究
1. 两分类变量相关性的图形分析
2. 两分类变量相关性的数值分析
3.4 两总体的均值比较
3.5 变量重要性分析
【学习目标】
基本描述分析是数据分析的基础,通常对数值型变量进行描述分析,涉及数据的集中趋势和离散程度。描述集中趋势的描述性统计量一般有均值、中位数和众数;描述离散程度的描述性统计量一般有方差、标准差和极差。要求学生掌握Clementine数据的基本分析方法。
【重点、难点】
1.重点:
(1)数据质量探索
(2)数据基本描述分析
2.难点:两分类变量相关性的研究
【教学方法】
1.通过多媒体课件和传统教学相结合,阐明课程与教学基本原理,丰富学生课程与教学的基本知识结构,培养学生的职业规范;
2.通过案例分析,强调理论与实践相结合,促进学生知识整合,培养学生的反思能力。
第四章关联规则挖掘
【教学内容】
4.1 关联规则概述
1.基本概念
2.关联规则表示
3. 关联规则挖掘算法简介
4.2 Apriori算法
1. Apriori算法生成频繁项集的过程
2. Apriori算法从频繁项集产生关联规则
4.3 在Clementine中应用Apriori算法
4.4 序列模式挖掘
1. 序列与序列模式
2. Apriori算法
3. 在Clementine中应用序列模式挖掘
【学习目标】
关联规则是形如X→Y的蕴涵式,其中,X和Y分别称为关联规则的先导和后继。其中,关联规则X→Y,存在支持度和信任度。
本章对关联规则挖掘中的概念、方法、算法进行全面的分析和讲解。由于关联规则挖掘是数据挖掘技术中研究最早、成果最多、相对比较成熟的分支,因此本章重点在于一些经典理论和算法、热点问题的介绍。要求学生掌握以下内容:
1.关联规则相关概念
2.Apriori算法
3.在Clementine中应用Apriori算法
【重点、难点】
2.重点:
(1)关联规则相关概念
(2)Apriori算法
2.难点:序列模式挖掘