数据挖掘数据挖掘实验教学大纲
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据挖掘数据挖掘实验
教学大纲
集团标准化工作小组 [Q8QX9QT-X8QQB8Q8-NQ8QJ8-M8QMN]
《数据挖掘》教学大纲
课程类别:专业任选修课程课程名称:数据挖掘
开课单位:理学院课程编号:
B03081904
总学时:40 学分:4
适用专业:统计学专业
先修课程:概率论、数理统计、多元统计分析等
一、课程在教学计划中地位、作用
数据挖掘是20世纪末刚刚兴起的数据智能分析技术,由于有广阔的应用前景而备受重视。数据挖掘作为一门新兴的学科,在它的形成和发展过程中表现出了强大的生命力,广大从事数据科学和统计科学的科研工作者和工程技术人员迫切需要了解和掌握它。数据挖掘自产生以来就是以分析数据、理解数据的实际需求为推动力的,其研究发展也逐步渗透到工业、农业、医疗卫生和商业的实际需求当中。数据挖掘涉及的内容较为广泛,已成为迅速发展并在信息社会中广泛应用的一门综合性学科。数据挖掘已成为计算机、统计学专业的一门重要课程,也是从事相关研究和应用人员必须掌握的重要知识。
二、课程目标
通过本课程的实验教学,使学生具备下列能力:
(1)全面而深入地掌握数据挖掘的基本概念和原理,了解模型精度的评价方法。
(2)深入地掌握线性回归分析及模型的改进与评价,掌握各种分类方法以及对其进行比较。能够对实际数据进行分类模型的建立,具有比较各方法的能力。
(3)通过学习关联分析、社交网络分析以及文本挖掘,能够对实际数据进行处理、分析,并建立解释合理的统计模型。
三、课程内容及基本要求
第一章数据挖掘概述
1、理解和掌握数据挖掘的基本概念、数据挖掘过程以及数据挖掘功能;
2、了解数据挖掘的应用和面临的问题;
3、对数据挖掘能够解决的问题和解决问题思路有清晰的认识。
第二章数据探索
1、了解数据的导入与导出;
2、了解单变量数据的探索方法;
3、了解多变量数据的探索方法;
4、掌握图表的意义以及数据的描述统计。
第三章回归分析
1、理解多元线性回归模型的确定方法以及模型的检验方法;
2、理解基于树的回归分析方法;
3、了解非线性回归方法。
第四章分类
1、了解分类及预测的基本思想、概念和意义;
2、掌握逻辑斯蒂回归,掌握线性判别分析,了解非线性判别分析;
3、了解分类方法的比较。
第五章聚类分析
1、了解聚类分析的基本思想、概念和意义;
2、掌握相似度(或相异度)的常用度量方法;
3、掌握常用的聚类算法,包括K-Means、SOM 、BIRCH、DBSCAN、STING;
4、了解孤立点分析的三类方法;了解其它方法的内容;了解聚类分析的研究动态。第六章关联规则
1、了解关联规则的基本思想、概念和意义;
2、了解关联规则挖掘的应用背景;
3、掌握常用的关联规则算法,包括Apriori、GRI、Sequence Detection;
4、了解关联规则挖掘的研究动态。
第七章文本挖掘
1、了解文本挖掘的基本思想、概念和意义;
2、掌握常用的文本挖掘的软件包,了解分词方法,掌握词项-文档矩阵的建立方
法。
3、能够进行词频统计分析以及词项聚类;
3、能够利用文本挖掘工具对实际文本数据进行建模分析。
第八章社交网络分析
1、了解社交网络分析的基本思想、概念和意义;
2、了解社交网络分析的应用背景;
3、掌握社交网络分析方法。 第九章 综合案例分析
1、了解数据挖掘课程所学内容,能够利用所学统计模型建立合适的回归方程;
2、了解关联规则和社交网络分析在商品销售中应用; 四、学时分配
本课程通过“平时成绩”、 “综合数据分析答辩成绩”两种方式对课程目标达成进行评价,考核成绩计算公式如下(本大纲中成绩均采用百分制):
考核成绩 = 平时成绩30% +综合数据分析答辩成绩70%
平时成绩 = 出勤成绩
1.平时成绩
平时成绩给定方法如下表所示:
在课堂上能积极主动回答问题,并回答正确者每次加10分;能积极主动回答问题,但有缺陷者每次加5分,该成绩加入平时成绩中。如平时成绩超过100分者,按
最高分100分计。
2、综合数据处理答辩成绩
综合数据处理答辩成绩给定方法如下表所示:
译). R语言与数据挖掘最佳实践和经典案例. 机械工业出版社
2. Luis Torgo (李洪成、陈道轮吴立明译) . 数据挖掘与R语言. 机械工业出版
社
3. Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani(王星译). 统计学习导论基于R应用. 机械工业出版社
《数据挖掘实验》教学大纲
实验类别:专业教育课程所属课程名称:数据挖掘实验
实验学时:24 所属课程编码:B03081904S
实验室名称:大学数学实验室实验室类别:基础实验室教学中心
适用专业:统计学专业先修课程:多元统计、概率论、数理统
计
一、实验在教学计划中地位、作用
本课程是统计学专业的专业教育实验课之一,是具有实际操作性和广阔应用前景的
专业实验课。该课程要求学生掌握一种统计语言,通过编写程序,处理解决回归、分
类、聚类、社交网络、关联分析、文本挖掘等数据问题。通过该课程的学习,使学生更
深刻地认识数据挖掘各模块的实际应用背景,处理方法,可以提高观察、解决问题、科
学思维以及从事科学研究的能力,养成严谨科学的作风和良好的实验习惯,为后续课程
的学习奠定必要的基础。
二、课程目标
通过本课程的实验教学,学生应具备下列能力:
1. 能够导入、输出各种类型的数据,并对数据进行简单描述统计
2. 能够编写建立线性回归模型、非线性回归模型、树回归模型的程序,并能够通过
程序检验模型。
3. 能够对数据进行聚类分析、分类分析、关联分析、社交网络分析,并能够对文本
数据进行数据挖掘。
三、实验内容及基本要求