机器学习与模式识别-教学大纲

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

《机器学习与模式识别》教学大纲
课程编号：071243B
课程类型：□通识教育必修课□通识教育选修课
■专业必修课□专业选修课
□学科基础课
总学时：48讲课学时：32 实验（上机）学时：16
学分：3
适用对象：计算机科学与技术专业
先修课程：
程序设计基础与应用、数据结构、高等数学、算法导论
一、教学目标
《机器学习与算法导论》是计算机科学技术专业的一门专业选修课程。

本课程是面向计算机技术开设的专业选修课。

其教学重点是使学生掌握常见机器学习算法，包括算法的主要思想和基本步骤，并通过编程练习和典型应用实例加深了解；同时对机器学习的一般理论，如假设空间、采样理论、计算学习理论，以及无监督学习和强化学习有所了解。

模式识别部分是研究计算机模式识别的基本理论、方法和应用。

通过本课程的学习，使学生掌握模式识别的基本概念、基本原理、基本分析方法和算法，培养学生利用模式识别方法，运用技能解决本专业和相关领域的实际问题的能力。

学生通过本门课程的学习，能够对机器学习和模式识别的内容有一个较为全面的了解和认识，更深刻地理解机器学习的实质内容，使学生具备前沿的计算机技术必要的专业知识。

从而，为学生今后从事计算机技术应用与计算机技术前沿研究，以及相关领域的科学研究做好理论和技术上的准备。

目标1：通过对机器学习与模式识别基本概念、原理、和基本方法的讲解，让学生理解并掌握机器学习和模式识别的基本技术。

目标2：培养学生利用模式识别方法，运用技能解决本专业和相关领域的实际问题的能力。

目标3：鼓励学生运用知识解决各自学科的实际问题，培养他们的独立科研的能力和理论联系实际的能力。

二、教学内容及其与毕业要求的对应关系（黑体，小四号字）
本课程主要介绍决策论与信息论基础、概率分布、回归的线性模型、分类的线性模型、核方法、支持向量机、图模型、混合模型和期望最大化、隐Markov 模型和条件随机场模型、统计决策方法、概率密度函数的估计、线性分类器、非线性分类器、其他分类方法、特征选择、特征提取、非监督模式识别、模式识别系统的评价等。

通过教学和实践，培养学生运用数学工具和方法分析问题和从多角度运用数学工具解决问题的基本能力，培养学生利用模式识别方法，运用技能解决本专业和相关领域的实际问题的能力，训练学生的逻辑思维能力和想象力。

在教学中，鼓励学生运用算法知识解决各个学科的实际计算问题，培养学生初步的独立开展科研工作的能力和理论联系实践，解决实际问题的能力，同时，为后续课程以及将来的研究工作提供必要的基础。

此外，配合实验课程的教学，学生应理论联系实际，理论指导实践，通过规范地完成项目实践进一步巩固所学的相关书本知识，在知识、能力、素质上得到进一步的提高。

三、各教学环节学时分配
教学课时分配
四、教学内容
第1章绪论
教学重点、难点：决策论与信息论基础、损失函数、错分率的最小化、期望损失的最小化等；相对熵、互信息。

模式与模式识别、模式识别的主要方法、监督模式识别与非监督模式识别、模式识别系统举例、模式识别系统的典型构成。

课程的考核要求：熟悉机器学习与模式识别的基本定义和术语；基本数学知识。

了解：了解机器学习与模式识别的研究范围和内容。

理解：决策论与信息论基础、损失函数、错分率的最小化、期望损失的最小化等；相对熵、互信息。

模式与模式识别、模式识别的主要方法、监督模式识别与非监督模式识别、模式识别系统举例、模式识别系统的典型构成等概念。

掌握：掌握决策论与信息论基础、模式识别的主要方法。

应用：与实际问题相呼应。

复习思考题：见参考文献。

第2章概率分布
教学重点、难点：高斯分布、混合高斯分布、Dirichlet分布、 beta分布等。

课程的考核要求：熟悉最大似然估计、贝叶斯估计与贝叶斯学习、概率密度估计的非参数方法。

了解：最大似然估计、充分统计量、共轭先验、无信息先验等。

非参数方法：核密度估计、近邻法
理解： neyman-pearson决策与roc曲线、正态分布时的统计决策、错误率的计算、、概率密度函数的估计
掌握：掌握最小错误率贝叶斯决策、最小风险贝叶斯决策、两类错误率。

应用：离散概率模型下的统计决策举例。

复习思考题：见参考文献。

第3章回归的线性模型
教学重点、难点：贝叶斯线性回归。

课程的考核要求：熟悉线性基函数模型。

了解：贝叶斯模型比较。

理解：等价核的概念。

掌握：掌握贝叶斯模型。

应用：各种分布的具体应用。

复习思考题：见参考文献。

第4章分类的线性模型：
教学重点、难点：最优分类超平面与线性支持向量机。

课程的考核要求：熟悉判别函数：二分类和多分类的Fisher线性判别、概率生成模型：连续输入、离散特征。

了解：fisher线性判别分析。

理解：多类线性分类器。

掌握：线性判别函数的基本概念、感知器、最小平方误差判别
应用：分类模型的具体应用。

第5章神经网络
教学重点、难点：神经网络的正则化。

课程的考核要求：熟悉各种神经网络及其梯度下降的概念。

了解：hessian矩阵及混合密度网络。

理解：贝叶斯神经网络、多层感知器神经网络。

掌握：前馈神经网络及神经网络的训练
应用：进行神经网络实验的具体应用。

复习思考题：见参考文献。

第6章核方法：
教学重点、难点：构造核函数
课程的考核要求：熟悉对偶表示、径向基函数网络、Nadaraya-Watson模型了解：Laplace逼近
理解：高斯过程模型用于回归和分类。

掌握：高斯过程
应用：核方法与神经网络的联系。

复习思考题：见参考文献。

第7章稀疏核集
教学重点、难点：最优分类超平面与线性支持向量机、用于多分类和回归的支持向量机。

课程的考核要求：熟悉判别函数：二分类和多分类的Fisher线性判别、概率生成模型：连续输入、离散特征。

了解：各种变种
理解：多类线性分类器以及最大边缘分类器。

掌握：统计学习理论
应用：稀疏核集的具体应用。

第8章图模型：
教学重点、难点：Markov随机场。

课程的考核要求：熟悉因子分解。

了解：循环置信传播
理解：图模型中的推断
掌握：条件独立的内容
应用：置信网络的具体应用。

复习思考题：见参考文献。

第9章混合模型和期望最大化（Expectation Maximization，EM）算法教学重点、难点：高斯混合模型的参数估计、EM一般算法及其应用
课程的考核要求：、EM一般算法及其应用、最大似然估计、EM算法、贝叶斯线性回归
了解：伯努利分布的混合
理解：高斯混合模型的参数估计。

掌握：最大似然估计、EM算法、贝叶斯线性回归
应用：贝叶斯线性回归的EM算法。

复习思考题：见参考文献。

第10章隐Markov模型和条件随机场模型
教学重点、难点：隐Markov模型、条件随机场及其应用
课程的考核要求：熟悉隐Markov模型、条件随机场及其应用、Viterbi算法
了解： Baum-Welch算法等
理解：向前-向后算法
掌握：熟悉隐Markov模型、条件随机场及其应用、Viterbi算法
应用：隐Markov模型和条件随机场模型的具体应用。

第11章特征选择
教学重点、难点：特征选择的最优算法
课程的考核要求：特征的评价准则、特征选择的最优算法
了解：特征选择的次优算法
理解：特征选择的遗传算法
掌握：以分类性能为准则的特征选择方法
应用：特征选择的具体应用。

复习思考题：见参考文献。

第12章特征提取
教学重点、难点：基于类别可分性判据的特征提取、主成分分析方法、高维数据的低维显示。

课程的考核要求：熟悉基于类别可分性判据的特征提取、主成分分析方法、高维数据的低维显示、多维尺度法。

了解：karhunen-loeve变换
理解：非线性变换方法
掌握：线性判别函数的基本概念、感知器、最小平方误差判别基于类别可分性判据的特征提取、主成分分析方法、高维数据的低维显示、多维尺度法。

应用：5k-l变换在人脸识别中的应用举例
复习思考题：见参考文献。

第13章非监督模式识别
教学重点、难点：基于模型的方法、动态聚类算法
课程的考核要求：熟悉基于模型的方法、动态聚类算法、模糊聚类方法
了解：自组织映射神经网络
理解：分级聚类方法
掌握：混合模型的估计、基于模型的方法、动态聚类算法、模糊聚类方法
应用：非监督模式识别的具体应用。

复习思考题：见参考文献。

第14章模式识别系统的评价
教学重点、难点：有限样本下错误率的区间估计问题
课程的考核要求：熟悉监督模式识别方法的错误率估计方法
了解：非监督模式识别系统性能的评价
理解：特征提取与选择对分类器性能估计的影响
掌握：监督模式识别方法的错误率估计方法
应用：从分类的显著性推断特征与类别的关系
复习思考题：见参考文献。

五、考核方式、成绩评定
课程结束考核方式：闭卷考试
课堂考试时间：120分钟
考试命题：课程考试的命题内容要从大纲的要求出发，围绕本课程的教学内容、知识点和教学要求，着重从知识、能力、素质三个方面对学生进行全面的考核，重点考核学生运用知识解决问题的能力，同时考察学生的综合素质。

考核范围为除了最后一周教学的内容外，其他大纲确定的知识点都在考试范围之内。

试卷中不少于85%的内容应来自课程重点内容的范围，不少于10%的内容应来自课程非重点内容的范围，要求学生全面复习，以达到系统掌握，全面考核的目的。

试卷的题型要力戒避免文科标准化试卷的题型，避免出现简单概念问答题和简答题。

试卷题目数量一般为5、6、7题，以优秀学生在全部会做的情况下正常书写速度能够在90分钟内完成为宜。

试卷题目数量的减少与全面考核的目的并不矛盾。

由于考核的范围是明确的，只要教师不透露题型和范围，学生就必须全面复习，这样，即使题目不覆盖某些教学内容，也不会影响实际的教学效果。

期中考试：由任课教师决定是否安排期中考试，主要用于检查教学情况。

最后成绩计算办法：期终考试成绩70%+ 平时成绩30%
六、主要参考书及其他内容
主要参考书目，所列条目及其顺序如下：
[1] 周志华，《机器学习》，清华大学出版社，2016-1-11
[2] Bishop, C. M. (2006) Pattern Recognition and Machine Learning, Spring Science + Business Media, LLC
[3]Mitchell, T. M. (1997) Machine Learning, The McGraw-Hill Companies, Inc.
[4] Sergios Theodoridis（西格尔斯.西奥多里蒂斯）,Konstantinos Koutroumbas（康斯坦提诺斯.库特龙巴斯），模式识别，电子工业出版社，2016-11
执笔人：高静教研室主任：系教学主任审核签名：徐天晟。