机器学习期末复习

合集下载

机器学习及数据挖掘复习

机器学习及数据挖掘复习

机器学习与数据挖掘复习第一章:Introduction1. 什么是数据挖掘:数据挖掘时从大量的数据中取出令人感兴趣的知识〔令人感兴趣的知识:有效地、新颖的、潜在有用的和最终可以理解的〕。

2. 数据挖掘的分类〔从一般功能上的分类〕:a)描述型数据挖掘〔模式〕:聚类,summarization,关联规那么,序列发现。

b)预测型数据挖掘〔值〕:分类,回归,时间序列分析,预测。

3. KDD〔数据库中的知识发现〕的概念:KDD是一个选择和提取数据的过程,它能自动地发现新的、准确的、有用的模式以及现实世界现象的模型。

数据挖掘是KDD过程的一个主要的组成局部。

4. 用数据挖掘解决实际问题的大概步骤:a)对数据进展KDD过程的处理来获取知识。

b)用知识指导行动。

c)评估得到的结果:好的话就循环使用,不好的话分析、得到问题然后改良。

5. KDD过程中的角色问题:6. 整个KDD过程:a)合并多个数据源的数据。

b)对数据进展选择和预处理。

c)进展数据挖掘过程得到模式或者模型。

d)对模型进展解释和评价得到知识。

第二章数据和数据预处理1. 什么是数据:数据是数据对象和它的属性的集合。

一个属性是一个对象的性质或特性。

属性的集合描述了一个对象。

2. 属性的类型:a)标称〔nominal〕:它的值仅仅是不同的名字,只是提供足够的信息来区分对象。

例如邮政编码、ID、性别。

b)序数:序数属性的值提供足够的信息确定对象的序。

例如硬度、成绩、街道。

c)区间:对于区间属性,值之间的差是有意义的,即存在测量单位。

例如日历日期、温度。

d)比率:对于比率变量,差和比率都是有意义的。

例如绝对温度、年龄、质量、长度。

3. 用值的个数描述属性:a)离散的:离散属性具有有限惑无限可数个值,这样的属性可以是分类的。

b)连续的:连续属性是取实数值的属性。

4. 非对称属性:对于非对称属性,出现非零属性值才是最重要的。

5. 数据集的类型:a)记录型数据:每一个数据对象都是有固定数目的属性组成的。

机器学习复习总结

机器学习复习总结

机器学习复习总结选择目标函数的表示选择函数逼近算法最终设计选择训练经验第一个关键属性,训练经验能否为系统的决策提供直接或间接的反馈第二个重要属性,学习器在多大程度上控制样例序列第三个重要属性,训练样例的分布能多好地表示实例分布,通过样例来衡量最终系统的性能最终设计执行系统用学会的目标函数来解决给定的任务鉴定器以对弈的路线或历史记录作为输入,输出目标函数的一系列训练样例。

泛化器以训练样例为输入,产生一个输出假设,作为它对目标函数的估计。

实验生成器以当前的假设作为输入,输出一个新的问题,供执行系统去探索。

第二章一致,满足,覆盖的定义:一致:一个假设h与训练样例集合D一致,当且仅当对D中每一个样例<x,c(x)>都有h(x)=c(x),即Consistent(h,D)Û("<x,c(x)>ÎD)h(x)=c(x)一个样例x在h (x)=1时称为满足假设h,无论x是目标概念的正例还是反例。

当一假设能正确划分一个正例时,称该假设覆盖该正例。

变型空间(version space):与训练样例一致的所有假设组成的集合,表示了目标概念的所有合理的变型,VSH,D={hÎH|Consistent(h,D)}第三章决策树适用问题的特征:实例由“属性-值”对(pair)表示目标函数具有离散的输出值可能需要析取的描述训练数据可以包含错误训练数据可以包含缺少属性值的实例ID3算法特点:n 搜索完整的假设空间(也就是说,决策树空间能够表示定义在离散实例上的任何离散值函数)n 从根向下推断决策树,为每个要加入树的新决策分支贪婪地选择最佳的属性。

n 归纳偏置,优先选择较小的树观察ID3的搜索空间和搜索策略,认识到这个算法的优势和不足假设空间包含所有的决策树,它是关于现有属性的有限离散值函数的一个完整空间维护单一的当前假设(不同于第二章的变型空间候选消除算法)不进行回溯,可能收敛到局部最优每一步使用所有的训练样例,不同于基于单独的训练样例递增作出决定,容错性增强ID3和候选消除算法的比较ID3的搜索范围是一个完整的假设空间,但不彻底地搜索这个空间候选消除算法的搜索范围是不完整的假设空间,但彻底地搜索这个空间ID3的归纳偏置完全是搜索策略排序假设的结果,来自搜索策略候选消除算法完全是假设表示的表达能力的结果,来自对搜索空间的定义过度拟合:对于一个假设,当存在其他的假设对训练样例的拟合比它差,但事实上在实例的整个分布上表现得却更好时,我们说这个假设过度拟合训练样例定义:给定一个假设空间H,一个假设hÎH,如果存在其他的假设h’ÎH,使得在训练样例上h的错误率比h’小,但在整个实例分布上h’的错误率比h小,那么就说假设h过度拟合训练数据导致过度拟合的原因1、一种可能原因是训练样例含有随机错误或噪声2、特别是当少量的样例被关联到叶子节点时,很可能出现巧合的规律性,使得一些属性恰巧可以很好地分割样例,但却与实际的目标函数并无关系避免过度拟合的方法特点及早停止树增长精确地估计何时停止树增长后修剪法被证明在实践中更成功避免过度拟合的关键:使用什么样的准则来确定最终正确树的规模,解决这个问题的方法有:训练和验证集法可用数据分成两个样例集合:训练集合,形成学习到的假设验证集合,评估这个假设在后续数据上的精度方法的动机:即使学习器可能会被训练集合误导,但验证集合不大可能表现出同样的随机波动验证集合应该足够大,以便它本身可提供具有统计意义的实例样本常见的做法是,样例的三分之二作训练集合,三分之一作验证集合错误率降低修剪(reduced-error pruning)n 将树上的每一个节点作为修剪的候选对象n 修剪步骤n 删除以此节点为根的子树,使它成为叶结点n 把和该节点关联的训练样例的最常见分类赋给它n 反复修剪节点,每次总是选取那些删除后可以最大提高决策树在验证集合上的精度的节点n 继续修剪,直到进一步的修剪是有害的为止n 数据集分成3个子集n 训练样例,形成决策树n 验证样例,修剪决策树n 测试样例,精度的无偏估计n 如果有大量的数据可供使用,那么使用分离的数据集合来引导修剪规则后修剪(rule post-pruning)n 步骤n 从训练集合推导出决策树,增长决策树直到尽可能好地拟合训练数据,允许过度拟合发生n 将决策树转化为等价的规则集合,方法是为从根节点到叶节点的每一条路径创建一条规则n 通过删除任何能导致估计精度提高的前件来修剪每一条规则n 按照修剪过的规则的估计精度对它们进行排序,并按这样的顺序应用这些规则来分类后来的实例第四章解决反向传播算法中的过度拟合问题的方法:权值衰减n 它在每次迭代过程中以某个小因子降低每个权值,这等效于修改E的定义,加入一个与网络权值的总量相应的惩罚项,此方法的动机是保持权值较小,从而使学习过程向着复杂决策面的反方向偏置验证数据n 一个最成功的方法是在训练数据外再为算法提供一套验证数据,应该使用在验证集合上产生最小误差的迭代次数,不是总能明显地确定验证集合何时达到最小误差k-fold交叉方法把训练样例分成k份,然后进行k次交叉验证过程,每次使用不同的一份作为验证集合,其余k-1份合并作为训练集合。

苏州科技大学-机器学习复习JU_JI自整

苏州科技大学-机器学习复习JU_JI自整

一、考试题型1.选择题20题共40分2.名词解释题10题共10分3.简答题 3题共30分4.计算题 1题共20分(4小问)二、考试知识点整理1.人工智能Artificial Intelligence,简记为AI,是当前科学技术迅速发展及新思想、新理论、新技术不断涌现的形势下产生的一个学科,也是一门涉及数学、计算机科学、哲学、认知心理学和心理学、信息论、控制论等学科的交叉和边缘学科。

2.智能的定义智能是知识和智力的总和,知识是一切智能行为的基础,智力是获取知识并运用知识求解问题的能力。

3.智能特征1)感知能力2)记忆和思维能力3)学习和自适应能力4)行为能力4.机器学习机器学习(Machine Learning,ML)是机器获取知识的根本途径,也是机器具有智能的重要标志,是人工智能研究的核心问题之一。

机器学习是使计算机无需明确编程就能学习的研究领域。

5.人工智能的主要学派1)符号主义2)连接主义3)行为主义6.人工智能的主要研究内容1)知识表示:实际上是对知识的一种描述,或者是一组约定,是机器可以接受的用于描述知识的数据结构。

2)推理:指按照某种策略,从已知事实出发,利用知识推出所需结论的过程。

3)搜索与规划:搜索是指为了达到某个目标,不断寻找推理路线,以引导和控制推理,使问题得以解决的过程。

规划是一种重要的问题求解技术,是从某个特定问题状态出发,寻找并建立一个操作序列,直到求得目标状态为止的一个行动过程的描述。

4)机器学习:是机器获取知识的根本途径,也是机器具有智能的重要标志,是人工智能研究的核心问题之一。

7.机器学习分类1)监督式学习2)无监督学习3)强化学习8.监督学习与非监督学习区别1)原理不同:监督学习是指利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程。

无监督学习指根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题的过程。

2)算法不同:监督学习的算法是通过分析已知类别的训练数据产生的。

机器学习期末试题及答案

机器学习期末试题及答案

机器学习期末试题及答案一、选择题1. 机器学习是一种:A. 人工智能子领域B. 数据分析工具C. 算法库D. 编程语言答案:A. 人工智能子领域2. 以下哪种算法是无监督学习算法?A. 决策树B. 支持向量机C. K均值聚类D. 朴素贝叶斯答案:C. K均值聚类3. 在机器学习中,过拟合是指:A. 模型无法适应新数据B. 模型过于简单C. 模型过于复杂D. 模型的精度较低答案:C. 模型过于复杂4. 机器学习任务中的训练集通常包括:A. 特征和标签B. 标签和模型参数C. 特征和模型参数D. 特征、标签和模型参数答案:A. 特征和标签5. 在机器学习中,用于评估模型性能的常见指标是:A. 准确率B. 回归系数C. 损失函数D. 梯度下降答案:A. 准确率二、填空题1. 监督学习中,分类问题的输出是离散值,而回归问题的输出是________________。

答案:连续值/实数值2. 机器学习中的特征工程是指对原始数据进行________________。

答案:预处理3. ________________是一种常见的集成学习算法,通过构建多个弱分类器来提高整体模型的性能。

答案:随机森林4. K折交叉验证是一种常用的评估模型性能和调参的方法,其中K 代表______________。

答案:折数/交叉验证的次数5. 在机器学习中,优化算法的目标是最小化或最大化一个称为______________的函数。

答案:目标函数/损失函数三、简答题1. 请简要解释什么是过拟合,并提出至少三种防止过拟合的方法。

答:过拟合是指在训练数据上表现很好,但在新数据上表现较差的现象。

防止过拟合的方法包括:- 数据集扩充:增加更多的训练样本,从而减少模型对特定数据的过度拟合。

- 正则化:通过在损失函数中引入正则化项,约束模型的复杂度,防止模型过分拟合训练数据。

- 交叉验证:使用交叉验证方法对模型进行评估,通过评估模型在不同数据集上的性能,选择性能较好的模型。

机器学习期末测试练习题4

机器学习期末测试练习题4

1、在神经网络模型VggNet中,使用两个级联的卷积核大小为3X3,stride=1的卷积层代替了一个5X5的卷积层,如果将stride设置为2,则此时感受野为A.7X7B.9X9C.5X5D.8X8正确答案:A2、激活函数,训练过程出现了梯度消失问题。

从图中可以判断出四个隐藏层的先后顺序(靠近输入端的为先,靠近输出端的为后)分别为A.DBCAB.ABCDC.ADCB正确答案:D3、在网络训练时,loss在最初几个epoch没有下降,可能原因是B.以下都有可能C.正则参数过高D.陷入局部最小值正确答案:B4、假设有一个三分类问题,某个样本的标签为(1,0,0),模型的预测结果为(0.5,0.4,0.1),则交叉熵损失值(取自然对数结果)约等于A.0.6C.0.8D.0.5正确答案:B5、IoU是物体检测、语义分割领域中的结果评测指标之一,上图中A框是物体的真实标记框,面积为8。

B框是网络的检测结果,面积为7。

两个框的重合区域面积为2。

则IoU的值为A.2/8B.2/13C.2/7D.2/15正确答案:B6、Gram矩阵是深度学习领域常用的一种表示相关性的方法,在风格迁移任务中就使用风格Gram矩阵来表示图像的风格特征,以下关于风格Gram矩阵的论述正确的是A.风格Gram矩阵的大小与输入特征图的通道数、宽、高都不相关B.风格Gram矩阵的大小只与输入特征图的通道数相关C.风格Gram矩阵的大小与输入特征图的通道数、宽、高都相关D.风格Gram矩阵的大小只与输入特征图的宽、咼有关正确答案:B7、现使用YOL0网络进行目标检测,待检测的物体种类为20种,输入图像被划分成7*7个格子,每个格子生成2个候选框,则YOL0网络最终的全连接层输出维度为A.1078B.980C.1470D.1960正确答案:C二、多选题1、池化层在卷积神经网络中扮演了重要的角色,下列关于池化层的论述正确的有A.池化操作具有平移不变性B.池化操作可以实现数据的降维C.池化操作是一种线性变换D.池化操作可以扩大感受野2、以下关于MaxPooling和MeanPooling的论述正确的有A.尺度为(2,2),stride=2的MaxPooling层在梯度后向传播中,后层的梯度值传递给前层对应的最大值位置。

机器学习期末常考简答题

机器学习期末常考简答题

1.什么是偏差与方差?泛化误差可以分解成偏差的平方加上方差加上噪声。

偏差度量了学习算法的期望预测和真实结果的偏离程度,刻画了学习算法本身的拟合能力,方差度量了同样大小的训练集的变动所导致的学习性能的变化,刻画了数据扰动所造成的影响,噪声表达了当前任务上任何学习算法所能达到的期望泛化误差下界,刻画了问题本身的难度。

偏差和方差一般称为bias和variance,一般训练程度越强,偏差越小,方差越大,泛化误差一般在中间有一个最小值,如果偏差较大,方差较小,此时一般称为欠拟合,而偏差较小,方差较大称为过拟合。

2.采用EM 算法求解的模型有哪些,为什么不用牛顿法或梯度下降法?用EM算法求解的模型一般有GMM或者协同过滤,k-means其实也属于EM。

EM算法一定会收敛,但是可能收敛到局部最优。

由于求和的项数将随着隐变量的数目指数上升,会给梯度计算带来麻烦。

3.SVM、LR、决策树的对比?模型复杂度:SVM支持核函数,可处理线性非线性问题;LR模型简单,训练速度快,适合处理线性问题;决策树容易过拟合,需要进行剪枝损失函数:SVM hinge loss; LR L2正则化; adaboost 指数损失数据敏感度:SVM添加容忍度对outlier不敏感,只关心支持向量,且需要先做归一化;LR 对远点敏感数据量:数据量大就用LR,数据量小且特征少就用SVM非线性核.4.GBDT 和随机森林的区别随机森林采用的是bagging的思想,bagging又称为bootstrap aggreagation,通过在训练样本集中进行有放回的采样得到多个采样集,基于每个采样集训练出一个基学习器,再将基学习器结合。

随机森林在对决策树进行bagging的基础上,在决策树的训练过程中引入了随机属性选择。

传统决策树在选择划分属性的时候是在当前节点属性集合中选择最优属性,而随机森林则是对结点先随机选择包含k个属性的子集,再选择最有属性,k作为一个参数控制了随机性的引入程度。

2023机器学习与Python复习 题集附答案

2023机器学习与Python复习 题集附答案

2023机器学习与Python复习题集附答案2023机器学习与Python复习题集附答案第一章:机器学习基础1. 机器学习的定义及应用领域机器学习是指从数据中自动学习模型的一类算法和方法。

它通过对已有数据的分析和学习,用于帮助计算机系统实现自动化学习和预测,进而应用于各个领域,如图像识别、自然语言处理、推荐系统等。

2. 机器学习的分类及常用算法机器学习可以分为监督学习、无监督学习和增强学习。

常用的监督学习算法包括线性回归、逻辑回归、决策树、随机森林等;无监督学习算法包括聚类、关联规则挖掘等;增强学习包括Q-learning、蒙特卡洛树搜索等。

3. 机器学习的基本流程机器学习的基本流程包括数据采集与预处理、特征工程、模型选择与训练、模型评估与优化等步骤。

数据采集与预处理是为了获得高质量的数据,特征工程则是对原始特征进行筛选、提取和转换,模型选择与训练是选择适当的模型并对其进行训练,模型评估与优化则是根据评估指标对模型进行优化。

第二章:Python基础1. Python的特点及应用场景Python是一种高级编程语言,具有简洁易读、易学易用、跨平台等特点。

它被广泛应用于数据科学、人工智能、Web开发、网络爬虫等领域。

2. Python语言的基本语法和数据类型Python的基本语法包括变量赋值、条件语句、循环语句等。

Python的常用数据类型有整型、浮点型、字符串、列表、元组、字典等。

3. Python常用库及其功能Python有丰富的第三方库,如NumPy、Pandas、Matplotlib、Scikit-learn等。

NumPy提供对多维数组的快速操作;Pandas提供了数据处理和分析工具;Matplotlib用于数据可视化;Scikit-learn包含了各种机器学习算法。

第三章:机器学习算法1. 线性回归算法及其应用场景线性回归是一种监督学习算法,用于建立自变量和因变量之间的线性关系模型。

它可以用于预测房价、销售额等连续数值型的问题。

《机器学习》期末考试试卷附答案

《机器学习》期末考试试卷附答案

《机器学习》期末考试试卷附答案一、选择题(每题5分,共25分)1. 机器学习的主要目的是让计算机从数据中____,以实现某些任务或预测未知数据。

A. 抽取特征B. 生成模型C. 进行推理D. 分类标签答案:B. 生成模型2. K-近邻算法(K-NN)是一种____算法。

A. 监督学习B. 无监督学习C. 半监督学习D. 强化学习答案:A. 监督学习3. 在决策树算法中,节点的分裂是基于____进行的。

A. 信息增益B. 基尼不纯度C. 均方误差D. 交叉验证答案:A. 信息增益4. 支持向量机(SVM)的主要目的是找到一个超平面,将不同类别的数据点____。

A. 完全分开B. 尽量分开C. 部分分开D. 不分开答案:B. 尽量分开5. 哪种优化算法通常用于训练深度学习模型?A. 梯度下降B. 牛顿法C. 拟牛顿法D. 以上都对答案:D. 以上都对二、填空题(每题5分,共25分)1. 机器学习可以分为监督学习、无监督学习和____学习。

A. 半监督B. 强化C. 主动学习D. 深度答案:A. 半监督2. 线性回归模型是一种____模型。

A. 线性B. 非线性C. 混合型D. 不确定型答案:A. 线性3. 在进行特征选择时,常用的评估指标有____、____和____。

A. 准确率B. 召回率C. F1 分数D. AUC 值答案:B. 召回率C. F1 分数D. AUC 值4. 神经网络中的激活函数通常用于引入____。

A. 非线性B. 线性C. 噪声D. 约束答案:A. 非线性5. 当我们说一个模型具有很好的泛化能力时,意味着该模型在____上表现良好。

A. 训练集B. 验证集C. 测试集D. 所有集答案:C. 测试集三、简答题(每题10分,共30分)1. 请简要解释什么是过拟合和欠拟合,并给出解决方法。

2. 请解释什么是交叉验证,并说明它的作用。

答案:交叉验证是一种评估模型泛化能力的方法,通过将数据集分成若干个互斥的子集,轮流用其中若干个子集作为训练集,其余子集作为验证集,对模型进行评估。

数据挖掘与机器学习复习资料

数据挖掘与机器学习复习资料

数据挖掘与机器学习复习资料数据挖掘和机器学习是当今信息技术领域中极为重要的两个分支,它们在处理和分析大量数据、发现隐藏模式、做出预测和决策等方面发挥着关键作用。

对于学习者来说,掌握这两个领域的知识至关重要。

以下是为大家整理的一份关于数据挖掘与机器学习的复习资料。

一、数据挖掘概述数据挖掘,简单来说,就是从大量的数据中提取出有用的信息和知识的过程。

它不仅仅是数据的收集和存储,更重要的是通过一系列的技术和方法,对数据进行深入分析和挖掘,以发现潜在的规律和趋势。

数据挖掘的主要任务包括数据分类、聚类、关联规则挖掘、异常检测等。

在数据分类中,我们根据已知的类别标签,将新的数据划分到相应的类别中。

聚类则是将数据按照相似性进行分组,而无需事先知道类别信息。

关联规则挖掘用于发现数据中不同属性之间的关联关系,例如购买了商品 A 的顾客往往也会购买商品 B。

异常检测则是识别出与大多数数据不同的异常值。

数据挖掘的过程通常包括数据准备、数据探索、模型建立、模型评估和模型部署等阶段。

在数据准备阶段,需要对原始数据进行清理、转换和集成,以确保数据的质量和一致性。

数据探索阶段则通过可视化和统计分析等方法,对数据的特征和分布有一个初步的了解。

模型建立阶段选择合适的算法和模型,并使用训练数据进行训练。

模型评估通过使用测试数据来评估模型的性能,如准确率、召回率、F1 值等。

最后,将性能良好的模型部署到实际应用中。

二、机器学习基础机器学习是让计算机通过数据自动学习和改进的一种方法。

它可以分为监督学习、无监督学习和强化学习三大类。

监督学习是在有标记的数据集上进行学习,常见的算法包括线性回归、逻辑回归、决策树、支持向量机等。

线性回归用于预测连续值,逻辑回归用于分类问题,决策树可以生成易于理解的规则,支持向量机在处理高维数据和非线性问题上有较好的表现。

无监督学习是在无标记的数据集中寻找模式和结构,例如聚类算法(如 KMeans 聚类、层次聚类)和主成分分析(PCA)等。

机器学习期末复习笔记

机器学习期末复习笔记

机器学习复习笔记目录第一章概述 (1)1.什么是学习? (1)2.什么是机器学习? (1)3.与机器学习相关课程/领域? (1)4.基本概念 (2)5.机器学习分类? (2)6.NFL(没有免费的午餐)定理内容? (2)7.机器学习的目标? (2)第二章线性回归 (2)1.曲线拟合时,避免过拟合的一些方法? (2)2.贝叶斯(Bayes)公式及其含义? (2)3.贝叶斯概率练习题 (2)4.回归模型 (3)5.回归的基本思想 (3)6.回归模型有哪些优化方法? (3)7.什么是标准方程/正规方程? (4)8.看曲线拟合的两种角度 (4)9.非参数估计的思想 (4)第三章混合模型和聚类 (5)1.什么是聚类,有什么应用? (5)2.简述k-means算法流程 (5)3.简述高斯混合模型(GMM) (5)4.GMM的一些应用 (6)第四章线性分类 (6)1.什么是先验(A Priori)概率、后验(A Posteriori)概率 (6)2.贝叶斯决策规则主要有哪些? (7)3.贝叶斯决策例题 (7)4.线性判别的思想 (7)5.Fisher准则的思想 (8)6.感知机准则的思想 (8)7.感知机准则例题 (9)8.最小二乘准则思想 (9)第五章支持向量机 (9)1.生成式(Generative)模型与判别式(Discriminative)模型 (9)2.什么是支持向量机(SVM),其特点是什么? (10)3.软间隔支持向量机的思想 (10)4.核技巧的思想是什么,有哪些常用的核函数? (10)第六章采样方法 (11)1.蒙特卡洛方法的思想 (11)2.基本采样法的思想及例题 (11)3.接受-拒绝采样的思想及步骤 (11)4.什么是马尔科夫链? (12)5.马尔科夫链例题(阶级固化) (12)6.简述M-H方法的思想 (12)7.Gibbs采样与M-H方法的关系 (13)第七章概率图模型 (13)1.什么是概率图模型(PGM)?有哪些常见的概率图模型? (13)2.贝叶斯网络联合概率密度计算 (13)3.判断条件独立性 (13)4.什么是隐马尔可夫模型(HMM) (14)5.HMM的两个基本假设和三个基本问题及对应的算法 (14)6.什么是条件随机场(CRF) (14)第八+九章神经网络 (14)1.什么是人工神经元的M-P模型?画出模型并写出表达式。

哈工大深圳机器学习复习3

哈工大深圳机器学习复习3

1.What is Machine LearningA Computer program can improve its performance automatically with experience2.Learning DefinitionA computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experienceLearning: improving with experience at some taskImprove over task TWith respect to performance measure PBased on experience EExample:A checkers learning problem:T: play checkersP: percentage of games won in a tournament(锦标赛)E: opportunity to play against itselfHandwriting recognition learning problemT: recognizing and classifying handwritten words within imagesP: percent of words correctly classifiedE: a database of handwritten words with given classificationsA robot driving learning problemT: driving on public four-lane highways using vision sensorsP: average distance traveled before an error (as judged by human overseer)E: a sequence of images and steering commands recorded while observing a human driver 3.Candidate-Elimination Learning AlgorithmIf d is a negative example(先处理S)Remove from S any hypothesis that is inconsistent with dFor each hypothesis g in G that is not consistent with dremove g from G.Add to G all minimal specializations h of g such thath consistent with dSome member of S is more specific than hRemove from G any hypothesis that is less general than another hypothesis in GInductive bias of candidate-elimination algorithm{c H}Sky: Sunny, Cloudy, RainyAirTemp: Warm, ColdHumidity: Normal, HighWind: Strong, WeakWater: Warm, ColdForecast: Same, Change#distinct instances : 3*2*2*2*2*2 = 96#distinct concepts : 296#syntactically(语法)distinct hypotheses : 5*4*4*4*4*4=5120#semantically(语义的)distinct hypotheses : 1+4*3*3*3*3*3=973Example Candidate Elimination4. Information Gain is the expected reduction in entropy caused by partitioning the examples according to this attribute5.Gradient DescentTwo hypotheses: patient has cancer, patient does notLaboratory test with two possible outcomes: + and -Prior knowledge: only 0.008 have this disease.The test returns a correct positive result in only 98% of the cases in which the disease is present The test returns a correct negative result in only 97% of the cases in which the disease is not presentIn summaryP(cancer)=0.008, P( cancer)=0.992P(+|cancer)=0.98, P(-|cancer)=0.02P(+| cancer)=0.03, P(-| cancer)=0.97problem:A patient for whom the test returns a positive result. The patient has cancer or not? MAP can be found using Equation(6.2)P(+|cancer)P(cancer)=0.0078P(+| cancer)P( cancer)=0.0298hMAP= cancerP(canner|+)=0.0078/(0.0078+0.0298)=0.21P( cancer|-)=0.79The result of Bayesian inference depends strongly on the prior probabilities. In this example the hypotheses are not completely accepted or rejected, but rather become more or less probable as more data is observed.7.EMGA(Fitness, fitness_threshold, p,r,m)initialize population:P=Generate p hypotheses at randomEvaluate:For each h in P,compute Fitness(h)dowhile[maxFitness(h)]<Fitness_thresholdcreate a new generation, PS:probabilistically select (1-r)p members of P to add to PS. The probability Pr(hi) 1.Select:of selecting hypothesis hi from P is given by/∑Fitness(hj)Pr(hi)=Fitness(hi)pairs of hypotheses from P,according to Pr(hi)r*p/22.Crossover:Probabilisticallyselectgiven above . For each pair, <h1,h2>, produce two offspring by applying the crossover operator. Add all offspring to PS. 3. Mutate: choose m percent of the members of PS with uniform probability. For each, invert one randomly selected bit in its representation.update:P=PS4.5.Evaluate: for each h in P, compute Fitness(h)Return the hypothesis from P that has the highest fitness9. Fitness Function and SelectionThe fitness function defines the criterion for ranking potential hypothesesIf the task is to learn classification rules, then the fitness function typically has a component that scores the classification accuracy (complexity or generality) of the rule over a set of provided training examples.A probability method for selecting a hypothesisFitness proportionate selection(roulette whell selection) ,the probability of selecting a h is gibven by the ratio of its fitness to the fitness of other member of the current populationTournament selectionRank selection。

机器学习期末复习题

机器学习期末复习题

机器学习期末复习题机器学习期末复习题机器学习是一门研究如何使计算机具备学习能力的学科。

它通过分析和理解数据,从中提取出模式和知识,并利用这些知识来进行预测和决策。

在机器学习的学习过程中,我们需要掌握各种算法和技术。

下面是一些机器学习的期末复习题,帮助大家回顾和巩固相关知识。

1. 什么是监督学习和无监督学习?请举例说明。

监督学习是一种通过已知输入和输出的样本来训练模型的学习方法。

例如,我们可以通过给计算机展示一组图片,并告诉它这些图片中的物体是什么,来训练一个图像分类器。

无监督学习则是一种没有标签的学习方法,它通过分析数据的内在结构和模式来进行学习。

例如,我们可以通过对一组顾客购买记录的分析,来发现隐藏在数据中的潜在市场细分。

2. 请简要介绍一下决策树算法。

决策树算法是一种基于树结构的监督学习算法。

它通过对数据集进行递归分割,构建一棵树来进行分类或回归。

在构建决策树的过程中,算法会选择最佳的特征进行分割,并根据特征的取值将数据集划分为不同的子集。

决策树的优点是易于理解和解释,但容易过拟合。

3. 请简要介绍一下支持向量机算法。

支持向量机(Support Vector Machine,SVM)是一种常用的监督学习算法。

它通过在特征空间中构建一个最优分割超平面,将不同类别的样本分开。

SVM的目标是找到一个最大间隔的超平面,使得样本点到该超平面的距离最大化。

SVM可以通过核函数来处理非线性分类问题。

4. 请简要介绍一下聚类算法。

聚类算法是一种无监督学习算法,它通过对数据进行分组,将相似的样本归为一类。

常用的聚类算法有K均值聚类和层次聚类。

K均值聚类是一种迭代算法,它将数据集分为K个簇,每个簇的中心是该簇中所有样本的均值。

层次聚类则是一种基于树结构的聚类方法,它通过不断合并最相似的簇来构建聚类层次。

5. 请简要介绍一下神经网络算法。

神经网络是一种模仿人脑神经元网络的计算模型。

它由多个节点(神经元)和连接它们的权重组成。

机器学习期末复习题及答案

机器学习期末复习题及答案

一、单选题1、在条件随机场(CRF)中,参数的学习通常使用哪种优化算法?()A.K-Means聚类B.梯度提升机(GBM)C.支持向量机(SVM)D.随机梯度下降(SGD)正确答案:D2、在概率无向图模型中,什么是团分解(Cluster Decomposition)?()A.一种通过节点之间的边传播信息,以更新节点的边缘概率的方法B.一种用于计算图的分割的算法C.一种将联合概率分布分解为多个局部概率分布的方法D.一种用于表示联合概率分布的无向树正确答案:C3、在数据不完备时,下列哪一种方法不是贝叶斯网络的参数学习方法()A.拉普拉斯近似B.最大似然估计方法C.蒙特卡洛方法D.高斯逼近正确答案:B4、在有向图模型中,什么是条件独立性?()A.给定父节点的条件下,子节点之间独立B.所有节点之间都独立C.所有节点的状态相互独立D.任意两个节点都是独立的正确答案:A5、在概率有向图模型中,节点表示什么?()A.变量B.参数C.条件概率D.边正确答案:A6、下列哪一项表示簇中样本点的紧密程度?()A.簇个数B.簇大小C.簇描述D.簇密度正确答案:D7、闵可夫斯基距离表示为曼哈顿距离时p为:()A.1B.2C.3D.4正确答案:A8、谱聚类与K均值聚类相比,对于什么样的数据表现更好?()A.低维数据B.高维数据C.线性可分数据D.高密度数据正确答案:B9、SVM适用于什么类型的问题?()A.既可用于线性问题也可用于非线性问题B.仅适用于回归问题C.仅适用于非线性问题D.仅适用于线性问题正确答案:A10、对于在原空间中线性不可分的问题,支持向量机()A.在原空间中寻找非线性函数划分数据B.无法处理C.利用核函数把数据映射到高维空间D.在原空间中寻找线性函数划分数据正确答案:C11、LDA主题模型中的alpha参数控制着什么?()A.单词分布的稀疏性B.文档-主题分布的稀疏性C.模型大小D.模型收敛速度正确答案:B12、LDA的全称是什么?()tent Dirichlet AllocationB.Linear Discriminant Analysistent Data AnalysisD.Lin Latent Dirichlet Allocation ear Data Algorithm正确答案:A13、以下对于梯度下降法中学习率lr的阐述,正确的是()A.lr小,收敛速度较快B.lr大,收敛速度较慢C.lr小,收敛速度较慢且较不易收敛D.lr大,收敛速度较快但可能导致不收敛正确答案:D14、在EM算法中,E代表期望,M代表()A.均值B.最大化C.最小化D.均方误差正确答案:B15、梯度下降中如何有效地捕捉到目标函数的全局最优?()A.调整学习速率B.增加模型复杂度C.使用梯度下降的变种算法D.增加训练样本量正确答案:C二、多选题1、下列机器学习常用算法中哪个属于分类算法?()A.K-meansB.最小距离分类器C.KNN(K近邻)D.逻辑回归正确答案:B、C、D2、下列关于决策树的说法正确的是?()A.CART使用的是二叉树B.其可作为分类算法,也可用于回归模型C.不能处理连续型特征D.它易于理解、可解释性强正确答案:A、B、D3、下列属于k近邻算法中常用的距离度量方法的是?()A.余弦相似度B.欧式距离C.曼哈顿距离D.闵可夫斯基距离正确答案:A、B、C、D4、下列属于深度模型的是?()A.DNNB.LightgbmC.LSTMD.Seq2Seq正确答案:A、C、D5、sklearn中RFECV方法分成哪两个部分?()A.RFEB.CVC.NLPD.MM正确答案:A、B6、以下关于蒙特卡洛方法描述正确的是()A.蒙特卡洛方法计算值函数可以采用First-visit方法B.蒙特卡洛方法方差很大C.蒙特卡洛方法计算值函数可以采用Every-visit方法D.蒙特卡洛方法偏差很大正确答案:A、B、C7、为什么循环神经网络可以用来实现自动问答,比如对一句自然语言问句给出自然语言回答()A.因为自动问答可以看成是一种序列到序列的转换B.因为循环神经网络能够处理变长输入C.因为循环神经网要比卷积神经网更强大D.因为卷积神经网络不能处理字符输入正确答案:A、B8、通常有哪几种训练神经网络的优化方法()A.梯度下降法B.随机梯度下降法C.小批量随机梯度下降法D.集成法正确答案:A、B、C9、隐马尔可夫模型的三个基本问题是()A.估值问题B.寻找状态序列C.学习模型参数D.状态更新正确答案:A、B、C10、在数据不完备时,贝叶斯网络的参数学习方法有()A.高斯逼近B.蒙特卡洛方法C.拉普拉斯近似D.最大似然估计方法正确答案:A、B、C11、基于约束的方法通过统计独立性测试来学习结点间的()A.独立性B.相关性C.依赖性D.完备性正确答案:A、B12、基于搜索评分的方法,关键点在于()A.确定合适的搜索策略B.确定评分函数C.确定搜索优先级D.确定选择策略正确答案:A、B13、条件随机场需要解决的关键问题有()A.特征函数的选择B.参数估计C.模型推断D.约束条件正确答案:A、B、C14、以下关于逻辑斯蒂回归模型的描述正确的是()A.针对分类的可能性进行建模,不仅能预测出类别,还可以得到属于该类别的概率B.直接对分类的可能性进行建模,无需事先假设数据分布,这样就避免了假设分布不准确所带来的问题C.模型本质仍然是一个线性模型,实现相对简单D.逻辑斯蒂回归模型是线性回归模型正确答案:A、B、C、D15、LDA模型在做参数估计时,最常用的方法是()A.Gibbs采样方法B.变分推断C.梯度下降D.Beam search正确答案:A、B三、判断题1、关于EM算法的收敛性,EM算法理论上不能够保证收敛()正确答案:×2、多次运行,随机化初始点是对存在局部最优点的函数求解的一种方案()正确答案:√3、训练算法的目的就是要让模型拟合训练数据()正确答案:×4、循环神经网络按时间展开后就可以通过反向传播算法训练了()正确答案:√5、GIS算法的收敛速度由计算更新值的步长确定。

机器学习期末测试练习题3

机器学习期末测试练习题3

一、单选题1、以下关于感知器算法与支持向量机算法说法有误的是A. 由于支持向量机是基于所有训练数据寻找最大化间隔的超平面,而感知器算法却是相对随意的找一个分开两类的超平面,因此大多数时候,支持向量机画出的分类面往往比感知器算法好一些。

B.支持向量机是把所有训练数据都输入进计算机,让计算机解全局优化问题C.感知器算法相比于支持向量机算法消耗的计算资源和内存资源更少 ,但是耗费的计算资源更多D. 以上选项都正确正确答案:C2、假设你在训练一个线性回归模型,有下面两句话:如果数据量较少,容易发生过拟合。

如果假设空间较小,容易发生过拟合。

关于这两句话,下列说法正确的是?A.1正确,2错误B.1和2都错误C.1和2都正确D.1错误,2正确正确答案:A3、下面哪一项不是比较好的学习率衰减方法?t 表示为epoch 数。

A.α=11+2∗tᵯ0 B. α=1√ᵆᵯ0C. α=0.95ᵆᵯ0D.α=e ᵆᵯ0正确答案:D4、你正在构建一个识别足球(y = 1)与篮球(y = 0)的二元分类器。

你会使用哪一种激活函数用于输出层?A.ReLUB. tanhC.sigmoidD. Leaky ReLU正确答案:C5、假设你建立一个神经网络。

你决定将权重和偏差初始化为零。

以下哪项陈述是正确的?A.第一个隐藏层中的每个神经元将在第一次迭代中执行相同的计算。

但经过一次梯度下降迭代后,他们将会计算出不同的结果。

B.第一个隐藏层中的每个神经元节点将执行相同的计算。

所以即使经过多次梯度下降迭代后,层中的每个神经元节点都会计算出与其他神经元节点相同的结果。

C.第一个隐藏层中的每一个神经元都会计算出相同的结果,但是不同层的神经元会计算不同的结果。

D.即使在第一次迭代中,第一个隐藏层的神经元也会执行不同的计算, 他们的参数将以各自方式进行更新。

正确答案:B6、某个神经网络中所有隐藏层神经元使用tanh激活函数。

那么如果使用np.random.randn(…,…)* 1000将权重初始化为相对较大的值。

机器学习期末复习

机器学习期末复习

机器学习是怎样的学科:致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。

机器学习主要分为两大类:监督学习、非监督学、强化学习(AlphaGo)、半监督学习。

机器学习所要研究的主要内容是关于计算机在从数据中产生"模型”的算法,即"学习算法”。

(有了学习算法,我们把经验提供给它,他就能基于这些数据产生模型)。

学习的特点:数据驱动,以方法为中心,概率统计优化为基础。

从数据中学得模型的过程称为"学习”或"训练”,这个过程通过执行*个学习算法来完成。

训练过程中使用的数据称为"训练数据”,每一个样本称为"训练样本”,训练样本组成的集合称为"训练集”。

三要素:模型、策略、算法。

学得模型后,使用其进行预测得过程称为"测试”。

被测样本称为"测试样本”。

机器学习的目标是使学得的模型能很好地适用于"新样本”。

独立同分布学得模型适用于新样本的能力,称为"泛化”能力。

具有强泛化能力的模型能很好地适用于整个样本空间。

"奥卡姆剃刀”原则,是一种常用地、自然科学研究中最基础地原则,即"诺有多个假设与观察一致,则选最简单地那个”。

(采用这个原则,则所描绘地曲线更平滑,更简单)。

20世纪50年代-70年代初,人工智能处于"推理期”。

20世纪70年代中期开始,人工智能进入"知识期”。

20世纪80年代:被研究最多的应用最广的是"从样本中学习”,其中的两个主流技术:符号主义学习(决策树,ILP:归纳逻辑程序设计),基于神经网络的连接主义学习20世纪90年代中期:统计学习:代表性技术,支持向量机21世纪以来,连接主义学习"深度学习”即很多层的神经网络1980年夏,美国卡耐基梅隆大学举办了第一届机器学习研讨会(IWML)。

同年《策略分析与信息系统》连出三期机器学习专辑。

机器学习复习题集及答案

机器学习复习题集及答案

机器学习复习题集及答案机器学习是一门研究如何让计算机从数据中自动学习并改进性能的学科。

它在人工智能领域扮演着重要的角色,被广泛应用于图像识别、自然语言处理、推荐系统等领域。

为了帮助大家复习机器学习知识,下面整理了一些常见的复习题及答案。

1. 什么是监督学习?举个例子说明其应用。

监督学习是指通过输入数据和对应的标签,训练一个模型来预测未知数据的标签。

例如,给定一组患者的医疗数据和对应的是否患有某种疾病的标签,可以使用监督学习算法训练一个模型来预测其他患者是否患有该疾病。

2. 请解释欠拟合和过拟合的概念。

欠拟合指模型无法很好地拟合训练数据,即无法捕捉到数据中的关键特征和模式。

过拟合则表示模型过于复杂,过度拟合了训练数据,导致在新数据上的表现不佳。

3. 请描述逻辑回归算法的原理。

逻辑回归算法是一种用于解决二分类问题的机器学习算法。

它通过将输入特征加权求和,并经过一个称为“sigmoid函数”的激活函数,将输出转化为0到1之间的概率值。

最终,根据预测的概率值,将样本划分为两个类别。

4. 解释决策树算法的工作原理。

决策树算法基于一系列的规则和决策节点构建一棵树状结构。

每个节点代表一个特征,并根据该特征进行数据划分。

构建过程会根据某个准则(如信息增益)选择最优的特征进行划分,直到满足某个条件,如节点纯度达到一定阈值或树的深度达到限制。

5. 什么是K均值聚类算法?它的优缺点是什么?K均值聚类是一种常用的无监督学习算法,用于将样本划分为K个簇。

算法首先随机选择K个中心点,然后迭代地将每个样本分配给距离最近的簇,再计算每个簇的新中心点。

重复这个过程,直到聚类结果收敛。

优点是简单易用,缺点是对初始中心点的选择敏感,且对噪声和异常值较为敏感。

6. 解释支持向量机算法的工作原理。

支持向量机(SVM)是一种用于分类和回归的监督学习算法。

其核心思想是找到一个最优的超平面,可将不同类别的样本分开,并使得两个类别样本距离超平面的最小间隔最大化。

机器学习复习题及答案

机器学习复习题及答案

一、单选题1、下列哪位是人工智能之父?( )A.Marniv Lee MinskyB.HerbertA.SimonC.Allen NewellD.John Clifford Shaw正确答案:A2、根据王珏的理解,下列不属于对问题空间W的统计描述是( )。

A.一致性假设B.划分C.泛化能力D.学习能力正确答案:D3、下列描述无监督学习错误的是( )。

A.无标签B.核心是聚类C.不需要降维D.具有很好的解释性正确答案:C4、下列描述有监督学习错误的是( )。

A.有标签B.核心是分类C.所有数据都相互独立分布D.分类原因不透明正确答案:C5、下列哪种归纳学习采用符号表示方式?( )A. 经验归纳学习B.遗传算法C.联接学习D.强化学习正确答案:A6、混淆矩阵的假正是指( )。

A.模型预测为正的正样本B.模型预测为正的负样本C.模型预测为负的正样本D.模型预测为负的负样本正确答案:B7、混淆矩阵的真负率公式是为( )。

A.TP/(TP+FN)B.FP/(FP+TN)C.FN/(TP+FN)D.TN/(TN+FP)正确答案:D8、混淆矩阵中的TP=16,FP=12,FN=8,TN=4,准确率是( )。

A.1/4B.1/2C.4/7D.4/6正确答案:B9、混淆矩阵中的TP=16,FP=12,FN=8,TN=4,精确率是( )。

A.1/4B.1/2C.4/7D.2/3正确答案:C10、混淆矩阵中的TP=16,FP=12,FN=8,TN=4,召回率是( )。

A.1/4B.1/2C.4/7D.2/3正确答案:D11、混淆矩阵中的TP=16,FP=12,FN=8,TN=4,F1-score是( )。

A.4/13B.8/13C.4/7D.2/30.00/2.00正确答案:B12、EM算法的E和M指什么?( )A.Expectation-MaximumB.Expect-MaximumC.Extra-MaximumD.Extra-Max正确答案:A13、EM算法的核心思想是?( )A.通过不断地求取目标函数的下界的最优值,从而实现最优化的目标。

机器学习期末复习

机器学习期末复习

机器学习期末复习线性回归1.原理:线性回归就是能够用一个直线较为精确地描述数据之间的关系,这样当出现新的数据的时候,就能够预测出一个简单的值。

线性回归的模型形如:f( x )= w ∗ x +b2.优缺点:优点:(1)思想简单,实现容易。

建模迅速,对于小数据量、简单的关系很有效;(2)是许多强大的非线性模型的基础。

(3)线性回归模型十分容易理解,结果具有很好的可解释性,有利于决策分析。

(4)蕴含机器学习中的很多重要思想。

(5)能解决回归问题。

缺点:(1)对于非线性数据或者数据特征间具有相关性多项式回归难以建模.(2)难以很好地表达高度复杂的数据。

决策树1.原理:决策树是一个贪心算法,即在特性空间上执行递归的二元分割,决策树由节点和有向边组成。

内部节点表示一个特征或者属性;叶子节点表示一个分类。

使用决策树进行分类时,将实例分配到叶节点的类中,该叶节点所属的类就是该节点的分类。

2.优缺点:决策树的优点相对于其他数据挖掘算法,决策树在以下几个方面拥有优势:(1)决策树易于理解和实现. 人们在通过解释后都有能力去理解决策树所表达的意义。

(2)对于决策树,数据的准备往往是简单或者是不必要的 . 其他的技术往往要求先把数据一般化,比如去掉多余的或者空白的属性。

(3)能够同时处理数据型和常规型属性。

其他的技术往往要求数据属性的单一。

(4)在相对短的时间内能够对大型数据源做出可行且效果良好的结果。

(5)对缺失值不敏感(6)可以处理不相关特征数据(7)效率高,决策树只需要一次构建,反复使用,每一次预测的最大计算次数不超过决策树的深度。

决策树的缺点1)对连续性的字段比较难预测。

2)对有时间顺序的数据,需要很多预处理的工作。

3)当类别太多时,错误可能就会增加的比较快。

4)一般的算法分类的时候,只是根据一个字段来分类。

5)在处理特征关联性比较强的数据时表现得不是太好贝叶斯1.原理2.优缺点朴素贝叶斯的主要优点有:1)朴素贝叶斯模型有稳定的分类效率。

机器学习导论期末复习题

机器学习导论期末复习题

机器学习导论期末复习题机器学习导论期末复习题机器学习是一门涉及计算机科学和统计学的交叉学科,旨在研究和开发能够自动学习和改进的算法。

在现代社会中,机器学习已经广泛应用于各个领域,如自然语言处理、图像识别、推荐系统等。

作为机器学习课程的期末复习,以下是一些重要的问题和概念,希望能够帮助你回顾和巩固所学知识。

1. 什么是机器学习?它与传统的编程方法有何不同?机器学习是一种通过数据和经验来改进计算机算法的方法。

与传统的编程方法不同,机器学习不需要明确的规则或者指令,而是通过训练数据来自动学习和改进算法的性能。

2. 机器学习任务可以分为哪几类?请分别举例说明。

机器学习任务可以分为监督学习、无监督学习和强化学习。

监督学习是通过已知输入和输出的训练数据来训练模型,例如垃圾邮件分类。

无监督学习是在没有标签的情况下对数据进行分析和建模,例如聚类分析。

强化学习是通过与环境的交互来学习最优的行为策略,例如自动驾驶车辆。

3. 什么是特征工程?为什么它在机器学习中如此重要?特征工程是从原始数据中提取和选择有用的特征,以供机器学习算法使用。

它在机器学习中非常重要,因为好的特征可以提高算法的性能。

通过合理选择和处理特征,可以减少噪声和冗余信息,提高模型的泛化能力。

4. 什么是过拟合和欠拟合?如何解决这两个问题?过拟合是指模型在训练集上表现良好,但在测试集上表现较差的现象,即模型过于复杂而无法泛化到新的数据。

欠拟合则是指模型无法很好地拟合训练数据,导致在训练和测试集上都表现不佳。

为了解决过拟合问题,可以采用正则化方法、增加训练数据或者简化模型结构。

而对于欠拟合问题,可以增加特征数量、增加模型复杂度或者改进特征工程。

5. 什么是交叉验证?为什么要使用交叉验证?交叉验证是一种评估机器学习模型性能的方法,它将数据集划分为训练集和验证集,通过在不同的划分上进行训练和评估,得到更准确的模型性能估计。

使用交叉验证可以减少模型在特定数据集上的过拟合风险,提高模型的泛化能力。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

机器学习是怎样的学科:致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。

机器学习主要分为两大类:监督学习、非监督学、强化学习(AlphaGo)、半监督学习。

机器学习所要研究的主要内容是关于计算机在从数据中产生“模型”的算法,即“学习算法”。

(有了学习算法,我们把经验提供给它,他就能基于这些数据产生模型)。

学习的特点:数据驱动,以方法为中心,概率统计优化为基础。

从数据中学得模型的过程称为“学习”或“训练”,这个过程通过执行某个学习算法来完成。

训练过程中使用的数据称为“训练数据”,每一个样本称为“训练样本”,训练样本组成的集合称为“训练集”。

三要素:模型、策略、算法。

学得模型后,使用其进行预测得过程称为“测试”。

被测样本称为“测试样本”。

机器学习的目标是使学得的模型能很好地适用于“新样本”。

独立同分布学得模型适用于新样本的能力,称为“泛化”能力。

具有强泛化能力的模型能很好地适用于整个样本空间。

“奥卡姆剃刀”原则,是一种常用地、自然科学研究中最基础地原则,即“诺有多个假设与观察一致,则选最简单地那个”。

(采用这个原则,则所描绘地曲线更平滑,更简单)。

20世纪50年代-70年代初,人工智能处于“推理期”。

20世纪70年代中期开始,人工智能进入“知识期”。

20世纪80年代:被研究最多的应用最广的是“从样本中学习”,其中的两个主流技术:符号主义学习(决策树,ILP:归纳逻辑程序设计),基于神经网络的连接主义学习20世纪90年代中期:统计学习:代表性技术,支持向量机21世纪以来,连接主义学习“深度学习”即很多层的神经网络1980年夏,美国卡耐基梅隆大学举办了第一届机器学习研讨会(IWML)。

同年《策略分析与信息系统》连出三期机器学习专辑。

1986年,第一本机器学习专业期刊Machine Learning创刊。

1989年,人工智能领域地权威期刊Artificial Intelligence出版机器学习专辑。

2006年,卡耐基梅隆大学宣告成立世界上第一个“机器学习系”。

经验误差:学习器在训练集上的误差称为“训练误差”或“经验误差”。

泛化误差:在新样本上的误差称为“泛化误差”。

“测试误差”作为泛化误差的近似。

模型评估时用来测试模型的数据集叫什么集:A训练集B测试集C评估集D验证集(训练集是用来训练模型的,通过尝试不同的方法和思路使用训练集来训练不同的模型,再通过验证集使用交叉验证来挑选最优的模型,通过不断的迭代来改善模型在验证集上的性能,最后再通过测试集来评估模型的性能。

将一个数据集D分为训练集S和测试集T的方法:留出法:直接将数据集D划分为两个互斥的集合,其中一个作为S一个作为T。

注意点:训练/测试集的划分要尽可能保持数据分布一致。

单次使用留出法得到的估计结果往往不够稳定可靠。

一般采用若干次随机划分、重复进行实验评估后取平均值作为结果。

常见做法是将大约2/3~4/5的样本用于训练剩余样本用于测试。

保留类别比例的采样方式通常称为“分层采样”。

交叉验证法:(可能大题)将数据集D划分为k个大小相似的的互斥子集,每个子集尽可能保持数据分布的一致性,即通过分层采样得到。

然后每次用k-1个子集的并集作为训练集,余下的一个子集作为测试集并进行K次训练和测试。

例如:5折交叉验证,D分为D1~D5,第一次取4个子集的并集,D2-D5作为训练集,D1作为测试集。

第二次取D1、D3、D4、D5的并集作为训练集,D2作为测试集。

以此类推,最后将5次测试结果平均得到返回结果。

其中,如果D一共有m个样本,k=m,则得到交叉验证法的特例:留一法。

因为m个样本只有唯一的划分方式,即划分为m个子集,每一个子集只有一个样本。

这样所用的训练集只比原数据少一个样本。

留一法的优点:评估结果往往被认为比较精确(并非最精确),缺点:数据集较大时,训练m个模型的计算开销可能难以忍受。

自助法:(这种方法有一些样本永远取不到)建立一个新的数据集D’在D中随机取一个样本复制到D’中,进行m次后,D’中的样本数量和D一样,这时将D’作为训练集D\D’(表示D中不包括D’的部分)作为测试集。

因为是复制到D’中所以D中的一部分样本会取不到,则不被取到的概率为(1-1/m)^m取极限得到=1/e≈0.368,即数据集D中约有36.8%的样本未出现在D’中。

得到结果也称为“包外估计”。

在数据集较小、难以有效划分训练/测试集时很有用此外,自助法能从初始数据集中产生多个不同的训练集,对集成学习有很大好处。

但是自助法改变了初始数据集的分布,这会引入估计偏差。

所以数据足够多的时候其他两种方法更加常用。

错误率与精度错误率:分类错误的样本占样本总数的比例。

精度:分类正确的样本数占样本总数的比例。

查准率、查全率与F1认为是正例的样本中:真正例 TP 假正例 FP认为是假例的样本中:假反例 FN 真反例 TN查准率P:TP/(TP+FP) 即在查到的正例中正确的占比。

查全率R:TP/(TP+FN) 即在所有正确的例子中查到的正例的占比。

一般来说,查准率高,查全率偏低,查全率高,查准率偏低。

根据这一现象可以得到“P-R曲线”,当R(X轴)相同时,P(Y轴)越大越好。

曲线和P=R 的直线的交点称为平衡点。

越大越优。

因为平衡点过于简化,所以用F1来衡量优劣:F1=(2*P*R)/(P+R)=(2*TP)/(样本总数+TP-TN)=>1/F1=1/2*(1/P+1/R)有时因为场景的需要,可能回偏向查全率或者查准率,则有了F1的变形:FβFβ=((1+β²)*P*R)/((β²*P)+R)当β=1时,则为标准的F1;β>1时查全率有更大影响;β<1时查准率有更大影响。

线性模型:给定d个描述x=(x1;x2x3...xd)(例如西瓜颜色、形状2个描述,d=2),xi是x在第i个属性上的取值(即颜色=x1;形状=x2)。

从而有线性模型的基本形式 f(x)=w T x+b 加粗表示向量线性回归这里的数据集为D={(x1,y1),(x2,y2),...,(x m,ym)},其中x i=(xi1,xi2,...,xid)即线性模型的描述。

此处的y应该是判断结果,我猜测为正确答案。

简单化xi,将其中的值缩减到1个,则D={(xi,yi)}i=1m。

同时,若属性间存在“序”,并且为离散值,则可以将输入变为类似身高=>{1,0}其中1表示高,0表示矮。

如果不存在“序”关系,k个属性就用k维向量表示。

线性回归目的是求出f(x)=w T x+b的函数使得带入的值经过函数计算后得到的f(x)与预测的y近似。

所以为了近似,则需要做差最小。

使用均方误差得到:(w*,b*)=arg minΣ(i=1~m) (f(xi)-yi)²不方便同时做上下标简单表示=arg minΣ(i=1~m) (yi-wxi-b)²这里我理解的是承接上面简化属性值仅有一个分别对w和b做偏导得到书上P51的3.5和3.6,然后两个式子=0,解后得到3.7和3.8的解。

(过程作业有写,需要熟悉)此时如果使用原本的数据集,而不简化,即f(x)=w T x+b≈yi 称为“多元线性回归”最小二乘法就是通过使两个式子的均方误差最小化,来求得函数的未知值。

来近似标准函数,可以百度关键词“最小二乘法”,其中原理的部分较好理解。

对数线性回归:即之前的线性回归是为了逼近y值,如果要使得函数逼近与y相关的值,例如lny,就是改变指数尺度=>lny=w T x+b 这一式子则称为对数线性回归,本质是使得e底的w T x+b逼近y。

该式子在本质上仍然是线性回归。

P56 图3.1 表现得较为明显。

如果有g(.)使得y=g-1(w T x+b)这样得到得模型称为“广义线性模型”,函数g(.)称为“联系函数”,则对数线性回归是广义线性模型在g(.)=ln(.)时得特例。

我这里认为g(.)中.表示输入值。

对数几率回归:是分类问题通过找一个单调可微函数g(.)将分类任务的真实标记y与线性回归模型的预测值f(x)联系起来。

设预测值z=w T x+b 则将z的值通过“单位越阶函数” P57 (3.16) 与输出标记y一致。

即通过g(.)获取到的函数为P57 图3.2 中的黑线。

红色部分则为判断的输出标记。

因为希望函数值接近0或1,所用用y=1/1+e-z作为“替代函数”且可微。

带入z=w T x+b,得到P58 (3.18) (3.19)则为了求“对数几率”,最后就是求ln(y/1-y),将y和1-y分别视为为1和为0的概率,则有P59 (3.23) (3.24) 作业有相关内容。

熵模型:百度内容:给定一个概率分布,则熵的定义为:Hp=−p(x)logp(x)放到作业中即 -plnq 大致意思是要求一个函数的最小值就取它的负,这样反过来求它的最大值。

线性判别分析:是一种经典的线性学习方法,再二分类问题上提出。

简称LDA:给定训练集例集,设法将样例投影到一条直线上,使得同类的样例的投影尽可能得靠近,异类样例尽可能远离;对新样本进行分析时,将样本投影到这条直线上,再根据位置判断类别。

快速判断是否可以线性可分:将两类样本包起来,类似连接每类样例的最外层样本,形成一个封闭的图形,如果两个类别不重叠,则可以线性可分,反之不可。

多类别学习:有些二分类学习方法可直接推广到多分类,但是再更多情形下,我们是基于一些基本策略,利用二类学习器来解决多分类问题。

即多次利用二分类来解决多分类。

最经典的拆分策略有三种:“一对一”(OvO),“一对其余”(OvR)和“多对多”(MvM)。

OvR只需要N个分类器,OvO需要N(N-1)/2个分类器。

通常,OvO的存储开销和测试时间开销比OvR更大,但是OvO每次只用到两类样例,OvR则是全部样例。

所以在类别多的的情况下OvO的训练时间开销通常比OvR更小。

取决于具体数据分布。

P64 图 3.4 (大题)信息增益:信息熵:是度量样本集合纯度最常用的一种指标。

集合D的信息熵定义为Ent(D) 值越小表示纯度越高。

神经元模型:“M-P神经元模型” P97 图5.1 xi为输入 y为输出 Wi为对应xi的连接权重激励函数:类似神经传播,当一个电位超过一定值,则激活神经元,从而进行再传递。

类似地接收到带权重地输入信号,将总输入值和阀值进行比较,然后通过“激励函数”处理产生输出。

所以这里地激励函数最好是跃阶函数(即只有y=1或y=0)但是实际用Sigmoid函数将值压缩在0-1之间。

(1表示兴奋,0表示抑制)把许多个这样地神经元按一定地层次结构连接起来,就得到了神经网络。

感知机和多层网络:要求会计算“与”、“或”、“非”:这里用跃阶函数计算。

相关文档
最新文档