机器学习复习重点

合集下载

机器学习的知识重点

机器学习的知识重点机器学习是一门涵盖统计学、人工智能和计算机科学等多个领域的交叉学科，它研究如何设计和开发能够自动学习和改进的算法和模型。

在机器学习中，有一些重要的知识点需要特别关注和掌握。

本文将介绍机器学习的知识重点，帮助读者更好地理解和应用机器学习。

一、数据预处理在机器学习中，数据预处理是一个非常重要的步骤。

它包括数据清洗、特征选择、特征变换和数据集划分等过程。

数据清洗主要是处理缺失值、异常值和重复值等问题，确保数据的质量和完整性。

特征选择是从原始数据中选择最具代表性的特征，以提高模型的性能和泛化能力。

特征变换是将原始数据转化为适合模型输入的形式，如标准化、归一化和离散化等。

数据集划分是将数据集划分为训练集、验证集和测试集，用于模型的训练、调优和评估。

二、监督学习监督学习是机器学习中最常用的一种学习方式，它通过已有的标记数据来训练模型，然后对未知数据进行预测或分类。

在监督学习中，有一些重要的算法需要了解，如线性回归、逻辑回归、决策树、支持向量机和朴素贝叶斯等。

线性回归用于建立连续型变量之间的线性关系模型，逻辑回归用于建立二分类模型，决策树用于建立基于特征划分的分类模型，支持向量机用于建立最优间隔分类模型，朴素贝叶斯用于建立基于贝叶斯定理的分类模型。

三、无监督学习无监督学习是机器学习中另一种常用的学习方式，它通过未标记的数据来学习数据的结构和模式。

在无监督学习中，有一些重要的算法需要了解，如聚类、关联规则和降维等。

聚类是将相似的样本归为一类，不相似的样本归为不同类别，常用的聚类算法有K均值聚类和层次聚类等。

关联规则是挖掘数据集中的频繁项集和关联规则，常用的关联规则算法有Apriori算法和FP-growth算法等。

降维是将高维数据映射到低维空间，常用的降维算法有主成分分析和线性判别分析等。

四、模型评估与选择在机器学习中，模型的评估和选择是非常重要的，它决定了模型的性能和泛化能力。

常用的评估指标有准确率、精确率、召回率、F1值和ROC曲线等。

机器学习复习题

机器学习复习题1. 什么是机器学习？机器学习是一种人工智能的分支，它研究如何让计算机自动地从数据中学习和改进，以完成特定任务，而无需显式地编程。

2. 机器学习的主要分类方法有哪些？机器学习可以主要分为监督学习、无监督学习和强化学习。

- 监督学习：通过给算法提供标记好的训练数据，使其能够学习预测新样本的标签或输出。

- 无监督学习：在无标签的数据集中发现数据之间的模式和结构。

- 强化学习：通过与环境进行交互，学习如何在给定环境中采取行动以获得最大的奖励。

3. 请解释下交叉验证在机器学习中的作用。

交叉验证是机器学习中常用的一种评估模型性能的方法。

它将原始数据分成训练集和验证集，然后使用训练集对模型进行训练，再使用验证集对训练好的模型进行评估和调整。

通过多次交叉验证取得的结果的平均值，可以更准确地评估模型的性能。

4. 请简要解释一下决策树算法。

决策树是一种基于树结构的机器学习算法，用于解决分类和回归问题。

它通过构建一组决策规则来进行预测。

算法从根节点开始，根据特征的取值不断分裂生成子节点，直到满足预先设定的停止条件（如纯度达到一定阈值或达到设定的树深度）。

决策树通过对特征属性的选择来进行分割，将数据集划分为纯度更高的子集，使得不同类别的样本尽量分开。

5. 请解释下过拟合和欠拟合的概念，以及如何解决这些问题。

- 过拟合：指模型在训练集上表现非常好，但在测试集或新的未见过的数据上表现较差。

这是因为模型在训练集上过度拟合了训练数据的细节和噪声。

- 欠拟合：指模型无法在训练集和测试集上都达到较好的性能，无法捕捉到数据的复杂关系。

解决过拟合的方法包括：- 增加训练数据量，使模型能更好地学习到数据的共性而不是细节。

- 减少模型的复杂度，如减少参数数量或选择简单的模型。

- 添加正则化项，如L1正则化或L2正则化，以限制模型参数的大小。

解决欠拟合的方法包括：- 增加模型的复杂度，如增加模型的隐藏层节点数或增加树的深度。

机器学习期末常考简答题

1.什么是偏差与方差？泛化误差可以分解成偏差的平方加上方差加上噪声。

偏差度量了学习算法的期望预测和真实结果的偏离程度，刻画了学习算法本身的拟合能力，方差度量了同样大小的训练集的变动所导致的学习性能的变化，刻画了数据扰动所造成的影响，噪声表达了当前任务上任何学习算法所能达到的期望泛化误差下界，刻画了问题本身的难度。

偏差和方差一般称为bias和variance，一般训练程度越强，偏差越小，方差越大，泛化误差一般在中间有一个最小值，如果偏差较大，方差较小，此时一般称为欠拟合，而偏差较小，方差较大称为过拟合。

2.采用EM 算法求解的模型有哪些，为什么不用牛顿法或梯度下降法？用EM算法求解的模型一般有GMM或者协同过滤，k-means其实也属于EM。

EM算法一定会收敛，但是可能收敛到局部最优。

由于求和的项数将随着隐变量的数目指数上升，会给梯度计算带来麻烦。

3.SVM、LR、决策树的对比？模型复杂度：SVM支持核函数，可处理线性非线性问题；LR模型简单，训练速度快，适合处理线性问题；决策树容易过拟合，需要进行剪枝损失函数：SVM hinge loss; LR L2正则化; adaboost 指数损失数据敏感度：SVM添加容忍度对outlier不敏感，只关心支持向量，且需要先做归一化；LR 对远点敏感数据量：数据量大就用LR，数据量小且特征少就用SVM非线性核.4.GBDT 和随机森林的区别随机森林采用的是bagging的思想，bagging又称为bootstrap aggreagation，通过在训练样本集中进行有放回的采样得到多个采样集，基于每个采样集训练出一个基学习器，再将基学习器结合。

随机森林在对决策树进行bagging的基础上，在决策树的训练过程中引入了随机属性选择。

传统决策树在选择划分属性的时候是在当前节点属性集合中选择最优属性，而随机森林则是对结点先随机选择包含k个属性的子集，再选择最有属性，k作为一个参数控制了随机性的引入程度。

博士生计算机科学机器学习知识点归纳总结

博士生计算机科学机器学习知识点归纳总结随着信息时代的到来，计算机科学领域的机器学习（Machine Learning）变得越来越重要。

作为一门广泛应用于人工智能领域的学科，机器学习涉及到大量的知识点。

本文将对博士生在计算机科学领域的机器学习知识点进行归纳总结。

以下是一些重要的机器学习知识点：1. 概率论与统计学基础机器学习的基础是概率论与统计学。

博士生需要掌握概率分布、条件概率、贝叶斯定理等基本概念，了解假设检验、置信区间、参数估计等统计学的基本方法。

掌握这些基础知识可以帮助博士生理解机器学习算法的原理和应用。

2. 监督学习监督学习是机器学习中最常见也是最基础的学习方式。

博士生需要了解监督学习的基本概念、常见的分类算法（如逻辑回归、决策树、支持向量机等）以及回归算法（如线性回归、岭回归等）。

博士生还需要了解特征选择、模型评估与选择等相关技术。

3. 无监督学习无监督学习是指从无标签数据中发现隐藏的模式或结构。

博士生需要了解聚类算法（如K均值聚类、层次聚类等）和降维算法（如主成分分析、独立成分分析等）等无监督学习的基本方法。

此外，掌握异常检测和关联规则等其他无监督学习技术也是必要的。

4. 强化学习强化学习是通过观察和与环境的交互来学习最优策略的一种学习方式。

博士生需要了解强化学习的基本概念（如状态、动作、奖励和值函数等），并掌握常见的强化学习算法（如Q学习、深度强化学习等）以及策略评估和策略改进等相关技术。

5. 深度学习深度学习是机器学习领域最热门的研究方向之一。

博士生需要了解深度学习的基本概念（如神经网络、层次结构、损失函数等），并掌握深度学习常见的网络结构（如卷积神经网络、循环神经网络等）和优化算法（如梯度下降、Adam等）。

此外，对于自然语言处理、计算机视觉等领域的应用也需要有一定的了解。

6. 特征工程与模型调优在机器学习的实际应用中，特征工程和模型调优是关键的环节。

博士生需要掌握特征选择、特征提取、特征转换等技术，并了解模型评估与选择、超参数调优等相关方法。

数据挖掘与机器学习复习资料

数据挖掘与机器学习复习资料数据挖掘和机器学习是当今信息技术领域中极为重要的两个分支，它们在处理和分析大量数据、发现隐藏模式、做出预测和决策等方面发挥着关键作用。

对于学习者来说，掌握这两个领域的知识至关重要。

以下是为大家整理的一份关于数据挖掘与机器学习的复习资料。

一、数据挖掘概述数据挖掘，简单来说，就是从大量的数据中提取出有用的信息和知识的过程。

它不仅仅是数据的收集和存储，更重要的是通过一系列的技术和方法，对数据进行深入分析和挖掘，以发现潜在的规律和趋势。

数据挖掘的主要任务包括数据分类、聚类、关联规则挖掘、异常检测等。

在数据分类中，我们根据已知的类别标签，将新的数据划分到相应的类别中。

聚类则是将数据按照相似性进行分组，而无需事先知道类别信息。

关联规则挖掘用于发现数据中不同属性之间的关联关系，例如购买了商品 A 的顾客往往也会购买商品 B。

异常检测则是识别出与大多数数据不同的异常值。

数据挖掘的过程通常包括数据准备、数据探索、模型建立、模型评估和模型部署等阶段。

在数据准备阶段，需要对原始数据进行清理、转换和集成，以确保数据的质量和一致性。

数据探索阶段则通过可视化和统计分析等方法，对数据的特征和分布有一个初步的了解。

模型建立阶段选择合适的算法和模型，并使用训练数据进行训练。

模型评估通过使用测试数据来评估模型的性能，如准确率、召回率、F1 值等。

最后，将性能良好的模型部署到实际应用中。

二、机器学习基础机器学习是让计算机通过数据自动学习和改进的一种方法。

它可以分为监督学习、无监督学习和强化学习三大类。

监督学习是在有标记的数据集上进行学习，常见的算法包括线性回归、逻辑回归、决策树、支持向量机等。

线性回归用于预测连续值，逻辑回归用于分类问题，决策树可以生成易于理解的规则，支持向量机在处理高维数据和非线性问题上有较好的表现。

无监督学习是在无标记的数据集中寻找模式和结构，例如聚类算法（如 KMeans 聚类、层次聚类）和主成分分析（PCA）等。

机器学习期末复习题

机器学习期末复习题机器学习期末复习题机器学习是一门研究如何使计算机具备学习能力的学科。

它通过分析和理解数据，从中提取出模式和知识，并利用这些知识来进行预测和决策。

在机器学习的学习过程中，我们需要掌握各种算法和技术。

下面是一些机器学习的期末复习题，帮助大家回顾和巩固相关知识。

1. 什么是监督学习和无监督学习？请举例说明。

监督学习是一种通过已知输入和输出的样本来训练模型的学习方法。

例如，我们可以通过给计算机展示一组图片，并告诉它这些图片中的物体是什么，来训练一个图像分类器。

无监督学习则是一种没有标签的学习方法，它通过分析数据的内在结构和模式来进行学习。

例如，我们可以通过对一组顾客购买记录的分析，来发现隐藏在数据中的潜在市场细分。

2. 请简要介绍一下决策树算法。

决策树算法是一种基于树结构的监督学习算法。

它通过对数据集进行递归分割，构建一棵树来进行分类或回归。

在构建决策树的过程中，算法会选择最佳的特征进行分割，并根据特征的取值将数据集划分为不同的子集。

决策树的优点是易于理解和解释，但容易过拟合。

3. 请简要介绍一下支持向量机算法。

支持向量机（Support Vector Machine，SVM）是一种常用的监督学习算法。

它通过在特征空间中构建一个最优分割超平面，将不同类别的样本分开。

SVM的目标是找到一个最大间隔的超平面，使得样本点到该超平面的距离最大化。

SVM可以通过核函数来处理非线性分类问题。

4. 请简要介绍一下聚类算法。

聚类算法是一种无监督学习算法，它通过对数据进行分组，将相似的样本归为一类。

常用的聚类算法有K均值聚类和层次聚类。

K均值聚类是一种迭代算法，它将数据集分为K个簇，每个簇的中心是该簇中所有样本的均值。

层次聚类则是一种基于树结构的聚类方法，它通过不断合并最相似的簇来构建聚类层次。

5. 请简要介绍一下神经网络算法。

神经网络是一种模仿人脑神经元网络的计算模型。

它由多个节点（神经元）和连接它们的权重组成。

机器学习复习题及答案

一、单选题1、下列哪位是人工智能之父？（）A.MarnivLeeMinskyB.HerbertA.SimonC.AllenNewellD.JohnCliffordShaw正确答案：A2、根据王珏的理解，下列不属于对问题空间W的统计描述是（）。

A.-致性假设B•划分C■泛化能力D•学习能力正确答案：D3、下列描述无监督学习错误的是（）。

A.无标签B•核心是聚类C•不需要降维D•具有很好的解释性正确答案：C4、下列描述有监督学习错误的是（）。

A.有标签B•核心是分类C•所有数据都相互独立分布D•分类原因不透明正确答案：C5、下列哪种归纳学习采用符号表示方式？（）A.经验归纳学习B■遗传算法C•联接学习D•强化学习正确答案：A6、混淆矩阵的假正是指（）。

A.模型预测为正的正样本B•模型预测为正的负样本C•模型预测为负的正样本D•模型预测为负的负样本正确答案：B7、混淆矩阵的真负率公式是为（）。

A.TP/（TP+FN）B.FP/（FP+TN）C.FN/（TP+FN）D.TN/（TN+FP）正确答案：D8、混淆矩阵中的TP=16，FP=12，FN=8，TN=4，准确率是（）。

A.1/4B.1/2C.4/7D.4/6正确答案：B9、混淆矩阵中的TP=16，FP=12，FN=8,TN=4，精确率是（）。

A.1/4B.1/2C.4/7D.2/3正确答案：C10、混淆矩阵中的TP=16,FP=12,FN=8,TN=4，召回率是（）。

A.1/4B.1/2C.4/7D.2/3正确答案：D11、混淆矩阵中的TP=16,FP=12,FN=8,TN=4,F1-score是（）。

A.4/13B.8/13C.4/7D.2/30.00/2.00正确答案：B12、EM算法的E和M指什么？（）A.Expectation-MaximumB.Expect-MaximumC.Extra-MaximumD.Extra-Max正确答案：A13、EM算法的核心思想是？（）A.通过不断地求取目标函数的下界的最优值，从而实现最优化的目标。

机器学习期末复习题及答案

一、单选题1、在条件随机场（CRF）中，参数的学习通常使用哪种优化算法？（）A.K-Means聚类B.梯度提升机（GBM）C.支持向量机（SVM）D.随机梯度下降（SGD）正确答案：D2、在概率无向图模型中，什么是团分解（Cluster Decomposition）？（）A.一种通过节点之间的边传播信息，以更新节点的边缘概率的方法B.一种用于计算图的分割的算法C.一种将联合概率分布分解为多个局部概率分布的方法D.一种用于表示联合概率分布的无向树正确答案：C3、在数据不完备时，下列哪一种方法不是贝叶斯网络的参数学习方法（）A.拉普拉斯近似B.最大似然估计方法C.蒙特卡洛方法D.高斯逼近正确答案：B4、在有向图模型中，什么是条件独立性？（）A.给定父节点的条件下，子节点之间独立B.所有节点之间都独立C.所有节点的状态相互独立D.任意两个节点都是独立的正确答案：A5、在概率有向图模型中，节点表示什么？（）A.变量B.参数C.条件概率D.边正确答案：A6、下列哪一项表示簇中样本点的紧密程度？（）A.簇个数B.簇大小C.簇描述D.簇密度正确答案：D7、闵可夫斯基距离表示为曼哈顿距离时p为：（）A.1B.2C.3D.4正确答案：A8、谱聚类与K均值聚类相比，对于什么样的数据表现更好？（）A.低维数据B.高维数据C.线性可分数据D.高密度数据正确答案：B9、SVM适用于什么类型的问题？（）A.既可用于线性问题也可用于非线性问题B.仅适用于回归问题C.仅适用于非线性问题D.仅适用于线性问题正确答案：A10、对于在原空间中线性不可分的问题，支持向量机（）A.在原空间中寻找非线性函数划分数据B.无法处理C.利用核函数把数据映射到高维空间D.在原空间中寻找线性函数划分数据正确答案：C11、LDA主题模型中的alpha参数控制着什么？（）A.单词分布的稀疏性B.文档-主题分布的稀疏性C.模型大小D.模型收敛速度正确答案：B12、LDA的全称是什么？（）tent Dirichlet AllocationB.Linear Discriminant Analysistent Data AnalysisD.Lin Latent Dirichlet Allocation ear Data Algorithm正确答案：A13、以下对于梯度下降法中学习率lr的阐述，正确的是（）A.lr小，收敛速度较快B.lr大，收敛速度较慢C.lr小，收敛速度较慢且较不易收敛D.lr大，收敛速度较快但可能导致不收敛正确答案：D14、在EM算法中，E代表期望，M代表（）A.均值B.最大化C.最小化D.均方误差正确答案：B15、梯度下降中如何有效地捕捉到目标函数的全局最优？（）A.调整学习速率B.增加模型复杂度C.使用梯度下降的变种算法D.增加训练样本量正确答案：C二、多选题1、下列机器学习常用算法中哪个属于分类算法？（）A.K-meansB.最小距离分类器C.KNN(K近邻)D.逻辑回归正确答案：B、C、D2、下列关于决策树的说法正确的是？（）A.CART使用的是二叉树B.其可作为分类算法，也可用于回归模型C.不能处理连续型特征D.它易于理解、可解释性强正确答案：A、B、D3、下列属于k近邻算法中常用的距离度量方法的是？（）A.余弦相似度B.欧式距离C.曼哈顿距离D.闵可夫斯基距离正确答案：A、B、C、D4、下列属于深度模型的是？（）A.DNNB.LightgbmC.LSTMD.Seq2Seq正确答案：A、C、D5、sklearn中RFECV方法分成哪两个部分？（）A.RFEB.CVC.NLPD.MM正确答案：A、B6、以下关于蒙特卡洛方法描述正确的是（）A.蒙特卡洛方法计算值函数可以采用First-visit方法B.蒙特卡洛方法方差很大C.蒙特卡洛方法计算值函数可以采用Every-visit方法D.蒙特卡洛方法偏差很大正确答案：A、B、C7、为什么循环神经网络可以用来实现自动问答，比如对一句自然语言问句给出自然语言回答（）A.因为自动问答可以看成是一种序列到序列的转换B.因为循环神经网络能够处理变长输入C.因为循环神经网要比卷积神经网更强大D.因为卷积神经网络不能处理字符输入正确答案：A、B8、通常有哪几种训练神经网络的优化方法（）A.梯度下降法B.随机梯度下降法C.小批量随机梯度下降法D.集成法正确答案：A、B、C9、隐马尔可夫模型的三个基本问题是（）A.估值问题B.寻找状态序列C.学习模型参数D.状态更新正确答案：A、B、C10、在数据不完备时，贝叶斯网络的参数学习方法有（）A.高斯逼近B.蒙特卡洛方法C.拉普拉斯近似D.最大似然估计方法正确答案：A、B、C11、基于约束的方法通过统计独立性测试来学习结点间的（）A.独立性B.相关性C.依赖性D.完备性正确答案：A、B12、基于搜索评分的方法，关键点在于（）A.确定合适的搜索策略B.确定评分函数C.确定搜索优先级D.确定选择策略正确答案：A、B13、条件随机场需要解决的关键问题有（）A.特征函数的选择B.参数估计C.模型推断D.约束条件正确答案：A、B、C14、以下关于逻辑斯蒂回归模型的描述正确的是（）A.针对分类的可能性进行建模，不仅能预测出类别，还可以得到属于该类别的概率B.直接对分类的可能性进行建模，无需事先假设数据分布，这样就避免了假设分布不准确所带来的问题C.模型本质仍然是一个线性模型，实现相对简单D.逻辑斯蒂回归模型是线性回归模型正确答案：A、B、C、D15、LDA模型在做参数估计时，最常用的方法是（）A.Gibbs采样方法B.变分推断C.梯度下降D.Beam search正确答案：A、B三、判断题1、关于EM算法的收敛性，EM算法理论上不能够保证收敛（）正确答案：×2、多次运行，随机化初始点是对存在局部最优点的函数求解的一种方案（）正确答案：√3、训练算法的目的就是要让模型拟合训练数据（）正确答案：×4、循环神经网络按时间展开后就可以通过反向传播算法训练了（）正确答案：√5、GIS算法的收敛速度由计算更新值的步长确定。

机器学习考试复习题

机器学习考试复习题机器学习考试复习题机器学习作为一门前沿的学科，近年来受到越来越多人的关注和研究。

它的发展不仅改变了我们对人工智能的认识，也给各行各业带来了巨大的变革。

在机器学习的学习过程中，考试是不可或缺的一环。

下面，我们将从不同的角度出发，给出几个机器学习考试复习题，帮助大家更好地复习和理解这门学科。

1. 什么是机器学习？请简要解释机器学习的定义和基本原理。

机器学习是一种通过计算机算法让计算机系统具备自主学习能力的学科。

它的基本原理是通过对大量数据的分析和处理，让计算机通过自我学习和优化来改善自身的性能和表现。

机器学习的目标是让计算机能够从数据中发现规律和模式，从而做出准确的预测和决策。

2. 机器学习中常用的算法有哪些？请列举并简要解释其中两种算法。

常用的机器学习算法包括线性回归、逻辑回归、决策树、支持向量机、朴素贝叶斯、神经网络等。

其中，线性回归是一种用于建立输入和输出之间线性关系的算法，适用于连续型变量的预测。

逻辑回归则是一种用于分类问题的算法，通过对数据进行逻辑回归模型的拟合，将样本分为不同的类别。

3. 什么是过拟合和欠拟合？请简要解释它们的概念和解决方法。

过拟合和欠拟合是机器学习中常见的问题。

过拟合指的是模型在训练集上表现良好，但在测试集上表现较差的情况。

这是因为模型在训练过程中过于复杂，过度拟合了训练集的特征和噪音，导致泛化能力不足。

欠拟合则是指模型在训练集和测试集上都表现较差，这是因为模型过于简单，无法捕捉到数据的复杂关系。

解决过拟合和欠拟合的方法有很多种。

对于过拟合，可以采用减少特征数量、增加训练数据、正则化等方法来降低模型复杂度；对于欠拟合，可以增加特征数量、增加模型复杂度、改进算法等来提高模型的拟合能力。

4. 什么是监督学习和无监督学习？请简要解释它们的概念和应用场景。

监督学习是一种通过已标记的训练样本来训练模型的学习方法。

在监督学习中，模型通过学习已知输入和输出之间的关系，从而对未知数据进行预测和分类。

机器学习王衡军考试复习资料

机器学习王衡军考试复习资料1. 机器学习定义：机器学习是人工智能的一个分支。

人工智能的研究历史有着一条从以“推理”为重点，到以“知识”为重点，再到以“学习”为重点的自然、清晰的脉络。

显然，机器学习是实现人工智能的一个途径，即以机器学习为手段解决人工智能中的问题。

机器学习在近30多年已发展为一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。

机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。

机器学习算法是一类从数据中自动分析获得规律，并利用规律对未知数据进行预测的算法。

因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。

算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

很多推论问题属于无程序可循难度，所以部分的机器学习研究是开发容易处理的近似算法。

机器学习已广泛应用于数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别、战略游戏和机器人等领域。

机器学习是一门人工智能的科学，该领域的主要研究对象是人工智能，特别是如何在经验学习中改善具体算法的性能。

机器学习是对能通过经验自动改进的计算机算法的研究。

机器学习是用数据或以往的经验，以此优化计算机程序的性能标准。

2. 深度学习定义：深度学习（英语：deep learning）是机器学习的分支，是一种以人工神经网络为架构，对资料进行表征学习的算法。

深度学习是机器学习中一种基于对数据进行表征学习的算法。

观测值（例如一幅图像）可以使用多种方式来表示，如每个像素强度值的向量，或者更抽象地表示成一系列边、特定形状的区域等。

而使用某些特定的表示方法更容易从实例中学习任务（例如，人脸识别或面部表情识别）。

深度学习的好处是用非监督式或半监督式的特征学习和分层特征提取高效算法来替代手工获取特征。

表征学习的目标是寻求更好的表示方法并创建更好的模型来从大规模未标记数据中学习这些表示方法。

机器学习复习题集及答案

机器学习复习题集及答案机器学习是一门研究如何让计算机从数据中自动学习并改进性能的学科。

它在人工智能领域扮演着重要的角色，被广泛应用于图像识别、自然语言处理、推荐系统等领域。

为了帮助大家复习机器学习知识，下面整理了一些常见的复习题及答案。

1. 什么是监督学习？举个例子说明其应用。

监督学习是指通过输入数据和对应的标签，训练一个模型来预测未知数据的标签。

例如，给定一组患者的医疗数据和对应的是否患有某种疾病的标签，可以使用监督学习算法训练一个模型来预测其他患者是否患有该疾病。

2. 请解释欠拟合和过拟合的概念。

欠拟合指模型无法很好地拟合训练数据，即无法捕捉到数据中的关键特征和模式。

过拟合则表示模型过于复杂，过度拟合了训练数据，导致在新数据上的表现不佳。

3. 请描述逻辑回归算法的原理。

逻辑回归算法是一种用于解决二分类问题的机器学习算法。

它通过将输入特征加权求和，并经过一个称为“sigmoid函数”的激活函数，将输出转化为0到1之间的概率值。

最终，根据预测的概率值，将样本划分为两个类别。

4. 解释决策树算法的工作原理。

决策树算法基于一系列的规则和决策节点构建一棵树状结构。

每个节点代表一个特征，并根据该特征进行数据划分。

构建过程会根据某个准则（如信息增益）选择最优的特征进行划分，直到满足某个条件，如节点纯度达到一定阈值或树的深度达到限制。

5. 什么是K均值聚类算法？它的优缺点是什么？K均值聚类是一种常用的无监督学习算法，用于将样本划分为K个簇。

算法首先随机选择K个中心点，然后迭代地将每个样本分配给距离最近的簇，再计算每个簇的新中心点。

重复这个过程，直到聚类结果收敛。

优点是简单易用，缺点是对初始中心点的选择敏感，且对噪声和异常值较为敏感。

6. 解释支持向量机算法的工作原理。

支持向量机（SVM）是一种用于分类和回归的监督学习算法。

其核心思想是找到一个最优的超平面，可将不同类别的样本分开，并使得两个类别样本距离超平面的最小间隔最大化。

数据挖掘、机器学习知识点

数据挖掘复习概论✔机器学习机器学习在近30多年已发展为一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。

机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。

机器学习算法是一类从数据中自动分析获得规律，并利用规律对未知数据进行预测的算法。

因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。

算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

✔数据挖掘数据挖掘（英语：data mining）是一个跨学科的计算机科学分支。

它是用人工智能、机器学习、统计学和数据库的交叉方法在相对较大型的数据集中发现模式的计算过程。

数据挖掘过程的总体目标是从一个数据集中提取信息，并将其转换成可理解的结构，以进一步使用。

数据挖掘是 ”数据库知识发现“ 的分析步骤。

✔机器学习和数据挖掘的关系机器学习是数据挖掘的主要工具。

数据挖掘不仅仅要研究、拓展、应用一些机器学习方法，还要通过许多非机器学习技术解决数据存储、大规模数据、数据噪音等更为实际的问题。

机器学习的涉及面更宽，常用在数据挖掘上的方法通常只是“从数据学习”，然则机器学习不仅仅可以用在数据挖掘上，一些机器学习的子领域甚至与数据挖掘关系不大，例如增强学习与自动控制等。

大体上看，数据挖掘可以视为机器学习和数据库的交叉。

✔基本术语泛化能力机器学习的目标是使得学到的模型能很好的适用于“新样本”, 而不仅仅是训练集合，我们称模型适用于新样本的能力为泛化(generalization)能力。

通常假设样本空间中的样本服从一个未知分布 ,样本从这个分布中独立获得，即“独立同分布”(i.i.d)。

一般而言训练样本越多越有可能通过学习获得强泛化能力的模型。

监督学习即样本是有标签的。

分类问题回归问题标注问题监督学习目的是学习一个由输入到输出的映射，称为模型。

模式的集合就是假设空间（hypothesis space）半监督学习少量标注数据，大量未标注数据利用未标注数据的信息，辅助标注数据，进行监督学习较低成本主动学习机器主动给出实例，教师进行标注利用标注数据学习预测模型KNN工作原理存在一个样本数据集合，也称作训练样本集，样本集中每个数据都存在标签，即我们知道样本集中每个数据和所属分类输入没有标签的新数据后，将新数据的每个特征与样本集中数据对应的特征进行比较，然后算法提取样本集中特征最相似数据（最近邻）的分类标签一般来说，只选择样本数据集中前 k 个最相似的数据。

机器学习基础知识解析

机器学习基础知识解析机器学习是一个十分热门的研究方向，也是计算机科学中的重要领域之一。

在实践中，机器学习被广泛应用于图像处理、语音识别、自然语言处理、医学诊断等领域。

在本文中，我们将会介绍机器学习的基础知识，并分别从数据集、算法和模型这三个方面进行解析。

数据集数据集是机器学习算法的重要基础。

在数据集中，数据被分为输入与输出两部分，其中输入被称为特征，输出被称为标签。

对于给定的一个数据集，我们的目标是通过训练一个机器学习算法，预测出未知的标签。

为了训练机器学习算法，我们需要将数据集分成两部分：训练集和测试集。

训练集用于训练机器学习算法，而测试集则用于验证算法的准确性。

在数据集的选择和准备中，我们需要注意以下几点：1、数据集的大小：数据集的大小应足够大，以便机器学习算法能够充分学习数据集中的特征。

2、数据集的质量：数据集应尽可能地去除噪声和异常值，以免对机器学习算法造成不良影响。

3、数据集的分布：数据集应与现实生活中的情况相对应，以便对机器学习算法进行实际应用。

算法算法是解决机器学习问题的核心，同时也是机器学习中的一大挑战。

机器学习算法可以分为监督学习、无监督学习和强化学习三种。

1、监督学习：监督学习的目标是从已知的输入和输出中预测未知输出。

在监督学习中，我们需要通过训练集中的标签来训练机器学习模型，从而使模型能够在测试集上预测未知输出。

2、无监督学习：无监督学习的目标是从没有标签的数据中提取出数据的特征。

在无监督学习中，我们需要通过聚类、降维等方法将数据分成不同的类别，从而对数据进行处理。

3、强化学习：强化学习的目标是让机器学习算法通过与环境交互来学习最优策略。

在强化学习中，我们需要通过给予机器学习算法奖励或惩罚的方式，使其选择最佳策略。

模型模型是机器学习算法的体现。

在机器学习中，模型用于将输入数据映射成输出数据。

根据不同的数据类型和处理方式，机器学习模型可以分为神经网络模型、决策树模型、SVM模型、聚类模型等多种类型。

机器学习导论期末复习题

机器学习导论期末复习题机器学习导论期末复习题机器学习是一门涉及计算机科学和统计学的交叉学科，旨在研究和开发能够自动学习和改进的算法。

在现代社会中，机器学习已经广泛应用于各个领域，如自然语言处理、图像识别、推荐系统等。

作为机器学习课程的期末复习，以下是一些重要的问题和概念，希望能够帮助你回顾和巩固所学知识。

1. 什么是机器学习？它与传统的编程方法有何不同？机器学习是一种通过数据和经验来改进计算机算法的方法。

与传统的编程方法不同，机器学习不需要明确的规则或者指令，而是通过训练数据来自动学习和改进算法的性能。

2. 机器学习任务可以分为哪几类？请分别举例说明。

机器学习任务可以分为监督学习、无监督学习和强化学习。

监督学习是通过已知输入和输出的训练数据来训练模型，例如垃圾邮件分类。

无监督学习是在没有标签的情况下对数据进行分析和建模，例如聚类分析。

强化学习是通过与环境的交互来学习最优的行为策略，例如自动驾驶车辆。

3. 什么是特征工程？为什么它在机器学习中如此重要？特征工程是从原始数据中提取和选择有用的特征，以供机器学习算法使用。

它在机器学习中非常重要，因为好的特征可以提高算法的性能。

通过合理选择和处理特征，可以减少噪声和冗余信息，提高模型的泛化能力。

4. 什么是过拟合和欠拟合？如何解决这两个问题？过拟合是指模型在训练集上表现良好，但在测试集上表现较差的现象，即模型过于复杂而无法泛化到新的数据。

欠拟合则是指模型无法很好地拟合训练数据，导致在训练和测试集上都表现不佳。

为了解决过拟合问题，可以采用正则化方法、增加训练数据或者简化模型结构。

而对于欠拟合问题，可以增加特征数量、增加模型复杂度或者改进特征工程。

5. 什么是交叉验证？为什么要使用交叉验证？交叉验证是一种评估机器学习模型性能的方法，它将数据集划分为训练集和验证集，通过在不同的划分上进行训练和评估，得到更准确的模型性能估计。

使用交叉验证可以减少模型在特定数据集上的过拟合风险，提高模型的泛化能力。

计算机复习机器学习

计算机复习机器学习机器学习是计算机科学中一项重要的研究领域，它涉及到计算机如何通过数据和统计模型来自动学习并改进性能。

本文将对机器学习的相关概念、算法以及应用进行详细介绍。

一、机器学习的基本概念在开始深入了解机器学习之前，我们需要先了解一些基本概念和术语。

以下是几个重要的概念：1.1 数据集数据集是机器学习的基础，它是用于训练和测试模型的数据集合。

数据集通常包含输入特征和相应的输出标签。

1.2 特征与标签在机器学习中，特征是用于描述数据的属性或属性组合。

标签则是我们希望预测或分类的目标变量。

1.3 训练集和测试集为了评估模型的性能，我们需要将数据集划分为训练集和测试集。

训练集用于训练模型，而测试集用于评估模型的泛化能力。

1.4 监督学习和无监督学习监督学习是一种机器学习的方法，它使用带有标签的训练数据来预测或分类新的数据。

无监督学习则是使用无标签的训练数据进行聚类或降维等任务。

1.5 模型评估和选择在机器学习中，我们需要选择合适的评估指标来评估模型的性能，并选择最佳的模型。

常用的评估指标包括准确率、精确率、召回率等。

二、常见的机器学习算法接下来，我们将介绍几种常见的机器学习算法：2.1 决策树算法决策树是一种基于树结构的分类算法，它通过特征的选择来构建一棵树，将数据集分割为不同的类别或子集。

2.2 支持向量机算法支持向量机是一种二分类算法，它通过寻找一个超平面来最大化样本间的间隔，从而对新样本进行分类。

2.3 朴素贝叶斯算法朴素贝叶斯是一种基于贝叶斯定理的分类算法，它假设不同特征之间相互独立，并通过计算后验概率来进行分类。

2.4 神经网络算法神经网络是一种类似于人脑神经元工作方式的算法，它通过构建多层网络来进行复杂的分类和预测任务。

三、机器学习的应用领域机器学习在各个领域都得到了广泛应用，以下是几个常见的应用领域：3.1 自然语言处理机器学习在自然语言处理中扮演了重要角色，例如机器翻译、情感分析、文本分类等。

周志华老师《机器学习》复习要点（持续更新）

周志华⽼师《机器学习》复习要点（持续更新）周志华⽼师《机器学习》复习要点第6章：⽀持向量机6.1 间隔与⽀持向量：1. 超平⾯的⽅程是什么？（设w与x都是列向量）同⼀个超平⾯是有⽆穷组（w，b）吗？什么变换可以由其中⼀组得到所有组？2. 超平⾯的⽅向由w完全确定吗？原点到超平⾯的距离由w决定还是w和b共同决定？3. 为什么对于超平⾯两侧的点的判别式的右侧可以直接令为正负1？4. 什么是⽀持向量？5. 当被优化⽬标被转化为1/2倍的w平⽅的时候，这个问题变成了什么规划问题？6.2 对偶问题：1. 拉格朗⽇乘数法针对的是什么优化问题？2. 引⼊乘⼦后，可以将d个变量和k个约束转化为什么问题？3. 什么是KKT条件？4. 什么时候需要引⼊KKT条件？5. 能不能快速写出m个等式约束和n个不等式约束的对偶问题对应的KKT条件？6. 对偶函数与主问题最优值的关系是什么？7. ⽆论主问题是不是凸优化问题，对偶问题⼀定都是凸优化问题吗？8. 什么是弱对偶性，什么是强对偶性，举出⼀种常见的满⾜强对偶性的主问题需要满⾜的条件？9. 对于基本的线性可分的SVM模型，KKT条件决定了SVM的什么性质？10. SMO算法的基本思路是什么？6.3 核函数：1. 什么是核函数？2. 为什么要引⼊核函数？3. 核函数⼀定存在吗？4. 有哪些常见的核函数？5. 核函数决定的⾼维特征空间可能是⽆穷维吗？6. 为什么说核函数的选择是SVM使⽤时最⼤的变数？7. 现实任务中，关于核函数的选择，我们应该在哪两个问题中做权衡，换句话说，⾼维空间内线性可分会不会是过拟合导致的？6.4 软间隔与正则化：1. 软间隔与松弛变量的关系是什么?2. 那些不满⾜约束条件的变量⼀开始是靠什么函数放进优化⽬标函数⾥的？3. 实际中我们应该使⽤它吗？4. 常见⽤于替代0,1符号变量的替代损失函数有哪些？5. SVM选择哪个？6. 之所以选择它是因为只有它保证了SVM的什么性质？7. 由软间隔与正则化引申出的此类机器学习模型的通⽤解释是什么？（结构风险最⼩化与经验风险最⼩化之间的权衡）8. L2范数倾向于使数据？9. ⽽L1和L0范数倾向于使数据？6.5 ⽀持向量回归：6.6 核⽅法：习题：第5章：神经⽹络5.3 误差反向传播算法：1. 多层前馈⽹络的输⼊层神经元个数与输出层神经元个数由什么决定？2. 对于输⼊层，隐含层，输出层分别有d,q,l个神经元的神经⽹络，⼀共有多少个参数需要确定？3. sigmoid⼀个关于求导的优良特性是？4. 恒定学习率的多层前馈⽹络的超参数有⼏个？5. 如何初始化⽹络权值和阈值？6. 能否有两个神经元的初始化的值相等？7. 能否快速写出单隐含层前馈神经⽹络的伪代码？8. 累积误差BP算法与标准BP算法的区别？优缺点？如何选择？9. 神经⽹络的强⼤表⽰能⼒同时带来的缺点是什么？10. ⼀般来说，解决这个问题的两种思路是？5.4 全局最⼩与局部极⼩：1. 常⽤的⽤来跳出局部极⼩值的技术有？5.5 ⼏种常见的其他神经⽹络：1. RBF⽹络是靠增加隐含层神经元还是增加隐含层数来实现逼近任意函数的？2. 什么是径向基函数？3. 训练RBF神经⽹络与普通的多层前馈⽹络有什么区别？4. ART⽹络5. SOM⽹络6. ⽹络级联7. Elman⽹络（RNN递归神经⽹络）。

机器学习基础考试复习

机器学习基础考试复习机器学习基础考试复习只适⽤于媒⼯duhui的机器学习课提取码:jf10提取码:2g76author: 梁君牧简答题：1. SVM⽅法中⽀持平⾯上把两类类别分别分开来的超平⾯的向量点称作⽀撑向量2. K-medoids算法不通过计算簇中所有样本的平均值得到簇的中⼼，⽽是通过选取原有样本中的样本点作为代表对象代表这个簇。

3. 函数的梯度⽅向是函数变化最快的⽅向4. 信息增益表⽰得知特征X信息⽽使得类Y的信息不确定性减少的程度。

5. CART决策树⽅法对分类树⽤基尼指数最⼩化准则进⾏特征选择，⽣成⼆叉树。

6. 回归和分类都是有监督学习问题。

7. C4.5决策树⽣成⽅法中，⽤信息增益⽐来选择特征。

8. 朴素贝叶斯分类模型假设问题的特征之间都是互不相关的。

9. Kmeans算法通过计算簇中所有样本的平均值得到簇的中⼼。

10. ⼈⼯神经⽹络是基于⼈类神经⽹络的基本原理，在理解和抽象⼈脑和外界刺激响应机制的基础上，以⽹络拓扑知识为理论基础，模拟⼈脑神经系统实现复杂信息处理机制的数学模型，具有⾃学能⼒、联想存储能⼒以及⾼速寻优能⼒。

11. 决策树的关键，即在当前状态下选择哪个特征作为分类依据。

12. ⾸先构造完整的决策树，允许树过度拟合训练数据，然后对那些置信度不够的结点⼦树⽤叶⼦结点来代替，该叶⼦的类标号⽤该结点⼦树中最频繁的类标记，该操作称为后剪枝。

问答题1. 监督学习、⽆监督学习的概念监督学习：对具有标记的训练样本进⾏学习来建⽴从样本特征到标记的映射。

⽆监督学习：对没有标记的训练样本进⾏学习，发掘和揭⽰数据集本⾝潜在的结构与规律。

2. 聚类的⽅法有哪些?1. 原型聚类K-Means聚类LVQ聚类 (学习向量量化)⾼斯混合聚类2. 密度聚类DBSCAN聚类OPTICS聚类DENCLUE聚类3. 层次聚类BIRCH聚类CURE聚类4. 基于⽹格的聚类5. 基于模型的聚类基于概率模型的聚类基于神经⽹络模型的聚类3. 聚类分析⽅法分类?1. 基于划分的⽅法；2. 基于密度的⽅法；3. 基于层次的⽅法；4. 基于⽹络的⽅法；5. 基于模型的⽅法；4. **k近邻算法的分类决策规则? **K近邻算法的分类决策规则是多数表决规则，即由输⼊实例的k k个近邻的训练实例中的多数类决定输⼊实例的类别。

机器学习期末复习

机器学习是怎样的学科：致力于研究如何通过计算的手段，利用经验来改善系统自身的性能。

机器学习主要分为两大类：监督学习、非监督学、强化学习（AlphaGo）、半监督学习。

机器学习所要研究的主要内容是关于计算机在从数据中产生"模型”的算法，即"学习算法”。

（有了学习算法，我们把经验提供给它，他就能基于这些数据产生模型）。

学习的特点：数据驱动，以方法为中心，概率统计优化为基础。

从数据中学得模型的过程称为"学习”或"训练”，这个过程通过执行*个学习算法来完成。

训练过程中使用的数据称为"训练数据”，每一个样本称为"训练样本”，训练样本组成的集合称为"训练集”。

三要素：模型、策略、算法。

学得模型后，使用其进行预测得过程称为"测试”。

被测样本称为"测试样本”。

机器学习的目标是使学得的模型能很好地适用于"新样本”。

独立同分布学得模型适用于新样本的能力，称为"泛化”能力。

具有强泛化能力的模型能很好地适用于整个样本空间。

"奥卡姆剃刀”原则，是一种常用地、自然科学研究中最基础地原则，即"诺有多个假设与观察一致，则选最简单地那个”。

（采用这个原则，则所描绘地曲线更平滑，更简单）。

20世纪50年代-70年代初，人工智能处于"推理期”。

20世纪70年代中期开始，人工智能进入"知识期”。

20世纪80年代：被研究最多的应用最广的是"从样本中学习”，其中的两个主流技术：符号主义学习（决策树，ILP：归纳逻辑程序设计），基于神经网络的连接主义学习20世纪90年代中期：统计学习：代表性技术，支持向量机21世纪以来，连接主义学习"深度学习”即很多层的神经网络1980年夏，美国卡耐基梅隆大学举办了第一届机器学习研讨会（IWML）。

同年《策略分析与信息系统》连出三期机器学习专辑。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

机器学习复习重点
判断题（共30分，每题2分，打√或×）
1、如果问题本身就是非线性问题，使用支持向量机（SVM ）是难以取得好的预测效果的。

（×）
2、只要使用的半监督学习方法合适，利用100个标记样本和1000个无标记样本的预测效果，同样可以达到利用1100个标记样本使用监督学习方法的预测效果。

（×）
3、深度学习中应该尽量避免过拟合。

（×）
4、在随机森林Bagging 过程中，每次选取的特征个数为m ，m 的值过大会降低树之间的关联性和单棵树的分类能力。

（×）
5、决策树学习的结果，是得到一组规则集，且其中的规则是可以解释的。

（√）
6、在FCM 聚类算法中交替迭代优化目标函数的方法不一定得到最优解。

（√）
7、在流形学习ISOMAP 中，测地距离即是欧氏距离。

（×）
8、贝叶斯决策实质上是按后验概率进行决策的。

（√）
9、非参数估计需要较大数量的样本才能取得较好的估计结果。

（√）
10、不需要显示定义特征是深度学习的优势之一。

（√）
判断题为反扣分题目；答对得2分，不答得0分，答错得-2分；
问答题（共60分）
1、从样本集推断总体概率分布的方法可以归结为哪几种类型？请分别简要解释之。

监督参数估计：样本所属的类别和各类的类条件概率密度函数的形式是已知的，而表征概率密度函数的某些参数是未知的。

非监督参数估计：已知总体概率密度函数形式，但未知样本所属类别，要求判断出概率密度函数的某些参数。

非参数估计：已知样本所属类别，但未知各类的概率密度函数的形式，要求我们直接推断概率密度函数本身。

2、什么是k-近邻算法？
k-近邻算法的基本思想（3分）：未知样本x ，根据度量公式得到距离x 最近的k 个样本。

统计这k 个样本点中，各个类别的数量。

数量最多的样本是什么类别，我们就把这个数据点定为什么类别。

,argmax (),K m n n n
x m k k n ω==是个样本中第类的样本个数
m 为所求类别。

3、决策树的C4.5算法与ID3算法相比主要有哪些方面的改进？
1) 用信息增益比来选择属性，克服了用信息增益选择属性时偏向选择取值多的属性的不足；
2) 增加了后剪枝操作。

3) 能够完成对连续属性的离散化处理；
4)能够处理属性存在不同损失的情况；
5)能够对不完整数据进行处理。

4、就您的理解，谈谈什么是集成学习？集成学习要想取得好的效果，应该满足的两个条件是什么？
集成学习是使用一系列学习器进行学习，并使用某种规则把各个学习结果进行整合从而获得比单个学习器更好的学习效果的一种机器学习方法。

集成学习的思路是在对新的实例进行分类的时候，把若干个单个分类器集成起来，通过对多个分类器的分类结果进行某种组合来决定最终的分类，以取得比单个分类器更好的性能。

如果把单个分类器比作一个决策者的话，集成学习的方法就相当于多个决策者共同进行一项决策。

必要条件：
被集成的各个基学习器（分类器）性能越高（分类正确率越高）越好。

各个基学习器（分类器）具有互补性，或者说互补性越大越好。

5、就您的理解，谈谈什么是半监督学习？请简要介绍Co-training的基本思想
半监督学习（Semi-supervised Learning）是模式识别和机器学习领域研究的重点问题，是监督学习与无监督学习相结合的一种学习方法。

它主要考虑如何利用少量的标注样本和大量的未标注样本进行训练和分类的问题。

常用的半监督学习方法有co-training、self-training、S3VMS等。

Co-training 的基本思想：在两个分离的视图上，用有标记的样本训练两个不同的分类器，用这两个分类器分别对无标记的样本进行分类，得到的一定数量的标记样本在后续的训练分类中为对方所用。

Co-training的原则是在不牺牲性能的前提下，尽量多的使用无标记数据，他的优点是无需人工干涉，自动的从无标记样本中学习到知识。

6、就您的理解，请分别概述何谓代价敏感性学习、何谓类别不平衡学习。

（1）不同错误的代价或者是后果是不一样的，甚至差别很大。

（2）不追求总的错误率最小，而是尽量避免代价大的分类错误，是代价敏感性学习的基本思想。

（3）在代价敏感性学习的思想下，要使分界面远离分类错误代价大的那一类，或者说尽量减少犯分类代价大的那类错误。

类别不平衡学习：类别不平衡问题是训练样本集其中一类的数量远小于另一类的数量。

在算法和数据方面，有各种解决方案。

在数据层面，有各种重新采样的方法，如随机过采样，随机欠采样等。

在算法层面，我们可以调整类别的损失，调整决策的阈值等。

7、试简述流型学习方法ISOMAP的基本思想及其优缺点。

保持数据点内在几何性质，即保持两点的测地线距离。

ISOMAP第一次提到了“测地距离”这一概念，将欧氏距离的概念引入到流形中去，将原来的普通算法映射到流形中，用“测地距离”来表示在流形中两点间的真实距离。

ISOMAP的优点：可以最大限度的保留原始数据的信息。

缺点：适用范围有限，流形必须是内部平坦的；计算每两个点的距离，时间复杂度较大。

8、就您的理解，请概述何谓多标记学习。

对具有多个不同概念标记的对象进行有效地建模。

学习系统通过对具有一组概念标记（label set）的训练例进行学习，以尽可能正确地对训练集之外示例的概念集合进行预测。

形式化地说，多标记学习的任务是从数据集{(x1,Y1), (x2,Y2),…,(xm,Ym)}中学得函数f:x
→2y ，其中xi ∈x 为一个示例而Yiy 为示例xi 所属的一组概念标记。

9、就您的理解，谈谈什么是聚类？请简要介绍您所熟悉的一种聚类方法。

聚类是将多个对象按照某种相似度的度量方式分成不同的组（簇）。

K-means 聚类：
算法过程：
选择K 个点作为初始质心
Repeat
将每个点指派到离它最近的质心，形成K 个簇
重新计算每个簇的质心
Until 簇不再发生变化或者达到最大迭代次数
计算题（共10分）
1、有如图所示的神经网络。

Squash function 为：,1()1,1x x f x x ≥⎧=⎨<⎩
，输入样本121,0x x ==，输出节点为z ，第k 次学习得到的权值为：
1112212212()0,()2,()2,()1,()1,()1w k w k w k w k T k T k ======。

试求第k 次前向传播学习得到的输出节点值()z k ，请给出求解过程和结果。

计算如下：
第k 次训练的正向过程如下：
隐藏层结点的值
2
1111()()(0120)(0)1j j j y f w x f net f f ====⨯+⨯==∑
2
)2()0112()()(22122==⨯+⨯==∑==f f net f x w f y j j j
输出层结点的值
3
)3()2111()()(21==⨯+⨯==∑==f f net f y T f z l i i i
2、为了诊治某种疾病，对一批人进行一次检查，对每个人注射试验针观察反应，统计结果如下：
（1）这批人中，每1000个人有5个患这种疾病；
（2）这批人中，每100个正常人有一个试验呈现阳性反应；
（3）这批人中，每100个该疾病的病人，有95个试验呈现阳性反应。

问：若某人呈现阳性反应，其是否正常？请给出求解过程和结果。

解：设x 表示试验反应为阳性。

类别状态有两种：1ωω= 表示正常，2ωω= 表示为患者。

由已知条件：1()0.995P ω= ，2()0.005P ω=
1(|)=0.01P x ω ，2(|)0.95P x ω=
决策过程：
1111122()(|)(|)()(|)()(|)0.9950.001
0.9950.010.0050.95
0.677P P x P x P P x P P x ωωωωωωω=
+⨯=
⨯+⨯= 2(|)10.6670.323P x ω=-=
12(|)(|)P x P x ωω>
将该人判定为1ω （正常人）。