基于加权熵的重要性不对等样本学习的知识约简
基于类别信息熵加权的MKNN算法
第1期
陈雪云等:基于类别信息熵加权的 MKNN 算法
11
统一导致分类结果不理想,大幅降低融合分类性能的问 题;刘继宇[10] 等针对粗糙集训练过程中从未遇到过的样 本的分类问题进行了探讨,根据条件属性的重要性确定 加权系数,采用加权 KNN 的方法来解决无法与决策规 则精确匹配的样本分类问题。Liu 和 Zhang[11]提出的互 K 近邻算法(MKNN)很好的解决了 K 最近邻(KNN)存在的 伪近邻问题。MKNN 可以很好的消除异常数据和提高质 量,因为该算法通过更好地丢弃训练样本中可能会有的 噪声数据从而实现克服 KNN 中存在的伪近邻问题,所 以说 MKNN 是基于在 KNN 的基础之上,解决了 KNN 伪近邻问题的干扰,而改善了算法的性能。但是两者的 近邻选择都取决于相似性度量的选择,而相似性度量是 数据集中分类分析的决定性因素。传统的相似性度量大 多适合数值型属性,MKNN 和传统的 KNN 一样都适合 在数值型领域。对于类属性数据也有学者提出了改进的 方法。陈雪云[12]等提出的 GwMKNN 算法引入了类别基 尼系数的概念来处理类属性数据,用基尼系数统计某一 类属性中不同值分布对这个类的贡献度作为此类属性的 权重,并以此作为估算不同样本之间的相似性度量对 MKNN 进行优化,类算法、聚类算法、回归等这几 类。每一类的分析侧重点和其优势各有差异。分类是通 过分析已知数据集数据特征为其标签,再通过与此标签 和对未知数据集的对比从而进行分类,分类是数据挖掘 中的一个必不可少的研究方向。1968 年 Cover 和 Hart[1] 提出的 K 近邻(KNN,k-NearestNeighbor)算法是最简单的 数据挖掘分类算法之一,同样也是最好的文本算法之一。 由于它的“简单”,被称为懒惰算法,因此可以改进的 地方很多。比如分类速度慢,属性相同的权重影响了准 确率。直到目前为止,有很多学者对它进行过研究并提 出了很多改进方法。例如:张著英等[2]提出将粗糙集理 论应用到 KNN 算法中,实现属性约简以解决 KNN 分类 效率低的缺点;周靖[3]等提出一种采用类相关度优
mse样本不均匀的加权
mse样本不均匀的加权
当样本不均匀时,我们可以使用加权的方法来处理均衡性问题。
均匀样本是指每个类别的样本数量大致相等,而不均匀样本则意味
着某些类别的样本数量远远超过其他类别。
在这种情况下,我们可
以使用加权的方法来调整模型的训练过程,以便更好地处理不均匀
样本。
一种常见的方法是使用加权交叉熵损失函数。
在这种方法中,
我们为每个类别分配一个权重,这个权重与该类别在训练集中的样
本数量成反比。
这样做的目的是让少数类别的样本在训练过程中拥
有更大的影响力,从而平衡模型对不同类别的学习能力。
另一种方法是过采样和欠采样。
过采样指的是增加少数类别的
样本数量,而欠采样则是减少多数类别的样本数量,以使不同类别
的样本数量更加均衡。
这样可以减少模型对多数类别的过度学习,
从而提高模型对少数类别的识别能力。
除了上述方法,还可以使用集成学习的方法,比如基于重采样
的集成学习方法。
这些方法可以通过结合多个模型的预测结果来提
高模型的泛化能力,从而更好地处理不均匀样本。
总之,处理不均匀样本的方法有很多种,每种方法都有其适用的场景和局限性。
在实际应用中,我们需要根据具体情况选择合适的方法来处理不均匀样本,以提高模型的性能和泛化能力。
机器学习复习题及答案
一、单选题1、下列哪位是人工智能之父?()A.Marniv Lee MinskyB.HerbertA.SimonC.Allen NewellD.John Clifford Shaw正确答案:A2、根据王珏的理解,下列不属于对问题空间W的统计描述是()。
A.一致性假设B.划分C.泛化能力D.学习能力正确答案:D3、下列描述无监督学习错误的是()。
A.无标签B.核心是聚类C.不需要降维D.具有很好的解释性正确答案:C4、下列描述有监督学习错误的是()。
A.有标签B.核心是分类C.所有数据都相互独立分布D.分类原因不透明正确答案:C5、下列哪种归纳学习采用符号表示方式?()A. 经验归纳学习B.遗传算法C.联接学习D.强化学习正确答案:A6、混淆矩阵的假正是指()。
A.模型预测为正的正样本B.模型预测为正的负样本C.模型预测为负的正样本D.模型预测为负的负样本正确答案:B7、混淆矩阵的真负率公式是为()。
A.TP/(TP+FN)B.FP/(FP+TN)C.FN/(TP+FN)D.TN/(TN+FP)正确答案:D8、混淆矩阵中的TP=16,FP=12,FN=8,TN=4,准确率是()。
A.1/4B.1/2C.4/7D.4/6正确答案:B9、混淆矩阵中的TP=16,FP=12,FN=8,TN=4,精确率是()。
A.1/4B.1/2C.4/7D.2/3正确答案:C10、混淆矩阵中的TP=16,FP=12,FN=8,TN=4,召回率是()。
A.1/4B.1/2C.4/7D.2/3正确答案:D11、混淆矩阵中的TP=16,FP=12,FN=8,TN=4,F1-score是()。
A.4/13B.8/13C.4/7D.2/30.00/2.00正确答案:B12、EM算法的E和M指什么?()A.Expectation-MaximumB.Expect-MaximumC.Extra-MaximumD.Extra-Max正确答案:A13、EM算法的核心思想是?()A.通过不断地求取目标函数的下界的最优值,从而实现最优化的目标。
《机器学习》(周志华)西瓜书读书笔记(完结)
《机器学习》(周志华)西⽠书读书笔记(完结)⼤部分基础概念知识已经在这篇博客中罗列,因此本⽂仅对感觉重要或不曾了解的知识点做摘记第1章绪论对于⼀个学习算法a,若它在某问题上⽐学习算法b好,则必然存在另⼀些问题,在那⾥b⽐a好.即"没有免费的午餐"定理(No FreeLunch Theorem,NFL).因此要谈论算法的相对优劣,必须要针对具体的学习问题第2章模型评估与选择m次n折交叉验证实际上进⾏了m*n次训练和测试可以⽤F1度量的⼀般形式Fβ来表达对查准率/查全率的偏好:偏差度量了学习算法的期望预测与真实结果的偏离程度,即学习算法本⾝的拟合能⼒,⽅差度量了同样⼤⼩的训练集的变动所导致的学习性能的变化,即数据扰动造成的影响.噪声表达了当前任务上任何学习算法所能达到的期望泛化误差的下界,即学习问题本⾝的难度.第3章线性模型线性判别分析(LDA)是⼀种经典的监督线性降维⽅法:设法将训练样例投影到⼀条直线上,使同类样例的投影点尽可能接近,异类样例的投影点尽可能远离.对新样本分类时根据投影点的位置来确定类别.多分类学习的分类器⼀般有以下三种策略:1. ⼀对⼀(OvO),N个类别产⽣N * (N - 1) / 2种分类器2. ⼀对多(OvR或称OvA),N个类别产⽣N - 1种分类器3. 多对多(MvM),如纠错输出码技术解决类别不平衡问题的三种⽅法:1. 过采样法,增加正例使正负例数⽬接近,如SMOTE:思想是合成新的少数类样本,合成的策略是对每个少数类样本a,从它的最近邻中随机选⼀个样本b,然后在a、b之间的连线上随机选⼀点作为新合成的少数类样本.2. ⽋采样法,减少负例使正负例数⽬接近,如EasyEnsemble:每次从⼤多数类中抽取和少数类数⽬差不多的重新组合,总共构成n个新的训练集,基于每个训练集训练出⼀个AdaBoost分类器(带阈值),最后结合之前训练分类器结果加权求和减去阈值确定最终分类类别.3. 再缩放法第4章决策树ID3决策树选择信息增益最⼤的属性来划分:1. 信息熵:2. 信息增益:C4.5决策树选择增益率⼤的属性来划分,因为信息增益准则对可取值数⽬较多的属性有所偏好.但增益率会偏好于可取值数⽬较少的属性,因此C4.5算法先找出信息增益⾼于平均⽔平的属性,再从中选择增益率最⾼的.另外,C4.5决策树采⽤⼆分法对连续值进⾏处理,使⽤时将划分阈值t作为参数,选择使信息增益最⼤的t划分属性.采⽤样本权值对缺失值进⾏处理,含有缺失值的样本同时划⼊所有结点中,但相应调整权重.1. 增益率:2. a的固有值:CART决策树则选择基尼指数最⼩的属性来划分,基尼系数反映了从数据集中随机抽取的两个样本类别不⼀致的概率,注意CART是⼆叉树,其余两种都为多叉树.1. 基尼值衡量的纯度:2. 基尼指数:剪枝是决策树对付过拟合的主要⼿段,分为预剪枝和后剪枝.1. 预剪枝对每个结点在划分前先进⾏估计,若该结点的划分不能带来决策树泛化性能提升,则停⽌划分.预剪枝基于"贪⼼"本质,所以有⽋拟合的风险.2. 后剪枝是先⽣成⼀棵完整的决策树,然后⾃底向上对⾮叶结点考察,若该结点替换为叶结点能带来决策树泛化性能提升,则将⼦树替换为叶结点.缺点是时间开销⼤.决策树所形成的分类边界是轴平⾏的,多变量决策树(斜决策树)的每⼀个⾮叶结点都是⼀个线性分类器,因此可以产⽣斜的划分边界.第5章神经⽹络误差逆传播算法(BP算法)是迄今为⽌最成功的神经⽹络学习算法.关键点在于通过计算误差不断逆向调整隐层神经元的连接权和阈值.标准BP算法每次仅针对⼀个训练样例更新,累积BP算法则根据训练集上的累积误差更新.缓解BP神经⽹络过拟合有两种常见策略:1. 早停:若训练集误差降低但验证集误差升⾼则停⽌训练.2. 正则化:在误差⽬标函数中增加⼀个描述⽹络复杂度的部分(较⼩的连接权和阈值将使神经⽹络较为平滑).跳出局部最⼩,寻找全局最⼩的常⽤⽅法:1. 以多组不同参数初始化多个神经⽹络,选择最接近全局最⼩的2. 模拟退⽕3. 随机梯度下降典型的深度学习模型就是很深层的神经⽹络.但是多隐层神经⽹络难以直接⽤经典算法进⾏训练,因为误差在多隐层内逆传播时往往会发散.⽆监督逐层训练(如深层信念⽹络,DBN)和权共享(如卷积神经⽹络,CNN)是常⽤的节省训练开销的策略.第6章⽀持向量机⽀持向量机中的原始样本空间不⼀定存在符合条件的超平⾯,但是如果原始空间是有限维,则总存在⼀个⾼维特征空间使样本线性可分.核函数就是⽤来简化计算⾼维特征空间中的内积的⼀种⽅法.核函数选择是⽀持向量机的最⼤变数.常⽤的核函数有线性核,多项式核,⾼斯核(RBF核),拉普拉斯核,Sigmoid核.对⽂本数据常⽤线性核,情况不明时可先尝试⾼斯核.软间隔是缓解⽀持向量机过拟合的主要⼿段,软间隔允许某些样本不满⾜约束.⽀持向量回归可以容忍预测输出f(x)和真实输出y之间存在ε的偏差,仅当偏差绝对值⼤于ε时才计算损失.⽀持向量机中许多规划问题都使⽤拉格朗⽇对偶算法求解,原因在于改变了算法复杂度.原问题的算法复杂度与样本维度有关,对偶问题的样本复杂度与样本数量有关.如果使⽤了升维的⽅法,则此时样本维度会远⼤于样本数量,在对偶问题下求解会更好.第7章贝叶斯分类基于贝叶斯公式来估计后验概率的困难在于类条件概率是所有属性上的联合概率,难以从有限的训练样本直接估计⽽得.因此朴素贝叶斯分类器采⽤了"属性条件独⽴性假设"来避开这个障碍.朴素贝叶斯分类器中为了避免其他属性携带的信息被训练集中未出现的属性值"抹去",在估计概率值时通常要进⾏"平滑",常⽤拉普拉斯修正.属性条件独⽴性假设在现实中往往很难成⽴,于是半朴素贝叶斯分类器采⽤"独依赖估计(ODE)",即假设每个属性在类别之外最多仅依赖于⼀个其他属性.在此基础上有SPODE,TAN,AODE等算法.贝叶斯⽹⼜称信念⽹,借助有向⽆环图来刻画属性之间的依赖关系,并⽤条件概率表来描述属性的联合概率分布.半朴素贝叶斯分类器是贝叶斯⽹的⼀种特例.EM(Expectation-Maximization)算法是常⽤的估计参数隐变量的⽅法.基本思想是:若参数θ已知,则可根据训练数据推断出最优隐变量Z的值(E);若Z的值已知,则可⽅便地对参数θ做极⼤似然估计(M).第8章集成学习集成学习先产⽣⼀组个体学习器,再⽤某种策略将它们结合起来.如果集成中只包含同种类型的个体学习器则叫同质集成,其中的个体学习器称为基学习器,相应的学习算法称为基学习算法.如果包含不同类型的个体学习器则叫异质集成,其中的学习器常称为组件学习器.要获得好的集成,个体学习器应"好⽽不同".即要有⼀定的准确性,并且要有多样性.⽬前的集成学习⽅法⼤致分为两⼤类:1. 序列化⽅法:个体学习器间存在强依赖关系,必须串⾏⽣成.2. 并⾏化⽅法:个体学习器间不存在强依赖关系,可同时⽣成.Boosting先从初始训练集训练出⼀个基学习器,再根据基学习器的表现对训练样本分布进⾏调整,使做错的训练样本在后续受到更多关注(给予更⼤的权重或重采样).然后基于调整后的样本分布来训练下⼀个基学习器;直到基学习器的数⽬达到指定值T之后,将这T个基学习器加权结合.Boosting主要关注降低偏差,因此能基于泛化性能相当弱的学习器构建出很强的集成.代表算法有AdaBoost.Bagging是并⾏式集成学习⽅法最著名的代表.它基于⾃助采样法,采样出T个含m个训练样本的采样集,基于每个采样集训练出⼀个基学习器,再将这些基学习器进⾏简单结合.在对预测输出进⾏结合时,常对分类任务使⽤投票法,对回归任务使⽤平均法.Bagging主要关注降低⽅差,因此在不剪枝决策树,神经⽹络等易受样本扰动的学习器上效⽤更明显.代表算法有随机森林.随机森林在以决策树为基学习器构建Bagging的基础上,进⼀步引⼊了随机属性选择.即先从属性集合(假定有d个属性)中随机选择⼀个包含k个属性的⼦集,再从这个⼦集中选择⼀个最优属性进⾏划分.当k=d时,基决策树与传统决策树相同.当k=1时,则随机选择⼀个属性⽤于划分.⼀般推荐k=log2d.学习器结合可能会从三个⽅⾯带来好处:1. 统计:可能有多个假设在训练集上达到同等性能,单学习器可能因误选⽽导致泛化性能不佳,结合多个学习器会减⼩这⼀风险.2. 计算:通过多次运⾏之后进⾏结合,降低陷⼊糟糕局部极⼩点的风险.3. 表⽰:结合多个学习器,相应的假设空间有所扩⼤,有可能学得更好的近似.结合策略:1. 平均法:对数值型输出,最常见的策略是平均法.⼀般⽽⾔,在个体学习器性能相差较⼤时使⽤加权平均法,性能相近时使⽤简单平均法.权重⼀般也是从训练数据中学习⽽得.2. 投票法:对分类任务来说,最常见的策略是投票法.⼜可细分为绝对多数投票法,相对多数投票法,加权投票法.绝对多数投票法允许"拒绝预测",若必须提供预测结果则退化为相对多数投票法.若基学习器的类型不同,则类概率值不能直接⽐较,需要将类概率输出转化为类标记输出后再投票.3. 学习法:当训练数据很多时,⼀种更强⼤的策略是通过另⼀个学习器来结合.Stacking是学习法的典型代表.我们把个体学习器称为初级学习器,⽤于结合的学习器称为次级学习器或元学习器.Stacking⽤初级学习器的输出作为样例输⼊特征,⽤初始样本的标记作为样例标记,然后⽤这个新数据集来训练次级学习器.⼀般⽤初级学习器的输出类概率作为次级学习器的输⼊属性,⽤多响应线性回归(Multi-response Linear Regression,MLR)作为次级学习算法效果较好.多样性增强常⽤的⽅法有:数据样本扰动,输⼊属性扰动,输出表⽰扰动,算法参数扰动.第9章聚类聚类既能作为⼀个找寻数据内在分布结构的单独过程,也可以作为其他学习任务的前驱过程.我们希望"物以类聚",也就是聚类结果的"簇内相似度"⾼且"簇间相似度"低.聚类性能度量⼤致有两类.⼀类是将聚类结果与参考模型进⾏⽐较,称为外部指标,常⽤的有JC,FMI,RI;另⼀类是直接考察聚类结果,称为内部指标,常⽤的有DBI,DI.有序属性距离计算最常⽤的是闵可夫斯基距离,当p=2时即欧⽒距离,当p=1时即曼哈顿距离.对⽆序属性可采⽤VDM(Value Difference Metric),将闵可夫斯基距离和VDM结合即可处理混合属性,当不同属性的重要性不同时可使⽤加权距离.我们基于某种形式的距离来定义相似度度量,但是⽤于相似度度量的距离未必⼀定要满⾜距离度量的基本性质,尤其是直递性.在现实任务中有必要通过距离度量学习来基于数据样本确定合适的距离计算式.原型聚类假设聚类结构能通过⼀组原型刻画.通常算法先对原型进⾏初始化,然后对原型进⾏迭代更新求解.常⽤的原型聚类算法有k均值算法,学习向量量化,⾼斯混合聚类.密度聚类假设聚类结构能通过样本分布的紧密程度确定.通常从样本密度的⾓度来考察样本之间的可连接性,并基于可连接样本不断扩展聚类簇.常⽤算法有DBSCAN层次聚类试图在不同层次对数据集进⾏划分,从⽽形成树形的聚类结构.代表算法有AGNES.第10章降维与度量学习懒惰学习在训练阶段只把样本保存起来,训练时间开销为零,待收到测试样本后再进⾏处理,如k近邻学习(kNN).急切学习则在训练阶段就对样本进⾏学习处理.若任意测试样本x附近任意⼩的δ距离范围内总能找到⼀个训练样本,即训练样本的采样密度⾜够⼤,或称为密采样,则最近邻分类器(1NN)的泛化错误率不超过贝叶斯最优分类器的错误率的两倍.在⾼维情形下出现的数据样本稀疏,距离计算困难等问题称为"维数灾难".处理⾼维数据的两⼤主流技术是降维和特征选择.降维亦称维数约简,即通过某种数学变换将原始⾼维属性空间转变为⼀个低维⼦空间.能进⾏降维的原因是与学习任务密切相关的或许仅仅是数据样本的某个低维分布,⽽不是原始⾼维空间的样本点.多维缩放是⼀种经典的降维⽅法.它使原始空间中样本之间的距离在低维空间中得以保持.主成分分析(PCA)是最常⽤的⼀种降维⽅法.如果要⽤⼀个超平⾯对所有样本进⾏恰当的表达,这个超平⾯应该具有最近重构性和最⼤可分性两种性质.基于这两种性质可以得到主成分分析的等价推导.PCA可以使样本的采样密度增⼤,同时在⼀定程度上起到去噪的效果.线性降维⽅法有可能丢失低维结构,因此要引⼊⾮线性降维.⼀种常⽤⽅法是基于核技巧对线性降维⽅法进⾏核化.如核主成分分析(KPCA).流形学习(manifold learning)是⼀类借鉴了拓扑流形概念的降维⽅法.流形在局部具有欧⽒空间性质.将低维流形嵌⼊到⾼维空间中,可以容易地在局部建⽴降维映射关系,再设法将局部映射关系推⼴到全局.常⽤的流形学习⽅法有等度量映射和局部线性嵌⼊等.对⾼维数据进⾏降维的主要⽬的是找到⼀个合适的低维空间.事实上,每个空间对应了在样本属性上定义的⼀个距离度量,度量学习直接尝试学习出⼀个合适的距离度量.常⽤⽅法有近邻成分分析(NCA).第11章特征选择与稀疏学习对当前学习任务有⽤的属性称为相关特征,没什么⽤的属性称为⽆关特征.从给定特征集合中选择出相关特征⼦集的过程称为特征选择.特征选择是⼀个重要的数据预处理过程.冗余特征是指包含的信息可以从其他特征中推演出来的特征.冗余特征在很多时候不起作⽤,但若某个冗余特征恰好对应了完成学习任务所需的中间概念,则该冗余特征反⽽是有益的.⼦集搜索:可以采⽤逐渐增加相关特征的前向搜索,每次在候选⼦集中加⼊⼀个特征,选取最优候选⼦集.也可以采⽤每次去掉⼀个⽆关特征的后向搜索.这些策略是贪⼼的,但是避免了穷举搜索产⽣的计算问题.⼦集评价:特征⼦集A确定了对数据集D的⼀个划分,样本标记信息Y对应着对D的真实划分,通过估算这两个划分的差异就能对A进⾏评价.可采⽤信息熵等⽅法.过滤式选择先对数据集进⾏特征选择,然后再训练学习器,特征选择过程与后续学习器⽆关.Relief(Relevant Features)是⼀种著名的过滤式选择⽅法.该⽅法设计了⼀个相关统计量来度量特征的重要性.包裹式选择直接把最终将要使⽤的学习器的性能作为特征⼦集的评价标准.因此产⽣的最终学习器的性能较好,但训练时的计算开销也更⼤.LVW(Las Vegas Wrapper)是⼀个典型的包裹式特征选择⽅法,它在拉斯维加斯⽅法框架下使⽤随机策略来进⾏⼦集搜索,并以最终分类器的误差为特征⼦集评价准则.嵌⼊式选择是将特征选择过程与学习器训练过程融为⼀体,两者在同⼀个优化过程中完成.例如正则化.L1正则化(Lasso)是指权值向量w中各个元素的绝对值之和.L1正则化趋向选择少量的特征,使其他特征尽可能为0,可以产⽣稀疏权值矩阵,即产⽣⼀个稀疏模型,可以⽤于特征选择.L1正则化是L0正则化的最优凸近似.L2正则化(Ridge)是指权值向量w中各个元素的平⽅和然后再求平⽅根.L2正则化趋向选择更多的特征,让这些特征尽可能接近0,可以防⽌模型过拟合(L1也可以).字典学习也叫稀疏编码,指的是为普通稠密表达的样本找到合适的字典,将样本转化为合适的稀疏表达形式,从⽽使学习任务得以简化,模型复杂度得以降低的过程.压缩感知关注的是利⽤信号本⾝的稀疏性,从部分观测样本中恢复原信号.分为感知测量和重构恢复两个阶段,其中重构恢复⽐较重要.可利⽤矩阵补全等⽅法来解决推荐系统之类的协同过滤(collaborative filtering)任务.由于第⼀次阅读,12章开始的内容仅作概念性了解.第12章计算学习理论计算学习理论研究的是关于通过计算来进⾏学习的理论,⽬的是分析学习任务的困难本质,为学习算法提供理论保证,并提供分析结果指导算法设计.计算学习理论中最基本的是概率近似正确(Probably Approximately Correct,PCA)学习理论.由此可以得到PAC辨识,PAC可学习,PAC学习算法,样本复杂度等概念.有限假设空间的可分情形都是PAC可学习的.对于不可分情形,可以得到不可知PAC可学习的概念,即在假设空间的所有假设中找到最好的⼀个.对⼆分类问题来说,假设空间中的假设对数据集中⽰例赋予标记的每种可能结果称为对数据集的⼀种对分.若假设空间能实现数据集上的所有对分,则称数据集能被假设空间打散.假设空间的VC维是能被假设空间打散的最⼤数据集的⼤⼩.算法的稳定性考察的是算法在输⼊发⽣变化时,输出是否会随之发⽣较⼤的变化.第13章半监督学习主动学习是指先⽤有标记样本训练⼀个模型,通过引⼊额外的专家知识,将部分未标记样本转变为有标记样本,每次都挑出对改善模型性能帮助⼤的样本,从⽽构建出⽐较强的模型.未标记样本虽未直接包含标记信息,但若它们与有标记样本是从同样的数据源独⽴同分布采样⽽来,则它们所包含的关于数据分布的信息对建模⼤有裨益.要利⽤未标记样本,需要有⼀些基本假设,如聚类假设,流形假设.半监督学习可进⼀步划分为纯半监督学习和直推学习.前者假定训练数据中的未标记样本并⾮待预测的数据,⽽后者则假定学习过程中所考虑的未标记样本恰是待预测数据.⽣成式⽅法是直接基于⽣成式模型的⽅法.此类⽅法假设所有数据都是由同⼀个潜在的模型⽣成的.这个假设使得我们能通过潜在模型的参数将未标记数据与学习⽬标联系起来.半监督⽀持向量机(S3VM)是⽀持向量机在半监督学习上的推⼴.S3VM试图找到能将两类有标记样本分开,且穿过数据低密度区域的划分超平⾯.除此之外,还有图半监督学习,基于分歧的⽅法(如协同训练),半监督聚类等学习⽅法.第14章概率图模型机器学习最重要的任务,是根据⼀些已观察到的证据来对感兴趣的未知变量进⾏估计和推测.⽣成式模型考虑联合分布P(Y,R,O),判别式模型考虑条件分布P(Y,R|O).概率图模型是⼀类⽤图来表达变量相关关系的概率模型.若变量间存在显式的因果关系,常使⽤贝叶斯⽹.若变量间存在相关性但难以获取显式的因果关系,常使⽤马尔可夫⽹.隐马尔可夫模型(Hidden Markov Model,HMM)是结构最简单的动态贝叶斯⽹.主要⽤于时序数据建模,在语⾳识别,⾃然语⾔处理等领域有⼴泛应⽤.隐马尔可夫模型中有状态变量(隐变量)和观测变量两组变量.马尔可夫链:系统下⼀时刻的状态仅有当前状态决定,不依赖于以往的任何状态.马尔可夫随机场(Markov Random Field,MRF)是典型的马尔可夫⽹.每⼀个结点表⽰⼀个或⼀组变量,结点之间的边表⽰两个变量之间的依赖关系.条件随机场是判别式模型,可看作给定观测值的马尔可夫随机场.概率图模型的推断⽅法⼤致分为两类.第⼀类是精确推断,代表性⽅法有变量消去和信念传播.第⼆类是近似推断,可⼤致分为采样(如MCMC采样)和使⽤确定性近似完成近似推断(如变分推断).第15章规则学习规则学习是指从训练数据中学习出⼀组能⽤于对未见⽰例进⾏判别的规则.规则学习具有较好的可解释性,能使⽤户直观地对判别过程有所了解.规则学习的⽬标是产⽣⼀个能覆盖尽可能多的样例的规则集,最直接的做法是序贯覆盖,即逐条归纳:每学到⼀条规则,就将该规则覆盖的训练样例去除.常采⽤⾃顶向下的⽣成-测试法.规则学习缓解过拟合的常见做法是剪枝,例如CN2,REP,IREP等算法.著名的规则学习算法RIPPER就是将剪枝与后处理优化相结合.命题规则难以处理对象之间的关系,因此要⽤⼀阶逻辑表⽰,并且要使⽤⼀阶规则学习.它能更容易地引⼊领域知识.著名算法有FOIL(First-Order Inductive Learner)等.第16章强化学习强化学习的⽬的是要找到能使长期累积奖赏最⼤化的策略.在某种意义上可看作具有"延迟标记信息"的监督学习问题.每个动作的奖赏值往往来⾃于⼀个概率分布,因此强化学习会⾯临"探索-利⽤窘境",因此要在探索和利⽤中达成较好的折中.ε-贪⼼法在每次尝试时以ε的概率进⾏探索,以均匀概率随机选取⼀个动作.以1-ε的概率进⾏利⽤,选择当前平均奖赏最⾼的动作.Softmax算法则以较⾼的概率选取平均奖赏较⾼的动作.强化学习任务对应的马尔可夫决策过程四元组已知的情形称为模型已知.在已知模型的环境中学习称为"有模型学习".反之称为"免模型学习".从⼈类专家的决策过程范例中学习的过程称为模仿学习.。
人工智能机器学习技术练习(习题卷21)
人工智能机器学习技术练习(习题卷21)说明:答案和解析在试卷最后第1部分:单项选择题,共58题,每题只有一个正确答案,多选或少选均不得分。
1.[单选题]线性回归和逻辑回归中,关于损失函数对权重系数的偏导数,下列说法正确的是?A)两者不一样B)两者一样C)无法确定2.[单选题]分类模型在进行训练时需要()A)训练集B)训练集与测试集C)训练集、验证集、测试集3.[单选题](__)假设聚类结构能通过一组原型刻画,在显示聚类任务中极为常用。
A)原型聚类B)密度聚类C)层次聚类D)AGNES4.[单选题]以等可能性为基础的概率是()。
A)古典概率B)经验概率C)试验概率D)主观概率5.[单选题]批规范化(Batch Normalization)的好处都有啥?A)在将所有的输入传递到下一层之前对其进行归一化(更改)B)它将权重的归一化平均值和标准差C)它是一种非常有效的反向传播(BP)方法D)这些均不是6.[单选题]在一个神经网络中,确定每个神经元的权重和偏差很重要。
用()方法可以确定神经元的权重和偏差,从而对函数进行拟合。
A)随机赋值,祈祷它们是正确的B)搜索所有权重和偏差的组合,直到得到最佳值C)赋予一个初始值,通过检杳与真值的误差,逐步迭代更新权重D)以上都不正确7.[单选题]下列哪种归纳学习采用符号表示方式?A)经验归纳学习D)强化学习8.[单选题]剪枝是决策树学习算法对付(__)的主要手段。
A)欠拟合B)过拟合C)样本数过多D)特征数过多9.[单选题]机器学习是研究如何使用计算机()的一门学科。
A)模拟生物行为B)模拟人类解决问题C)模拟人类学习活动D)模拟人类生产活动10.[单选题](__)是将“现实生活中的问题”转换为“数据世界中的问题”,然后采用数据科学的理念、原则、方法、技术、工具,通过将数据、尤其的大数据,转换为知识和智慧。
A)数据工程师B)数据码农C)数据科学家D)科学家11.[单选题](__)主要为组织机构提供企业级应用技术或工具。
强化学习中基于重要性采样的策略评估与优化
强化学习中基于重要性采样的策略评估与优化强化学习是一种机器学习方法,通过与环境的交互来学习最优策略。
其中,策略评估和优化是强化学习中两个重要的步骤。
在策略评估中,我们需要估计每个状态行动对的价值,而在优化过程中,我们则需要寻找最优的策略。
重要性采样是一种用于解决样本不平衡问题的技术,它可以帮助我们更准确地评估策略价值和进行优化。
在强化学习中,策略评估是指估计某个策略的期望累积奖励。
然而,由于环境动态和策略的随机性,我们很难直接从环境中获得准确的奖励函数。
这时,我们可以借助重要性采样来估计策略的价值函数。
重要性采样通过对没有采样到的动作进行重新加权来纠正策略在行动选择上的偏差。
具体来说,对于每个状态行动对,我们可以计算出目标策略和行动策略之间的比率,通过这个比率将行动策略的累积奖励加权到目标策略上。
这样就可以得到校正后的策略价值估计。
在策略优化中,我们希望找到一个最优的策略,使得在预定的奖励函数下,智能体能够实现最优的决策。
重要性采样可以在策略优化过程中起到重要作用。
通过重要性采样,我们可以对不同策略进行比较,得到不同策略下的期望累积奖励,从而选择最优的策略。
在实际应用中,我们常常使用蒙特卡洛法来进行强化学习。
具体来说,我们通过与环境的交互来生成样本轨迹,然后使用重要性采样来估计策略价值和优化策略。
重要性采样还可以与其他方法相结合,如比较学习和优势函数等,进一步提高算法的效率和性能。
总之,强化学习中基于重要性采样的策略评估与优化是一种有效的方法。
通过重要性采样,我们可以更准确地评估策略的价值,同时也可以在策略优化过程中进行有效的搜索。
随着深度学习和强化学习的发展,重要性采样在解决实际问题中将扮演越来越重要的角色。
2024年华为人工智能方向HCIA考试复习题库(含答案)
2024年华为人工智能方向HCIA考试复习题库(含答案)一、单选题1.以下哪—项不属于MindSpore全场景部署和协同的关键特性?A、统一模型R带来一致性的部署体验。
B、端云协同FederalMetaLearning打破端云界限,多设备协同模型。
C、数据+计算整图到Ascend芯片。
D、软硬协同的图优化技术屏蔽场景差异。
参考答案:C2.在对抗生成网络当中,带有标签的数据应该被放在哪里?A、作为生成模型的输出值B、作为判别模型的输入值C、作为判别模型的输出值D、作为生成模型的输入值参考答案:B3.下列属性中TensorFlow2.0不支持创建tensor的方法是?A、zerosB、fillC、createD、constant参考答案:C4.以下哪一项是HiAI3.0相对于2.0提升的特点?A、单设备B、分布式C、多设备D、端云协同参考答案:B5.以下哪个不是MindSpore中Tensor常见的操作?A、asnumpy()B、dim()C、for()D、size()参考答案:C6.优化器是训练神经网络的重要组成部分,使用优化器的目的不包含以下哪项:A、加快算法收敛速度B、减少手工参数的设置难度C、避过过拟合问题D、避过局部极值参考答案:C7.K折交叉验证是指将测试数据集划分成K个子数据集。
A、TRUEB、FALSE参考答案:B8.机器学习是深度学习的一部分。
人工智能也是深度学习的一部分。
A、TrueB、False参考答案:B9.在神经网络中,我们是通过以下哪个方法在训练网络的时候更新参数,从而最小化损失函数的?A、正向传播算法B、池化计算C、卷积计算D、反向传播算法参考答案:D10.以下不属于TensorFlow2.0的特点是?A、多核CPU加速B、分布式C、多语言D、多平台参考答案:A11.以下关于机器学习中分类模型与回归模型的说法,哪一项说法是正确的?A、对回归问题和分类问题的评价,最常用的指标都是准确率和召回率B、输出变量为有限个离散变量的预测问题是回归问题,输出变量为连续变量的预测问题是分类问题C、回归问题知分类问题都有可能发生过拟合D、逻辑回归是一种典型的回归模型参考答案:C12.ModelArts平台中的数据管理中不支持视频数据格式。
信息熵-特征选择方案
基于互信息的特征选择1. 模型定义D1 病集S 由有关心脏病病种i X (i =1,2,…,n )组成,令患者的疾病信息熵1-2为: )(1log)()(1i n i i X P X P X H ∑=-= (1)显然疾病信息熵具有Shannon 信息熵的性质,反映了临床中具体病人的客观信息及实际医疗干预过程中所表现的信息在总体特征上的平均不确定性.定义D2:一个诊断病例库可以表示为关于病例特征的矩阵形式n m ij x Casebase ⨯=][ (2) 其中,ij x —病例库中第j 个病例的第i 个属性值;m —病例特征数量;n —病例库规模;定义D3:一个信息系统(IS )可以表达为,,,r r f R I U R V f ∈=<> (3) 其中,U 是对象的非空有限集合, R 是属性的非空有限集合,r r R V V ∈=是属性值的集合,V r 表示了属性任意r R ∈时的属性值范围,:r f U R V ⨯→ 是一个信息函数,它指定U 中每一个对象 x 的属性值.当R 中的属性集可进一步分解为条件属性集合C 和决策属性集合D ,且满足,R C D C D =⋃ ⋂=∅时,信息系统(IS)称为决策系统(DS)3. a i 为某一条件属性,则决策属性D 对某一条件属性a i 的依赖程度可以利用下式计算4-5:1马笑潇, 黄席樾, 等. 基于信息熵的诊断过程认知信息流分析[J]. 重庆大学学报:自然科学版, 2002,25(5):25-28. 2 王园, 吉国力, 魏磊. 信息熵在临床定量诊断分析中的研究及应用[J]. 厦门大学学报:自然科学版,2004,43(B08):353-356.3 张文宇. 数据挖掘与粗糙集方法[M]. 西安电子科技大学出版社, 2007: 49.4 屈利, 苑津莎, 李丽. 基于事例推理的电力系统短期负荷预测[J]. 电力科学与工程, 2008,24(2):59-63.(4) 式中,R C 、R D 分别表示条件属性集合C 和策属性集合D 在论域上的等价关系.()D CR H R 表示R D 相对于R C 的条件熵.(,)i I a D 的值越大,则条件属性a i 对决策属性D 的重要性越大.如果(,)0i I a D ,则说明a i 对于D 不起作用,可以删除.在基于属性信息增益的约简方法中,计算案例库属性集的每个属性的信息增益,并约定属性的信息增益大于某个阈值时就将该属性归入最优属性子集,否则弃用属性.1.3 基于互信息的特征选择6:三种经典的基于互信息的特征选择算法,分别为信息增益、互信息和交叉熵,以及于互信息最大化的特征选择算法7。
深度学习试题500问
深度学习试题500问1.1标量、向量、张量之间的联系 1 [填空题]_________________________________1.2张量与矩阵的区别? 1 [填空题]_________________________________1.3矩阵和向量相乘结果 1 [填空题]_________________________________1.4向量和矩阵的范数归纳 1 [填空题]_________________________________1.5如何判断一个矩阵为正定? 2 [填空题]_________________________________1.6导数偏导计算 3 [填空题]_________________________________1.7导数和偏导数有什么区别? 3 [填空题]_________________________________1.8特征值分解与特征向量 3 [填空题]_________________________________1.9奇异值与特征值有什么关系? 4 [填空题]_________________________________1.10机器学习为什么要使用概率? 4 [填空题]_________________________________1.11变量与随机变量有什么区别? 4 [填空题]_________________________________1.12常见概率分布? 5 [填空题]_________________________________1.13举例理解条件概率 9 [填空题]_________________________________1.14联合概率与边缘概率联系区别? 10 [填空题]_________________________________1.15条件概率的链式法则 10 [填空题]_________________________________1.16独立性和条件独立性 11 [填空题]_________________________________1.17期望、方差、协方差、相关系数总结 11 [填空题] *_________________________________2.1 各种常见算法图示 14 [填空题]_________________________________2.2监督学习、非监督学习、半监督学习、弱监督学习? 15 [填空题] _________________________________2.3 监督学习有哪些步骤 16 [填空题]_________________________________2.4 多实例学习? 17 [填空题]_________________________________2.5 分类网络和回归的区别? 17 [填空题]_________________________________2.6 什么是神经网络? 17 [填空题]_________________________________2.7 常用分类算法的优缺点? 18 [填空题]_________________________________2.8 正确率能很好的评估分类算法吗? 20 [填空题]_________________________________2.9 分类算法的评估方法? 20 [填空题]_________________________________2.10 什么样的分类器是最好的? 22 [填空题]_________________________________2.11大数据与深度学习的关系 22 [填空题]_________________________________2.12 理解局部最优与全局最优 23 [填空题]_________________________________2.13 理解逻辑回归 24 [填空题]_________________________________2.14 逻辑回归与朴素贝叶斯有什么区别? 24 [填空题] _________________________________2.15 为什么需要代价函数? 25 [填空题]_________________________________2.16 代价函数作用原理 25 [填空题]_________________________________2.17 为什么代价函数要非负? 26 [填空题]_________________________________2.18 常见代价函数? 26 [填空题]_________________________________2.19为什么用交叉熵代替二次代价函数 28 [填空题]_________________________________2.20 什么是损失函数? 28 [填空题]_________________________________2.21 常见的损失函数 28 [填空题]_________________________________2.22 逻辑回归为什么使用对数损失函数? 30 [填空题] _________________________________0.00 对数损失函数是如何度量损失的? 31 [填空题] _________________________________2.23 机器学习中为什么需要梯度下降? 32 [填空题] _________________________________2.24 梯度下降法缺点? 32 [填空题]_________________________________2.25 梯度下降法直观理解? 32 [填空题]_________________________________2.23 梯度下降法算法描述? 33 [填空题]_________________________________2.24 如何对梯度下降法进行调优? 35 [填空题]_________________________________2.25 随机梯度和批量梯度区别? 35 [填空题]_________________________________2.26 各种梯度下降法性能比较 37 [填空题]_________________________________2.27计算图的导数计算图解? 37 [填空题]_________________________________2.28 线性判别分析(LDA)思想总结 39 [填空题] _________________________________2.29 图解LDA核心思想 39 [填空题]_________________________________2.30 二类LDA算法原理? 40 [填空题]_________________________________2.30 LDA算法流程总结? 41 [填空题]_________________________________2.31 LDA和PCA区别? 41 [填空题]_________________________________2.32 LDA优缺点? 41 [填空题]_________________________________2.33 主成分分析(PCA)思想总结 42 [填空题] _________________________________2.34 图解PCA核心思想 42 [填空题]_________________________________2.35 PCA算法推理 43 [填空题]_________________________________2.36 PCA算法流程总结 44 [填空题]_________________________________2.37 PCA算法主要优缺点 45 [填空题]_________________________________2.38 降维的必要性及目的 45 [填空题]_________________________________2.39 KPCA与PCA的区别? 46 [填空题]_________________________________2.40模型评估 47 [填空题]_________________________________2.40.1模型评估常用方法? 47 [填空题]_________________________________2.40.2 经验误差与泛化误差 47 [填空题]_________________________________2.40.3 图解欠拟合、过拟合 48 [填空题]_________________________________2.40.4 如何解决过拟合与欠拟合? 49 [填空题] _________________________________2.40.5 交叉验证的主要作用? 50 [填空题]_________________________________2.40.6 k折交叉验证? 50 [填空题]_________________________________2.40.7 混淆矩阵 50 [填空题]_________________________________2.40.8 错误率及精度 51 [填空题]_________________________________2.40.9 查准率与查全率 51 [填空题]_________________________________2.40.10 ROC与AUC 52 [填空题]_________________________________2.40.11如何画ROC曲线? 53 [填空题]_________________________________2.40.12如何计算TPR,FPR? 54 [填空题]_________________________________2.40.13如何计算Auc? 56 [填空题]_________________________________2.40.14为什么使用Roc和Auc评价分类器? 56 [填空题]_________________________________2.40.15 直观理解AUC 56 [填空题]_________________________________2.40.16 代价敏感错误率与代价曲线 57 [填空题]_________________________________2.40.17 模型有哪些比较检验方法 59 [填空题]_________________________________2.40.18 偏差与方差 59 [填空题]_________________________________2.40.19为什么使用标准差? 60 [填空题]_________________________________2.40.20 点估计思想 61 [填空题]_________________________________2.40.21 点估计优良性原则? 61 [填空题]_________________________________2.40.22点估计、区间估计、中心极限定理之间的联系? 62 [填空题] _________________________________2.40.23 类别不平衡产生原因? 62 [填空题]_________________________________2.40.24 常见的类别不平衡问题解决方法 62 [填空题] _________________________________2.41 决策树 64 [填空题]_________________________________2.41.1 决策树的基本原理 64 [填空题]_________________________________2.41.2 决策树的三要素? 64 [填空题]_________________________________2.41.3 决策树学习基本算法 65 [填空题]_________________________________2.41.4 决策树算法优缺点 65 [填空题]_________________________________2.40.5熵的概念以及理解 66 [填空题]_________________________________2.40.6 信息增益的理解 66 [填空题]_________________________________2.40.7 剪枝处理的作用及策略? 67 [填空题]_________________________________2.41 支持向量机 67 [填空题]_________________________________2.41.1 什么是支持向量机 67 [填空题]_________________________________2.25.2 支持向量机解决的问题? 68 [填空题]_________________________________2.25.2 核函数作用? 69 [填空题]_________________________________2.25.3 对偶问题 69 [填空题]_________________________________2.25.4 理解支持向量回归 69 [填空题]_________________________________2.25.5 理解SVM(核函数) 69 [填空题]_________________________________2.25.6 常见的核函数有哪些? 69 [填空题]_________________________________2.25.6 软间隔与正则化 73 [填空题]_________________________________2.25.7 SVM主要特点及缺点? 73 [填空题]_________________________________2.26 贝叶斯 74 [填空题]_________________________________2.26.1 图解极大似然估计 74 [填空题]_________________________________2.26.2 朴素贝叶斯分类器和一般的贝叶斯分类器有什么区别? 76 [填空题] _________________________________2.26.4 朴素与半朴素贝叶斯分类器 76 [填空题]_________________________________2.26.5 贝叶斯网三种典型结构 76 [填空题]_________________________________2.26.6 什么是贝叶斯错误率 76 [填空题]_________________________________2.26.7 什么是贝叶斯最优错误率 76 [填空题]_________________________________2.27 EM算法解决问题及实现流程 76 [填空题] _________________________________2.28 为什么会产生维数灾难? 78 [填空题]_________________________________2.29怎样避免维数灾难 82 [填空题]_________________________________2.30聚类和降维有什么区别与联系? 82 [填空题] _________________________________2.31 GBDT和随机森林的区别 83 [填空题]_________________________________2.32 四种聚类方法之比较 84 [填空题] *_________________________________3.1基本概念 88 [填空题]_________________________________3.1.1神经网络组成? 88 [填空题]_________________________________3.1.2神经网络有哪些常用模型结构? 90 [填空题] _________________________________3.1.3如何选择深度学习开发平台? 92 [填空题] _________________________________3.1.4为什么使用深层表示 92 [填空题]_________________________________3.1.5为什么深层神经网络难以训练? 93 [填空题]_________________________________3.1.6深度学习和机器学习有什么不同 94 [填空题]_________________________________3.2 网络操作与计算 95 [填空题]_________________________________3.2.1前向传播与反向传播? 95 [填空题]_________________________________3.2.2如何计算神经网络的输出? 97 [填空题]_________________________________3.2.3如何计算卷积神经网络输出值? 98 [填空题]_________________________________3.2.4如何计算Pooling层输出值输出值? 101 [填空题] _________________________________3.2.5实例理解反向传播 102 [填空题]_________________________________3.3超参数 105 [填空题]_________________________________3.3.1什么是超参数? 105 [填空题]_________________________________3.3.2如何寻找超参数的最优值? 105 [填空题]_________________________________3.3.3超参数搜索一般过程? 106 [填空题]_________________________________3.4激活函数 106 [填空题]_________________________________3.4.1为什么需要非线性激活函数? 106 [填空题]_________________________________3.4.2常见的激活函数及图像 107 [填空题]_________________________________3.4.3 常见激活函数的导数计算? 109 [填空题]_________________________________3.4.4激活函数有哪些性质? 110 [填空题]_________________________________3.4.5 如何选择激活函数? 110 [填空题]_________________________________3.4.6使用ReLu激活函数的优点? 111 [填空题]_________________________________3.4.7什么时候可以用线性激活函数? 111 [填空题]_________________________________3.4.8怎样理解Relu(<0时)是非线性激活函数? 111 [填空题] _________________________________3.4.9 Softmax函数如何应用于多分类? 112 [填空题]_________________________________3.5 Batch_Size 113 [填空题]_________________________________3.5.1为什么需要Batch_Size? 113 [填空题]_________________________________3.5.2 Batch_Size值的选择 114 [填空题]_________________________________3.5.3在合理范围内,增大 Batch_Size 有何好处? 114 [填空题] _________________________________3.5.4盲目增大 Batch_Size 有何坏处? 114 [填空题]_________________________________3.5.5调节 Batch_Size 对训练效果影响到底如何? 114 [填空题] _________________________________3.6 归一化 115 [填空题]_________________________________3.6.1归一化含义? 115 [填空题]_________________________________3.6.2为什么要归一化 115 [填空题]_________________________________3.6.3为什么归一化能提高求解最优解速度? 115 [填空题]_________________________________3.6.4 3D图解未归一化 116 [填空题]_________________________________3.6.5归一化有哪些类型? 117 [填空题]_________________________________3.6.6局部响应归一化作用 117 [填空题]_________________________________3.6.7理解局部响应归一化公式 117 [填空题]_________________________________3.6.8什么是批归一化(Batch Normalization) 118 [填空题] _________________________________3.6.9批归一化(BN)算法的优点 119 [填空题]_________________________________3.6.10批归一化(BN)算法流程 119 [填空题]_________________________________3.6.11批归一化和群组归一化 120 [填空题]_________________________________3.6.12 Weight Normalization和Batch Normalization 120 [填空题] _________________________________3.7 预训练与微调(fine tuning) 121 [填空题]_________________________________3.7.1为什么无监督预训练可以帮助深度学习? 121 [填空题]_________________________________3.7.2什么是模型微调fine tuning 121 [填空题]_________________________________3.7.3微调时候网络参数是否更新? 122 [填空题]_________________________________3.7.4 fine-tuning模型的三种状态 122 [填空题]_________________________________3.8权重偏差初始化 122 [填空题]_________________________________3.8.1 全都初始化为0 122 [填空题]_________________________________3.8.2 全都初始化为同样的值 123 [填空题]_________________________________3.8.3 初始化为小的随机数 124 [填空题]_________________________________3.8.4用1/sqrt(n)校准方差 125 [填空题]_________________________________3.8.5稀疏初始化(Sparse Initialazation) 125 [填空题]_________________________________3.8.6初始化偏差 125 [填空题]_________________________________3.9 Softmax 126 [填空题]_________________________________3.9.1 Softmax定义及作用 126 [填空题]_________________________________3.9.2 Softmax推导 126 [填空题]_________________________________3.10 理解One Hot Encodeing原理及作用? 126 [填空题] _________________________________3.11 常用的优化器有哪些 127 [填空题]_________________________________3.12 Dropout 系列问题 128 [填空题]_________________________________3.12.1 dropout率的选择 128 [填空题]_________________________________3.27 Padding 系列问题 128 [填空题] *_________________________________4.1LetNet5 129 [填空题]_________________________________ 4.1.1模型结构 129 [填空题]_________________________________ 4.1.2模型结构 129 [填空题]_________________________________ 4.1.3 模型特性 131 [填空题]_________________________________ 4.2 AlexNet 131 [填空题]_________________________________ 4.2.1 模型结构 131 [填空题]_________________________________ 4.2.2模型解读 131 [填空题]_________________________________ 4.2.3模型特性 135 [填空题]_________________________________ 4.3 可视化ZFNet-解卷积 135 [填空题] _________________________________ 4.3.1 基本的思想及其过程 135 [填空题] _________________________________ 4.3.2 卷积与解卷积 136 [填空题]_________________________________ 4.3.3卷积可视化 137 [填空题]_________________________________ 4.3.4 ZFNe和AlexNet比较 139 [填空题] _________________________________4.4 VGG 140 [填空题]_________________________________ 4.1.1 模型结构 140 [填空题]_________________________________ 4.1.2 模型特点 140 [填空题]_________________________________ 4.5 Network in Network 141 [填空题] _________________________________ 4.5.1 模型结构 141 [填空题]_________________________________ 4.5.2 模型创新点 141 [填空题]_________________________________ 4.6 GoogleNet 143 [填空题]_________________________________ 4.6.1 模型结构 143 [填空题]_________________________________ 4.6.2 Inception 结构 145 [填空题]_________________________________ 4.6.3 模型层次关系 146 [填空题]_________________________________ 4.7 Inception 系列 148 [填空题]_________________________________ 4.7.1 Inception v1 148 [填空题]_________________________________4.7.2 Inception v2 150 [填空题]_________________________________4.7.3 Inception v3 153 [填空题]_________________________________4.7.4 Inception V4 155 [填空题]_________________________________4.7.5 Inception-ResNet-v2 157 [填空题]_________________________________4.8 ResNet及其变体 158 [填空题]_________________________________4.8.1重新审视ResNet 159 [填空题]_________________________________4.8.2残差块 160 [填空题]_________________________________4.8.3 ResNet架构 162 [填空题]_________________________________4.8.4残差块的变体 162 [填空题]_________________________________4.8.5 ResNeXt 162 [填空题]_________________________________4.8.6 Densely Connected CNN 164 [填空题]_________________________________4.8.7 ResNet作为小型网络的组合 165 [填空题] _________________________________4.8.8 ResNet中路径的特点 166 [填空题]4.9为什么现在的CNN模型都是在GoogleNet、VGGNet或者AlexNet上调整的? 167 [填空题] *_________________________________5.1 卷积神经网络的组成层 170 [填空题]_________________________________5.2 卷积如何检测边缘信息? 171 [填空题]_________________________________5.2 卷积的几个基本定义? 174 [填空题]_________________________________5.2.1卷积核大小 174 [填空题]_________________________________5.2.2卷积核的步长 174 [填空题]_________________________________5.2.3边缘填充 174 [填空题]_________________________________5.2.4输入和输出通道 174 [填空题]_________________________________5.3 卷积网络类型分类? 174 [填空题]_________________________________5.3.1普通卷积 174 [填空题]_________________________________5.3.2扩张卷积 175 [填空题]_________________________________5.3.3转置卷积 176 [填空题]5.3.4可分离卷积 177 [填空题]_________________________________5.3 图解12种不同类型的2D卷积? 178 [填空题]_________________________________5.4 2D卷积与3D卷积有什么区别? 181 [填空题]_________________________________5.4.1 2D 卷积 181 [填空题]_________________________________5.4.2 3D卷积 182 [填空题]_________________________________5.5 有哪些池化方法? 183 [填空题]_________________________________5.5.1一般池化(General Pooling) 183 [填空题]_________________________________5.5.2重叠池化(OverlappingPooling) 184 [填空题]_________________________________5.5.3空金字塔池化(Spatial Pyramid Pooling) 184 [填空题] _________________________________5.6 1x1卷积作用? 186 [填空题]_________________________________5.7卷积层和池化层有什么区别? 187 [填空题]_________________________________5.8卷积核一定越大越好? 189 [填空题]_________________________________5.9每层卷积只能用一种尺寸的卷积核? 189 [填空题]_________________________________5.10怎样才能减少卷积层参数量? 190 [填空题]_________________________________5.11卷积操作时必须同时考虑通道和区域吗? 191 [填空题]_________________________________5.12采用宽卷积的好处有什么? 192 [填空题]_________________________________5.12.1窄卷积和宽卷积 192 [填空题]_________________________________5.12.2 为什么采用宽卷积? 192 [填空题]_________________________________5.13卷积层输出的深度与哪个部件的个数相同? 192 [填空题]_________________________________5.14 如何得到卷积层输出的深度? 193 [填空题]_________________________________5.15激活函数通常放在卷积神经网络的那个操作之后? 194 [填空题] _________________________________5.16 如何理解最大池化层有几分缩小? 194 [填空题]_________________________________5.17理解图像卷积与反卷积 194 [填空题]_________________________________5.17.1图像卷积 194 [填空题]_________________________________5.17.2图像反卷积 196 [填空题]_________________________________5.18不同卷积后图像大小计算? 198 [填空题]_________________________________5.18.1 类型划分 198 [填空题]_________________________________5.18.2 计算公式 199 [填空题]_________________________________5.19 步长、填充大小与输入输出关系总结? 199 [填空题] _________________________________5.19.1没有0填充,单位步长 200 [填空题]_________________________________5.19.2零填充,单位步长 200 [填空题]_________________________________5.19.3不填充,非单位步长 202 [填空题]_________________________________5.19.4零填充,非单位步长 202 [填空题]_________________________________5.20 理解反卷积和棋盘效应 204 [填空题]_________________________________5.20.1为什么出现棋盘现象? 204 [填空题]_________________________________5.20.2 有哪些方法可以避免棋盘效应? 205 [填空题]_________________________________5.21 CNN主要的计算瓶颈? 207 [填空题]_________________________________5.22 CNN的参数经验设置 207 [填空题]_________________________________5.23 提高泛化能力的方法总结 208 [填空题]_________________________________5.23.1 主要方法 208 [填空题]_________________________________5.23.2 实验证明 208 [填空题]_________________________________5.24 CNN在CV与NLP领域运用的联系与区别? 213 [填空题] _________________________________5.24.1联系 213 [填空题]_________________________________5.24.2区别 213 [填空题]_________________________________5.25 CNN凸显共性的手段? 213 [填空题]_________________________________5.25.1 局部连接 213 [填空题]_________________________________5.25.2 权值共享 214 [填空题]_________________________________5.25.3 池化操作 215 [填空题]_________________________________5.26 全卷积与Local-Conv的异同点 215 [填空题]_________________________________5.27 举例理解Local-Conv的作用 215 [填空题]_________________________________5.28 简述卷积神经网络进化史 216 [填空题] *_________________________________6.1 RNNs和FNNs有什么区别? 218 [填空题]_________________________________6.2 RNNs典型特点? 218 [填空题]_________________________________6.3 RNNs能干什么? 219 [填空题]_________________________________6.4 RNNs在NLP中典型应用? 220 [填空题]_________________________________6.5 RNNs训练和传统ANN训练异同点? 220 [填空题] _________________________________6.6常见的RNNs扩展和改进模型 221 [填空题]_________________________________6.6.1 Simple RNNs(SRNs) 221 [填空题]_________________________________6.6.2 Bidirectional RNNs 221 [填空题]_________________________________6.6.3 Deep(Bidirectional) RNNs 222 [填空题]_________________________________6.6.4 Echo State Networks(ESNs) 222 [填空题]_________________________________6.6.5 Gated Recurrent Unit Recurrent Neural Networks 224 [填空题] _________________________________6.6.6 LSTM Netwoorks 224 [填空题]_________________________________6.6.7 Clockwork RNNs(CW-RNNs) 225 [填空题] *_________________________________7.1基于候选区域的目标检测器 228 [填空题]_________________________________7.1.1滑动窗口检测器 228 [填空题]_________________________________7.1.2选择性搜索 229 [填空题]_________________________________7.1.3 R-CNN 230 [填空题]_________________________________7.1.4边界框回归器 230 [填空题]_________________________________7.1.5 Fast R-CNN 231 [填空题]_________________________________7.1.6 ROI 池化 233 [填空题]_________________________________7.1.7 Faster R-CNN 233 [填空题]_________________________________7.1.8候选区域网络 234 [填空题]_________________________________7.1.9 R-CNN 方法的性能 236 [填空题]_________________________________7.2 基于区域的全卷积神经网络(R-FCN) 237 [填空题] _________________________________7.3 单次目标检测器 240 [填空题]_________________________________7.3.1单次检测器 241 [填空题]_________________________________7.3.2滑动窗口进行预测 241 [填空题]_________________________________7.3.3 SSD 243 [填空题]_________________________________7.4 YOLO系列 244 [填空题]_________________________________7.4.1 YOLOv1介绍 244 [填空题]_________________________________7.4.2 YOLOv1模型优缺点? 252 [填空题]_________________________________7.4.3 YOLOv2 253 [填空题]_________________________________7.4.4 YOLOv2改进策略 254 [填空题]_________________________________7.4.5 YOLOv2的训练 261 [填空题]_________________________________7.4.6 YOLO9000 261 [填空题]_________________________________7.4.7 YOLOv3 263 [填空题]_________________________________8.1 传统的基于CNN的分割方法缺点? 269 [填空题]_________________________________8.1 FCN 269 [填空题]_________________________________8.1.1 FCN改变了什么? 269 [填空题]_________________________________8.1.2 FCN网络结构? 270 [填空题]_________________________________8.1.3全卷积网络举例? 271 [填空题]_________________________________8.1.4为什么CNN对像素级别的分类很难? 271 [填空题]_________________________________8.1.5全连接层和卷积层如何相互转化? 272 [填空题]_________________________________8.1.6 FCN的输入图片为什么可以是任意大小? 272 [填空题]_________________________________8.1.7把全连接层的权重W重塑成卷积层的滤波器有什么好处? 273 [填空题] _________________________________8.1.8反卷积层理解 275 [填空题]_________________________________8.1.9跳级(skip)结构 276 [填空题]_________________________________8.1.10模型训练 277 [填空题]_________________________________8.1.11 FCN缺点 280 [填空题]_________________________________8.2 U-Net 280 [填空题]_________________________________8.3 SegNet 282 [填空题]_________________________________8.4空洞卷积(Dilated Convolutions) 283 [填空题] _________________________________8.4 RefineNet 285 [填空题]_________________________________8.5 PSPNet 286 [填空题]_________________________________8.6 DeepLab系列 288 [填空题]_________________________________8.6.1 DeepLabv1 288 [填空题]_________________________________8.6.2 DeepLabv2 289 [填空题]_________________________________8.6.3 DeepLabv3 289 [填空题]_________________________________8.6.4 DeepLabv3+ 290 [填空题]_________________________________8.7 Mask-R-CNN 293 [填空题]_________________________________8.7.1 Mask-RCNN 的网络结构示意图 293 [填空题]_________________________________8.7.2 RCNN行人检测框架 293 [填空题]_________________________________8.7.3 Mask-RCNN 技术要点 294 [填空题]_________________________________8.8 CNN在基于弱监督学习的图像分割中的应用 295 [填空题] _________________________________8.8.1 Scribble标记 295 [填空题]_________________________________8.8.2 图像级别标记 297 [填空题]_________________________________8.8.3 DeepLab+bounding box+image-level labels 298 [填空题]_________________________________8.8.4统一的框架 299 [填空题] *_________________________________9.1强化学习的主要特点? 301 [填空题]_________________________________9.2强化学习应用实例 302 [填空题]_________________________________9.3强化学习和监督式学习、非监督式学习的区别 303 [填空题] _________________________________9.4 强化学习主要有哪些算法? 305 [填空题]_________________________________9.5深度迁移强化学习算法 305 [填空题]_________________________________9.6分层深度强化学习算法 306 [填空题]_________________________________9.7深度记忆强化学习算法 306 [填空题]_________________________________9.8 多智能体深度强化学习算法 307 [填空题]_________________________________9.9深度强化学习算法小结 307 [填空题] *_________________________________10.1 什么是迁移学习? 309 [填空题]_________________________________10.2 什么是多任务学习? 309 [填空题]_________________________________10.3 多任务学习有什么意义? 309 [填空题]_________________________________10.4 什么是端到端的深度学习? 311 [填空题]_________________________________10.5 端到端的深度学习举例? 311 [填空题]_________________________________10.6 端到端的深度学习有什么挑战? 311 [填空题] _________________________________10.7 端到端的深度学习优缺点? 312 [填空题] *_________________________________13.1 CPU和GPU 的区别? 314 [填空题]_________________________________13.2如何解决训练样本少的问题 315 [填空题]_________________________________13.3 什么样的样本集不适合用深度学习? 315 [填空题]_________________________________13.4 有没有可能找到比已知算法更好的算法? 316 [填空题]_________________________________13.5 何为共线性, 跟过拟合有啥关联? 316 [填空题]_________________________________13.6 广义线性模型是怎被应用在深度学习中? 316 [填空题]_________________________________13.7 造成梯度消失的原因? 317 [填空题]_________________________________13.8 权值初始化方法有哪些 317 [填空题]_________________________________13.9 启发式优化算法中,如何避免陷入局部最优解? 318 [填空题]_________________________________13.10 凸优化中如何改进GD方法以防止陷入局部最优解 319 [填空题] _________________________________13.11 常见的损失函数? 319 [填空题]_________________________________13.14 如何进行特征选择(feature selection)? 321 [填空题]_________________________________13.14.1 如何考虑特征选择 321 [填空题]_________________________________13.14.2 特征选择方法分类 321 [填空题]_________________________________13.14.3 特征选择目的 322 [填空题]_________________________________13.15 梯度消失/梯度爆炸原因,以及解决方法 322 [填空题]_________________________________13.15.1 为什么要使用梯度更新规则? 322 [填空题]_________________________________13.15.2 梯度消失、爆炸原因? 323 [填空题]_________________________________13.15.3 梯度消失、爆炸的解决方案 324 [填空题]_________________________________13.16 深度学习为什么不用二阶优化 325 [填空题]_________________________________13.17 怎样优化你的深度学习系统? 326 [填空题]_________________________________13.18为什么要设置单一数字评估指标? 326 [填空题]_________________________________13.19满足和优化指标(Satisficing and optimizing metrics) 327 [填空题] _________________________________13.20 怎样划分训练/开发/测试集 328 [填空题]_________________________________13.21如何划分开发/测试集大小 329 [填空题]_________________________________13.22什么时候该改变开发/测试集和指标? 329 [填空题]_________________________________13.23 设置评估指标的意义? 330 [填空题]_________________________________13.24 什么是可避免偏差? 331 [填空题]_________________________________13.25 什么是TOP5错误率? 331 [填空题]_________________________________13.26 什么是人类水平错误率? 332 [填空题]_________________________________13.27 可避免偏差、几大错误率之间的关系? 332 [填空题] _________________________________13.28 怎样选取可避免偏差及贝叶斯错误率? 332 [填空题] _________________________________13.29 怎样减少方差? 333 [填空题]_________________________________13.30贝叶斯错误率的最佳估计 333 [填空题]_________________________________13.31举机器学习超过单个人类表现几个例子? 334 [填空题] _________________________________13.32如何改善你的模型? 334 [填空题]_________________________________13.33 理解误差分析 335 [填空题]_________________________________13.34 为什么值得花时间查看错误标记数据? 336 [填空题] _________________________________13.35 快速搭建初始系统的意义? 336 [填空题]_________________________________13.36 为什么要在不同的划分上训练及测试? 337 [填空题] _________________________________13.37 如何解决数据不匹配问题? 338 [填空题]_________________________________13.38 梯度检验注意事项? 340 [填空题]_________________________________13.39什么是随机梯度下降? 341 [填空题]_________________________________13.40什么是批量梯度下降? 341 [填空题]_________________________________13.41什么是小批量梯度下降? 341 [填空题]_________________________________13.42怎么配置mini-batch梯度下降 342 [填空题]_________________________________13.43 局部最优的问题 343 [填空题]_________________________________13.44提升算法性能思路 346 [填空题] *_________________________________14.1 调试处理 358 [填空题]_________________________________14.2 有哪些超参数 359 [填空题]_________________________________14.3 如何选择调试值? 359 [填空题]_________________________________14.4 为超参数选择合适的范围 359 [填空题]_________________________________14.5 如何搜索超参数? 359 [填空题] *_________________________________15.1 什么是正则化? 361 [填空题]_________________________________15.2 正则化原理? 361 [填空题]_________________________________15.3 为什么要正则化? 361 [填空题]_________________________________15.4 为什么正则化有利于预防过拟合? 361 [填空题] _________________________________15.5 为什么正则化可以减少方差? 362 [填空题]_________________________________15.6 L2正则化的理解? 362 [填空题]_________________________________15.7 理解dropout 正则化 362 [填空题]_________________________________15.8 有哪些dropout 正则化方法? 362 [填空题]_________________________________15.8 如何实施dropout 正则化 363 [填空题]_________________________________。
基于距离加权模板约简和属性信息熵的增量SVM入侵检测算法
计 算 机 科 学 C o m u t e r c i e n c e S p
V o l . 3 9N o . 1 2 D e c 2 0 1 2
基于距离加权模板约简和属性信 ) ) 金陵科技学院信息技术学院 南京 2 江苏省信息分析工程实验室 南京 2 1 1 1 6 9 1 1 1 6 9 (
摘 要 为了解决 S 误报率高和检测速度慢等问 题 , 提出了一种基于距离加权模板约简 VM 入侵检测方法检测率低 、 对训练样本集进 和属性信息熵的增量 S VM 入侵检测算法 。 该算法对 K 近邻 样 本 与 待 测 样 本 赋 予 总 距 离 加 权 权 重 , 行约简 , 并以邻界区分割和基于样本属性信息熵对聚类样本中的噪声点和过拟合点进行剔除 , 以样本分散度来提 取 可 能支持向量机 , 并基于 KK 从而构造最优 S 该算法具有较好的检测 T 条件进行增量学习 , VM 分类器 。 实验仿真证明 , 率和检测效率 , 并且误报率低 。 关键词 入侵检测 , 距离加权 , 信息熵 , 邻界区 S VM, 中图法分类号 T P 3 9 3. 0 8 文献标识码 A
XU Y o n h u a I G u a n s h u i - L - g g
( , , ) S c h o o l o f I n f o r m a t i o n T e c h n o l o J i n l i n I n s t i t u t e o f T e c h n o l o N a n i n 2 1 1 1 6 9, C h i n a g y g g y j g , ) ( J i a n s u I n f o r m a t i o n A n a l s i s E n i n e e r i n L a b o r a t o r N a n i n 2 1 1 1 6 9, C h i n a g y g g y j g
人工智能导论测试题库及答案精选全文
精选全文完整版(可编辑修改)人工智能导论测试题库及答案1、在关联规则分析过程中,对原始数据集进行事务型数据处理的主要原因是。
A、提高数据处理速度B、节省存储空间C、方便算法计算D、形成商品交易矩阵答案:C2、计算机视觉可应用于下列哪些领域()。
A、安防及监控领域B、金融领域的人脸识别身份验证C、医疗领域的智能影像诊断D、机器人/无人车上作为视觉输入系统E、以上全是答案:E3、1943年,神经网络的开山之作《A logical calculus of ideas immanent in nervous activity》,由()和沃尔特.皮茨完成。
A、沃伦.麦卡洛克B、明斯基C、唐纳德.赫布D、罗素答案:A4、对于自然语言处理问题,哪种神经网络模型结构更适合?()。
A、多层感知器B、卷积神经网络C、循环神经网络D、感知器答案:C5、图像的空间离散化叫做:A、灰度化B、二值化C、采样D、量化答案:C6、()越多,所得图像层次越丰富,灰度分辨率高,图像质量好。
A、分辨率B、像素数量C、量化等级D、存储的数据量答案:C7、一个完整的人脸识别系统主要包含人脸图像采集和检测、人脸图像特征提取和人脸识别四个部分。
A、人脸分类器B、人脸图像预处理C、人脸数据获取D、人脸模型训练答案:B8、下列不属于人工智能学派的是()。
A、符号主义B、连接主义C、行为主义D、机会主义答案:D9、关于正负样本的说法正确是。
A、样本数量多的那一类是正样本B、样本数量少的那一类是负样本C、正负样本没有明确的定义D、想要正确识别的那一类为正样本答案:D10、以下不属于完全信息博弈的游戏有()。
A、井字棋B、黑白棋C、围棋D、桥牌答案:D11、下列关于人工智能的说法中,哪一项是错误的。
A、人工智能是一门使机器做那些人需要通过智能来做的事情的学科B、人工智能主要研究知识的表示、知识的获取和知识的运用C、人工智能是研究机器如何像人一样合理思考、像人一样合理行动的学科D、人工智能是研究机器如何思维的一门学科答案:D12、认为智能不需要知识、不需要表示、不需要推理;人工智能可以像人类智能一样逐步进化;智能行为只能在现实世界中与周围环境交互作用而表现出来。
2021大数据知识竞赛考试题及答案
2021大数据知识竞赛考试题及答案1、以下哪项不属于大数据的特征?数据量大数据类型复杂单位处理数据的速度高数据价值密度高【正确答案】2、以下哪项不属于大数据流式处理典型业务应用场景?实时营销实时服务实时监控用户画像【正确答案】3、以下不属于Hadoop内核的组成部分的是HDFSMapReduceHbase【正确答案】YARN4、HDFS默认的当前工作目录是/user/$USER,的值需要在下列哪一个配置文件内说明?mapred-site.xmlcore-site.xml【正确答案】hdfs-site.xml以上均不是5、下列哪一项不属于HDFS相对于分布式系统而言特有的特性?高容错大文件存储大量的随机读应用【正确答案】高吞吐量6、下列存储HDFS某一时段NameNode内存元数据信息的是hdfs-site.xmlfsimage【正确答案】editsfstime7、以下哪个不是HDFS的守护进程?secondarynamenodedatanodemrappmaster/yarnchild【正确答案】namenode8、关于 SecondaryNameNode 哪项是正确的?它是 NameNode 的热备它是内存没有要求它的目的是帮助 NameNode 合并编辑日志,减少 NameNode 启动时间【正确答案】SecondaryNameNode 应与 NameNode 部署到一个节点9、以下哪一项不属于HDFS集群中的namenode职责维护HDFS集群的目录树结构维护HDFS集群的所有数据块的分布、副本数和负载均衡负责保存客户端上传的数据【正确答案】响应客户端的所有读写数据请求10、以下哪一项属于SecondaryNamenode的作用监控Namenode管理Datanode合并fsimage和editlogs【正确答案】支持Namenode HA11、下面哪个程序负责 HDFS 中实际数据的存储NameNodeJobtrackerDatanode【正确答案】secondaryNameNode12、关于HDFS集群中的DataNode的描述不正确的是DataNode之间不是独立的,相互之间会有通信和数据传输存储客户端上传的数据的数据块一个DataNode上存储的所有数据块可以有相同的【正确答案】响应客户端的所有读写数据请求,为客户端的存储和读取数据提供支撑13、如果我们现有一个hadoop集群,默认存储文件3份,并且大文件会按照128M 的数据块大小进行切割分散存储,在不修改默认配置的情况下存储200个每个200M的文本文件,请问最终会在集群中产生多少个数据块(包括副本)?200400004001200【正确答案】14、下列选项中,哪一项是存储HDFS某一时段NameNode内存元数据信息?hdfs-site.xmlfsimage【正确答案】editsfstime15、HBase底层依靠什么进行数据的存储HDFS【正确答案】HiveMemoryMapReduce16、下列选项中,哪个选项是用于处理海量数据的并行编程模式和大规模数据集的并行运算的软件架构?GFSMapReduce【正确答案】ChubbyBitTable17、Mapreduce擅长哪个领域的计算离线批处理【正确答案】DAG计算流式计算实时计算18、在MapReduce中哪一个阶段,把Mapper的输出数据归并整理后分发给Reducer处理Shuffle【正确答案】MapReduceSort19、关于MapReduce原理,下面说法错误的是分为Map和Reduce两个阶段Map阶段由一系列Map任务组成Reduce阶段由一系列Reduce任务组成Map阶段与Reduce阶段没有任何依赖关系【正确答案】20、下列哪个程序通常与NameNode 在同一个节点启动TaskTrackerDataNodeSecondaryNameNodeJobtracker【正确答案】21、MapReduce的Map函数产生很多的keyvalue<key,value>【正确答案】Hash22、下面关于Hive,说法错误的是Hive支持所有标准SQL语法【正确答案】Hive底层采用的计算引擎是MapReduceHive提供的HQL语法,与传统SQL很类似Hive Server可采用MySQL存储元数据信息23、下列哪项通常是Hadoop中MapReduce集群的最主要瓶颈CPU网络磁盘【正确答案】内存24、Hadoop框架的缺陷不包括MR编程框架的限制过多的磁盘操作,缺乏对分布式内存的支持无法高效低支持迭代式计算海量的数据存储【正确答案】25、YARN的调度算法不包括以下哪种FIFO SchedulerFair SchedulerCapacity SchedulerStack Scheduler【正确答案】26、YARN和MapReduce的关系是MapReduce是一个计算框架,可运行在YARN之上【正确答案】YARN是一个计算框架,可运行在MapReduce之上MapReduce和YARN无直接关系以上回答均不正确27、下列选项中,哪个是用来将Hadoop和关系型数据库中的数据相互转移的工具?ZookeeperSqoop【正确答案】HIVESpark28、Hadoop 大数据平台在整个数据挖掘的过程中,起到的作用是数据源处理数据清洗和装载【正确答案】数据展现CUBE生成29、以下哪一项是大数据的核心告知与许可预测【正确答案】匿名化规模化30、以下哪一项是用于处理海量数据的并行编程模式和大规模数据集的并行运算的软件架构。
人工智能机器学习技术练习(习题卷20)
人工智能机器学习技术练习(习题卷20)第1部分:单项选择题,共58题,每题只有一个正确答案,多选或少选均不得分。
1.[单选题]如果我们说“线性回归”模型完美地拟合了训练样本(训练样本误差为零),则下面哪个说法是正确的?A)测试样本误差始终为零B)测试样本误差不可能为零C)以上答案都不对答案:C解析:根据训练样本误差为零,无法推断测试样本误差是否为零。
值得一提是,如果测试样本样本很大,则很可能发生过拟合,模型不具备很好的泛化能力!2.[单选题]关于回归问题,说法正确的是()A)可以不需要labelB)label列是连续型C)属于无监督学习答案:B解析:3.[单选题](__)不属于基本分析方法。
A)回归分析B)分类分析C)聚类分析D)元分析答案:D解析:4.[单选题]下列对于查全率的描述,解释正确的是(__)。
A)统计分类器预测出来的结果与真实结果不相同的个数,然后除以总的样例集D的个数。
B)先统计分类正确的样本数,然后除以总的样例集D的个数。
C)预测为正的样例中有多少是真正的正样例D)样本中的正例有多少被预测正确答案:D解析:5.[单选题]n!后面有多少个0,6!=1*2*3*4*5*6=720.720后面有1个0,n=10000,求n!。
A)2498B)2499C)2450D)2451答案:B解析:6.[单选题]以下不属于线性分类器最佳准则的是( )A)感知准则函数B)支持向量机C)贝叶斯分类D)Fisher准则解析:7.[单选题]以下对字典的说法错误的是()。
A)字典可以为空B)字典的键不能相同C)字典的键不可变D)字典的键的值不可变答案:D解析:8.[单选题]假设我们有一个使用ReLU激活函数(ReLU activation function)的神经网络,假如我们把ReLU激活替换为线性激活,那么这个神经网络能够模拟出同或 函数(XNOR function)吗( )A)可以B)不能C)不好说D)不一定答案:B解析:9.[单选题]关于欠拟合(under-fitting),正确的是( )。
机器学习_温州大学中国大学mooc课后章节答案期末考试题库2023年
机器学习_温州大学中国大学mooc课后章节答案期末考试题库2023年1.GBDT由哪三个概念组成:( )参考答案:Regression Decision Tree(即 DT)_Gradient Boosting(即GB)_Shrinkage(缩减)2.对于非概率模型而言,可按照判别函数线性与否分成线性模型与非线性模型。
下面哪些模型属于线性模型?参考答案:K-means_k近邻_感知机3.逻辑回归分类的精度不够高,因此在业界很少用到这个算法参考答案:错误4.SMOTE算法是用了上采样的方法。
参考答案:正确5.支持向量是那些最接近决策平面的数据点参考答案:正确6.100万条数据划分训练集、验证集、测试集,数据可以这样划分:98%,1%,1% 。
参考答案:正确7.K均值是一种产生划分聚类的基于密度的聚类算法,簇的个数由算法自动地确定。
参考答案:错误8.朴素贝叶斯法的基本假设是条件独立性。
参考答案:正确9.PCA投影方向可从最大化方差和最小化投影误差这两个角度理解。
参考答案:正确10.相关变量的相关系数可以为零,对吗?参考答案:正确11.Sigmoid函数的范围是(-1,1)参考答案:错误12.影响KNN算法效果的主要因素包括( )。
参考答案:决策规则_K的值_距离度量方式13.逻辑回归的特征一定是离散的。
参考答案:错误14.闵可夫斯基距离中的p取1或2时的闵氏距离是最为常用的,以下哪项是正确的:( )。
参考答案:闵可夫斯基空间不同于牛顿力学的平坦空间_p取1时是曼哈顿距离_p取2时是欧氏距离_p取无穷时是切比雪夫距离15.KNN算法的缺点包括以下几点?( )参考答案:计算复杂性高;空间复杂性高,尤其是特征数非常多的时候_可解释性差,无法给出决策树那样的规则_对训练数据依赖度特别大,当样本不平衡的时候,对少数类的预测准确率低16.两个向量的余弦相似度越接近1,说明两者越相似。
参考答案:正确17.k近邻法(k-Nearest Neighbor,kNN)是一种比较成熟也是最简单的机器学习算法,可以用于分类,但不能用于回归方法。
基于容差关系的加权知识粗糙熵
直观性差 , 其本质不容易被 理解 , 中的约简问题 是一个 NP 其
完全问题 , 需要更为高效率 的约简算法来研究 知识粗糙性 ; 其 二, 经典 的 P wl a a k粗集理论是基于等价关系 的, 过于苛刻 , 现 实 中更多面对的是非完备信息系统 , 如部 分数 据不 真实 , 例 或 属性取空值 。苗夺谦 等人提 }了知识 粗糙集 的信息表示方 { J
价 关系 :
可能是不精 确的 , 为此引入 了上 、 近似 运算来 逼近表示知识 下
论域的概念 。这种通过代数学 的等 价关系和集合包含 关系及 运算来定义 、 描述知识 的粗糙性 , 在两个方面 的问题 : 一 , 存 其
R( 一{ ) ∈UA EUA( EB f( 6 一 / B) ( , I Vb  ̄ x, ) ’
容差关 系下的不 完备 信息 系下的粗糙 熵 自然地推 广到不 完备 信息 系统 的 容差关 系情 形。本文的结果为在 一般 - T 系下的知识获取提供 了理论依 据 。 = L关 -
关键词 容 差 关 系 , 价 关 系 , 权 粗糙 熵 , 性 约 简 等 加 属
该 关系将在论域 U上导 出划分 U/ ND( , I B) 称该划 分为
关 于 U 的一 个 知识 。
定义 1 称 属性 集 B是信 息 系统 ( A) U, 的一 个 属性 约 简, 当且仅 当 R( 一R( , B) A) 且对 VC 二 R( DR( 。 ( B, C) = B) 设 P、 三A, U 上的两 个等 价关 系 , U上 导 出的划 Q 为 在
Ab ta t Th o g h o y p o ie n i o t n p r a h f rt er s a c fk o e g n r p n t r u er d c sr c e r u h t e r r v d sa mp ra ta p o c o h e e r h o n wld e e to y a d a ti t e u — b to r m n o ma i n t e r o n v i I h sp p r t ec n e t f ih e o g n r p n o d to a n r p f in fo i f r t h o y p i t ew. n t i a e , h o c p so g t d r u h e to y a d c n iin l t o y o o we e i c mp e e i f r t n s s e b s d o o e a c ea i n a e p e e t d wh c s t e g n a ia in o o g n r p n o l t n o ma i y t m a e n t lr n e r l t r r s n e , ih i h e e l t f r u h e to y o o z o c n p fc mp e e i f r t n s s e a e n e u v l n e r lt n , n o r p r is a e p o e n t e m e n o e to o lt n o ma i y t ms b s d o q ia e c ea i s a d s me p o e t r r v d i h a o o e t . e r s lso h s p p r p o ie t e r a i f rk o e g c u st n i n o ma i n s s e a e n g n r l i Th e u t ft i a e r v d h o y b ss o n wld e a q ii o n i f r t y t ms b s d o e e a me i o b n r ea in iay rlt . o Ke wo d To e a c ea in, q ia e c e a i n Ro g n r p , trb t e u t n y rs lr n e r l t o E u v l n e r lt , u h e t o y A t iu e r d c i o o
基于属性加权频率算子的属性约简算法
从上 述定 义中知道 可辨识 矩 阵是一对 称矩 阵 。
定义 2 P 近似精 度 一 设P C, 为 由决 策属性 d所决定 的 上 的一个 划分 { y , , , £ y , … Y } 则对 划分 £ P一 的 近似精 度 (p a—
p o i t nq ai ) : rxmai u ly 为 o t
f 口∈ C: ( { 口 z )≠ 口 ) ( }
= 0
L 1 一
D( x )≠ D( ) z,,
D ( )一 D ( ) ∞ z, , = , …,, = =1 2, () 1
V 口 口 z )一 日 z, , ( ,( ( ) D z )≠ D ( ) z, 。
Vo . 5 No 4 12 .
De .2 07 c 0
20 年 1 07 2月
基于属性加权频率算子 的属性约简算法
龚 安 牛 秋丽 赵 ̄ I , , , bJ 周兆华 。 I
(. 1 中国石油大学 ( 华东)计算机与通 信工程学院 , 山东 东营 2 7 6 ;.中国石油北京油气调控中心, 5012 北京 1院 , 河北 廊坊 0 50 ) 60 7
通讯联系人 : 龚安 (9 1 )男 , 17 一 , 四川 巴中人 , 中国石油大学( 华东 ) 副教授 。E ma :o gn 3 8 i .o — i g n a O2 @s a cr l n n
维普资讯
第 4期
龚
安 等 : 于 属性 加权 频 率 算 子 的属 性 约 简 算 法 基
维普资讯
第2卷 5
第 4期
广西 师范 大学学 报 : 自然科学 版
Jun l f u n x r l ies yNaua S i c E io o ra o a g i ma Unv ri : trl c ne dt n G No t e i
强化学习算法中的异策略学习方法详解(十)
强化学习是一种通过与环境互动来学习最佳行为策略的机器学习方法。
在强化学习算法中,异策略学习方法是一种重要的技术,它允许智能体在学习过程中采用与当前策略不同的策略来进行行为决策。
本文将详细介绍强化学习算法中的异策略学习方法,包括重要性采样、行为策略网络和重要性加权策略梯度等内容。
重要性采样是一种常用的异策略学习方法,它通过对不同策略下的状态-动作对进行加权,从而估计目标策略的价值函数。
在强化学习中,智能体通常会在学习过程中逐步调整策略,而重要性采样能够有效地处理不同策略之间的转移问题。
具体而言,重要性采样通过计算目标策略下状态-动作对的概率比来对样本进行加权,从而在估计价值函数时能够减小偏差。
这种方法在实际应用中有着广泛的用途,尤其在处理连续动作空间和高维状态空间时具有重要意义。
除了重要性采样,行为策略网络也是一种常见的异策略学习方法。
在行为策略网络中,智能体会同时学习多个策略,并通过交替训练来提高目标策略的性能。
这种方法的优势在于能够在学习过程中灵活地调整策略,适应不同的环境和任务。
此外,行为策略网络还可以有效地处理探索-利用的平衡问题,从而提高智能体的学习效率和稳定性。
重要性加权策略梯度是另一种常用的异策略学习方法,在现代深度强化学习中得到了广泛应用。
该方法通过对目标策略下状态-动作对的重要性加权,来更新策略网络的参数,从而最大化预期回报。
重要性加权策略梯度能够有效地处理异策略学习中的偏差-方差权衡问题,从而提高学习的效率和稳定性。
在实际应用中,该方法已经在许多复杂环境和任务中取得了显著的成果,如AlphaGo等。
总的来说,强化学习算法中的异策略学习方法是一种重要的技术,它能够有效地提高学习的效率和稳定性。
重要性采样、行为策略网络和重要性加权策略梯度等方法在处理不同的环境和任务时具有各自的优势和特点,可以根据具体应用场景进行选择和组合。
随着深度学习和强化学习的不断发展和应用,异策略学习方法也将进一步完善和拓展,为智能体在复杂环境中学习最佳策略提供更多可能性。
决策树中熵的概念
决策树中熵的概念
熵是信息论中一个重要的概念,它在决策树中起着至关重要的作用。
在决策树中,熵可以用来衡量一个数据集的混乱程度,也可以用来评估一个特征对数据集进行划分的能力。
首先,我们来看看熵的定义。
在信息论中,熵可以被定义为一个系统的不确定性的度量。
在决策树中,我们可以将熵看作是数据集的混乱程度。
一个熵较高的数据集意味着其中包含的信息更加混乱,反之,熵较低的数据集意味着其中包含的信息更加有序。
通过计算数据集的熵,我们可以衡量数据集的不确定性程度,从而帮助我们选择最优的划分特征。
在决策树的构建过程中,我们通常会根据某个特征的取值将数据集划分成多个子集。
而我们希望找到的是能够最大程度地减少数据集的混乱程度的划分方式。
为了衡量一个特征的划分能力,我们可以使用信息增益来评估。
信息增益实际上就是用数据集的熵减去在特征A的条件下数据集的熵,即熵的减少量。
我们的目标就是找到能够使信息增益最大的特征,作为最优的划分特征。
通过计算信息增益,我们可以在决策树的构建过程中选择最优的划分特征,从而构建出一个更加有效的决策树模型。
熵的概念在决策树算法中扮演着至关重要的角色,它帮助我们理解数据集的混乱程度,指导我们选择最优的划分特征,提高决策树的分类准确度。
因此,熟练掌握熵的概念对于理解和运用决策树算法是非常重要的。
一种基于信息熵加权的属性约简算法
一种基于信息熵加权的属性约简算法
罗帆;蒋瑜
【期刊名称】《计算机应用研究》
【年(卷),期】2024(41)4
【摘要】针对现有邻域粗糙集模型中存在属性权重都相同,无法保证关键属性在属性约简时能够被保留的问题,提出了一种基于信息熵加权的属性约简算法。
首先,采用了类间熵、类内熵策略,以最大化类间熵最小化类内熵为原则给属性赋予权重;其次,构造了基于加权邻域关系的加权邻域粗糙集模型;最后,基于依赖关系评估属性子集的重要性,从而实现属性约简。
在基于UCI数据集上与其他三种属性约简算法进行对比实验,结果表明,该算法能够有效去除冗余,提高分类精度。
【总页数】5页(P1047-1051)
【作者】罗帆;蒋瑜
【作者单位】成都信息工程大学软件工程学院
【正文语种】中文
【中图分类】TP18
【相关文献】
1.基于距离加权模板约简和属性信息熵的增量SVM入侵检测算法
2.基于信息熵的一种属性约简算法
3.一种基于信息熵的混合数据属性加权聚类算法
4.一种基于条件信息熵的多目标代价敏感属性约简算法的研究
5.一种基于信息熵的信息系统属性约简算法
因版权原因,仅展示原文概要,查看原文内容请购买。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
往是不对等 的 , 为了能够在知识约简过程 中考虑到 学习样本的不对等性 , 提出 了基于加权熵 的知识 约简方法 。 针对 各类别样本 分布不均 匀的样本 重要性不对 等情况 , 了加强小类 样本所 蕴含的知识 在知识 约简 中的体 为 现 , 出一种逆 类概率加权的不对等样本加权方法 , 提 实验表 明该方法 能够 明显提高 小类样本 的分类正 确率 , 也 验证 了基于加权熵 的知识 约简方法能够将样本的不对等性体现在知识 约简结果 中。 关键词 : 糙集 ; 粗 知识 约简 ; 加权熵 ; 不对 等样本 中图分类号 : P 8 T 1 文献标识码 : A 文章编号 :0 16 0 ( 0 6 0— 0 80 1 0 —6 0 2 0 )40 3 —4
粗 糙集 理论 [是 一 种处 理不 精 确 、 1 ] 不确 定 和模 糊 知识 的软计 算 工 具 , 已被成 功 地 应用 于 数据 挖 掘 、 模 式识别 、 能信 息处理 等领域 [ , 智 2 并越 来越 引起 国际 学术 界 的关 注 。 ] 知识 约 简是粗 糙集 的核 心 问题 , 目前 已 提 出了大 量 的知识 约 简方法 [ 。 而 , 3 然 ] 目前 的各种 粗糙 集 知识 约简 方法 和规 则提 取方 法平 等对 待所 有样
问题 的方法 L 。 6 叫]
为了能够 在 知识 约简过 程 中体 现不 同样本 的重 要性 差 异 , 虑 样本 的 不对等 性 , 考 本文提 出了基于 加权
熵 的 知识 约 简方 法 。
1 加权 熵 的基 本 定 义 及 扩 展
为 了度量 一个 信 息源 的不确 定性 的量 ( 息量 ) 14 信 ,98年 S a nn提 出了信 息熵 的概念 [ 然而 , hno 。 信息 熵 在度量 信 息源不 确 定性 时仅考 虑事 件发 生 的客观 概率 , 无法 描 述 主观 意 义上对 事件 判断 的差别 。 了把 为 主观价 值和 主观 意义反 映 出来 , i uS引入 加权熵 的概 念[]其 定义 如下 : Gua s ,
f X X2 … , X , , ]
定义1 设一个信息源x, 引入事件的权重后, 其概率空间描述为X一{ ( ,(。, Px)} pX)Px )…,( ,
L ( 1 , ( ) … , ( ) w X ) W X2 , W X J
其 中 P x 为 事 件 X ( ) 的概率 , 足 P( ) 满 x ≥0且 P( ) , X 为 事 件 X x 一1w( ) 的权 重 , 足 w( ) 0 满 X ≥ ,
维普资讯
第2卷 4
第 4期
广西 师范大 学 学报 : 自然科 学版
Jun l f a g i r l ies y N trl c n eE io o ra o n x ma Unv ri : aua S i c dt n Gu No t e i
则信息 源 x 的加权 熵 HⅣ x) ( 定义 为 HⅣ x) ( 一一 w( ) x lg x 。 X, ( ) P( ) o
为 了能够 度量 引入 事 件权重 后 已知一个 信 息源 的情 况 下 另一 个 信 息源 的不 确 定性 的 量 ( 信息 量 )在 , 加 权熵概 念和 定 义的基 础上 , 我们 扩 展加权 熵 的定 义 , 出条 件 加权熵 和 联合 加权 熵 。 提 定 义 2 设 w( ) X 为事 件 x 的权 重 , w( 为 事 件 y 的 权重 , w( UY,为 事 件 x Uy, 设 Y) , 设 X ) 的权
Vo . 4 No 4 12 .
De 20 c. 06
20 0 6年 1 2月
基于加权熵 的重 要性 不对等样本学 习的知识 约简
刘 金福 ,究所 , 黑龙江 哈尔滨 1 0 0 ) 5 0 1
摘
要: 由于学 习样本的分布特性和所 反映的主观特性 的不 同, 每一个 样本 相对于学 习算 法的重要性 程度往
维普资讯
第 4期
刘金 福等 : 基于加权熵的重要性不对等样本学习的知识约简
定 义 3 设 ( ) 事 件 x x 为 的权重 , ( nY ) x 为事 件 x 事 件 y 的联 合 事 件 x ny 的权 重 , 和
(J ) y 为事件 x l 发生 的条 件下 事件 y 的权重 , 义 户( J ) ( Jx 一 定 y y ) l I 。
定义 3 给出了事件加权概率、 条件加权概率和联合加权概率三者的关系。
f x1 x2 ・ , x 1 , , ・ ・
重 xY 定事 xY 权 叫 fj 立 , j , 件 j 重 ( Y一 熹 当 n一 义 u 的 X . u)
收 稿 日期 :0 60— 1 2 0 —53
。
基金项 目: 国家 自然科 学基金 资助项 目( 0 00 3 ; 5 3 6 0 ) 哈尔滨工业大学基金 资助项 目( T2 O . 5 HI O 33 ) 作者简介 : 刘金福 ( 9 7 , , 1 7 一) 男 吉林 永吉人 , 哈尔滨工业大学 博士研 究生 。
本 , 有考虑 不 同 样本 之 间重要 性 的差 异 , 在 很 多实 际 问题 中 , 没 但 或者 由于分 布 不均 衡 、 噪声 、 误分 类 风 险
等原因, 样本 的重 要性 往往是 不 同 的 。 在学 习算 法 中考虑 样 本的 重要性 差 异 一直是 机 器学 习和数 据挖 掘所 关 注 的 问题 , 目前 已经提 出了许 多在 决 策树 、 持 向量机 、 支 神经 网络 等 学 习算 法 中处 理 样本 重要 性 不对 等