小样本学习-张长水
结合多尺度特征与掩码图网络的小样本学习
结合多尺度特征与掩码图网络的小样本学习董博文;汪荣贵;杨娟;薛丽霞【期刊名称】《计算机工程与应用》【年(卷),期】2022(58)16【摘要】对样本所含信息的提取能力决定网络模型进行小样本分类的效果,为了进一步提高模型挖掘信息的能力,提出一种结合多尺度特征与掩码图网络的小样本学习方法。
设计由1×1卷积、全局平均池化和跳跃连接组成的最小残差神经网络块,与卷积块拼接成特征提取器,以提取样本不同尺度的特征,并通过注意力机制将不同尺度特征融合;使用融合的多尺度特征构建包含结点与边特征的图神经网络,并在其中加入一个元学习器(meta-learner)用于生成边的掩码,通过筛选边特征来指导图结点聚类与更新,进一步强化样本特征;通过特征贡献度和互斥损失改进类在嵌入空间表达特征的求解过程,提升模型度量学习能力。
在MiniImagenet数据集上,该方法1-shot准确率为61.4%,5-shot准确率为78.6%,分别超过传统度量学习方法12.0个百分点与10.4个百分点;在Cifar-100数据集上分别提升9.7个百分点和6.0个百分点。
该方法有效提升了小样本学习场景下的模型分类准确率。
【总页数】12页(P111-122)【作者】董博文;汪荣贵;杨娟;薛丽霞【作者单位】合肥工业大学计算机与信息学院【正文语种】中文【中图分类】TP391.41【相关文献】1.基于小波尺度图重分配的轴承瞬态特征检测与提取2.一种结合多尺度特征图和环型关系推理的场景图生成模型3.广义精细复合多尺度样本熵与流形学习相结合的滚动轴承故障诊断方法4.面向小样本SAR图像识别的自注意力多尺度特征融合网络5.结合多尺度特征学习与特征对齐的行人重识别因版权原因,仅展示原文概要,查看原文内容请购买。
稀疏学习优化算法
实验结果 (1)
实验结果 (2)
实验结果 (3)
内容提纲
背景介绍 快速信赖域牛顿法 鲁棒多任务特征学习 多阶段多任务特征学习 迭代收缩阈值法快速求解非凸优化问题 总结和展望
非凸稀疏学习问题
与 可能是非凸的
2.5
2
1.5
1
L1
CapL1
LSP
0.5
MCP
SCAD
0
-10 -8 -6 -4 -2
直观解释二:分块坐标下降
共轭函数: 共轭的共轭:
g 是凹的且是闭函数
原优化问题:
等价形式:
分块坐标下降
直观解释二:分块坐标下降
分块坐标下降
加权系数
加权Lasso问题
收敛性分析
极限点存在吗?
有界,所以存在极限点
收敛定理
可再生性分析
加权Lasso 问题:
参数估计误差的界
多任务学习 (MTL)
共享信息
神经网络的隐层单元 贝叶斯模型的先验 分类权重向量 相似度量矩阵 低秩的子空间 一组特征 ……
多任务学习 (MTL)
Hale Waihona Puke 联合特征多任务学习示意图鲁棒多任务特征学习模型
学习共享特征+发现异常任务
P: 学习共享特征 Q: 发现异常任务 W: 权重矩阵
实验
逻辑回归中的信赖域步长问题:
其中
比较算法
多阶段共轭梯度 (MSCG) 梯度投影 (PG) 加速梯度投影 (APG)
所有的算法均是用 Matlab 来实现,实验是 在英特尔四核的处理器 (Intel(R) Core(TM)2 Quad CPU [Q6600 2.4GHz]),8G~内存的 个人 PC 机上运行。
第12章 统计学习与推理
生物信息学
Bioinformatics
第十二章:统计学习与推理
主讲人:王茂先
第一节 统计学习与推理基础
一、fisher经典参数统计理论
fisher把判别分析、回归分析和密度估计问题等表达 为特定参数化模型的参数估计问题,并提出了估计 所有模型未知参数的方法——最大似然法。
主讲人:王茂先
二、主成分分析
(一)基本原理
主成分分析(PCA)是把多个指标化为少数几个综 合指标的一种统计分析方法。
(二)分析步骤 1)原始数据的标准化 2)样本矩阵的相关系数矩阵 3)特征向量 4)选择主成分
主讲人:王茂先
三、Fisher判别
基于Fisher准则,判别的结果应使两组间别最大,使 每组内的离散性最小。确定线性判别函数
(四)计算二聚体个数 dimercount(mitochondria,chart,bar)
主讲人:王茂先
(五)计算密码子使用频率 codoncount(ntseq) (六)ORF分析 f=seqshoworfs(ntseq) (七)序列翻译 ND2AASeq=nt2aa(ND2Seq) (八)序列比对
主讲人:王茂先
四、芯片数据分析
主讲人:王茂先
其中, 为待求判别函数的系数。
第四节 贝叶斯推理
一、贝叶斯定理
二、朴素贝叶斯分类器
主讲人:王茂先
三、贝叶斯应用示例
第五节 隐马尔可夫模型
一、马尔可夫及隐马尔可夫模型
二、隐马尔可夫模型的数学描述
三、隐马尔可夫模型的三个基本问题及解决方案
1、评估问题及前向、后向算法 2、解码问题及Viterbi算法 3、学习问题及Baum-Welch算法
机器学习面临的挑战_张长水
中国科学院学部科学与技术前沿论坛信号与信息处理专刊中国科学:信息科学2013年第43卷第12期:1612–1623 机器学习面临的挑战张长水清华大学自动化系,智能科学与技术国家重点实验室,清华信息科学与技术国家实验室(筹),北京100084E-mail:zcs@收稿日期:2013–06–20;接受日期:2013–11–13国家重点基础研究发展计划(批准号:2013CB329503)和国家自然科学基金(批准号:91120301,61075004)资助项目摘要该文讨论了机器学习目前面临的几个挑战,包括:高维特征空间和数据量问题,大数据量的计算困难,寻求最优解的困难和可解释性差等问题.然后针对当前很多人关心的几个重要问题,例如大数据问题,深度学习,概率图模型等做了分析,以引起深入思考.关键词机器学习深度学习概率图模型大数据优化问题1引言过去的二十多年的时间里,机器学习的研究得到了快速发展,取得了一系列令人瞩目的研究成果,同时也面临很多的挑战.我们需要对机器学习的现状和面临的挑战进行探讨和梳理,以引起更深入的思考.2机器学习面临的挑战虽然机器学习取得了令人瞩目的成果,但是仍然面临很多困难和问题.下面列举其中的一些问题.2.1高维特征空间与样本数的不足在很多实际应用问题中,得到的特征维数是比较高的,有的甚至是非常高的.例如,在图像识别中如果提取SIFT 特征,特征维数是128维,如果提取其他特征,维数也往往是几十维,或者几百维.还有,在文本分类问题中,如果把每一个单词当作一个特征,特征的维数可能是几千维,或者上万维,这依赖于所使用的字典大小.下面以概率密度函数的估计为例讨论特征维数和所需要的样本之间的关系.对于一维的概率密度函数估计来说,通常在具有几十个以上的样本时可以得到一个比较好的函数估计,这是因为在每一个点附近应该有一定量的样本(也就是说,数据要具有一定的密度)才能得到好的估计结果.我们假设至少需要10个样本,这是一个保守的数字.如果要估计的是一个二维概率密度函数,就需要把二维空间等分成一些小网格,需要每一个小网格中有足够多的样本.因此,可能需要102=100个样本.当维数增加的时候,空间中小的格子的数量随维数的增加而指数上升.假设维数为d ,需要的样本数是10d .中国科学:信息科学第43卷第12期按照这种方法计算,在图像识别问题中,至少需要10100个样本,而在文本分类中,需要101000个以上的样本.可我们知道,这是不可能的一件事情.由于样本数不足导致了高维数据学习的困难,这个现象被称作“维数灾难”.维数灾难的核心问题是,高维函数实事上远比低维函数复杂,而我们对其还没有有效的方法进行分析.利用具体分类问题的先验知识,或者利用得到的训练数据,可能在一定程度上减少维数灾难带来的困难.例如,如果知道两组特征x和y之间是独立的,那么就有p(x,y)=p(x)p(y).(1)因此,对于p(x,y)的估计就可以通过分别对p(x)和p(y)估计来完成.由于单独的x或y的维数要小于它们联合在一起的(x,y)的维数,因此,所需要的样本数就会少很多.概率图模型[1]研究的就是如何利用随机变量之间的条件独立性对问题建模、学习、推理的理论、算法和应用.概率图模型在解决高维样本学习方面有很多贡献.另外,对实际问题中的数据分析表明,大量的实际问题的高维数据实际上嵌入在一个低维的流形上[2,3],也就是说,数据并没有充满整个高维空间.其主要原因就是各个特征之间存在很强的相关性.因此,实际上并不需要那么多的数据来估计概率密度函数.尽管如此,目前的研究表明,图像数据的本质维数至少有几十维,这对样本数的需求还是非常大的.上面讨论的维数对样本量的需求是以非参数概率密度函数估计为例.实际上,维数灾难不仅仅出现在概率密度函数的估计中,也存在于其他的学习问题中.上面谈到的特征独立和流形分布的知识同样有助于缓解在其他学习问题中遇到的维数灾难困难.2.2寻找最优解的困难目前很多的机器学习研究沿着这样的思路进行:把要解决的问题形式化为一个目标函数,然后通过优化这个目标函数达到对数据学习的目的.例如:支持向量机就是把要解决的两类分类问题形式化为最小化如下目标函数:f(w)=12w T w+CN∑i=1L(w,x i,y i).(2)其中x i,y i(i=1,...,N)是样本的特征和标签,N是样本个数,w是线性分类器的权向量,L是损失函数,C是折衷系数.当L是二次,或者一次函数时,函数f是一个凸函数,存在一个极值,可以通过凸优化算法寻优.我们要解决的实际问题非常复杂,将其形式化后的目标函数也非常复杂,往往在目前还不存在一个有效的算法能找到这样复杂目标函数的最优值.因此,需要通过一些优化技术寻找次优值.这样做通常有两个方面的问题存在,一个是所使用的优化技术可能非常复杂费时,效率很低;另一个是得到的局部极值可能距离我们希望的解很远,不能满足要求.机器学习领域中有一些优化问题具有一些特殊性.因此,有一些研究工作集中在如何求解这些优化问题以及分析所得到的解的性能分析.但是,为了解决机器学习领域的问题,研究针对性的有效优化算法是必要的.由于求解全局最优是非常困难的,所以,通常人们只是采用简单的局部极值求解算法,例如梯度下降方法.采用局部极值算法时,当算法的初值不同,得到的解也不同.而要优化的函数往往有非常多1613张长水:机器学习面临的挑战(可能成千上万,或者更多)的局部极值,通过算法得到的解只是其中一个.我们会关心下面的问题:这么多的局部极值都是我们所希望的解吗?如果不是,其中哪些局部极值是?如何得到这些解?另外,在对要解决的问题建模时,目标函数有时候只是一种“近似”的建模.例如:把要解决的问题形式化成优化下面的函数:f(w)=L(w)+C×r(w).(3)其中L(w)是损失函数,r(w)是正则项,C是折衷系数.目前经常使用的正则项有很多,例如:光滑性正则函数,稀疏性正则函数,函数复杂性正则函数.光滑性正则函数假设函数具有光滑性质;稀疏性正则函数假设要学习的模型具有稀疏性;函数复杂性正则函数则要求要学习的函数不能太复杂.这些正则函数的使用基础是假定所要研究的问题满足这样的条件.但是实际问题是否满足,在什么程度上满足这样的条件,我们并不知道.目标函数的这种“近似”性质,需要考虑下面这些问题,一定需要求解目标函数的全局最优值吗?局部极值(全部局部极值都)能满足要求吗?2.3可解释性差从上文的讨论中可知,机器学习领域里要解决的问题很难用一个容易优化的函数来建模.对于一个实际问题,可以构建不同的目标函数来表示要解决的同一个问题.这样,也就会得到很多不同的解.机器学习的另一个问题是得到的模型的可解释性差.可解释性是和实际应用密切相关的.机器学习在解决一些具体的问题时,需要领域的专家能够理解模型,能够理解“为什么”这个模型能够对未知样本做预测.例如,在分子生物学的蛋白质结构分析中,一个只在输入输出意义下对数据是正确的模型对于分子生物学家还远远不够.他们需要获得的模型在分子生物学意义下可解释.同时,由于所提供的训练数据是不充分的,机器学习还需要为他们提供进一步工作的线索和可能.他们需要的是可解释的数据理解工具或工具集.机器学习应该考虑模型对问题世界的可解释性.机器学习一直以来所遵循的“输入输出满足”原则对某些问题而言可能是远远不够了.正如上文所讨论的,在求解机器学习问题时可能得到多个解,如果使用“输入输出满足”原则,可能建立的多个模型获得多个解,则需要以对问题世界可解释性来分辨其优劣.大数据时代一书[4]强调了在大数据时代相关关系的发现和使用更为重要,而不应该那么追求因果关系.我认为,在某些商业领域他们这样做是对的.但是当我们关注科学问题时,情况就会不同.寻根溯源,或者说追求因果关系是科学研究的一个动力.关于因果关系和相关关系,马颂德老师给了意见:“因果关系是一个相对的概念”.对此的一个解释是:“牛顿看到苹果掉在地上,发现了万有引力定理,可以说发现了苹果掉在地上的因果关系.但也可以说,这是个相关关系,因为它没有说明万物之间为什么有引力.”可以说,大数据时代一书更强调相关关系,而我们的科学研究更强调因果性.就机器学习而言,因不同的应用问题不同,对因果关系的需求程度也是不同的.对于更商业化的应用问题,即在输入输出意义下对数据是正确的,可预测性非常重要.而对于更基础的科学研究问题而言,可解释性就更为重要.2.4大数据量的计算这里讨论的是数据量这样一个问题,而不是大数据时代一书中谈到的大数据问题.下文会讨论大数据问题.1614中国科学:信息科学第43卷第12期数据量大是机器学习在应用阶段面临的重要问题.实际上,在机器学习领域近些年一直关注这个问题,被称之为“大规模数据的学习”(large scale data learning,或big learning).在过去的十几年中,人们关注的更多的是好的机器学习算法的设计,学习算法的性能分析等,我们统称为学习理论和学习方法.这是因为当时有太多的问题需要研究和解决,而机器学习的突飞猛进,吸引了大部分研究人员的注意力,很多人沉浸在机器学习的理论方法研究的喜悦中.而当学习理论和学习方法都已经建立,几个有代表性的学习算法在实际问题中成功应用后,大规模数据的学习开始成为了一个受到关注的问题.大规模数据的学习之所以在近几年才开始受到关注,主要是因为实际中数据量很大.而十几年来发展起来的很多学习算法面临的一个尴尬就是:都很难用于大数据的学习,主要的问题是时间复杂性和空间复杂性.例如:当训练数据超过10000时,支持向量机算法代码(libsvm)因为内存不够而无法在一台普通的台式机上运行,即使扩大内存后,也需要几个小时才能完成训练.因此,不能想象训练数据是十万、百万量级下的支持向量机的学习(而libsvm计算复杂度是样本量的平方).类似的情况也出现在其他的一些机器学习算法中,如:EM算法、主成分分析、线性判别、聚类算法.因此,出现了一些工作来解决这个问题.其基本思路有下面几个:•快速算法.即与原算法等价的快速算法,类似于为傅里叶变换找到快速傅里叶变换的工作.这样的工作无疑是重要的,但是其存在加速极限.•近似算法.不是所有的算法都可以很容易找到和原算法等价的非常快速的算法.因为要求速度快,因此就考虑在牺牲很少的精确性的情况下寻找非常快速的(例如线性的,或者是亚线性的)算法.在这里牺牲精确度是很有必要.机器学习很多年以来一直在追求学习模型的泛化能力,但是,模型的泛化能力取决于很多因素,而不仅仅是学习算法.当样本数很大的时候,其带来的泛化能力的提高往往更有意义.而对于一些聚类问题而言,聚类问题通常只是用于所研究问题的一个阶段,其精度并没有那么重要.因此,这里牺牲精度就是一个自然的选择.当然,近似算法的设计也是存在加速极限.•增量学习和在线学习(incremental learning,online learning).这两种学习方式是在一些应用条件具备的情况下进行大数据量学习的一个解决方案.当需要解决的实际问题的数据是序贯到达的,就可以考虑增量学习和在线学习.增量学习和在线学习考虑的是,当新的样本到达时,是否可以对已经学习到的模型进行小的调整而达到学习的目的.这里的小意味着少的计算量.和增量学习一个重要的不同在于,在线学习要求的“小的调整”能够实时完成.有些算法本身的性质决定了可以比较容易设计出其增量学习算法,例如:感知器学习算法、EM算法等.而有的算法则难度更大些,例如:支持向量机、主成分分析.增量学习和在线学习近些年受到重视,这方面有些优秀的工作发表.•并行算法.利用更多的计算资源以解决大数据的学习问题.人们考虑过把机器学习算法进行各种并行方案的执行.例如:单机多核并行、GPU方案、多服务器方案等.一些大的计算机公司更关注这方面的工作.例如:有计算机公司曾设法把主成分分析、高斯混合模型的学习算法在1万台服务器上并行实现.这个的工作思路无疑是诱人的.但是由于通讯开销,各个计算单元之间的同步等问题的存在,并行算法这个方向的工作并没有那么理想的进展.其并行算法的计算能力并不能和所利用的服务器数量呈线性关系,甚至亚线性关系也达不到.更多的情况是,当服务器达到一定数量后,计算能力几乎不再增长,见图1.当然,已经有研究者着手解决这个问题.在大规模数据的计算方面有一些很好的研究工作发表.有些研究工作解决的问题非常吸引人,例如:如果训练数据不能一次放到内存怎么办?有些算法的加速结果很诱人.例如:把最大间隔聚类算法的原算法(计算复杂度O(n7),n是样本数)加速到O(sn)[5],s是高维数据的稀疏度.1615张长水:机器学习面临的挑战图1当前的机器学习算法能够学习的数据量和并行机器数量的关系.横轴表示并行机器的数据,纵轴表示可以处理的数据量.理想情况下,这是一个线性关系x=y,但实际上是另一曲线,即机器数目到达一定量后,可以处理的数据量几乎不再增长Figure1Relation between data handling capacity and number of parallel unit in a parallel machine learning system recently.In ideal conditions,it follows a linear relationship x=y,but actually the data-handling capacity hardly increases when parallel units achieve a certain number值得说明的是,并非数据量一定要非常大才叫做大数据的学习问题.从算法角度看,只要数据量大,解空间(模型空间、参数空间)就极其大.因此,做机器学习研究的人对大数据的体会更深,压力更大.3几个重要问题除了上面讨论的机器学习面临的挑战外,下面一些问题也很重要.3.1大数据大数据是当前一个热点问题[4].大数据涉及很多方面的研究,这包括:数据的获取、传输、存储、分析等.这里主要讨论大数据给机器学习的挑战和机遇.这里的所说的大数据主要是针对由于互联网等技术的发展而出现的大数据问题,而不仅仅是指数据量比较大(大数据量的学习已经在前面讨论过了).这里的“大数据”一词代表了:数据多,不够精确,数据混杂,自然产生等特点,这些都在文献[4]中做了总结.大数据给机器学习带来的问题不仅仅是因为数据量大而计算上非常困难,其带来的更大的困难在于:数据可能是在不同的服务器上获取的,这些分布在不同服务器上的数据之间存在某些联系,但是基本上不满足同分布的假设,而我们也不可能把所有数据集中起来进行处理和学习.经典的机器学习理论和算法要求数据是独立同分布的.当这个条件不满足时,这时我们的学习模型和学习算法怎么办?是修改算法从这些数据中学习,还是整理数据以适应目前的学习算法?这些服务器上的数据之间的关系如何建模和分析?另外,我们已经知道,在网络上获取的很多数据的分布通常会随着时间的推移发生变化(称之为演化数据,在网络的论坛中称之为概念漂移),这时我们的学习模型和学习算法怎么办?1616中国科学:信息科学第43卷第12期在数据分布发生变化时,数据的独立同分布的假设也不再满足,这时还有什么数学性质可以满足?如果不满足任何的数据性质或者可以利用的数学性质很少,其依赖的数学理论是什么?如何确定给出的模型和算法是可靠的,而不仅仅是实验室里的算法游戏呢?大数据除了给机器学习带来了计算上的困难和挑战外,也带来了一些好处.其中一个好处体现在数据多了以后,呈现出小数据情况下没有呈现出的现象,这被称之为“涌现”(emergence).实际上,1990年后曾经有几年人们很集中的研究过这个问题.人们发现:“微观”地了解每一个个体,并不能预测“宏观”的整体行为.例如:我们知道每个水分子的运动规律和运动方程,但是你无法知道水的沸腾是什么样子,沸腾的水是“涌现”出来的现象.在应用领域,研究人员曾经仅仅使用三条规则来描述一只鸟的飞行.这样当一群鸟的每一个个体都仅仅遵循这三条规则飞行时,就“涌现”出看到过的鸟在天空翱翔的景象.“涌现”一词很生动表达了这一含义.人们也做过很多类似的实验证明了这一点.因此,出现了被称之为群体智能(collective intelligence,wisdom of the crowd)这样的术语.当然,机器学习研究领域对此研究不多.大数据的另一个好处是:在某些应用条件下,数据变得稠密了.多年以来,因为很多众所周知的原因机器学习一直在研究小样本的学习问题.在实际中,分类器性能不够好的一个原因就是样本太少.理论上,我们知道在样本数趋于无穷的时候,很多算法具有很多良好的性质.实践中也有这样的体会,当样本数很多时,使用简单的模型往往能够取得好的泛化性能.而在大数据时代,当样本数量很大的时候,在样本空间的某些区域会出现稠密的现象,这些稠密的数据给分类器设计实际上提供了很多的信息.因此,在这些局部稠密区域,分类器的性能有可能接近理论上的极限性能.大数据的再一个好处是:大数据使得样本空间原来“空旷”的区域出现了样本,原来“稀疏”的区域变得不再稀疏,这在很大程度上为提高分类器性能提供了很好的数据基础.直观地说,就是数据本身的多样性能够更多的展现出来.例如:在语音识别问题中,大数据情况下,人们各种的发音习惯才能更多地体现出来;在图像识别中,大数据情况下,物体在不同情况(变形、光照、背景等变化)下的外观表现才更丰富.而这些数据的缺失很难通过建模和学习算法弥补,同时,这些数据也很难(可以说是不可能)通过专家、算法设计人员的设计来获取.因此数据产生的自发性就很重要.正是基于上面的原因,很多从事语音识别的研究人员希望在尽可能多的数据上进行训练:从几个小时,到几十个小时,到几百个小时,乃至几万个小时的语音数据;计算机视觉的研究人员也在尽可能多的收集和标注数据:从几万,到几十万,到Fei-Fei Li的八千万图像数据[6],到几百亿乃至几千亿的语音数据.八千万图像的ImageNet的建立是一个了不起的工作,然而这些数据对于计算机视觉的任务还远远不够.而事实上,Hinton在使用ImageNet图像进行物体识别[7]训练时,把每张图像进行了很多微小的变换(旋转、光照变化等)从而生成了比原图像多几倍,十几倍的训练数据情况下,识别率又提高了几个百分点.这充分说明了我们的训练数据在通常情况下还很不够.大数据时代数据的自发性导致了数据本身的不精确性.不精确意味着数据有错误.和传统的精确标注的数据相比,不精确是一个大问题.而实际上,对于不精确性的一个补偿就是大量的数据,由于数据量的巨大,这一问题变得没有那么严重,因为其中还有很多高质量的数据.在机器学习领域几乎没有对这种数据的不精确性做过工作.可能是因为统计机器学习方法已经对噪声进行了建模,这噪声也可以包含数据的不精确性.另外,针对某些实际应用中的不精确性很难建模,所以分析算法的性能就太困难.相比机器学习领域,数据挖掘领域对此有过一些研究工作.这些研究工作讨论了当标注数据存在错误时,是否能够构建好的分类器.基本结论是:当大部分标注数据是正确的时候,少数(小于50%)1617张长水:机器学习面临的挑战的错误标注样本对分类器的影响不大,错误标注数据的比例越小,分类器的准确性越高[8].当然,如果大部分标注样本存在错误时怎么办?对于某些具体的应用问题,当数据量很大的时候,可以有针对性地设计算法解决这个问题.我们曾经考虑一种特殊情况,在这种情况下,即使大部分标注数据是错误的,仍然可以设计出好的分类器[9].看起来不精确性对机器学习是个不利的方面,而实际上,它并非全是坏处.例如:在互联网上搜索时,百度和google会给出一些检索结果.当用户看到这些结果时,会点击其中的一条,然后也许会再点击另外一条.这些点击信息告诉我们,用户点击的第一条可能不是他要找的网页,或者第二条让他更满意.这些点击信息虽然没有明确做好网页和查询数据之间的标注,但是告诉我们一些可能的信息.这样的数据如果足够多,就有利用价值.一些研究组报告说,这些“弱标注”数据给他们的系统提供了很多有用的信息,而改进了他们的系统.混杂性是大数据的另一个特性,是因为数据是自发生成的而带来的一个特性.混杂性给我们提出的一个课题就是要把这些数据进行分离和整理,从而为进一步的机器学习做准备.这个过程是数据挖掘要完成的任务.3.2深度学习在上个世纪八十年代和九十年代,反向传播算法(BP算法)的出现使得人工神经网络的研究东山再起,得到了很大的重视和快速发展.然而经过几年的快速发展后,又迅速进入研究的低谷.2006年Hilton发现了深层神经网络的学习算法[10].这之后,人工神经网络又逐渐得到了重视,成为近年来的研究热点.人工神经网络的这次东山又起,以一个新的面貌出现:深度学习.这里的深度指网络的层数多.二十年前的神经网络研究的大多是三层的神经网络:一个输入层,一个隐含层,一个输出层.反向传播算法的出现让多层神经网络的学习成为可能.当时出现了很多令人振奋的研究成果,其中一个就是关于多层神经网络的表达能力的结果[11]:只含有一个隐层的前馈网络是一个通用的函数逼近器,在一定条件下,它可以逼近任何一个连续函数.这个结果说明有一个隐层的前馈网络对于表达非线性函数来说已经足够,当然这并不说明一个隐层是最好的.也有研究结果表明,要逼近相同输入维数的函数,两个隐层的网路可能比单个隐层的网络所需隐单元数要少得多.尽管如此,因学习算法不令人满意,很少有人使用两层以上的神经网络结构.大量的研究表明,反向传播算法严重过学习(overfitting).毫无疑问,反向传播算法是一个贪婪优化算法,其收敛到目标函数的一个局部极值.而目标函数是一个非凸的复杂的目标函数,存在大量的局部极值.看起来,其中很多的局部极值不是我们想要的结果,而我们又无法提前选择一个好的初值通过反向传播算法得到理想的局部极值.样本量太少也是导致神经网络严重过学习的一个重要原因.当时人们没有使用那么多样本有很多原因.一个是获取足够的样本的代价太高,另外,计算能力的不足也限制了人们对于大样本量学习的探索.因此,探讨一个以上的隐含层的学习的研究工作非常少,发表的一些研究工作也不让人乐观.而这次深度学习的出现是通过逐层学习的方式解决了多个隐含层神经网络的初值选择问题.图2给出的是一个具有三个隐含层的逐层监督学习示意图.不仅如此,研究工作表明,非监督数据在多个隐含层神经网络的初值学习中也起到了很重要的作用.这是一个很有意思的结果.在监督学习中,需要具有样本标号的监督数据.然而,获取大量标注的样本的代价过于昂贵.例如:语音信号数据库、图像数据库的建立工作都说明了这一点.但是,如果不要求数据是监督的,其数据获取代价就小得多.例如:获取大量的语音信号较为容易,因为每个人每天要说很多话,也可以从电视、广播中得到这些语音1618。
面向小样本学习的轻量化知识蒸馏
面向小样本学习的轻量化知识蒸馏
陈嘉言;任东东;李文斌;霍静;高阳
【期刊名称】《软件学报》
【年(卷),期】2024(35)5
【摘要】小样本学习旨在模拟人类基于少数样例快速学习新事物的能力,对解决样本匮乏情境下的深度学习任务具有重要意义.但是,在诸多计算资源有限的现实任务中,模型规模仍可能限制小样本学习的广泛应用.这对面向小样本学习的轻量化任务提出了现实的需求.知识蒸馏作为深度学习领域广泛使用的辅助策略,通过额外的监督信息实现模型间知识迁移,在提升模型精度和压缩模型规模方面都有实际应用.首先验证知识蒸馏策略在小样本学习模型轻量化中的有效性.并结合小样本学习任务的特点,针对性地设计两种新的小样本蒸馏方法:(1)基于图像局部特征的蒸馏方法;(2)基于辅助分类器的蒸馏方法.在miniImageNet和TieredImageNet数据集上的相关实验证明所设计的新的蒸馏方法相较于传统知识蒸馏在小样本学习任务上具有显著优越性.
【总页数】16页(P2414-2429)
【作者】陈嘉言;任东东;李文斌;霍静;高阳
【作者单位】南京大学计算机科学与技术系
【正文语种】中文
【中图分类】TP18
【相关文献】
1.基于知识蒸馏和深度可分离卷积的轴承故障轻量化诊断
2.多层次自适应知识蒸馏的轻量化高分遥感场景分类
3.面向高光谱影像场景分类的轻量化深度全局-局部知识蒸馏网络
4.融合自我知识蒸馏和卷积压缩的轻量化人体姿态估计方法
5.通道剪枝与知识蒸馏相结合的轻量化SAR目标检测
因版权原因,仅展示原文概要,查看原文内容请购买。
基于自监督聚类算法的小样本医学图像分类
基于自监督聚类算法的小样本医学图像分类
马修玉;何良华
【期刊名称】《电脑知识与技术:学术版》
【年(卷),期】2022(18)3
【摘要】基于深度学习的医学图像分析是智慧医疗的一个重要方向。
但是通常情况下,医学图像数据集数据量很小,而且由于医学图像的标注困难,耗费大量人力物力,所以带标签的训练数据很难获取。
如何使用极少的带标签数据和无标签的数据得到一个较好的网络模型是本文的主要研究内容。
该文提出基于深度聚类的自监督网络模型作为特征提取器,并且使用标签传播算法对特征进行分类,解决了只有极少量标签(例如1张,5张或者10张)即小样本情况下的医学图像分类问题,在BreakHis数据集上取得了比传统机器学习算法更好的效果,并且接近于全监督学习方法。
【总页数】3页(P78-80)
【作者】马修玉;何良华
【作者单位】同济大学电子与信息工程学院计算机科学与技术系
【正文语种】中文
【中图分类】TP311
【相关文献】
1.图像分类与聚类算法在医学图像挖掘中的应用
2.基于正样本和未标记样本的遥感图像分类方法
3.基于小波神经网络的医学图像分类方法
4.一种基于多示例学习的动态样本集半监督聚类算法
5.基于样本对元学习的小样本图像分类方法
因版权原因,仅展示原文概要,查看原文内容请购买。
一种基于免疫原理的多目标优化方法
一种基于免疫原理的多目标优化方法
梁瑞鑫;张长水
【期刊名称】《小型微型计算机系统》
【年(卷),期】2005(026)010
【摘要】借鉴生物免疫原理中抗体多样性产生及保持的机理,建立了一种多目标优化方法.该方法定义了多目标选择熵和浓度调节选择概率的概念,采用了抗体克隆选择策略和高度变异策略.最后采用四种典型的多目标优化函数,将本方法同几种常用的多目标遗传算法进行了比较研究,证明了所建立的基于免疫原理的多目标优化方法能有效解决多目标优化问题且具有一定的优越性.
【总页数】4页(P1770-1773)
【作者】梁瑞鑫;张长水
【作者单位】清华大学,自动化系,智能技术与系统国家重点实验室,北京,100084;清华大学,自动化系,智能技术与系统国家重点实验室,北京,100084
【正文语种】中文
【中图分类】TP18
【相关文献】
1.一种基于V网的RRC多目标重建功能优化方法 [J], 杨帆
2.一种基于粒子群算法的多目标子阵划分优化方法 [J], 胡尚坤;孙雨泽;杨小鹏;曾涛;龙腾
3.一种基于免疫原理的多目标组播路由算法 [J], 王江晴;覃俊
4.一种基于VSC-MTDC互联系统的多目标潮流优化方法 [J], 陈刚;区允杰;孙景涛
5.一种基于污染风险的地下水监测井网多目标优化方法 [J], 闫聪;林斯杰;邓泽政;杨庆;刘明柱
因版权原因,仅展示原文概要,查看原文内容请购买。
基于二阶统计量的小样本学习算法研究
基于二阶统计量的小样本学习算法研究作者:麻永田齐晶张秋实罗大为方建军来源:《北京联合大学学报》2021年第04期[摘要] 为了提高小样本学习的准确率和抗干扰能力,提出了一种基于二阶统计量的小样本学习模型,以CNN最后一层卷积输出的一阶特征向量为输入,通过计算协方差矩阵和二阶池化获得具有较高区分度的二阶统计量,采用奇异值(SVD)分解将二阶特征映射到低维仿射子空间并据此分类。
本算法在Omniglot和minilmageNet数据集上进行了测试,实验结果表明,在minilmageNet上的5-way 5-shot模型准确率达到了73.6%,比Prototypical Networks高出5.4%,在Omniglot上的20-way 1-shot模型准确率则获得了2.4%的提升,本算法性能优于Prototypical Networks等算法。
在异常值测试中,本算法也展现出比Matching Networks和Prototypical Networks算法更强的鲁棒性。
[关键词] 小样本学习;协方差矩阵;二阶统计量;低维仿射;SVD分解[中图分类号] TP 391.1 [文献标志码] A [文章编号] 1005-0310(2021)04-0073-06Research on Few-shot Learning Algorithm Based onSecond-order StatisticsMA Yongtian1, QI Jing2, ZHANG Qiushi 1, LUO Dawei 1, FANG Jianjun(1.College of Urban Rail Transit and Logistics, Beijing Union University, Beijing 100101, China;2.Tourism College,Beijing Union University, Beijing 100101, China)Abstract: To improve the accuracy and anti-interference ability of few-shot learning, this paper proposes afew-shot learning model based on second-order statistics. In the model, CNN is used to extract features and its output of the last convolutional layer is obtained to compute high-resolution second-order features by means of covariance matrix and second-order pooling operation. Meanwhile, the obtained second-order features are mapped to low-dimensional affine subspace by operating singular value decomposition (SVD) for classification. The proposed model is tested on Omniglot and minilmageNet datasets. The results reveal that the performance of the proposed model is better than other models including Prototypical Networks. The accuracy of the 5-way 5-shot model on minilmageNet dataset reaches up to 73.6%, which is 5.4% higher than Prototypical Networks. The 20-way 1-shot model on Omniglot dataset gets 2.4% accuracy improvement. As for outlier test,the proposed model also shows stronger robustness than those of Matching Networks and Prototypical Networks.Keywords: Few-shot learning;Covariance matrix;Second-order statistics;Low-dimensional affine;Singular value decomposition0 引言機器学习是一种需要大量数据驱动的科学方法,其相关研究已取得了很大成功。
基于参数结构的小样本分割模型
基于参数结构的小样本分割模型《我的奇妙科技之旅:基于参数结构的小样本分割模型》我呀,一直觉得这个世界充满了超级神奇的东西。
就像魔法一样,不过这魔法不是从魔杖里冒出来的,而是从那些聪明的科学家叔叔阿姨们的脑袋里蹦出来的。
今天呀,我要给大家讲一讲一个特别厉害的东西,那就是基于参数结构的小样本分割模型。
你们知道吗?在我们的生活里,有好多好多的东西需要被分类和分割呢。
比如说,在医院里,医生们要把病人身体里健康的部分和生病的部分分开,这样才能更好地治病。
再比如说,在动物园里,管理员叔叔阿姨们得把不同种类的动物分开管理,可不能把老虎和小兔子放在一起呀,那可就乱套啦!这时候呢,这个小样本分割模型就像一个超级智能的小助手。
我有个好朋友叫小明,他就特别好奇这个东西到底是怎么工作的。
有一天,我们俩坐在学校的大树下,就开始讨论起来啦。
“你说这个小样本分割模型,是不是就像我们玩拼图一样呢?”小明眼睛亮晶晶地问我。
我挠了挠头,想了想说:“嗯,有点像呢。
你看啊,拼图的时候,我们要根据每一块拼图的形状、颜色把它们放到正确的地方。
这个小样本分割模型也是,不过它不是看形状和颜色,而是根据那些参数结构。
”“参数结构?那是什么呀?”小明皱着眉头,有点迷糊了。
“哎呀,我也不是特别懂啦。
我觉得吧,就像是给每一个要分割的东西都编了一个特别的密码。
这个密码就是参数结构。
然后这个模型就像一个超级侦探,它根据这些密码,就能把东西分得清清楚楚。
”我一边比划一边说。
就像我们在画画课上,老师给我们不同颜色的彩笔,让我们把画里的天空、大地、花朵都涂上不同的颜色。
这个小样本分割模型也是在给不同的东西做标记,只不过它的标记方法可高级多啦。
我又跟小明说:“你想啊,如果我们要把一堆水果分成苹果、香蕉和橙子。
我们可能会根据它们的形状、颜色和味道来分。
这个小样本分割模型呢,就像是有一双超级眼睛,一下子就能看穿每个水果的‘本质’,然后把它们放到该放的地方。
”小明听了,拍了一下手说:“哇,好厉害啊!那这个东西在我们生活里还有什么用处呢?”“用处可多啦!”我兴奋地说。
融合扩充-双重特征提取应用于小样本学习
融合扩充-双重特征提取应用于小样本学习
杨振宇;胡新龙;崔来平;王钰;马凯洋
【期刊名称】《计算机系统应用》
【年(卷),期】2022(31)9
【摘要】小样本图片分类的目标是根据极少数带有标注的样本去识别该类别,其中两个关键问题是带标注的数据量过少和不可见类别(训练类别和测试类别的不一致).针对这两个问题,我们提出了一个新的小样本分类模型:融合扩充-双重特征提取模型.首先,我们引入了一个融合扩充机制(FE),这个机制利用可见类别样本中同一类别不同样本之间的变化规则,对支持集的样本进行扩充,从而增加支持集中的样本数量,使提取的特征更具鲁棒性.其次,我们提出了一种双重特征提取机制(DF),该机制首先利用基类的大量数据训练两个不同的特征提取器:局部特征提取器和整体特征提取器,利用两个不同的特征提取器对样本特征进行提取,使提取的特征更加全面,然后根据局部和整体特征对比,突出对分类影响最大的特征,从而提高分类准确性.在Mini-ImageNet和Tiered-ImageNet数据集上,我们的模型都取得了较好的效果.
【总页数】9页(P217-225)
【作者】杨振宇;胡新龙;崔来平;王钰;马凯洋
【作者单位】齐鲁工业大学(山东省科学院)计算机科学与技术学院
【正文语种】中文
【中图分类】TP3
【相关文献】
1.一种基于小波包样本熵和流形学习的故障特征提取模型
2.小波包样本熵的扬声器异常音特征提取方法
3.融合零样本学习和小样本学习的弱监督学习方法综述
4.基于样本扩充和特征融合自动编码机的肿瘤基因表达数据分类
5.基于小波包和样本熵的水泵机组振动特征提取
因版权原因,仅展示原文概要,查看原文内容请购买。
基于多模板匹配的自动人脸检测
基于多模板匹配的自动人脸检测
袁超;张长水
【期刊名称】《电子学报》
【年(卷),期】2000(028)003
【摘要】本文提出了正面人脸检测的一种新算法.不同于以往将人脸看作高维空间中的单一聚类的方法,本文提出,人脸在高维空间中以多聚类形式存在.并采用最优聚类的方法将人脸分为四个聚类.以每个聚类的中心为一个模板,通过基于马氏距离(Mahalanobis distance)的多模板匹配法,检测出图像中的人脸.实验结果表明,该方法优于基于单一聚类的方法.
【总页数】4页(P95-98)
【作者】袁超;张长水
【作者单位】清华大学自动化系,北京,100084;清华大学自动化系,北京,100084【正文语种】中文
【中图分类】TP391
【相关文献】
1.基于肤色模型与模板匹配的人脸检测探究 [J], 潘广全;王伟
2.一种基于肤色和模板匹配的人脸检测方法 [J], 卢绪军;赵勋杰
3.基于肤色信息和模板匹配的人脸检测与提取 [J], 邵虹;耿昊
4.一种基于压缩域模板匹配的快速人脸检测算法 [J], 王剑峰
5.一种基于肤色模型和模板匹配的人脸检测算法 [J], 顾伟;刘文杰;朱忠浩;许凯
因版权原因,仅展示原文概要,查看原文内容请购买。
神经网络学习初期的个人体会
神经网络学习初期的个人体会神经网络学习初期提示:第一步:看看入门书籍,对神经网络有个初步认识;第二步:掌握如下算法:1.感知机学习,这个较简单易懂,就不多说了.2.最小均方误差,这个原理是下面提到的神经网络学习算法的理论核心,入门者要先看《高等数学》(高等教育出版社,同济大学版)第8章的第十节:“最小二乘法”。
3.在第2步的基础上看Hebb学习算法、SOM和K-近邻算法,上述算法都是在最小均方误差基础上的改进算法,容易买到的参考书籍有:《神经网络原理》(机械工业出版社,Simon Haykin著,中英文都有);《人工神经网络与模拟进化计算》(清华大学出版社,阎平凡,张长水著);《模式分类》(机械工业出版社,Richard O. Duda等著,中英文都有);《神经网络设计》(机械工业出版社,Martin T. Hargan等著,中英文都有)。
4.ART(自适应谐振理论),该算法的最通俗易懂的读物就是《神经网络设计》(机械工业出版社,Martin T. Hargan等著,中英文都有)的第15和16章。
若看理论分析较费劲可直接编程实现一下16.2.7节的ART1算法小节中的算法.5.BP算法,初学者若对误差反传的分析过程理解吃力可先跳过理论分析和证明的内容,直接利用最后的学习规则编个小程序并测试,建议看《机器学习》(机械工业出版社,Tom M. Mitchell著,中英文都有)的第4章和《神经网络设计》(机械工业出版社,Martin T. Hargan 等著,中英文都有)的第11章。
第三步:在掌握上述算法的基础上看各种前馈网络、反馈网络、联想存储器、神经网络集成、模糊神经网络等技术就属于学习神经网络的高级阶段了,需要根据自己的研究和应用方向决定。
神经网络高级话题:神经网络研究的高级阶段是研究各种神经网络(包括多层感知器网络、径向基函数网络、概率神经网络、径向基概率神经网络、递归神经网络、光学神经网络、库仑能量网络、隐马尔科夫模型、模糊极大极小网络、模块神经网络、学习委员会机、ARTMAP网络、自适应共振理论(ART1-3)、自组织特征映射、联想记忆、主分量分析、独立分量分析、盲源分离、硬聚类和模糊聚类子空间理论、波尔兹曼机、神经认知机、统计学习理论、支撑矢量机、随机神经网络理论、EM算法、遗传与进化算法、增强学习理论、人工免疫算法、模拟退火算法)的数学理论、学习算法、模型和结构、推广能力、预测与逼近能力。
中小样本机器学习算法的特性分析与应用
中小样本机器学习算法的特性分析与应用
辛宪会;叶秋果;滕惠忠;郭思海;李军;张靓;韩晓宏
【期刊名称】《海洋测绘》
【年(卷),期】2007(27)3
【摘要】基于经典统计学的机器学习算法,在解决小样本学习问题时表现得不能令人满意.在总结分析小样本机器学习算法特点的基础上,以支持向量机(SVM)学习算法为例,定量分析了影响其泛化性能、学习性能的几个因素,实验结果与理论分析结论取得了良好的一致性;SVM用于解决KTH-TIPS纹理图像分类问题,取得了很好的实验结果.
【总页数】4页(P16-19)
【作者】辛宪会;叶秋果;滕惠忠;郭思海;李军;张靓;韩晓宏
【作者单位】海军海洋测绘研究所,天津,300061;海军海洋测绘研究所,天
津,300061;海军海洋测绘研究所,天津,300061;海军海洋测绘研究所,天津,300061;海军海洋测绘研究所,天津,300061;海军海洋测绘研究所,天津,300061;海军海洋测绘研究所,天津,300061
【正文语种】中文
【中图分类】TP79
【相关文献】
1.样本判决系数的样本特性研究 [J], 杨禄源;余妙志;翟静
2.基于WinDENDRO的木芯样本年轮宽度分析与应用 [J], 韩学利;张宇彤;孙帅超
3.机器学习算法用于公安一线拉曼实际样本采样学习及其准确度比较 [J], LI Zhi-hao;SHEN Jun;BIAN Rui-hua;ZHENG Jian
4.常态化疫情防控需要多举措保障中小企业健康发展——以张家港中小企业调查数据为样本 [J], 付辉辉
5.基于机器学习算法的中小企业信用评估研究 [J], 孙治河;张雷
因版权原因,仅展示原文概要,查看原文内容请购买。
融合多注意力机制的自监督小样本医学图像分割
融合多注意力机制的自监督小样本医学图像分割
要媛媛;刘宇航;程雨菁;彭梦晓;郑文
【期刊名称】《计算机工程与科学》
【年(卷),期】2024(46)3
【摘要】主流的基于全监督的深度学习分割模型在丰富的标记数据上训练时可以取得良好的效果,但医疗图像领域的图像分割存在标注成本高、分割目标种类多的问题,且往往缺少足够的标注数据。
提出一个模型,通过融合自监督从数据中提取标签,利用超像素表征图像特性,进行小样本标注条件下的图像分割。
引入多注意力机制使得模型更多关注图像的空间特征,位置注意模块和通道注意模块致力于单一图像内部的多尺度特征融合,而外部注意力模块显著突出了不同样本间的联系。
在CHAOS健康腹部器官数据集上进行实验,1-shot极端情况下DSC达0.76,相较baseline分割结果提升3%左右。
通过调整N-way-K-shot任务数来探讨小样本学习的意义,在7-shot设置下DSC有显著提升,与基于全监督的深度学习分割效果的差距在可接受范围内。
【总页数】9页(P479-487)
【作者】要媛媛;刘宇航;程雨菁;彭梦晓;郑文
【作者单位】太原理工大学计算机科学与技术学院(大数据学院);长治医学院山西省智能数据辅助诊疗工程研究中心
【正文语种】中文
【中图分类】TP391.41
【相关文献】
1.融合边缘增强注意力机制和U-Net网络的医学图像分割
2.基于注意力与金字塔融合的医学图像分割仿真
3.基于注意力机制的弱监督黑色素瘤图像分割研究
4.融合多尺度语义和剩余瓶颈注意力的医学图像分割
5.基于多尺度特征融合和注意力机制的医学图像分割网络
因版权原因,仅展示原文概要,查看原文内容请购买。
基于Hausdorff距离的签字验证问题
基于Hausdorff距离的签字验证问题
胡驰峰;张长水;李衍达
【期刊名称】《计算机应用》
【年(卷),期】2003(023)009
【摘要】签字验证是一种验证身份的重要方法,有着广泛的重要应用.Hausdorff距离是一种常用的距离度量,简单易行并且有效,研究了Hausdorff距离在汉字签字验证问题中的应用,同时研究了签字预处理过程中的角度矫正和汉字切分问题,在85人的签字数据上做了实验,识别率达到90%以上.
【总页数】3页(P45-46,49)
【作者】胡驰峰;张长水;李衍达
【作者单位】清华大学,自动化系,北京,100084;清华大学,自动化系,北京,100084;清华大学,自动化系,北京,100084
【正文语种】中文
【中图分类】TP391.41
【相关文献】
1.基于混合Hausdorff距离的多示例分类问题 [J], 郭晓蓉;柴晶
2.基于改进贝叶斯网络和Hausdorff距离的电网故障诊断 [J], 刘道兵;余梦奇;李世春;代祥
3.基于多维特征和Hausdorff距离的电压暂降治理成本估计 [J], 陆承宇;黄弘扬;徐群伟;何雨骏;汪颖
4.基于时间滑窗的混合Hausdorff距离航迹关联算法 [J], 李寅龙;张天舒
5.基于Hausdorff距离的漏电流故障监测方法 [J], 牟浩东;王敬华;方善忠;王鹏玮;赵卫斌
因版权原因,仅展示原文概要,查看原文内容请购买。
实验探究活动中学生探究能力精细化评价策略
实验探究活动中学生探究能力精细化评价策略
常耘;张晓亚
【期刊名称】《教育论坛》
【年(卷),期】2016(0)2
【摘要】一、有效探究活动与探究能力评价的内涵倡导探究式学习是新课程标准的基本理念之一。
《普通高中新课程标准》中有关“能力目标”部分把科学探究能力目标分为6个方面,在评价建议部分明确提出从多个侧面评价学生的探究能力。
在实际的教学活动中,实验探究活动主要的开展形式有探究实验课和课外研究性学习两种。
无论是教材设计的实验探究还是课外研究性学习活动中进行的实验探究,其主旨都是为了培养学生的科学探究能力。
【总页数】2页(P21-22)
【关键词】学生探究能力;探究活动;评价策略;实验课;研究性学习活动;精细化;科学
探究能力;新课程标准
【作者】常耘;张晓亚
【作者单位】平顶山市第一中学,河南平顶山467000
【正文语种】中文
【中图分类】G633.8
【相关文献】
1.实验探究活动中探究能力精细化评价策略 [J], 张晓亚
2.探究高中物理实验教学中学生自主探究能力的培养策略 [J], 夏秋梅
3.乡村初中数学课堂活动中学生方程建模能力培养和评价策略的探究 [J], 王怀文
4.探究高中物理实验教学中学生自主探究能力的培养策略 [J], 杨金庸
5.探究高中物理实验教学中学生自主探究能力的培养策略 [J], 杨金庸
因版权原因,仅展示原文概要,查看原文内容请购买。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
小样本学习
2019-07-10
张长水清华大学自动化系
大眼睛实验室:
机器学习方法及其应用研究
研究方向:
•流形学习
•半监督学习
•基于间隔的学习
•多任务学习
•稀疏学习
•机器学习中的优化方法
•深度学习
•/Introduction.html •/2002.html
Deep Learning Needs a lot of Data
•Many samples
基于深度学习的交通标识识别
•实际应用
•参与中国“智能车未来挑战赛”
•无人车的一个子系统
•单张图片识别率:99.5%
路上标识识别
箭头、斑马线、停车线、
车道线
识别率:99.49%
Image Recognition
Labeling
•Crowd sourcing
图片截自12306网站
Image Recognition Data Capture
Semi-Supervised Learning •Supervised Learning
•
Unsupervised Learning
()()()1111j i t t i
ij j i x N x t t
f w f y f Wf y αααα+∈+=+−=+−∑()
()()()()0111011lim 1t t i t i t t f y
f W y W y f I W y ααααα−−+=−→∞
==+−=−−∑
Applications:Color Transfer and Background Replacment
Multi-Instance Learning
An example:
Positive bags: {1,2,3}, {2,3,7,8}, {2,6,9}
Negative bags: {3,5,6,7}
Through Multi-instance learning,
Learned Concept:{2}
Active learning
Looking for valuable data to learn.
SVM is used as a method for active learning. Version space
Multi-Label Learning
◼City
◼Street
◼Building
Annotation:
City
Car, Building, Road,
Human, Tree
City
road car building
Co-Training
•Classifier 1: content based •Classifier 2: link based
C1
C2
Others
•Sparse Learning
•Low Rank
•Transfer Learning
混叠图像分离
欠定分离
带复杂材质
真实混叠图像
分离淡入淡出图像
Few-shot Learning
◼Goal
☐A few-shot learner is expected to reach good generalization ability on novel classes by several samples per class.
Dual TriNet(ECCV2018)
Idea:Augment visual features produced by multiple layers of ResNet in semantic space(by adding noises into semantic features randomly).
Prototypical Networks(NIPS2017)☐Idea:learn a metric space in which classification can be performed by computing distances to prototype representations of each class
☐Prototype representation for each class:
☐Decision rule:
MAML(ICML2017)
☐Idea:Learn a set of good initial weights whereby the few-shot learner can reach well generalization performance within a few weight update steps on several support samples
☐meta-objective:
Image Recognition Data Capture
Our papers
•2004: ICML
•2006: ICML, CVPR
•2007: AAAI, SIGIR, CVPR, AISTATS
•2008: AAAI(3), CVPR, SIGKDD,T-KDE, T-Multimedia, T-NN, PR(5), T-PAMI(2)•2009: CVPR, IJCAI(3), T-PAMI,PR(2)
•2010: T-PAMI,PR(2)
•2011: PR
•2012: SIGKDD,NIPS
•2014: UAI
•2017: T-PAMI
•2018: NeurIPS, PR, T-NNLS。