把人骑马变成人牵着马,这篇,CVPR2020论文实现语义级别图像修改
DeepLabv3plus-IRCNet小目标特征提取的图像语义分割
E-mail:***********.cn中国图象图形学报391 Website: journal of image and graphicsTel:************©中国图象图形学报版权所有中图法分类号:TP309文献标识码:A文章编号:1006-8961(2021)02-0391-11论文引用格式:Liu W,Wang H R and Zhou B J.2021.DeepLabv3plus-IRCNet:an image semantic segmentation method for small target feature extraction.Journal of Image and Graphics,26(02):0391-0401(刘文,王海荣,周北京.2021.DeepLabv3plus-IRCNet:小目标特征提取的图像语义分割.中国图象图形学报,26(02):0391-0401)[D0I:10.11834/jig.190576]DeepLabv3plus-IRCNet:小目标特征提取的图像语义分割刘文,王海荣,周北京北方民族大学计算机科学与工程学院,银川750021摘要:目的为了解决经典卷积神经网络无法满足图像中极小目标特征提取的准确性需求问题,本文基于Dee-P Labv3plus算法,在下采样过程中引入特征图切分模块,提岀了DeepLabv3plus-IRCNet(IR为倒置残差(invertedresidual,C为特征图切分(feature map cut))图像语义分割方法,支撑图像极小目标的特征提取。
方法采用由普通卷积层和多个使用深度可分离卷积的倒置残差模块串联组成的深度卷积神经网络提取特征,当特征图分辨率降低到输入图像的1/16时,引入特征图切分模块,将各个切分特征图分别放大,通过参数共享的方式提取特征。
然后,将每个输出的特征图进行对应位置拼接,与解码阶段放大到相同尺寸的特征图进行融合,提高模型对小目标物体特征的提取能力。
应用人工智能技术的图像语义识别研究
应用人工智能技术的图像语义识别研究随着人工智能技术的不断发展,图像语义识别也得到了越来越广泛的应用。
其实图像语义识别的概念并不新鲜,早在数十年前,人们就开始研究利用计算机自动进行图像识别。
但是,这项技术的突破发生在近些年,人工智能技术的不断革新为图像语义识别赋予了更多可能性。
图像语义识别,顾名思义,就是通过计算机算法实现对图像的理解和描述。
这项技术在现代生活中应用广泛,其应用范围涉及图像搜索、视频监控、自动驾驶、医疗诊断、智能家居等领域。
举例来说,当你上传一张自己拍摄的照片到社交媒体上时,该平台可以利用图像语义识别技术识别出照片中的物体或场景,并为该照片添加标签,便于其他用户更好地搜索和发现这张照片。
那么,如何实现图像语义识别呢?这里介绍几种常用的图像语义识别技术:1.深度学习技术深度学习技术是当前最流行的图像语义识别技术之一。
其核心思想是模仿人类大脑神经元之间的联结,构建多层神经网络,通过对海量数据的训练,从而实现对图像的语义识别。
深度学习技术的优点在于能够实现高精度的图像识别和分类,而且其应用范围非常广泛。
2.模板匹配技术模板匹配技术是图像处理中的一种基础方法,其主要思想是将预定义的模板和待识别的图像进行匹配计算,找出与模板最相似的图像区域,并输出其坐标。
模板匹配技术虽然比较简单,但其识别效果和鲁棒性较差,只适用于特定场景下的图像语义识别应用。
3.特征提取技术特征提取技术是对图像进行特征提取的一种方法。
在特征提取的过程中,通过计算图像中每个像素点的梯度和边缘信息,提取出图像的局部特征和全局特征,并通过特征匹配实现对图像的语义识别。
特征提取技术适用于不同场景下的图像语义识别,但其存在一定的计算复杂度和识别误差。
总的来说,应用人工智能技术的图像语义识别研究已经取得了很大的进展,但是其仍然面临着一些挑战。
例如,在图像语义识别时如何准确识别和理解图像中的对象、场景和情感等,是当前亟待解决的问题。
未来随着人工智能技术的不断发展,图像语义识别技术将得到更广泛的应用,也将会有更多的问题需要解决。
人工智能仿人脑技术论文
人工智能仿人脑技术论文人工智能仿人脑技术是当今科技领域中最为前沿和活跃的研究领域之一。
随着计算能力的提升和算法的不断优化,人工智能正逐渐逼近甚至在某些领域超越人类智能。
本文将探讨人工智能仿人脑技术的发展现状、面临的挑战以及未来的发展趋势。
引言人类大脑是自然界最复杂的信息处理系统,其结构和功能至今仍然是科学家们研究的热点。
人工智能仿人脑技术旨在模仿大脑的工作原理,以期达到或超越人类智能。
这一技术的发展不仅对科学研究具有重要意义,同时也对医疗、教育、工业自动化等多个领域产生了深远的影响。
人工智能仿人脑技术的发展现状人工智能技术的发展经历了从规则驱动到数据驱动的转变。
早期的人工智能系统依赖于预设的规则和逻辑,而现代的人工智能则更多地依赖于机器学习和深度学习技术,这些技术能够从大量数据中自动学习和提取模式。
深度神经网络(DNN)是模仿人脑神经元连接的一种网络结构,它在图像识别、语音识别等领域取得了显著的成果。
仿人脑技术的挑战尽管人工智能取得了巨大的进步,但要完全模仿人脑仍面临着许多挑战。
首先,人脑的工作原理远比我们目前所理解的要复杂得多。
大脑的神经网络结构、神经元的连接方式以及信号传递机制等,都是目前研究的重点。
其次,人脑具有极高的能效比,而现有的人工智能系统在处理相同任务时往往需要消耗更多的能量。
此外,人脑具有强大的自适应和泛化能力,而目前的人工智能系统在面对未知情况时往往表现不佳。
神经形态计算为了更好地模仿人脑,科学家们提出了神经形态计算的概念。
神经形态计算是一种模拟大脑神经元和突触行为的计算方式,它试图通过硬件和软件的结合来实现对人脑的模拟。
与传统的冯·诺依曼架构不同,神经形态计算系统具有分布式存储和并行处理的特点,这使得它们在处理复杂问题时更加高效。
人工智能与认知科学人工智能的发展与认知科学的研究密切相关。
认知科学是研究人类认知过程的跨学科领域,它包括心理学、神经科学、人工智能等多个学科。
当ChatGPT和Stablediffusion碰撞:谷歌用人类反馈提升文生图效果
当ChatGPT和Stablediffusion碰撞:谷歌用人类反馈提升文生图效果ChatGPT的主要成功要归结于采用RLHF(Reinforcement Learning from Human Feedback)来精调语言大模型。
近日谷歌AI 团队将类似的思路用于文生图大模型:基于人类反馈(Human Feedback)来精调Stable Diffusion模型来提升生成效果。
目前的文生图模型虽然已经能够取得比较好的图像生成效果,但是很多时候往往难以生成与输入文本精确匹配的图像,特别是在组合图像生成方面。
为此,谷歌最新的论文Aligning Text-to-Image Models using Human Feedback提出了基于人类反馈的三步精调方法来改善这个问题。
首先第一步是收集人类反馈数据。
这里首先基于预训练好的文生图模型(这里采用stable diffusion v1.5)在一系列预定义好的文本上生成图像,然后让人类去进行打分,论文里主要是为了改善文本和图像的对齐能力,所以只采用了简单的二分制:如果生成的图像与文本很好地对齐就是好(1),反之就是差(0)。
论文中所设计的文本主要包含三个方面:计数(count)、颜色(color)以及背景(background),在这三个方面原始stable diffusion模型往往表现较差,设计的文本是包含单个方面以及它们的组合,共27528个图像,具体如下所示:第二步是学习一个奖励函数(reward function)。
这里基于第一步收集的人类反馈数据训练一个预测人类评分的奖励函数:给定生成的图像和输入的文本,预测生成图像的评分。
这里所设计的模型采用CLIP来提取图像和文本的特征,然后两个特征拼接在一起送入一个2层MLP模型进行评分预测,采用MSE损失来进行训练。
除了MSE 损失外,论文还设计一种辅助任务(prompt classification)来作为一种数据增强来提升奖励函数的泛化能力。
视觉和文本领域的跨模态算法
视觉和文本领域的跨模态算法全文共四篇示例,供读者参考第一篇示例:视觉和文本领域的跨模态算法是近年来人工智能领域中备受关注的一个课题。
随着计算机视觉和自然语言处理技术的不断发展,研究者们开始探索将这两个领域结合起来,通过跨模态算法实现视觉与文本之间的有效交互与融合。
跨模态算法的发展为许多领域提供了新的可能性,如图像标注、图像检索、视频内容分析等。
在本文中,我们将详细介绍视觉和文本领域的跨模态算法的原理、方法和应用。
一、跨模态算法的基本概念跨模态算法是指将不同领域的信息进行融合和交互,实现跨模态数据之间的有效转换和学习。
在视觉和文本领域中,跨模态算法可以实现图像和文本之间的相互关联和推理,从而为未来智能系统的发展提供技术支持。
在跨模态算法中,通常会涉及到视觉和文本之间的特征提取、表示学习、匹配与融合等过程。
1. 特征提取:在跨模态算法中,视觉和文本数据通常会通过特征提取的方式将数据转换为机器可识别的表示形式。
对于视觉数据,可以通过卷积神经网络(CNN)等深度学习方法提取图像的特征;对于文本数据,可以采用词袋模型(Bag of Words)等方法进行文本特征的提取。
2. 表示学习:得到数据的特征表示后,跨模态算法会尝试学习不同数据模态之间的关联和共享信息。
通过表示学习的过程,算法可以发现图像和文本之间的相关性和相似性,为后续的任务提供支持。
3. 匹配与融合:跨模态算法会通过匹配与融合的方式将不同数据模态之间的信息进行整合。
通过匹配和融合的过程,算法可以实现视觉与文本之间的内容对齐、情感融合等任务,为图像标注、图像检索等应用提供支持。
二、视觉和文本领域的跨模态算法1. 图像标注:图像标注是指通过文本描述的方式为图像内容添加语义标签。
跨模态算法可以将图像的视觉信息与文本的语义信息进行融合,实现图像标注的自动化过程。
在图像标注任务中,跨模态算法可以通过图像特征与文本特征的匹配与融合,将图像与对应的语义标签进行关联。
基于人工智能的图像风格迁移技术
基于人工智能的图像风格迁移技术人工智能技术日益普及,图像风格迁移技术正是其中的一项重要应用。
基于人工智能的图像风格迁移技术不仅可以实现图像的风格转移,还可以实现图像内容的改变。
本文将从技术基础、算法原理、应用场景等角度详细介绍基于人工智能的图像风格迁移技术。
一、技术基础1.1 人工神经网络人工神经网络是一种计算机模型,模拟人脑神经元的工作方式,通过训练和学习来实现分类、预测等任务。
人工神经网络在图像风格迁移技术中起着重要的作用,其通过对图像的特征进行提取和组合,实现图像风格转移和内容修改。
1.2 卷积神经网络卷积神经网络是一种基于人工神经网络模型的深度学习算法,主要应用于图像处理和计算机视觉领域,具有较高的识别和分类能力。
卷积神经网络通过多个卷积层、池化层等进行图像特征提取和组合,将图像的信息转化为一些有用的特征,进一步实现图像风格迁移。
1.3 同态滤波同态滤波是一种基于傅里叶变换的图像处理技术,主要用于增强图像的对比度和逆光效果。
同态滤波可以将图像进行频域转换,去除噪声和干扰,实现图像风格迁移。
二、算法原理2.1 风格迁移网络风格迁移网络是一种基于卷积神经网络的图像风格迁移方法,主要通过计算输入图像与参考图像的特征差值,实现输入图像的样式转化。
该方法主要由两个神经网络构成,一个是内容网络,用于提取图像的内容特征,另一个是风格网络,用于提取参考图像的风格特征。
在训练过程中,将输入图像分别输入到内容网络和风格网络,实现输入图像与参考图像的特征提取和组合,得到一张经过风格转化的新图像。
2.2 对抗生成网络对抗生成网络是一种基于博弈论的生成模型,用于生成新颖的数据。
该方法主要由两个神经网络组成,一个是生成器,用于生成新数据,另一个是判别器,用于判断新数据是否真实。
在训练过程中,生成器逐渐学习生成真实的数据,而判别器逐渐学习判断生成的数据是否真实。
最终,生成器可以生成接近于真实数据的新图像,实现图像风格迁移。
基于生成式对抗网络的画作图像合成方法
收稿日期:2020 03 14;修回日期:2020 05 06 基金项目:国家自然科学基金资助项目(91746107) 作者简介:赵宇欣(1995 ),女,山西晋中人,硕士研究生,主要研究方向为机器学习、深度学习、计算机视觉(zhaoyuxin_alice@tju.edu.cn);王冠(1992 ),女,内蒙古呼伦贝尔人,博士研究生,主要研究方向为深度学习、数学物理反问题.基于生成式对抗网络的画作图像合成方法赵宇欣,王 冠(天津大学数学学院,天津300354)摘 要:画作图像合成旨在将两个不同来源的图像分别作为前景和背景融合在一起,这通常需要局部风格迁移。
现有算法过程繁琐且耗时,不能做到实时的图像合成。
针对这一缺点,提出了基于生成式对抗网络(generativeadversarialnet,GAN)的前向生成模型(PainterGAN)。
PainterGAN的自注意力机制和U Net结构控制合成过程中前景的语义内容不变。
同时,对抗学习保证逼真的风格迁移。
在实验中,使用预训练模型作为PainterGAN的生成器,极大地节省了计算时间和成本。
实验结果表明,比起已有方法,PainterGAN生成了质量相近甚至更好的图像,生成速度也提升了400倍,在解决局部风格迁移问题上是高质量、高效率的。
关键词:图像风格迁移;生成对抗网络;图像合成;自注意力机制中图分类号:TP391 41 文献标志码:A 文章编号:1001 3695(2021)04 047 1208 04doi:10.19734/j.issn.1001 3695.2020.03.0082PainterlyimagecompositionbasedongenerativeadversarialnetZhaoYuxin,WangGuan(SchoolofMathematics,TianjinUniversity,Tianjin300354,China)Abstract:Painterlyimagecompositingaimstoharmonizeaforegroundimageinsertedintoabackgroundpainting,whichisdonebylocalstyletransfer.Thechiefdrawbackoftheexistingmethodsisthehighcomputationalcost,whichmakesreal timeoperationdifficult.Toovercomethisdrawback,thispaperproposedafeed forwardmodelbasedongenerativeadversarialnet work(GAN),calledPainterGAN.PainterGANintroducedaself attentionnetworkandaU Nettocontrolthesemanticcontentinthegeneratedimage.Meanwhile,adversariallearningguaranteedafaithfultransferofstyle.PainterGANalsointroducedapre trainednetworkwithinthegeneratortoextractfeatures.ThisallowedPainterGANtodramaticallyreducetraining timeandstorage.Experimentsshowthat,comparedtostate of artmethods,PainterGANgeneratedimageshundredsoftimesfasterwithcomparableorsuperiorquality.Therefore,itiseffectiveandefficientforlocalstyletransfer.Keywords:imagestyletransfer;GAN;imagecompositing;self attention0 引言图像合成属于图像变换问题,目的是通过模型将一个简单的粘贴合成图像转变成一个融合为一体的图像。
cvpr关于image-caption的文章
CVPR(计算机视观视觉与模式识别会议)是计算机视觉领域的顶级会议之一,每年都会吸引来自全球的顶尖学者和研究人员汇聚一堂,共享最前沿的研究成果和技术进展。
其中,关于image-caption的研究一直备受关注。
本文将针对CVPR关于image-caption的相关文章展开深入探讨。
1. Image-Caption的概念和背景Image-Caption技术是计算机视觉与自然语言处理领域的交叉点,旨在实现对图像内容的理解和描述生成。
通过将图像转化为自然语言的描述,使得机器能够更好地理解图像内容,从而实现更智能化的人机交互。
在过去的几年中,随着深度学习和神经网络技术的不断进步,Image-Caption技术也取得了长足的发展。
2. CVPR关于Image-Caption的研究现状在CVPR会议上,关于Image-Caption的研究成果涵盖了多个方面,主要集中在图像理解、文本生成、模型融合等方面。
研究者们通过深度学习技术,提出了一系列创新的模型和算法,不断提升着Image-Caption的准确度和流畅度。
一些研究还探索了多模态融合的方法,将图像和文本信息有机地结合起来,从而进一步提升了Image-Caption的效果。
3. 个人观点和理解在我个人看来,CVPR关于Image-Caption的研究不仅仅是技术层面的创新,更是对人类智能的一次挑战。
通过让机器能够像人类一样“看图说话”,我们不仅能够深入理解图像背后的内容,还能够探索人类智能的本质。
我对这一领域的研究充满期待,相信未来会有更多令人惊艳的成果涌现。
4. 总结和回顾CVPR关于Image-Caption的研究已经取得了长足的进展,同时也为人工智能技术的发展开辟了新的思路。
通过不懈地努力和探索,相信在不久的将来,Image-Caption技术将会实现更加令人满意的效果,为智能化应用带来更大的便利和创新。
通过对CVPR关于Image-Caption的相关文章展开深入探讨,我对这一领域的研究有了更清晰的认识,也加深了对人工智能技术的发展方向的理解和期待。
conceptual caption论文
论文地址:【cvpr2020】Normalized and Geometry-Aware Self-Attention Network for Image Captioning
作者:Longteng Guo, Jing Liu, Xinxin Zhu, Peng Yao, Shichen Lu, Hanqing Lu
何为“the internal covariate shift”?(文中涉及的一个概念,论文中也有解释)
深度神经网络涉及到很多层的叠加,而每一层的参数更新会导致上层的输入数据分布发生变化,通过层层叠加,高层的输入分布变化会非常剧烈,这就使得高层需要不断去重新适应底层的参数更新。
为了训好模型,我们需要非常谨慎地去设定学习率、初始化权重、以及尽可能细致参数更新策略。
Google 将这一现象总结为 Internal Covariate Shift,简称 ICS.
所以ICS是什么呢?将每一层的输入作为一个分布看待,由于底层的参数随着训练更新,导致相同的输入分布得到的输出分布改变了。
采用的解决方法有:白化和正则化。
《2024年基于生成式方法的蒙汉机器翻译研究》范文
《基于生成式方法的蒙汉机器翻译研究》篇一一、引言随着人工智能技术的不断发展,机器翻译已成为自然语言处理领域的研究热点。
蒙汉机器翻译作为中西方文化交流的桥梁,对于促进民族文化和语言的传播具有重要意义。
本文旨在研究基于生成式方法的蒙汉机器翻译,以提高翻译的准确性和效率。
二、蒙汉机器翻译的研究现状目前,蒙汉机器翻译主要采用基于规则和统计的方法。
这些方法虽然取得了一定的成果,但仍存在一些问题,如翻译结果不够准确、语义理解不足等。
随着深度学习和自然语言处理技术的不断发展,基于生成式方法的蒙汉机器翻译逐渐成为研究热点。
三、生成式方法在蒙汉机器翻译中的应用生成式方法是一种基于深度学习的翻译方法,其核心思想是利用神经网络模型对源语言和目标语言进行建模,从而实现自动翻译。
在蒙汉机器翻译中,生成式方法可以有效地解决传统方法中语义理解不足的问题。
具体而言,该方法通过大量语料训练神经网络模型,使模型学习到蒙汉两种语言的语法、词汇和语义等知识。
在翻译过程中,模型根据源语言的输入自动生成目标语言的输出,从而实现自动翻译。
四、模型设计与实现本文采用基于注意力机制的序列到序列(Seq2Seq)模型作为蒙汉机器翻译的生成式方法。
该模型由编码器、解码器和注意力机制三部分组成。
编码器负责将蒙文输入序列编码成固定长度的向量表示,解码器则根据该向量表示生成汉文输出序列。
注意力机制则用于在解码过程中对输入序列的不同部分进行加权,从而提高翻译的准确性和语义理解能力。
在实现过程中,我们首先收集了大量的蒙汉平行语料,并对语料进行了预处理和清洗。
然后,我们使用深度学习框架(如TensorFlow或PyTorch)构建了Seq2Seq模型,并使用Adam等优化算法对模型进行训练。
在训练过程中,我们采用了大量的技巧和手段,如批量归一化、dropout等,以提高模型的泛化能力和鲁棒性。
五、实验结果与分析我们使用测试集对模型进行了评估,并与传统的基于规则和统计的蒙汉机器翻译方法进行了对比。
CVPR2020几篇论文内容点评:目标检测跟踪,人脸表情识别,姿态估计,实例分割等
CVPR2020⼏篇论⽂内容点评:⽬标检测跟踪,⼈脸表情识别,姿态估计,实例分割等CVPR 2020⼏篇论⽂内容点评:⽬标检测跟踪,⼈脸表情识别,姿态估计,实例分割等CVPR 2020中选论⽂放榜后,最新开源项⽬合集也来了。
本届CPVR共接收6656篇论⽂,中选1470篇,“中标率”只有22%,堪称⼗年来最难的⼀届。
⽬标检测论⽂题⽬:Bridging the Gap Between Anchor-based and Anchor-free Detection via Adaptive Training Sample Selection本⽂⾸先指出了基于锚点检测与⽆锚点检测的本质区别,在于如何定义正、负训练样本,从⽽导致两者之间的性能差距。
研究⼈员提出了⼀种⾃适应训练样本选择 (ATSS),根据对象的统计特征⾃动选择正样本和负样本。
它显著地提⾼了基于锚点和⽆锚点探测器的性能,并弥补了两者之间的差距。
最后,还讨论了在图像上每个位置平铺多个锚点来检测⽬标的必要性。
论⽂地址:https:///abs/1912.02424代码:⽬标跟踪论⽂题⽬:MAST: A Memory-Augmented Self-supervised Tracker这篇论⽂提出了⼀种密集的视频跟踪模型 (⽆任何注释),在现有的基准上⼤⼤超过了之前的⾃监督⽅法(+15%),并实现了与监督⽅法相当的性能。
⾸先通过深⼊的实验,重新评估⽤于⾃监督训练和重建损失的传统选择。
其次,通过使⽤⼀个重要的内存组件来扩展架构,从⽽进⼀步改进现有的⽅法。
⽽后,对⼤规模半监督视频对象分割进⾏了基准测试,提出了⼀种新的度量⽅法:可泛化 (generalizability)。
论⽂地址:https:///abs/2002.07793代码:https:///zlai0/MAST实例分割论⽂题⽬:PolarMask: Single Shot Instance Segmentation with Polar Representation本⽂提出了PolarMask⽅法,是⼀种single shot的实例分割框架。
CVPR2020papers
CVPR2020papers # CVPR2020-Code**【推荐阅读】****【CVPR 2020 论⽂开源⽬录】**- [CNN](#CNN)- [图像分类](#Image-Classification)- [视频分类](#Video-Classification)- [⽬标检测](#Object-Detection)- [3D⽬标检测](#3D-Object-Detection)- [视频⽬标检测](#Video-Object-Detection)- [⽬标跟踪](#Object-Tracking)- [语义分割](#Semantic-Segmentation)- [实例分割](#Instance-Segmentation)- [全景分割](#Panoptic-Segmentation)- [视频⽬标分割](#VOS)- [超像素分割](#Superpixel)- [交互式图像分割](#IIS)- [NAS](#NAS)- [GAN](#GAN)- [Re-ID](#Re-ID)- [3D点云(分类/分割/配准/跟踪等)](#3D-PointCloud)- [⼈脸(识别/检测/重建等)](#Face)- [⼈体姿态估计(2D/3D)](#Human-Pose-Estimation)- [⼈体解析](#Human-Parsing)- [场景⽂本检测](#Scene-Text-Detection)- [场景⽂本识别](#Scene-Text-Recognition)- [特征(点)检测和描述](#Feature)- [超分辨率](#Super-Resolution)- [模型压缩/剪枝](#Model-Compression)- [视频理解/⾏为识别](#Action-Recognition)- [⼈群计数](#Crowd-Counting)- [深度估计](#Depth-Estimation)- [6D⽬标姿态估计](#6DOF)- [⼿势估计](#Hand-Pose)- [显著性检测](#Saliency)- [去噪](#Denoising)- [去⾬](#Deraining)- [去模糊](#Deblurring)- [去雾](#Dehazing)- [特征点检测与描述](#Feature)- [视觉问答(VQA)](#VQA)- [视频问答(VideoQA)](#VideoQA)- [视觉语⾔导航](#VLN)- [视频压缩](#Video-Compression)- [视频插帧](#Video-Frame-Interpolation)- [风格迁移](#Style-Transfer)- [车道线检测](#Lane-Detection)- ["⼈-物"交互(HOI)检测](#HOI)- [轨迹预测](#TP)- [运动预测](#Motion-Predication)- [光流估计](#OF)- [图像检索](#IR)- [虚拟试⾐](#Virtual-Try-On)- [HDR](#HDR)- [对抗样本](#AE)- [三维重建](#3D-Reconstructing)- [深度补全](#DC)- [语义场景补全](#SSC)- [图像/视频描述](#Captioning)- [线框解析](#WP)- [数据集](#Datasets)- [其他](#Others)- [不确定中没中](#Not-Sure)<a name="CNN"></a># CNN**Exploring Self-attention for Image Recognition****Improving Convolutional Networks with Self-Calibrated Convolutions****Rethinking Depthwise Separable Convolutions: How Intra-Kernel Correlations Lead to Improved MobileNets**<a name="Image-Classification"></a># 图像分类**Interpretable and Accurate Fine-grained Recognition via Region Grouping****Compositional Convolutional Neural Networks: A Deep Architecture with Innate Robustness to Partial Occlusion** **Spatially Attentive Output Layer for Image Classification**<a name="Video-Classification"></a># 视频分类**SmallBigNet: Integrating Core and Contextual Views for Video Classification**<a name="Object-Detection"></a># ⽬标检测**Overcoming Classifier Imbalance for Long-tail Object Detection with Balanced Group Softmax****AugFPN: Improving Multi-scale Feature Learning for Object Detection****Noise-Aware Fully Webly Supervised Object Detection****Learning a Unified Sample Weighting Network for Object Detection****D2Det: Towards High Quality Object Detection and Instance Segmentation****Dynamic Refinement Network for Oriented and Densely Packed Object Detection****Scale-Equalizing Pyramid Convolution for Object Detection****Revisiting the Sibling Head in Object Detector****Scale-equalizing Pyramid Convolution for Object Detection****Detection in Crowded Scenes: One Proposal, Multiple Predictions****Instance-aware, Context-focused, and Memory-efficient Weakly Supervised Object Detection****Bridging the Gap Between Anchor-based and Anchor-free Detection via Adaptive Training Sample Selection****BiDet: An Efficient Binarized Object Detector****Harmonizing Transferability and Discriminability for Adapting Object Detectors****CentripetalNet: Pursuing High-quality Keypoint Pairs for Object Detection****Hit-Detector: Hierarchical Trinity Architecture Search for Object Detection****EfficientDet: Scalable and Efficient Object Detection**<a name="3D-Object-Detection"></a># 3D⽬标检测**SESS: Self-Ensembling Semi-Supervised 3D Object Detection****Associate-3Ddet: Perceptual-to-Conceptual Association for 3D Point Cloud Object Detection****What You See is What You Get: Exploiting Visibility for 3D Object Detection****Learning Depth-Guided Convolutions for Monocular 3D Object Detection****Structure Aware Single-stage 3D Object Detection from Point Cloud****IDA-3D: Instance-Depth-Aware 3D Object Detection from Stereo Vision for Autonomous Driving****Train in Germany, Test in The USA: Making 3D Object Detectors Generalize****MLCVNet: Multi-Level Context VoteNet for 3D Object Detection****3DSSD: Point-based 3D Single Stage Object Detector**- CVPR 2020 Oral**Disp R-CNN: Stereo 3D Object Detection via Shape Prior Guided Instance Disparity Estimation****End-to-End Pseudo-LiDAR for Image-Based 3D Object Detection****DSGN: Deep Stereo Geometry Network for 3D Object Detection****LiDAR-based Online 3D Video Object Detection with Graph-based Message Passing and Spatiotemporal Transformer Attention** **PV-RCNN: Point-Voxel Feature Set Abstraction for 3D Object Detection****Point-GNN: Graph Neural Network for 3D Object Detection in a Point Cloud**<a name="Video-Object-Detection"></a># 视频⽬标检测**Memory Enhanced Global-Local Aggregation for Video Object Detection**<a name="Object-Tracking"></a># ⽬标跟踪**SiamCAR: Siamese Fully Convolutional Classification and Regression for Visual Tracking****D3S -- A Discriminative Single Shot Segmentation Tracker****ROAM: Recurrently Optimizing Tracking Model****Siam R-CNN: Visual Tracking by Re-Detection****Cooling-Shrinking Attack: Blinding the Tracker with Imperceptible Noises****High-Performance Long-Term Tracking with Meta-Updater****AutoTrack: Towards High-Performance Visual Tracking for UAV with Automatic Spatio-Temporal Regularization****Probabilistic Regression for Visual Tracking****MAST: A Memory-Augmented Self-supervised Tracker****Siamese Box Adaptive Network for Visual Tracking**## 多⽬标跟踪**3D-ZeF: A 3D Zebrafish Tracking Benchmark Dataset**<a name="Semantic-Segmentation"></a># 语义分割**FDA: Fourier Domain Adaptation for Semantic Segmentation****Super-BPD: Super Boundary-to-Pixel Direction for Fast Image Segmentation**- 论⽂:暂⽆**Single-Stage Semantic Segmentation from Image Labels****Learning Texture Invariant Representation for Domain Adaptation of Semantic Segmentation****MSeg: A Composite Dataset for Multi-domain Semantic Segmentation****CascadePSP: Toward Class-Agnostic and Very High-Resolution Segmentation via Global and Local Refinement****Unsupervised Intra-domain Adaptation for Semantic Segmentation through Self-Supervision****Self-supervised Equivariant Attention Mechanism for Weakly Supervised Semantic Segmentation****Temporally Distributed Networks for Fast Video Segmentation****Context Prior for Scene Segmentation****Strip Pooling: Rethinking Spatial Pooling for Scene Parsing****Cars Can't Fly up in the Sky: Improving Urban-Scene Segmentation via Height-driven Attention Networks** **Learning Dynamic Routing for Semantic Segmentation**<a name="Instance-Segmentation"></a># 实例分割**D2Det: Towards High Quality Object Detection and Instance Segmentation****PolarMask: Single Shot Instance Segmentation with Polar Representation****CenterMask : Real-Time Anchor-Free Instance Segmentation****BlendMask: Top-Down Meets Bottom-Up for Instance Segmentation****Deep Snake for Real-Time Instance Segmentation****Mask Encoding for Single Shot Instance Segmentation**<a name="Panoptic-Segmentation"></a># 全景分割**Video Panoptic Segmentation****Pixel Consensus Voting for Panoptic Segmentation****BANet: Bidirectional Aggregation Network with Occlusion Handling for Panoptic Segmentation**<a name="VOS"></a># 视频⽬标分割**A Transductive Approach for Video Object Segmentation****State-Aware Tracker for Real-Time Video Object Segmentation****Learning Fast and Robust Target Models for Video Object Segmentation****Learning Video Object Segmentation from Unlabeled Videos**<a name="Superpixel"></a># 超像素分割**Superpixel Segmentation with Fully Convolutional Networks**<a name="IIS"></a># 交互式图像分割**Interactive Object Segmentation with Inside-Outside Guidance**<a name="NAS"></a># NAS**AOWS: Adaptive and optimal network width search with latency constraints****Densely Connected Search Space for More Flexible Neural Architecture Search****MTL-NAS: Task-Agnostic Neural Architecture Search towards General-Purpose Multi-Task Learning****FBNetV2: Differentiable Neural Architecture Search for Spatial and Channel Dimensions****Neural Architecture Search for Lightweight Non-Local Networks****Rethinking Performance Estimation in Neural Architecture Search****CARS: Continuous Evolution for Efficient Neural Architecture Search**<a name="GAN"></a># GAN**SEAN: Image Synthesis with Semantic Region-Adaptive Normalization****Reusing Discriminators for Encoding: Towards Unsupervised Image-to-Image Translation****Distribution-induced Bidirectional Generative Adversarial Network for Graph Representation Learning****PSGAN: Pose and Expression Robust Spatial-Aware GAN for Customizable Makeup Transfer****Semantically Mutil-modal Image Synthesis****Unpaired Portrait Drawing Generation via Asymmetric Cycle Mapping****Learning to Cartoonize Using White-box Cartoon Representations****GAN Compression: Efficient Architectures for Interactive Conditional GANs****Watch your Up-Convolution: CNN Based Generative Deep Neural Networks are Failing to Reproduce Spectral Distributions** <a name="Re-ID"></a># Re-ID**High-Order Information Matters: Learning Relation and Topology for Occluded Person Re-Identification****COCAS: A Large-Scale Clothes Changing Person Dataset for Re-identification**- 数据集:暂⽆**Transferable, Controllable, and Inconspicuous Adversarial Attacks on Person Re-identification With Deep Mis-Ranking****Pose-guided Visible Part Matching for Occluded Person ReID****Weakly supervised discriminative feature learning with state information for person identification**<a name="3D-PointCloud"></a># 3D点云(分类/分割/配准等)## 3D点云卷积**PointASNL: Robust Point Clouds Processing using Nonlocal Neural Networks with Adaptive Sampling****Global-Local Bidirectional Reasoning for Unsupervised Representation Learning of 3D Point Clouds****Grid-GCN for Fast and Scalable Point Cloud Learning****FPConv: Learning Local Flattening for Point Convolution**## 3D点云分类**PointAugment: an Auto-Augmentation Framework for Point Cloud Classification**## 3D点云语义分割**RandLA-Net: Efficient Semantic Segmentation of Large-Scale Point Clouds****Weakly Supervised Semantic Point Cloud Segmentation:Towards 10X Fewer Labels****PolarNet: An Improved Grid Representation for Online LiDAR Point Clouds Semantic Segmentation****Learning to Segment 3D Point Clouds in 2D Image Space**## 3D点云实例分割PointGroup: Dual-Set Point Grouping for 3D Instance Segmentation## 3D点云配准**Feature-metric Registration: A Fast Semi-supervised Approach for Robust Point Cloud Registration without Correspondences** **D3Feat: Joint Learning of Dense Detection and Description of 3D Local Features****RPM-Net: Robust Point Matching using Learned Features**## 3D点云补全**Cascaded Refinement Network for Point Cloud Completion**## 3D点云⽬标跟踪**P2B: Point-to-Box Network for 3D Object Tracking in Point Clouds**## 其他**An Efficient PointLSTM for Point Clouds Based Gesture Recognition**<a name="Face"></a># ⼈脸## ⼈脸识别**CurricularFace: Adaptive Curriculum Learning Loss for Deep Face Recognition****Learning Meta Face Recognition in Unseen Domains**## ⼈脸检测## ⼈脸活体检测**Searching Central Difference Convolutional Networks for Face Anti-Spoofing**## ⼈脸表情识别**Suppressing Uncertainties for Large-Scale Facial Expression Recognition**## ⼈脸转正**Rotate-and-Render: Unsupervised Photorealistic Face Rotation from Single-View Images**## ⼈脸3D重建**AvatarMe: Realistically Renderable 3D Facial Reconstruction "in-the-wild"****FaceScape: a Large-scale High Quality 3D Face Dataset and Detailed Riggable 3D Face Prediction** <a name="Human-Pose-Estimation"></a># ⼈体姿态估计(2D/3D)## 2D⼈体姿态估计**TransMoMo: Invariance-Driven Unsupervised Video Motion Retargeting****HigherHRNet: Scale-Aware Representation Learning for Bottom-Up Human Pose Estimation****The Devil is in the Details: Delving into Unbiased Data Processing for Human Pose Estimation****Distribution-Aware Coordinate Representation for Human Pose Estimation**## 3D⼈体姿态估计**Cascaded Deep Monocular 3D Human Pose Estimation With Evolutionary Training Data****Fusing Wearable IMUs with Multi-View Images for Human Pose Estimation: A Geometric Approach** **Bodies at Rest: 3D Human Pose and Shape Estimation from a Pressure Image using Synthetic Data** **Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image Synthesis****Compressed Volumetric Heatmaps for Multi-Person 3D Pose Estimation****VIBE: Video Inference for Human Body Pose and Shape Estimation****Back to the Future: Joint Aware Temporal Deep Learning 3D Human Pose Estimation****Cross-View Tracking for Multi-Human 3D Pose Estimation at over 100 FPS**<a name="Human-Parsing"></a># ⼈体解析**Correlating Edge, Pose with Parsing**<a name="Scene-Text-Detection"></a># 场景⽂本检测**STEFANN: Scene Text Editor using Font Adaptive Neural Network****ContourNet: Taking a Further Step Toward Accurate Arbitrary-Shaped Scene Text Detection****UnrealText: Synthesizing Realistic Scene Text Images from the Unreal World****ABCNet: Real-time Scene Text Spotting with Adaptive Bezier-Curve Network****Deep Relational Reasoning Graph Network for Arbitrary Shape Text Detection**<a name="Scene-Text-Recognition"></a># 场景⽂本识别**SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition****UnrealText: Synthesizing Realistic Scene Text Images from the Unreal World****ABCNet: Real-time Scene Text Spotting with Adaptive Bezier-Curve Network****Learn to Augment: Joint Data Augmentation and Network Optimization for Text Recognition**<a name="Feature"></a># 特征(点)检测和描述**SuperGlue: Learning Feature Matching with Graph Neural Networks**<a name="Super-Resolution"></a># 超分辨率## 图像超分辨率**Closed-Loop Matters: Dual Regression Networks for Single Image Super-Resolution****Learning Texture Transformer Network for Image Super-Resolution****Image Super-Resolution with Cross-Scale Non-Local Attention and Exhaustive Self-Exemplars Mining****Structure-Preserving Super Resolution with Gradient Guidance****Rethinking Data Augmentation for Image Super-resolution: A Comprehensive Analysis and a New Strategy** ## 视频超分辨率**TDAN: Temporally-Deformable Alignment Network for Video Super-Resolution****Space-Time-Aware Multi-Resolution Video Enhancement****Zooming Slow-Mo: Fast and Accurate One-Stage Space-Time Video Super-Resolution**<a name="Model-Compression"></a># 模型压缩/剪枝**DMCP: Differentiable Markov Channel Pruning for Neural Networks****Forward and Backward Information Retention for Accurate Binary Neural Networks****Towards Efficient Model Compression via Learned Global Ranking****HRank: Filter Pruning using High-Rank Feature Map****GAN Compression: Efficient Architectures for Interactive Conditional GANs****Group Sparsity: The Hinge Between Filter Pruning and Decomposition for Network Compression**<a name="Action-Recognition"></a># 视频理解/⾏为识别**Oops! Predicting Unintentional Action in Video****PREDICT & CLUSTER: Unsupervised Skeleton Based Action Recognition****Intra- and Inter-Action Understanding via Temporal Action Parsing****3DV: 3D Dynamic Voxel for Action Recognition in Depth Video****FineGym: A Hierarchical Video Dataset for Fine-grained Action Understanding****TEA: Temporal Excitation and Aggregation for Action Recognition****X3D: Expanding Architectures for Efficient Video Recognition****Temporal Pyramid Network for Action Recognition**## 基于⾻架的动作识别**Disentangling and Unifying Graph Convolutions for Skeleton-Based Action Recognition**<a name="Crowd-Counting"></a># ⼈群计数<a name="Depth-Estimation"></a># 深度估计**BiFuse: Monocular 360◦ Depth Estimation via Bi-Projection Fusion****Focus on defocus: bridging the synthetic to real domain gap for depth estimation****Bi3D: Stereo Depth Estimation via Binary Classifications****AANet: Adaptive Aggregation Network for Efficient Stereo Matching****Towards Better Generalization: Joint Depth-Pose Learning without PoseNet**## 单⽬深度估计**On the uncertainty of self-supervised monocular depth estimation****3D Packing for Self-Supervised Monocular Depth Estimation****Domain Decluttering: Simplifying Images to Mitigate Synthetic-Real Domain Shift and Improve Depth Estimation** <a name="6DOF"></a># 6D⽬标姿态估计**PVN3D: A Deep Point-wise 3D Keypoints Voting Network for 6DoF Pose Estimation****MoreFusion: Multi-object Reasoning for 6D Pose Estimation from Volumetric Fusion****EPOS: Estimating 6D Pose of Objects with Symmetries****G2L-Net: Global to Local Network for Real-time 6D Pose Estimation with Embedding Vector Features**<a name="Hand-Pose"></a># ⼿势估计**HOPE-Net: A Graph-based Model for Hand-Object Pose Estimation****Monocular Real-time Hand Shape and Motion Capture using Multi-modal Data**<a name="Saliency"></a># 显著性检测**JL-DCF: Joint Learning and Densely-Cooperative Fusion Framework for RGB-D Salient Object Detection****UC-Net: Uncertainty Inspired RGB-D Saliency Detection via Conditional Variational Autoencoders**<a name="Denoising"></a># 去噪**A Physics-based Noise Formation Model for Extreme Low-light Raw Denoising****CycleISP: Real Image Restoration via Improved Data Synthesis**<a name="Deraining"></a># 去⾬**Multi-Scale Progressive Fusion Network for Single Image Deraining****Detail-recovery Image Deraining via Context Aggregation Networks**<a name="Deblurring"></a># 去模糊## 视频去模糊**Cascaded Deep Video Deblurring Using Temporal Sharpness Prior**<a name="Dehazing"></a># 去雾**Domain Adaptation for Image Dehazing****Multi-Scale Boosted Dehazing Network with Dense Feature Fusion**<a name="Feature"></a># 特征点检测与描述**ASLFeat: Learning Local Features of Accurate Shape and Localization**<a name="VQA"></a># 视觉问答(VQA)**VC R-CNN:Visual Commonsense R-CNN**<a name="VideoQA"></a># 视频问答(VideoQA)**Hierarchical Conditional Relation Networks for Video Question Answering**<a name="VLN"></a># 视觉语⾔导航**Towards Learning a Generic Agent for Vision-and-Language Navigation via Pre-training** <a name="Video-Compression"></a># 视频压缩**Learning for Video Compression with Hierarchical Quality and Recurrent Enhancement** <a name="Video-Frame-Interpolation"></a># 视频插帧**AdaCoF: Adaptive Collaboration of Flows for Video Frame Interpolation****FeatureFlow: Robust Video Interpolation via Structure-to-Texture Generation****Zooming Slow-Mo: Fast and Accurate One-Stage Space-Time Video Super-Resolution** **Space-Time-Aware Multi-Resolution Video Enhancement****Scene-Adaptive Video Frame Interpolation via Meta-Learning****Softmax Splatting for Video Frame Interpolation**<a name="Style-Transfer"></a># 风格迁移**Diversified Arbitrary Style Transfer via Deep Feature Perturbation****Collaborative Distillation for Ultra-Resolution Universal Style Transfer**<a name="Lane-Detection"></a># 车道线检测**Inter-Region Affinity Distillation for Road Marking Segmentation**<a name="HOI"></a># "⼈-物"交互(HOT)检测**PPDM: Parallel Point Detection and Matching for Real-time Human-Object Interaction Detection****Detailed 2D-3D Joint Representation for Human-Object Interaction****Cascaded Human-Object Interaction Recognition****VSGNet: Spatial Attention Network for Detecting Human Object Interactions Using Graph Convolutions**<a name="TP"></a># 轨迹预测**The Garden of Forking Paths: Towards Multi-Future Trajectory Prediction****Social-STGCNN: A Social Spatio-Temporal Graph Convolutional Neural Network for Human Trajectory Prediction** <a name="Motion-Predication"></a># 运动预测**Collaborative Motion Prediction via Neural Motion Message Passing****MotionNet: Joint Perception and Motion Prediction for Autonomous Driving Based on Bird's Eye View Maps**<a name="OF"></a># 光流估计**Learning by Analogy: Reliable Supervision from Transformations for Unsupervised Optical Flow Estimation**<a name="IR"></a># 图像检索**Evade Deep Image Retrieval by Stashing Private Images in the Hash Space**<a name="Virtual-Try-On"></a># 虚拟试⾐**Towards Photo-Realistic Virtual Try-On by Adaptively Generating↔Preserving Image Content**<a name="HDR"></a># HDR**Single-Image HDR Reconstruction by Learning to Reverse the Camera Pipeline**<a name="AE"></a># 对抗样本**Enhancing Cross-Task Black-Box Transferability of Adversarial Examples With Dispersion Reduction****Towards Large yet Imperceptible Adversarial Image Perturbations with Perceptual Color Distance**<a name="3D-Reconstructing"></a># 三维重建**Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images in the Wild****Multi-Level Pixel-Aligned Implicit Function for High-Resolution 3D Human Digitization****Implicit Functions in Feature Space for 3D Shape Reconstruction and Completion**<a name="DC"></a># 深度补全**Uncertainty-Aware CNNs for Depth Completion: Uncertainty from Beginning to End**<a name="SSC"></a># 语义场景补全**3D Sketch-aware Semantic Scene Completion via Semi-supervised Structure Prior**<a name="Captioning"></a># 图像/视频描述**Syntax-Aware Action Targeting for Video Captioning**<a name="WP"></a># 线框解析**Holistically-Attracted Wireframe Parser**<a name="Datasets"></a># 数据集**OASIS: A Large-Scale Dataset for Single Image 3D in the Wild****STEFANN: Scene Text Editor using Font Adaptive Neural Network****Interactive Object Segmentation with Inside-Outside Guidance****Video Panoptic Segmentation****FSS-1000: A 1000-Class Dataset for Few-Shot Segmentation****3D-ZeF: A 3D Zebrafish Tracking Benchmark Dataset****TailorNet: Predicting Clothing in 3D as a Function of Human Pose, Shape and Garment Style****Oops! Predicting Unintentional Action in Video****The Garden of Forking Paths: Towards Multi-Future Trajectory Prediction****Open Compound Domain Adaptation****Intra- and Inter-Action Understanding via Temporal Action Parsing****Dynamic Refinement Network for Oriented and Densely Packed Object Detection****COCAS: A Large-Scale Clothes Changing Person Dataset for Re-identification**- 数据集:暂⽆**KeypointNet: A Large-scale 3D Keypoint Dataset Aggregated from Numerous Human Annotations** **MSeg: A Composite Dataset for Multi-domain Semantic Segmentation****AvatarMe: Realistically Renderable 3D Facial Reconstruction "in-the-wild"****Learning to Autofocus****FaceScape: a Large-scale High Quality 3D Face Dataset and Detailed Riggable 3D Face Prediction** **Bodies at Rest: 3D Human Pose and Shape Estimation from a Pressure Image using Synthetic Data** **FineGym: A Hierarchical Video Dataset for Fine-grained Action Understanding****A Local-to-Global Approach to Multi-modal Movie Scene Segmentation****Deep Homography Estimation for Dynamic Scenes****Assessing Image Quality Issues for Real-World Problems****UnrealText: Synthesizing Realistic Scene Text Images from the Unreal World****PANDA: A Gigapixel-level Human-centric Video Dataset****IntrA: 3D Intracranial Aneurysm Dataset for Deep Learning****Cross-View Tracking for Multi-Human 3D Pose Estimation at over 100 FPS**<a name="Others"></a># 其他**CONSAC: Robust Multi-Model Fitting by Conditional Sample Consensus****Learning to Learn Single Domain Generalization****Open Compound Domain Adaptation****Differentiable Volumetric Rendering: Learning Implicit 3D Representations without 3D Supervision****QEBA: Query-Efficient Boundary-Based Blackbox Attack****Equalization Loss for Long-Tailed Object Recognition****Instance-aware Image Colorization****Contextual Residual Aggregation for Ultra High-Resolution Image Inpainting****Where am I looking at? Joint Location and Orientation Estimation by Cross-View Matching****Epipolar Transformers****Bringing Old Photos Back to Life****MaskFlownet: Asymmetric Feature Matching with Learnable Occlusion Mask****Self-Supervised Viewpoint Learning from Image Collections****Towards Discriminability and Diversity: Batch Nuclear-norm Maximization under Label Insufficient Situations** - Oral**Towards Learning Structure via Consensus for Face Segmentation and Parsing****Plug-and-Play Algorithms for Large-scale Snapshot Compressive Imaging****Lightweight Photometric Stereo for Facial Details Recovery****Footprints and Free Space from a Single Color Image****Self-Supervised Monocular Scene Flow Estimation****Quasi-Newton Solver for Robust Non-Rigid Registration****A Local-to-Global Approach to Multi-modal Movie Scene Segmentation****DeepFLASH: An Efficient Network for Learning-based Medical Image Registration****Self-Supervised Scene De-occlusion****Polarized Reflection Removal with Perfect Alignment in the Wild****Background Matting: The World is Your Green Screen****What Deep CNNs Benefit from Global Covariance Pooling: An Optimization Perspective****Look-into-Object: Self-supervised Structure Modeling for Object Recognition****Video Object Grounding using Semantic Roles in Language Description****Dynamic Hierarchical Mimicking Towards Consistent Optimization Objectives****SDFDiff: Differentiable Rendering of Signed Distance Fields for 3D Shape Optimization****On Translation Invariance in CNNs: Convolutional Layers can Exploit Absolute Spatial Location****GhostNet: More Features from Cheap Operations****AdderNet: Do We Really Need Multiplications in Deep Learning?****Deep Image Harmonization via Domain Verification****Blurry Video Frame Interpolation****Extremely Dense Point Correspondences using a Learned Feature Descriptor****Filter Grafting for Deep Neural Networks****Action Segmentation with Joint Self-Supervised Temporal Domain Adaptation****Detecting Attended Visual Targets in Video****Deep Image Spatial Transformation for Person Image Generation****Rethinking Zero-shot Video Classification: End-to-end Training for Realistic Applications** <a name="Not-Sure"></a># 不确定中没中**FADNet: A Fast and Accurate Network for Disparity Estimation**。
《2024年基于深度学习的人体行为识别算法综述》范文
《基于深度学习的人体行为识别算法综述》篇一一、引言人体行为识别(HBR)技术已经成为近年来人工智能领域的热门研究方向之一。
它涵盖了图像处理、机器视觉和计算机视觉等领域的知识,主要目的是通过分析视频或图像数据来识别和解析人体行为。
随着深度学习技术的快速发展,其在人体行为识别领域的应用也日益广泛。
本文旨在全面综述基于深度学习的人体行为识别算法的研究现状、主要方法及挑战,以期为相关研究提供参考。
二、深度学习在人体行为识别中的应用深度学习以其强大的特征提取能力和良好的泛化性能,在人体行为识别领域取得了显著的成果。
主要的方法包括卷积神经网络(CNN)、循环神经网络(RNN)及其变体等。
1. 卷积神经网络(CNN)CNN在图像处理和视频分析中具有显著的优势,能够自动提取图像和视频中的特征信息。
在人体行为识别中,CNN可以提取人体姿态、动作等关键信息,从而实现对人体行为的识别。
2. 循环神经网络(RNN)及其变体RNN及其变体如长短时记忆网络(LSTM)和门控循环单元(GRU)等,在处理序列数据方面具有优势。
在人体行为识别中,RNN可以捕捉到时间序列上的信息,从而更好地理解人体行为的动态变化。
三、主要的人体行为识别算法1. 基于单模态的算法该类算法主要依赖于单一模态的信息,如视频、图像或姿态信息等。
常见的算法包括基于视觉信息的CNN算法和基于姿态信息的骨骼信息分析等。
2. 基于多模态融合的算法为了进一步提高识别精度和鲁棒性,越来越多的研究开始关注多模态融合的算法。
该类算法综合利用多种模态的信息,如视觉信息、音频信息和姿态信息等,以实现更准确的人体行为识别。
四、挑战与展望尽管基于深度学习的人体行为识别算法取得了显著的成果,但仍面临诸多挑战。
如数据集的多样性和丰富性、复杂场景下的行为识别、计算资源的限制等问题。
此外,还需要关注数据的隐私保护和安全性问题。
未来的研究方向包括但不限于以下方面:一是提高算法的泛化能力;二是深入研究跨模态的人体行为识别技术;三是将注意力机制、强化学习等新技术引入到人体行为识别中;四是结合传统的人工智能技术如计算机视觉、机器学习等进一步优化和提升算法性能。
AI算法实现超越人类水平的图像识别能力
AI算法实现超越人类水平的图像识别能力图像识别是人工智能领域的一个重要应用方向,它的目标是通过计算机算法对图像进行分析和理解,从而达到对图像内容进行准确识别的能力。
随着深度学习的迅猛发展,特别是卷积神经网络(Convolutional Neural Networks,CNN)的出现,AI算法已经取得了令人瞩目的进展,实现了超越人类水平的图像识别能力。
首先,AI算法在图像识别领域实现超越人类水平的关键是深度学习模型,特别是卷积神经网络。
卷积神经网络是一种灵感来自于人脑视觉系统的深度学习模型,通过多层卷积和池化操作,以及全连接层的组合,可以自动学习抽取图像中的特征。
卷积神经网络在大规模数据集上进行训练,可以学习到更加复杂的图像特征,从而提高图像识别的准确性。
其次,AI算法在图像识别中还采用了多种技术和策略来提高识别准确性。
例如,数据增强技术能够通过对训练数据进行随机变换和扩充,从而增加数据多样性,提高模型的泛化能力。
迁移学习技术能够利用预训练模型在大规模数据集上学习到的特征,快速适应新的任务,提高模型的识别能力。
此外,引入注意力机制、增强学习等技术也可以进一步提升图像识别的性能。
除了模型和技术的进步,AI算法实现超越人类水平的图像识别能力还需要大规模的数据集和强大的计算能力的支持。
大量的标注数据对于训练深度学习模型是至关重要的,只有通过对大规模数据集进行训练,才能提高模型的泛化能力和识别准确度。
此外,图像识别算法的训练和推理过程都需要大量的计算资源和算力支持,只有这样才能实现高效的图像处理和识别。
然而,虽然AI算法已经取得了超越人类水平的图像识别能力,但与人类的认知能力相比,还存在一些局限性。
首先,AI算法对于异常情况和复杂场景的识别能力相对较弱,例如在光照不均匀、图像噪声较大或目标物体遮挡的情况下,识别结果容易出现错误。
其次,AI算法在处理抽象概念和语义理解方面仍然存在挑战,对于需要深入理解和推理的图像内容,算法的表现还有待进一步提高。
跨级可变形Transformer_编解码视网膜图像分割算法
收 稿 日 期 :2023 - 05 - 17 基 金 项 目 :国 家 自 然 科 学 基 金 (51365017 ,61463018 );江 西 省 自 然 科 学 基 金 面 上 项 目 (20192 BAB205084 );江 西 省 教 育 厅 科 学 技 术 研 究 重 点 项 目 (GJJ170491);江西省研究生创新专项资金项目(YC2022S676) : ( , ); Foundation Item National Natural Science Foundation of China 51365017 61463018 General Program of Jiangxi Provincial Natural Science Foundation ( ); ( ); of China 20192BAB205084 Jiangxi Provincial Department of Education Science and Technology Research Key Project GJJ170491 Jiangxi Province ( ) Graduate Innovation Special Fund Project YC2022S676
( , , , ) School of Electrical Engineering and Automation Jiangxi University of Science and Technology Ganzhou 341411 China : , Abstract Eyeground retinal vascular image segmentation is of great significance for the prevention and diagnosis of glaucoma , diabetes and other diseases. To solve the problems of blurred retinal vessel edge segmentation microvessel leakage and model , ( ) receptive field deficiency a Crossstage Deformable Transformer Encoding and Decoding Net CTEDNet algorithm for retinal , segmentation is proposed. Firstly a channel pixel enhancement module and a crosslevel fusion backbone are integrated into the feature , extraction network to achieve coarse extraction of global features of retinal vessels. Then a deformable adaptive coding Transformer , , module is added to the network coding part which increases the receptive field of the model through deformable coding. Finally a
语义文本相似度计算方法研究综述
语义文本相似度计算方法研究综述目录一、内容概括 (2)1.1 研究背景 (3)1.2 研究意义 (3)1.3 文献综述目的与结构 (5)二、基于词向量的语义文本相似度计算 (5)2.1 词向量表示方法 (7)2.2 基于词向量的相似度计算方法 (8)2.3 词向量模型优化 (9)三、基于深度学习的语义文本相似度计算 (10)3.1 循环神经网络 (11)3.2 卷积神经网络 (13)3.3 自注意力机制 (14)四、基于图的方法 (15)4.1 图表示方法 (16)4.2 图上采样与聚类 (18)4.3 图匹配算法 (19)五、混合方法 (21)5.1 结合多种表示方法的混合策略 (22)5.2 不同任务间的知识迁移 (23)六、评估与优化 (24)6.1 评估指标 (25)6.2 算法优化策略 (26)七、应用领域 (28)7.1 自然语言处理 (29)7.2 信息检索 (30)7.3 问答系统 (32)7.4 多模态语义理解 (33)八、结论与展望 (34)8.1 研究成果总结 (35)8.2 现有方法的局限性 (37)8.3 未来发展方向 (38)8.4 对研究者的建议 (39)一、内容概括语义文本表示与相似度计算方法:首先介绍了语义文本表示的基本概念和方法,包括词向量、句子向量、文档向量等,以及这些表示方法在相似度计算中的应用。
基于统计的方法:介绍了一些基于统计的文本相似度计算方法,如余弦相似度、Jaccard相似度、欧几里得距离等,分析了它们的优缺点及应用场景。
基于机器学习的方法:介绍了一些基于机器学习的文本相似度计算方法,如支持向量机(SVM)、朴素贝叶斯(NB)、最大熵模型(ME)等,讨论了它们的原理、优缺点及适用性。
深度学习方法:重点介绍了近年来兴起的深度学习方法在语义文本相似度计算中的应用,如循环神经网络(RNN)、长短时记忆网络(LSTM)、门控循环单元(GRU)等,分析了它们在文本相似度计算中的性能及局限性。
CVPR2020行人重识别算法论文解读
CVPR2020⾏⼈重识别算法论⽂解读CVPR2020⾏⼈重识别算法论⽂解读Cross-modalityPersonre-identificationwithShared-SpecificFeatureTransfer具有特定共享特征变换的跨模态⾏⼈重识别摘要:跨模态⾏⼈重识别对智能视频分析是⼀个难点,⽽⼜关键的技术。
过去的研究主要集中在,将嵌⼊式不同模态放到同⼀个特征空间中,来训练常⽤的表现形式。
但是,仅仅训练这些常⽤的特性,意味着会丢失⼤量的信息,降低特征显著性的上限。
本⽂中,通过推荐⼀个新的特定跨模态特征转换算法(称为cm-SSFT),探测模态共享信息和特定模态特性来克服这个限制,提升重识别的性能。
依据不同模态特征⽰例内容,在不同模态之间转换共享和特定特征。
推荐辅助特征研究策略,包括模态适应性,⽬标对抗训练,重构增强性能,分别学习每种形态的区别性和互补性的共同特征和具体特征。
整个cm-SSFT算法能⽤端到端⽅式训练。
⽤综合实验验证真个算法的优势,以及各个环节的效果。
这个算法在两个主流数据集上将mAP分别提⾼22.5% 和 19.3%。
关注的任务是红外线-RGB跨模态⾏⼈重识别。
主要想解决的问题是:以往⼤部分跨模态⾏⼈重识别算法⼀般都只关注shared feature learning,⽽很少关注Specific feature。
因为Specific feature在对⾯模态中是不存在的。
例如在红外线图⽚中是没有彩⾊颜⾊信息的。
反之在彩图中也不会有热度信息。
⽽实际上做过ReID的都知道,传统ReID之所以性能很⾼,很⼤程度上就是有些“过拟合”到了这些specific信息上。
⽐如⾐服颜⾊⼀直是传统ReID的⼀个重要的cue。
于是从这个⾓度出发,想试图利⽤specific特征。
主要思路是利⽤近邻信息。
思路(motivation)是这样:给定⼀红外线query。
当搜索彩⾊target时,可以先找到⼀些简单的置信度⾼的彩⾊样本(这些样本⼤概率是红外线query的positive样本),把这些彩⾊样本的颜⾊特异特征给与红外线query。
大脑会把单词转变为图像
大脑会把单词转变为图像
方晨
【期刊名称】《科学世界》
【年(卷),期】2015(000)005
【摘要】美国乔治城大学神经科学系的Maximilian Riesenhuber等研究发现,当学习新单词时,我们的大脑会将这些单词作为一幅图像来识别,而不是一串需要处理的字母。
这项研究发表在3月25日的The Journal of Neuroscience上。
【总页数】1页(P10-10)
【作者】方晨
【作者单位】
【正文语种】中文
【中图分类】Q983.5
【相关文献】
1.“异化”从简单词语转变为哲学概念的发展历程
2.科学家研发创新性大脑扫描成像技术可呈现大脑思维动态图像
3.将想象力转变为绘画图像
4.有效探测农业用地转变为建设用地的遥感图像融合方法
5.聚类+连体段判别的维吾尔文档图像单词切分
因版权原因,仅展示原文概要,查看原文内容请购买。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
把人骑马变成人牵着马,这篇,CVPR2020论文实现语义级别图像修改
维尼
图像修改是图像生成领域的一个特殊任务,它要求生成对原图进行修改后得到的图片。
例如常用的美颜、修图软件,可以得到原照调整后的美颜人像。
目前,绝大多数的图片操纵和生成都是在像素级别进行的。
随着技术的进步,基于语义的图像修改和生成成为可能。
一篇 CVPR2020 的论文 Semantic Image Manipulation Using Scene Graphs 就聚焦图片语义级别修改问题,实现针对场景图的修改图片生成问题。
即给定一张图片,先生成一个表示图片中出现的对象及其关系的语义场景图,用户可以利用场景图方便地修改其中的节点(对象)和边(关系),模型再根据这些修改后的场景图和原图生成修改后的图片,如图一所示。
这需要模型对原图中的对象进行替换或者改变原图中对象之间的关系,但还要保持生成的图片和原图中语义关系以及风格一致。
高层级的图片修改是以语义为中心的,这项技术有广泛的应用场景。
编辑旅行风景照时,不需要再手动切割、删除其中多余的旅客,直接在场景图中删除相应的对象节点即可。
用户还可以轻松地重新安排对象之间的空间关系,重新排列天空中云的位置,创造出更美的图片。
该技术还可以应用到机器人领域。
当要求机器人“把房间收拾干净” 时,可通过该技术构建出整理后的房间图片,帮助机器人完成任务。
要利用深度学习技术解决这一问题,首先面临的难题就是训练数据。
给定图片 I,需要得到场景 G,修改后的场景图 g 以及修改后得到的图片 i。
要得到这样的训练数据非常困难。
在本文中,作者提出了一个空间语义场景图网络,巧妙避开了数据难题。
该模型不需要针对场景图的修改操作或者是图片编辑的直接监督信息,而可以直接利用现存的数据集进行学习。
基于语义关系的图片修改。
基于原图(source image),模型首先生成场景图,接下来用户对场景图进行修改,最后模型根据修改的场景图生成新的图片。
图中用户将女孩和马的关系由“骑”变为“在旁边”
空间语义场景图网络的结构如图所示。
在测试阶段,模型首先利用比较成熟的技术,为输入的图片生成场景图,表示图片中出现的对象和它们之间的关系。
接下来,用户对场景图进行修改。
最后,模型根据用户的修改操作进行图片生成。
而在训练阶段,输入一张图片,模型首先利用预训练模型对图片中的物体进行检测,提取这些对象的视觉特征(包括属性信
息和位置信息)。
接下来,模型利用比较成熟的技术为图片生成其场景图。
然后,模型以一定的概率将图片中的一些对象和提取的视觉特征遮盖。
最后,模型根据被遮盖的,残缺不全的原图和场景图重构原图。
通过这样的方式,模型不需要(I,G,g,i)作为训练数据,而可以利用大量易得的显存图片数据集。
那么为什么遮盖 - 重构的过程可以在训练阶段代替修改 - 重构的过程?以女孩骑马的图片为例。
当将女孩和马的关系‘骑修改为‘在旁边时,模型需要重新安排这些物体的空间位置关系,也就是将原有的关系丢弃,根据修改后的場景图和其他对象以及关系信息重构图像。
这个丢弃原有关系重新预测的过程,就可类比为将特征遮盖并预测的过程。
作者在 CLVER 和 Visual Genome 两个数据集上进行了试验。
CLVER 数据集是利用模拟器生成的合成数据集,可以得到图片的修改操作和修改前后的信息,便于对模型进行定量的分析。
Visual Genome 数据集则可测评该模型在无限制的真实场景中的效果。
CLVER 实验结果示例。
(a)修改物体的空间关系(b)物体移除(c)物体属性修改(d)物体增添
CLVER 模拟器可以生成不同颜色的几何形体,并任意操纵它们的位置。
作者利用该模拟器生成如图三所示的图片,并对这些图片进行修改,得到修改后的图片,最终得到 21,310 对图片。
在该数据集上,作者将提出的无监督模型(训练时仅使用原图
片)与有监督方法 sg2im(训练时使用原图片和修改后的图片)进行对比,结果如图 4 所示。
可以看到,无监督方法在包含全部像素点的 4 个测评指标中,有一明显超过有监督方法,一个与之不相上下。
而在针对相关区域的测评中,两个指标均胜过有监督方法。
最后,作者在 Visual Genome 数据集上进行试验,以测评模型在真实场景中的效果。
由于无法得到每张真实场景修改后的图片,作者通过图片重构的方式进行评估。
上图展示了该模型在真实场景图片中的应用。
可以看到,这种方法可以帮助用户对图片进行语义层面的操纵修改。
从这篇论文谈开,我们已经看到,随着 CV 技术的发展,对图片的操纵,换脸、合成、修改正变得越来越容易,合成的图片也越来越逼真。
在这些技术为人们带来新奇体验的同时,如何警惕其不被滥用会是一个重要的议题。
(摘自美《深科技》)(编辑/诺伊克)。