论文简介
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
•
介绍
•
自动图像描述是产生自然语言表的(通常是句子)的任务,其正 确地反映图像的视觉内容。 这一任务从基于深度学习架构的提议 解决方案(Bengio,2009)时已经爆发,从2015年COCO挑战 的获胜者(Vinyals等,2015a; Fang等,2015)开始,并继续 进行多种改进(参见例如Bernardi等人(2016)的评论)。 自 动图像描述系统的实际应用包括利用描述进行图像索引或检索, 并通过将视觉信号转换成可通过文本到语音技术传达的信息来帮 助那些具有视觉障碍的人。科学挑战被视为在计算机视觉和自然 语言处理的交叉点上调整,开发和推动最新改进。
特征:Inception-ResNet-v2 、CNN 摘要:RNN Transformer
结果
结论
•
我们提出了一个新的图像字幕数据集,概念字幕,它有几个关键特征: 它有大约3.3M的例子,比COCO图像字幕数据集大一个数量级; 它包括 各种各样的图像,包括自然图像,产品图像,专业照片,卡通,绘画等; 并且,其标题基于从原始Alt文本属性中获取的描述,自动转换以实现清 洁度,信息量和可学习性之间的平衡。
关键字:图像摘要,语言和视觉,文本图像检索
介绍
•
Байду номын сангаас
图像字幕,为给定图像生成自然语言描述,是一项在视觉和语言领域引 起极大关注的重要任务[2,5,14,21,22,26,35,41,43,47,49] ]。然而,现有 图像字幕方法的结果往往是通用的和模板化的。例如,在图1中,虽然对 于人类而言,在第一和第二图像之间存在不可忽略的差异,但是字幕模 型给出了相同的模糊描述“一个花瓶与坐在桌子上的花”,而地面真相 字幕包含细节并清楚地显示这些图像之间的差异。此外,传统字幕方法 产生的字幕的百分之几十分与训练集中的真实字幕完全相同,表明字幕 模型只能学习训练集中的句子和短语的刻板印象,并且能力有限。图1右 侧的图像显示,虽然鸟站在镜子上,但字幕模型会产生标题“鸟儿坐在 喂鸟器顶部”,因为训练中出现的复制模式组。
•
For instance, both “Harrison Ford” and “Calista Flockhart” identify as named-entities,These KG entries have “actor” as their hypernym.
•
摘要质量
摘要模型
• • •
论文内容
论文一(Google)
•
Conceptual Captions: A Cleaned,Hypernymed,Image Alttext Dataset For Automatic Image Captioning 概念性摘要:用于自动图像摘要的清洁,Hypernymed,图像 Alt-text数据集
•
作为对建模类别的贡献,我们评估了几种图像摘要模型。 基于 Huang等人的发现。 (2016),我们使用Inception-ResNetv2(Szegedy等,2016)进行图像特征提取,通过残差连接和 计算效率高的初始单位赋予优化效益。 对于字幕生成,我们使用 基于RNN(Hochreiter和Schmidhuber,1997)和基于 Transformer的(Vaswani等,2017)模型。 我们的结果表明, 基于变压器[转换器]的模型可实现更高的输出精度; 结合 Vaswanietal。(2017)的报告,考虑减少参数和FLOPs的训练 和服务(和RNNs对比),T2T8x8[]等模型(第4节)推动了图像 字幕的表现,值得进一步关注。
•
研究上述问题的现有研究要么使用生成性对抗网络(GAN)来生 成类似人类的描述[8,36],要么专注于扩大摘要的多样性 [40,42,44]。 这些方法改善了生成摘要的多样性,但牺牲了标准 评估标准的整体表现。 另一项工作[38]通过对目标图像和干扰图 像的推理技术,在其他语义相似图像的背景下为图像生成辨别标 题,这不能应用于不提供干扰图像的通用摘要。
• •
•
不知道有什么好
摘要
图像摘要的目的是通过机器生成摘要来描述图像内容。尽管有许多 优点,但为图像生成有区别的标题仍然是非平凡的。大多数传统方 法模仿语言结构模式,因此往往会陷入复制频繁短语或句子的刻板 印象,忽视每个图像的独特方面。在这项工作中,我们提出了一个 图像摘要框架,其中有一个自我检索模块作为训练指导,鼓励产生 有识别性(区分度)的摘要。
它带来了独特的优势:(1)自我检索模块可以作为摘要判别度的 度量和评估者,以确保生成的摘要的质量。 (2)生成的摘要和图 像之间的对应关系自然地包含在没有人类标注的生成过程中,因此 我们的方法可以利用大量未标记的图像来提高摘要性能而无需额外 的标注。我们证明了所提出的检索引导方法对COCO和Flickr30k 字幕数据集的有效性,并显示其优越的字幕性能和更具辨别性(区 别性)的摘要。
•
我们在使用概念摘要数据进行培训时,评估所得图像/字幕对的质量以及 若干图像字幕模型的性能。 结果表明,这些模型实现了更好的性能,并 避免了COCO训练模型中出现的一些陷阱,例如幻觉。 我们希望概念字 幕数据集的可用性将促进自动图像字幕任务的重大进展。
•
Conceptual Captions: A Cleaned,Hypernymed,Image Alttext Dataset For Automatic Image Captioning 概念性摘要:用于自动图像摘要的清洁,Hypernymed,图像 Alt-text数据集
结论
•
在这项工作中,我们解决了传统方法产生的摘要往往是模板化和 通用的问题。 我们提出了一个框架,通过自我检索奖励训练来明 确提高摘要的辨别力。该框架由一个摘要模块和一个新颖的自我 检索模块组成,它增强了生成字幕的区别性。通过REINFORCE 算法将自检奖励反向传播到摘要模块。 结果表明,我们通过该框 架获得了更多的区分性摘要,并在两个广泛使用的图像摘要数据 集上实现了最先进的性能。
•
有两个主要类别的进展负责增加对此任务的兴趣。 首先是大量标 注数据的可用性。 相关数据集包括ImageNet数据集(Deng et al.,2009),包含1400多万张图像和100万个边界框注释,以 及MS-COCO数据集(Lin et al.,2014),包含120,000张图像 和5种方式图像摘要注释。 第二个是强大的建模机制的可用性, 例如现代卷积神经网络(例如Krizhevsky等人(2012)),它能 够将图像像素转换为高级特征而无需手动特征工程。
•
这种检索引导的摘要框架不仅可以保证摘要的辨别力,而且还可 以容易地从附加的未标记图像中获得好处,因为摘要自然地对应 于从其生成的图像,并且不需要费力的注释。 详细地,对于未标 记的图像,仅使用自检模块来计算奖励,而对于标记的图像,真 实的摘要和自我检索模块都用于计算奖励并优化摘要模型。 从未 标记的数据中挖掘出适度的负样本,进一步提升了图像字幕的可 信性和判别性。
•
在这项研究中,我们希望通过创新的模型设计表明,对于字幕生成, 可以有效地改善判别性和精确性。这是通过涉及自我检索模块来训练 摘要模块来实现的,其动机来自两个方面:(1)字幕的辨别力可以通 过它能够将其对应图像与其他图像区分开来的程度来评估。可以引入 该标准作为培训指导,从而鼓励可区分性标题。 (2)图像摘要和文 本到图像检索可视为双向任务。图像字幕生成给定图像的描述,而文 本到图像检索基于生成的标题检索图像。具体而言,该模型由字幕模 块和自检模块组成。字幕模块基于给定图像生成字幕,而自检模块进 行文本到图像检索,试图基于生成的摘要检索相应的图像。它充当评 估者来衡量字幕的质量,并鼓励模型产生可区分性字幕。由于生成标 题的每个单词包含不可微运算,我们将负检索损失作为自检奖励,并 采用REINFORCE算法计算梯度。
•
• • • •
hypernymy:上位关系,位关系 hypernym:上位词,上义词,上位 含义较广,其下有意义更加具体的词,如color为red的上义词 Alt-text:Alt text (alternative text), also known as "alt attributes", “alt descriptions,” and technically incorrectly as "alt tags,” are used within an HTML code to describe the appearance and function of an image on a page.
•
在本文中,我们为数据和建模类别做出了贡献。 首先,我们提出了一个 新的摘要注释数据集*,概念标题(图1),其图像数量比COCO数据集 多一个数量级。 概念字幕由大约3.3M <图像,描述>对组成。 与COCO 图像的策展风格相比,概念字幕图像及其原始描述是从网络上收集的, 因此代表了更多种类的风格。 原始描述是从与Web图像关联的Alt-text HTML属性中获取的( The raw descriptions are harvested from the Alt-text HTML attribute† associated with web images.)。 我们开发 了一种自动管道(图2),用于提取,过滤和转换候选图像/字幕对,目 的是实现所得字幕的清洁度,信息量,流畅性和可学习性之间的平衡。
摘要
•
我们提出了一个新的图像摘要注释数据集,概念摘要,其中包含 比MS-COCO dataset一个数量级更多的图像,它提出了更多种 类的图像和图像摘要样式。
•
我们通过从数十亿个网页中提取和填充图像摘要注释来实现这一 目标。
我们还提供了许多图像摘要模型的定量评估,并显示基于 Inception-ResNetv2(Szegedy等,2016)的图像特征提取模 型体系结构和变换器(Transformer Vaswani等,2017)用于 序列建模的模型体系结构在概念摘要数据集上训练时取得了最佳 性能。
数据集创建
• •
Flume pipeline 图片过滤
•
• •
文字过滤
联合过滤
使用Hypernymization进行文本转换(hypernymy:上位关系, 位关系,hypernym:上位词,上义词,上位,含义较广,其下 有意义更加具体的词,入color为red的上义词)
hypernymy
•
论文二(香港中文大学)
•
Show, Tell and Discriminate: Image Captioning by Selfretrieval with Partially Labeled Data(ECCV) 显示,辨别和辨别:使用部分标记数据进行自我检索的图像标题 显示,分辨和识别:通过自检索使用部分标注数据进行图像摘要
•
我们在完全监督和半监督的设置中在两个图像摘要数据集COCO [6]和Flickr30k [51]上测试了我们的方法。 我们的方法实现了最 先进的性能,而额外的未标记数据可以进一步提升摘要性能。 对 我们的模型生成的摘要进行分析表明,生成的摘要比传统方法更 具辨别力并实现更高的自检性能。
模型
结果