关系推理的简单神经网络模块(译文及原文)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

是否是相关联的。 RN 有三个显著优点:学习推断关系、数据高效、在一系列对象上运行——一种特别通 用的输入格式——以顺序不变量的方式。 RN 学习推断关系 方程 1 中的函数形式规定 RN 应该考虑所有对象对之间的潜在关系。 这意味着 RN 不一定知道哪些对象关系实际存在,也不一定知道任何特定关系的实际意义。 因此,RN 必须学会推断对象关系的存在和影响。 在图论术语中,输入可以被看作是一个完整、有向的图像,其节点是对象,其边缘表示 应考虑关系的对象对。虽然我们在本文中关注“所有对所有”的 RN,这个 RN 的定义也可 以调整为只考虑部分对象对。类似于交互网络[2],如果这些信息可用的话,与 RN 相关的, RN 可以只把那些应该被考虑的对的列表作为输入。这些信息可以是输入数据中显式的,或 者可以通过一些上游机制提取。 RN 是数据高效的 使用单个函数 来计算每个关系。这可以看作是在一批对象对上
1
图 1:CLEVER 数据集图像理解问题举例 非关系问题:棕色球体的大小如何? 关系问题:有没有跟黄色金属柱体大小相同的橡胶物体? 这里我们探索“关系网络” (RN)作为神经网络中关系推理的一般解决方法。RN 的结 构计算明确地侧重于关系推理[35]。虽然提出了几个支持关系中心计算的模型,如图像神经 网络、门控图序列神经网络和交互网络[37,26,2],RN 是简单、即插即用的,完全专注于 灵活关系推理。此外,通过联合训练 RN 可以在 CNN 和 LSTM 中影响和塑造上游表示形式, 以产生可以利用关系推理的隐含的对象表示形式。 我们将 RN-扩展体系结构应用到 CLEVR[15] ——一个最近的视觉问答(QA)数据集,这个数据集由于对丰富的关系推理的需求,最优 的方法也很难实现。我们的网络远远超过了最好的广泛应用的视觉问答结构,并达到最优, 甚至超过了人类水平。RN 还从状态描述中解决了 CLEVR,突出它们在输入形式方面的通用 性。我们还将基于 RN 的结构应用于 BAbI 基于文本的 QA 套件[41],并解决了 18/20 的子任 务。 最后,我们训练了一个 RN 来对复杂物理系统和运动捕获数据进行挑战性关系推断。RN 在这一系列不同的任务领域的成功证明了 RN 对于解决需要关系推理的问题的总体效用。
关系推理的简单神经网络模块
深度思维 伦敦,英国
摘要
关系推理是一般智能行为的核心组成部分, 但已被证明神经网络很难进行学习。 本文描 述了如何使用关系网络(RN)作为一个简单的即插即用模块来解决根本上依赖关系推理的 问题。我们用三个任务测试了 RN-增强网络:使用称为 CLEVR 的挑战性数据集的视觉问题回 答, 在这方面我们达到了最优, 并超过了人类的水平; 使用 bAbI 任务进行基于文本的问答; 和基于动态物理系统的复杂推理。然后,我们专门整理了一个类似 CLEVR 的数据集 Sort-of-CLEVR,并在这一数据集上展示了卷积神经网络不具备解决关系问题的通用能力,但 在使用 RN 增强以后,就能获得关系推理的能力。我们的工作表明了,配备 RN 模块的深 度学习架构能以怎样的方式隐含地发现并且学习去推理实体及其关系。
4 模型
RN 是以最简单的形式在对象上操作,因此不是清晰的在图像或自然语言上操作。这项 工作的一个核心贡献是展示了可以相对将输入进行解构的灵活性, 如 CNN 或 LSTM 的嵌入可 以被视为一组 RN 的对象。 虽然 RN 期望对象表示为输入, 但对象是什么的语义不需要指明。 我们以下结果表明,学习过程引起上游处理,由传统的神经网络模块组成,从分布式表示中 产生一组有用的“对象” 。 处理像素 我们使用 CNN 来将像素输入解析成一组对象。 CNN 拍摄了 128×128 大小的图 像,并通过四个卷积层进行卷积成 d×d 大小的 k 特征图,其中 k 是最后卷积层中的核数。 我们仍然不知道什么特定的图像特征应该构成一个对象。因此,在卷积后,d×d 特征图中 的每个 d2 k -维度单元都被标记为一个任意坐标,表示其相对空间位置,并被作为 RN 的对 象(见图 2) 。这意味着一个“对象”可以包括背景、特定的物理对象、纹理、物理对象的 交叉等,这使模型在学习过程中获得很好的灵活性。 用问题嵌入调节 RN 对象-对象关系的存在和意义应该依赖于问题的。例如,如果一个问 题问一个大球体,那么小立方体之间的关系可能是不相关的。因此,我们调整了 RN 体系结 构,使得 可以调节对此问题的处理: 。为了得到问题
操作的单个函数,其中每批中每个成员都是来自同一对象集的特定对象-对象对。这种操作 模式鼓励对计算关系的更广的普遍化,因为要求 不要过度拟合任何特定对象对的特性。
考虑 MLP 如何学习相同的函数。MLP 将从对象集同时接收所有对象作为其输入。然后,它 必须学习并在其权重参数中嵌入 N2(其中 N 是对象的数量)的相同函数,以计算所有可能 的对象对。随着对象数量的增长,这将很快就变得困难。因此,学习关系函数 N2 的成本乘 以每个样本使用的单一前馈传导, (如 MLP 中) , 替换为每个对象集合的 N2 前馈传导成本 (即 对于集合中每个可能的对象对) ,并只学习一次关系函数(如 RN 中) 。 RN 在一系列对象上运行 等式 1 中的求和确保 RN 在输入中相对对象的顺序不变。 该不 变性保证了 RN 的输入遵从集的顺序不变特性,并保证输出顺序不变。最终,这种不变性确 保 RN 的输出包含通常代表对象集中存在的关系的信息。
4
引入球之间的随机链接,创建了一个演化的物理系统,并带有一个可变数量“系统”的 连接球(其中“系统”是指以球为节点,球之间的连接作为边的连接图) 。我们定义了两个 单独的任务: 1) 在仅观察颜色和多个序列框架之间的相互坐标位置推断球之间的连接存在性 或有无连接,2)计算表顶部的系统数量,还是仅观察每个球的颜色和在多个连续框架之间 的坐标位置。 这两个任务都涉及到关于球的相对位置和速度的推理, 以推断它们是否独立运动, 或者 它们的运动是否以某种方式通过看不见的连接运动依赖于其他球。 例如, 如果两个球之间的 距离在框架之间保持相似, 那么可以推断它们之间有连接。 第一个任务的这些推理是清晰的, 而第二个任务要求这种推理是隐含的,这就更困难。有关所有任务的进一步信息,包括动态 系统的视频,请参见补充信息。
3.任务
我们将 RN-增强网络应用于各种基于关系推理的任务。为了演示这些网络的通用性,我们选 择了一些不同领域的任务,包括视觉问答、基于文本的问答和动态物理系统。
3.1 CLEVR
在视觉问答中,模型必须学会回答有关图像的问题(图 1) 。这是一个具有挑战性的问 题领域,因为它需要高级的场景理解[ 1,29]。体系结构必须对在视觉输入、语言输入及其 结合中的特性执行复杂的关系推理,包括空间及其他。然而,大多数的视觉问答数据集需要 在没有完全特定的词汇的情况下进行推理, 或者更坏, 在培训数据中没有世界上的广泛而复 杂知识。它还包含歧义并存在强烈的语言偏差,使模型不对视觉输入进行推理[1,31,36] 的情况下学习应答策略来开发这些偏差。 为了控制这些问题, 并提取视觉问答挑战的核心, 特开发了 CLEVR 视觉问答数据集[15]。 CLEVR 包含 3D 呈现的对象图像,如球体和柱体(图 2) 。每个图像都与不同类别的一些问题
1.概述
推理实体间关系和其属性的能力以通用智能行为为中心(图 1)[18,,15]。如一个儿童 在公园里最远的两棵树间跑步, 就必须推断出公园中每两棵树之间的距离, 进行比较决定从 哪跑。或者,一个读者在推理小说中拼凑证明罪犯的证据:每个线索都必须在其更大的背景 下思考,才能建立一个合理的描述并解决谜团。 符号方法对人工智能本质上是相关的[32,11]。实验者使用逻辑和数学的语言来定义符号之 间的关系,然后使用许多强大的方法来推论这些关系,包括推理、算术和代数。 但是符号方法受符号接地问题困扰,并且对小任务和输入变量[11]不很有力。其他方法,例 如基于统计学习的方法,从原始数据构建表示形式,并在不同和嘈杂的条件下通用化[25]。 然而,许多这些方法,如深度学习,通常面临数据贫乏的问题,其底层结构的特点是关系稀 疏但复杂[7,23]。我们的结果证实了这些断言,并进一步证明,看似简单的关系推理对于 卷积神经网络(CNN)和多层感知器(MLP)这些强大的神经网络结构也是非常困难的。
3
相关联。例如,查询属性问题可能会问, “球体的颜色是什么?” 比较属性问题可能会问“立 方体与圆柱体是相同的材料吗?” 就我们的目的而言, 许多问题在本质上是明确相关是 CLEVR 的一个重要功能。 值得注意 的是,强大的 QA 体系结构[46]无法解决 CLEVR,可能是因为它们无法处理任务的核心关系 方面。例如,在原始论文中报告了由嵌入了 LSTM 问题处理 ResNet-101 图像组成并增加了堆 叠注意模块的模型,在总体性能上达到 68 .5 %,远远优于其他模型(相比之下,第二好的 水平是 52.3 %,人类是 92.%)[15]。然而,对于比较属性和计数问题(即,紧密包含对象之 间的关系的问题) ,模型的执行情况比最简单的基线略好,后者仅在给定问题类别(Q 型基 线)的培训集里根据答案的概率回答问题。 我们使用两个版本的 CLEVR 数据集: (I)像素版本,其中图像用标准的 2d 像素形式表 示, (ii)状态描述版本,其中图像由包含因子对象的状态描述矩阵显式地表示。矩阵中的每 一行包含单一对象的特征——3D 坐标(x,y,z) ;颜色( r,g,b) ;形状(立方体、圆柱 体等) ;材料(橡胶、金属等) ;大小(小、大等) 。当我们训练模型时,我们根据实验选择 使用像素版本或状态描述版本,但不能两者在一起使用。 3.2 Sort -of-CLEVR 为了探索我们与更标准的神经结构相比 RN 结构更适合一般关系推理的假设,我们构建 了一个类似于 CLEVR 的数据集,我们称之为“Sort -of-CLEVR” 。此数据集分为关系问题和非 关系问题。 Sort-of-CLEVR 由二维的彩色形状图像和关于图像的问题和答案组成。 每个图像共有 6 个 对象,每个对象都是随机选择的形状(正方形或圆形) 。我们使用 6 种颜色(红色、蓝色、 绿色、 橙色、 黄色、 灰色) 来明确识别每个对象。 问题是硬编码为长度固定的二进制字符串, 以减少自然语言处理的困难,从而消除任何混淆语言分析的问题。对于每个图像,我们生成 了 10 个关系问题和 10 个非关系问题。关系问题的例子是: “距离灰色对象最远的对象的形 状是什么?” “有多少个对象与绿色对象具有相同的形状?”非关系问题的例子是:“灰色对 象的形状是什么?” , “蓝色的物体是在画面的顶部还是底部?”数据集视觉上也很简单的, 减少了图像处理的复杂性。 3.3 bAbI BAbI 是一个纯基于文本的 QA 数据集[41]。 有 20 个任务, 每个任务对应一种特定类型的 推理,如演绎、归纳或计数。每个问题都与一组支持事件相关联。例如,事件: “桑德拉拿 起了足球” , “桑德拉去了办公室” ,支撑起问题: “足球在哪里?” (回答: “办公室” ) 。 一个模型如果其准确率超过 95%则视为成功。许多记忆增强神经网络在报告说在 bAbI 上取 得了显著成果。 当每个任务使用 10K 数量级样进行的所有任务的联合训练时, 记忆网络的成 绩是 14/20,DNC 是 18/20,稀疏 DNC 是 19/20,EntNet 16/20 ( EntNets 的作者报告最优 状态为 20/20;然而,与以前报告的结果不同,这里并没有对所有任务进行联合培训,而是 达到了 16/20 ) [ 42、9、34、13]。 3.4 动态物理系统 我们使用 MuJoCo 物理引擎[40]开发了一个模拟连接弹簧的质体的系统的数据集。每个 场景都包含 10 个彩色球在桌面上移动。一些球独立移动,自由与其他球和障碍墙碰撞。其 他随机选择的球连接到看不见的弹簧或刚性连接。 这些连接通过连接施加的力阻止球独立移 动。输入数据由状态描述矩阵组成,矩阵中的一行表示每个球,特征表示每个对象的 RGB 颜色值及其跨 16 个连续时间步骤的空间坐标(x;y) 。
2.关系网络(RN)
RN 是具有用于关系推理结构的神经网络模块。 RN 背后的设计思想是约束神经网络的功 能形式,从而使其抓住关系推理的核心共同属性。换句话说,计算关系的能力是在不需要学 习的情况下引入到 RN 体系结构中的,就像空间的推理能力一样,转换不变量属性是内置在 CNN 中的,而顺序依赖的推理能力是内置在递归神经网络中的。 在最简单的形式中,RN 是一个复合函数:
其中,输入是一系列“对象” 象, 和 是各自带φ 和θ 的函数。为了我们的对象,
2
,是 ith 对 和 是 MLP,而wenku.baidu.com些函
数是可以学习的突触权重,使 RN 变成端对端可微分(end to end differentiable) 。我们称这 种 的输出为一个“关系” ;因此, 的角色是推断两个对象相关联的方式,或者他们
相关文档
最新文档