基于大规模候选集的检索型多轮对话模型
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
摘要
摘 要
随着人工智能技术的深刻变革,新一代端到端聊天式对话系统已广泛用于娱乐聊天机器人、个人助手和公司智能客服等实际场景中,成为人工智能领域最具有应用前景的技术之一。
与传统的人机交互方式不同,智能对话系统不仅能够理解人类日常交流的语言并作出有意义的回答,还能够通过一系列的对话完成某一项任务。
通常地说,端到端聊天式对话系统技术主要分为检索式对话系统和生成式对话系统两大类。
生成式对话系统根据已经进行的对话历史利用自然语言生成技术重新生成回复。
尽管生成式系统有希望能够不局限于预先建立回复的范围,但是生成式系统也会遭受目前自然语言生成技术所带来的流畅性不足、倾向于回复通用性语句等问题。
相比于之下,检索式对话系统主要利用信息检索技术对一组预先建立的候选回复进行打分和返回最合适的回复,在大多数情况中能够提供更加流畅并有意义的回复。
然而,预建立的候选语料质量不高会影响检索式对话系统的回复合理性,预建立候选回复的数目种类不足也会显著地降低检索式对话系统的回复多样性。
针对上述问题,本文主要以较大规模候选集场景下的检索式多轮对话模型为研究课题,首先提出时空特征匹配网络,研究其在大量候选回复场景下的性能和效率,同时分析时空匹配特征的可解释性和模型的优缺点。
通过对比实验和可视化分析,本文证明了基于时空匹配特征的检索式多轮对话模型能在较大规模候选集场景下以更低的时间复杂度达到更好的性能。
同时,本文重点关注端到端的检索式对话模型的的语义理解能力,将预训练语言模型引入聊天型对话系统中。
本文接着提出交谈者分割机制和多轮对话增强方法提高预训练对话检索模型的性能。
通过在多轮对话输入中分割交谈者,引入与讲话人相关的输入特征,并采用特定的数据增强方法生成更多的训练数据,使得预训练对话检索模型能够更好地对多轮对话的连贯性和逻辑性进行建模。
对比实验结果显示本文提出的方法超过了大量基线模型,同时实验结果显示在较大规模候选集中也能获得更好的性能提升。
关键词:检索式对话系统,较大规模候选集,时空匹配特征,预训练对话检索模型
ABSTRACT
With the profound changes in artificial intelligence,a new generation of end-to-end chatbots have been widely used in practical scenarios such as entertainment chatbots, personal assistants and intelligent customer service,becoming one of the most promis-ing technologies in artificial intelligence.Unlike traditional human-computer interaction methods,intelligent dialogue systems can not only understand the language of natural lan-guage and return meaningful responses,but also complete a certain task through a series of dialogues.
Generally speaking,end-to-end chatbots can be mainly divided into two categories: retrieval-based chatbots and generation-base chatbots.The generation-base chatbots adopt natural language generation technology to regenerate responses,which based on the his-tory of previous conversation.The generative system is expected to surpass the limitation of pre-built responses,however,it suffers from the lack of fluency and tends to generate safe responses.In contrast,the retrieval dialogue system mainly employs information re-trieval technology to score a set of pre-defined response candidates and return the most ap-propriate response,which can provide a fluent and meaningful response in most cases.Yet low-quality candidate corpus may affect the rationality of the retrieval dialogue system. The insufficient number of response candidates might significantly reduce the diversity of returned responses.
In order to tackle above problems,this paper aim at studying multi-turn retrieval-based chatbots in the large-scale candidate set scenario.First,this paper proposed a spatio-temporal matching network and study the performance and effectiveness of spatio-temporal matching network with a large amount of candidates.Moreover,this paper ana-lyze the interpretability of spatio-temporal features and its relative merits.Through com-parative experiments and visual analysis,this paper proves that the retrieval multi-round dialogue model based on the spatio-temporal matching feature can achieve better perfor-mance with lower time complexity in a large-scale candidate set scenario.
Meanwhile,this paper focuses on the semantic understanding ability of the end-to-end dialogue model,and introduces a pre-trained language model into retrieval-based chat-bots.This paper then proposes a speaker segmentation strategy and a multi-turn dialogue augmentation method to improve the performance of pre-trained dialog retrieval mod-
els.By splitting speaker utterance,introducing speaker-related embedding,and applying specific data augmentation methods,the pre-trained dialogue retrieval models can better model the consistency and logicality of multi-turn parative experimen-tal results show that out methods surpass a large number of baseline models and achieve better performance in larger-scale candidate sets.
Keywords:retrieval-based chatbots,large-scale candidate set,spatio-temporal matching (STM)features,pre-trained dialogue retrieval models
目录
第一章绪论 (1)
1.1研究工作的背景与意义 (1)
1.2聊天式对话系统的研究历史与现状 (2)
1.2.1基于人工规则的对话系统 (2)
1.2.2基于信息检索的对话系统 (3)
1.2.3基于序列生成的对话系统 (4)
1.3本文的主要贡献与创新 (5)
1.4本论文的结构安排 (5)
第二章背景知识介绍 (7)
2.1多层神经网络 (7)
2.2卷积神经网络 (7)
2.2.1卷积层 (8)
2.2.2池化层 (9)
2.2.3全连接层 (10)
2.3循环神经网络 (10)
2.3.1长短期记忆网络 (11)
2.3.2门控循环单元 (12)
2.4注意力机制 (13)
2.4.1自注意力机制与Transformer (14)
2.4.2交互注意力机制 (16)
2.5基于交互注意力机制的检索式对话系统 (16)
2.6本章小结 (19)
第三章时空特征匹配网络 (20)
3.1引言 (20)
3.2问题定义 (21)
3.3网络结构 (22)
3.3.1词嵌入层 (23)
3.3.2语义表示层 (24)
3.3.3时空特征层 (25)
3.3.4基于三维卷积神经网络的判别器 (27)
3.4实验及分析 (28)
3.4.1实验数据集 (28)
3.4.2基线模型设置 (30)
3.4.3实验评估指标 (31)
3.4.4实验结果与分析 (32)
3.5本章小结 (35)
第四章基于预训练语言模型的检索式对话模型 (36)
4.1引言 (36)
4.2预训练语言模型 (38)
4.2.1BERT (38)
4.2.2BERT-WWM (40)
4.2.3RoBERTa (41)
4.3基于微调的预训练对话检索模型 (41)
4.3.1交谈者分割机制 (42)
4.3.2多轮对话增强方法 (44)
4.4实验及分析 (45)
4.4.1实验数据集 (45)
4.4.2基线模型 (46)
4.4.3模型参数设置 (47)
4.4.4实验结果及分析 (47)
4.5本章小结 (50)
第五章全文总结与展望 (52)
5.1全文总结 (52)
5.2后续工作展望 (53)
致谢 (55)
参考文献 (56)
攻读硕士学位期间取得的成果 (62)
第一章绪论
第一章绪论
1.1研究工作的背景与意义
自然语言是人类文明传承和日常交流所使用的语言,机器与人类沟通的能力长期以来一直是衡量人工智能发展水平的标杆。
从人工智能研究的初期开始,人们就致力于开发高度智能化的人机对话系统。
计算机科学的先驱、英国科学家艾伦·图灵(Alan Turing)在1950年提出图灵测试[1]通过人机对话衡量人工智能发展的程度。
自从图灵测试的概念被提出以来,如何设计及开发智能聊天机器人变成了人工智能领域中一个十分具有挑战性的研究问题。
近年来,人工智能和自然语言处理等新型技术的发展极大推进了新一代基于深度神经网络的人机对话系统的研究。
同时,互联网聊天社交平台现已成为人类生活中必不可少的一部分,这些聊天数据的积累进一步促进数据驱动型对话系统在各类产品服务中发展。
目前广泛应用的对话系统有苹果Siri、微软小冰、谷歌Allo和百度度秘等个人助理系统,还包括亚马逊的Echo智能家居服务系统以及阿里巴巴的小蜜电商智能客服系统等。
这些智能对话产品给人们的日常生活带来了极大的便利性,影响着数以亿计的消费者用户。
根据目前数据显示微软的小冰对话机器人已在全球多个国家部署应用,成长为全球最大的跨领域人工智能系统之一。
除了社交对话机器人和智能语音助理角色,愈加强大的微软小冰还在歌手、主持人、新闻评论员、诗人、作家、画家、设计师等领域多栖发展。
从技术上说,这类以微软小冰为代表的聊天机器人主要用于满足用户娱乐消费或情感性等开放域需求,其源头可以追溯到上世纪60年代中期,麻省理工学院的科学家Joseph Weizenbaum等人研发出第一个聊天机器人Eliza[2]。
后来,对话系统的发展趋势基本与人工智能的发展相吻合,从规则系统到统计学习,再到现在的深度学习技术并继续深化发展。
随着对深度神经网络日益深入的研究,聊天式对话机器人也涌现出大量的研究成果,比如循环神经网络和注意力机制等方法的运用极大提升了对话系统的性能。
除此之外,越来越多的大规模对话语料库和比赛数据显著地提高了基于数据驱动的对话系统[3–11]的性能。
实验证明通过大量数据训练后对话系统能够更好地理解语言规律,尤其是近期的预训练语言模型显示出强大的自然语言理解能力,为后续的研究开拓了新思路。
以前人研究为基础,本文将从聊天式机器人出发,旨在研究信息检索技术(Information Retrieval,IR)和对话系统的结合方式。
在较大规模检索场景下的多轮对话场景下,本文将提出了新型的时空匹配网络和预训练对话检索模型,学习
电子科技大学硕士学位论文
对话的上下文向量表示和多轮对话连贯性建模,提高聊天式对话系统的性能。
此外,本文将在多个大规模数据集上进行实验,通过大量对比实验分析和可视化分析验证所提出方法的有效性。
综上所述,本文的研究课题将为后续对话机器人的学术研究和实际应用提供思路。
1.2聊天式对话系统的研究历史与现状
在过去几十年里,人机对话领域已取得了长足的进展。
当前,对话系统种类繁多,划分方式也多种多样,可根据用途分为任务型、问答型、闲聊型对话系统;根据场景分为封闭域、开放域对话系统;还可根据使用方法分为基于人工规则的对话系统,和随着深度学习发展起来的基于信息检索的对话系统和基于序列生成的对话系统。
基于本课题所研究的内容,以下分别介绍基于人工规则的对话系统、基于信息检索的对话系统和基于序列生成的对话系统的研究概况。
1.2.1基于人工规则的对话系统
早期的聊天机器人[2,12–14]大部分需要人工建立一组预定义的规则,例如关键字词典、if-else条件判断或更复杂的机器学习分类器;然后在对规则条件进行模式匹配并返回答复,例如在存储器中的对话模板语料、转换输入消息形式或选择一些相关的历史上下文。
1966年,第一个聊天机器人Eliza[2]主要根据人工设计的脚本模仿心理治疗师与人类交流,如果它在人工关键字字典中没有找到相应的匹配模式,则会从以往的对话历史中返回一句。
1971年,斯坦福大学Kenneth Mark Colby和Sylvia Weber等人对Eliza进行扩展,提出了一个带有情感的对话系统Parry[15]。
与Eliza 不同的是,Parry依赖于全局变量来跟踪情绪状态,而不仅仅基于前一句对话生成回复。
在此基础上,卡内基梅隆大学Michael Mauldin在1994年创造了聊天机器人Sylvie[16],并在1997年与同事Michael Christel共同创建Julia[17],考虑不使用预定义的格式数据,通过从外部的图像、视频和语音等来源获取知识,并利用这些知识返回给用户。
2009年,Richard Wallace使用人工智能标记语言开发出第一代个性化的对话系统Alice[18]。
这类个性化系统能根据用户的特点与需求进行适应性改变,更加符合用户实际需要,为后续个性化对话系统研究提供了新的思路。
Eliza,Parry和Alice等基于规则的对话系统被认为是发展现代对话系统的一个重要里程碑。
它们的优点是内部逻辑透明,易于分析调试;但另一方面,它们的缺点显而易见:基于规则的系统主要依赖于一组预定义的规则并只能进行非常肤浅的对话。
随着系统变得越来越复杂,这些规则的数量猛增;基于规则的系统不具
第一章绪论
备理解人类语言的能力,也不知道如何生成有意义的自然语言语句。
例如,Eliza 并不理解对话内容,同时只能和特定领域的人聊天。
同时,人工智能标记语言的局限性使得对话系统持续地进行多轮对话,因而也限制了聊天机器人的实用性。
1.2.2基于信息检索的对话系统
基于信息检索的对话系统能根据实际业务特点和需求设计出大量预定义的候选回复,这些回复往往具有较好的流畅度和信息量,因而被大量运用于目前的人工客服。
一般来说,检索式模型的主要思路是从丰富的对话语料库中找出与输入语句最为相近的回复,这些回复通常是预先存储的数据。
对于每一条输入语句,基于检索的对话系统利用深度神经网络架构将用户的输入文本映射到向量空间,然后将数据库存储的候选回复也映射到同一个向量空间,最后计算上述两个向量的相似性并返回相似性最高的回复[3]。
因此,检索模型的核心是其所使用的语义匹配算法。
早期的基于信息检索的对话系统大多只关注单轮对话,这些方法不能有效利用上下文信息做出准确匹配。
2013年,Hao Wang等人提出了一个短文本对话检索系统,并从新浪微博爬取了单轮对话数据集用于回复检索[19]。
随后,Baotian Hu等人提出运用卷积神经网络(Convolutional Neural Network,CNN)在单轮对话回复匹配模型上,提出卷积匹配模型(ARC-I,ARC-II)对候选回复进行语义匹配[20]。
2015年,Mingxuan Wang等人则从短文本的句法角度进行考虑,提出了一个基于依存句法的深度匹配树(Deep Match Tree),通过提取文本的句法结构进行语义匹配[21]。
除此之外,Ming Tan等人还结合长短期记忆网络和卷积神经网络提出新的回复匹配架构[22]。
2016年,Rui Yan等人提出一种查询文本重构方法,结合先验知识、候选回复、源查询文本和重构查询等多种数据输入优化深度学习框架[4]。
然而,这些数据和方法都仅仅局限于单轮短文本的对话。
近年来,基于多轮对话的检索式对话系统受到越来越多的关注,这些模型在选择回复的过程中不只考虑了当前的对话,还考虑了丰富的历史对话。
在多轮回复的选择中,多轮对话与候选回复之间的匹配问题以及多轮对话建模问题显得尤其关键。
2015年,Ryan Lowe等人公布了一个有关Ubuntu技术支持咨询的对话数据,100万个多轮对话,超过700万的对话语句和一亿个词[3]。
针对其提出的数据集,论文中通过运用TF-IDF、卷积神经网络和循环神经网络三种方法分别编码了整个上下文(把所有的对话历史拼接起来)和候选回复,然后基于编码后的上下文向量和回复向量计算点积作为匹配分数。
Ubuntu数据集提出后,Rudolf Kadlec 等人利用双向长短期记忆网络对基线模型进行提升[23]。
电子科技大学硕士学位论文
2016年,Xiangyang Zhou等人提出了一种基于多视图的检索式对话系统。
他们不仅仅在词级别上下文向量中进行上下文-回复匹配,而且还在句子级别的上下文向量中进行[5]。
2017年,Yu Wu等人进一步提高了利用对话之间的关系和上下文信息来匹配回复的方法,并提出了一个豆瓣(Douban)多轮对话数据集[6]。
这种方法通过卷积神经网络,得到多种不同粒度的文本,然后在时序上利用循环神经网络进行累加,来建模句子之间的相关性。
随后,Zhuosheng Zhang等人提出了深度语句聚合模型(Deep Utterance Aggregation Model,DUA)提取更加细粒度的对话语句表示,并提出了电子商务(E-commerce)多轮对话数据集[7]。
Xiangyang Zhou等人首次将Transformer架构引入到多轮对话系统中,并提出自注意机制和交叉注意力机制去提取不同粒度的深度学习表示,最后运用三维的卷积神经网络对聚合特征进行提取[8]。
尽管深度交互表示机制在匹配上下文和回复任务上显示出非常好的性能,Chongyang Tao等人发现单次的交互表示仍然不足以捕捉到深层的语义关系,因此他们提出了一个多层堆叠式交互表示的架构[10]。
然而,现有的模型都是对上下文全部语句进行建模,忽略了过度使用上下文信息的问题。
多轮对话中可能包括了多个不同的话题,因此对全部上下文建模可能会引入不相关的噪声。
为解决上述问题,Chunyuan Yuan等人最近提出了一个多跳选择网络[11](Multi-hop Selector Network,MSN)对多轮对话的上下文进行筛选,选择相关性较高的语句再与候选回复进行匹配。
1.2.3基于序列生成的对话系统
与检索式模型不同,生成式模型的主要目标是根据当前对话的上下文信息生成回复,甚至有可能生成模型训练阶段没有见过的崭新回复。
生成式模型借鉴了机器翻译的思路,随着序列到序列(Seq2Seq)转换模型在机器翻译中取得成功,其在对话生成模型中也得到了广泛的应用。
这些模型一般采用“编码-解码”结构:在编码端使用一个循环神经网络将输入语句编码为一个向量表示,而在解码端使用另一个循环神经网络,并采用注意力机制逐一生成回复内容。
早期的基于序列到序列生成的对话系统主要是针对单轮对话设计。
2015年,谷歌大脑Oriol Vinyals等人首次将Seq2Seq模型运用到单轮生成式系统。
随后,带有注意力机制的seq2seq翻译模型也被用在对话模型上。
Bengio等人进一步将单轮生成式系统扩展到多轮对话领域,他们用三个循环神经网络构建出基于分层循环神经网络的对话模型(Hierarchical Recurrent Network Dialog,HRED)。
HRED由3个RNN组成,编码RNN把每轮语句编码一个实数向量,上下文RNN把每轮对
第一章绪论
话的深度表示作为输入并对整个对话所有语句进行深度表示,最后将整个对话表示输入解码RNN生成下一轮回复。
1.3本文的主要贡献与创新
本论文以较大规模候选集场景下的检索型多轮对话模型为重点研究内容,优化在较大规模候选集场景下网络的性能与效率,分析自动构建的多轮对话数据对模型带来的问题,研究预训练模型在检索型多轮对话系统的应用,主要贡献和创新点如下:
(1)在大规模候选集场景下,在每一个候选回复都和上下文中每轮对话之间生成交互式表示非常耗时且无法实际应用于显示场景。
本文针对这一问题提出新型时空匹配网络,通过构建每轮对话和回复之间的时空特征取代交互式表示特征,最后运用三维卷积神经网络进行相似度计算,将时间复杂度从O(mn)降至O(m+n)。
(2)本文通过引入预训练语言模型对多轮对话进行理解并建模,提高模型的自然语言理解能和匹配候选回复的准确性。
同时,本文提出交谈者分割机制和多轮对话增强方法进一步强化预训练语言模型的输入,使其获得更好的性能。
(3)本文通过大量对比实验分析和可视化分析证明本文所提出方法的有效性,并在不同规模的回复候选集中测试其鲁棒性,为后续对话系统的应用落地提供思路。
1.4本论文的结构安排
本文分五个章节进行描述,结构安排如下:
本章先对聊天式对话系统的学术意义与应用前景进行阐述,然后对单轮和多轮检索式对话系统的背景和方法进行简单介绍,其中包括国内外研究发展历程和现状,最后说明本文的主要贡献与创新点。
第二章对多轮检索式对话系统的问题设定,所用的方法与技术原理做了详细的介绍,包括经典的多层感知机(Multi-Layer Perception,MLP)[24],卷积神经网络(Convolution Neural Network,CNN)[24],循环神经网络(Recurrent Neural Network,RNN)[24],注意力机制,Transformer[25]和深度注意匹配网络(Deep Attention Matching Network,DAM)[8]等。
第三章介绍了大规模候选集检索型多轮对话系统所存在的问题,详细阐释深度学习时空特征的原理与作用,详细描述了如何构建多轮对话的时空特征和如何利用时空特征进行对话历史和候选回复之间匹配的细节。
最后,通过在大规模回复选择数据集上进行了对比实验,验证时空匹配网络的性能和时空匹配特征的有
效性和可解释性。
第四章介绍了预训练语言模型原理,包括BERT[26]、BERT-WWM[27]和RoBERTa[28],描述如何将预训练语言模型引入到多轮对话回复选择任务中,进一步阐述交谈者分割机制和多轮对话增强方法的目的和算法原理,然后在回复选择任务验证所提出方法所带来的提升,也在较大规模候选集场景下证明了模型的性能。
第五章对文章进行了总结与技术展望。
第二章背景知识介绍
近年来,基于交互式注意力机制的方法[6–11]在自然语言处理领域得到广泛应用,在很多语义匹配和检索式对话场景下有很好的效果。
基于交互式注意力机制的检索式多轮对话模型是本文提出所有方法的基础,涉及了大量深度学习模型和注意力机制的变体。
因此,本章对第三、四、五章所用到的的对话系统技术进行背景知识介绍,先介绍本文所用到的深度学习模型,包括多层感知机模型(Multi-Layer Perceptron,MLP)[29],卷积神经网络(Convolution Neural Networks,CNN)[24]、递归神经网络(Recurrent Neural Network,RNN)[24],然后阐述自注意力机制和交互式注意力机制的原理与应用,接着介绍由自注意力机制发展出来的Transformer[25]模型,最后介绍近几年广泛应用的基于交互式注意力机制的多轮检索式对话模型。
2.1多层神经网络
神经网络的灵感来源于大脑的计算机制,由被称为神经元的计算单元组成。
一般来说,最简单的单层神经网络是一个简单的线性的模型,它具有若干标量输入和一个标量输出:
y(x)=xW+b(2-1)
其中,x∈R d1是d1维的神经网络标量输入,W∈R d1d2是神经网络的权重,b∈R d2是神经网络偏置项。
如图所示,神经元每个输入都有与其相关联的权重。
为了增强模型的表达能力,一般将多个单层神经网络堆叠起来,在计算过程中,神经元将每个输入乘以其权重井与偏置相加,然后将结果通过一个激活函数输出,即y(x)=σ(xW+b)。
神经元的输出可能会提供给一个或多个神经元作为输入,这样就组成密集的多层神经网络。
2.2卷积神经网络
卷积神经网络的发展最早可以追溯到1962年对人脑的研究,1981年诺贝尔生理学或医学奖得主David H.Hubel和Torsten Wiesel发现了视觉系统的信息处理是分层次的,大脑不同的视觉皮层处理不同的抽象信息[30]。
受人脑视觉机理启发,Yann Lecun于1998年提出了卷积神经网络雏形LeNet-5[31],利用视觉感受域的原理构造出卷积运算,并将BP算法应用到这个神经网络结构的训练上,在阅
读支票、识别数字之类的任务上很有效果。
然而,早期的卷积神经网络效果并不算好,而且训练也非常困难,在一般的实际任务中表现不如支持向量机(Support Vector Machine,SVM)[32,33]、提升方法(Boosting)[34]等算法好,一直处于学术界边缘的地位。
直到2012年,Hinton等人在ImageNet图像识别大赛中提出了AlexNet[35],引入了全新的深层结构和Dropout方法,把错误率从25%以上降低到了15%,颠覆了图像识别领域。
卷积神经网络在目标检测上获得了巨大的成功也引起其他领域的巨大变革。
Collobert等人将卷积网络引入了NLP领域[36]用于情感角色标注,接下来Nal Kalchbrenner等人提出了动态卷积神经网络来为不定长的句子进行建模[37]。
如今,卷积神经网络也在自然语言处理领域各方面得到应用。
一般来说,前馈神经网络会把所有输入信息通过每个神经元的通路连接到下一层神经元中,而卷积神经网络则是依次把输入局部区域的信息传递到下一层神经元。
在卷积神经网络中,参与每个局部区域信息的神经元权值共享,这种共享的权值和偏置也被称作卷积核或滤汲器。
权值共享能显著地降低卷积神经网络的复杂度和参数量,使得高维的图像也能直接作为卷积神经网络的输入。
例如,当使用9×9的卷积感受野时,一张高维的输入图像也只需要81个权值参数。
除此之外,输入的图像往往都比较大,并不是所有的信息都对模型的训练和预测有帮助,而且大量输入信息还可能带有噪声,对模型产生负面的影响。
目前一般池化操作对信息进行压缩,即通过下采样过程来调整图像的大小。
总的来说,卷积神经网络由卷积层、池化层、全连接层等组件通过复杂的连接组成,接下来将对每个基本单元进行介绍。
2.2.1卷积层
本小节对卷积网络层进行原理介绍,然后延伸到本文第三章时空匹配网络所用到三维卷积结构。
卷积层类似于一个前馈神经网络的层的功能,主要对输入数据进行特征提取,因此也被称特征提取层。
卷积层内部包含多个卷积核,组成卷积核的每个元素都对应一个可学习的权重和偏置项。
一般来说,卷积核内每个神经元有规律地捕获前一层的局部感受野输入信息,即输入和卷积核进行矩阵元素乘法并与偏置项相加,最后通过激活函数得到该层的输出。
由于现实大多数图像都是RGB图像,每张图像有三个通道。
在此基础上发展出多通道卷积,多通道卷积不同的通道上的卷积核的参数是不同的,但卷积操作原理相同。
多通道输入需要同时进行卷积操作,每个卷积核的通道数应与输入的通道数相同,输出的特征图数量与卷积核数量一致,这里不再赘述,以下仅以单通道卷积为例说明。