集成注意力机制的行人重识别方法与制作流程

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

本技术提供一种集成注意力机制的行人重识别方法,包括以下步骤:步骤一,构造嵌入多粒度注意力机制的CNN;步骤二,把train数据集输入CNN训练CNN,得到CNN模型,其中CNN的损失函数为分类损失和Trihard损失之和;步骤三,把gallery数据集输入到步骤二所述的CNN模型中,得到一个图片特征数据库,其中每个特征都有唯一的行人id;步骤四,输入query图片得到特征,检索步骤三中的图片特征数据库计算出相似度,选出相似度最高的这张图片,这张gallery图片的行人id就是query图片的行人id。该方法设计了一种新的注意力模块,相应提出了多粒度注意力机制,把该机制集成到CNN中,以提升CNN的特征提取水平,增强CNN的不规则采样能力,更强地适应行人姿势、背景等变化,以适应行人重识别任务。

权利要求书

1.一种集成注意力机制的行人重识别方法,其特征在于,所述识别方法包括以下步骤:

步骤一,构造嵌入多粒度注意力机制的CNN;

步骤二,把train数据集输入CNN训练CNN,得到CNN模型,其中CNN的损失函数为分类损失和Trihard损失之和;

步骤三,把gallery数据集输入到步骤二所述的CNN模型中,得到一个图片特征数据库,其中每个特征都有唯一的行人id;

步骤四,输入query图片得到特征,检索步骤三中的图片特征数据库计算出相似度,选出相似度最高的这张图片,这张gallery图片的行人id就是query图片的行人id。

2.根据权利要求1所述的一种集成注意力机制的行人重识别方法,其特征在于,步骤一中的CNN具体为:包含多个stage,每两个stage之间插入注意力模块;

所述注意力模块由卷积层conv、relu层、第一全连接层fc1、第二全连接层fc2、sigmoid层、tile层和element-wise层依次拼接而成;conv在通道维度上进行学习,并将通道数量压缩为1,将每张图片的输入张量的规模变成了二维平面;relu层起到非线性变换的作用,fc1起到在空间维度上的压缩作用,fc2起到在空间维度上的还原作用,fc1和fc2整体对特征图的筛选过滤;sigmoid层执行sigmoid运算,其输出结果为每个通道上的掩码矩阵;tile层在通道维度上进行广播运算,elment-wise层对经过tile运算的张量和原输入张量进行相乘运算。

3.根据权利要求2所述的一种集成注意力机制的行人重识别方法,其特征在于,对所述注意力模块进行参数设置,具体为:conv的输入通道数为C,输出通道数为1,卷积核大小为

1x1,偏置为true;fc1层输入特征数为H x W,输出特征数为H,fc2层的输入特征数为H,输出特征数为H x W。

4.根据权利要求2所述的一种集成注意力机制的行人重识别方法,其特征在于,所述注意力模块的计算流程为:

步骤1.1,conv接收前一个stage输入,记为A,规模为(n x C x H x W),并执行卷积运算;其

中,n为训练批次大小,C为通道数量,H为特征图高度,W为特征图宽度,输出规模变为(n x 1 x H x W);

步骤1.2,在特征维度上进行归一化操作;

步骤1.3,relu层接收GroupNorm后的输出,执行relu运算;

步骤1.4,fc1层接收relu层输出,执行全连接运算,输出规模变为(n x 1 x H x 1);

步骤1.5,fc2层接收fc1层输出,执行全连接运算,输出规模变为(n x 1 x H x W);

步骤1.6,对步骤1.5输出结果执行sigmoid运算;

步骤1.7,对上一步结果执行在通道维度上的广播运算,输出规模变为(n x C x H xW),记为B;

步骤1.8,对A与B进行elment-wise运算,运算结果记为C,C的规模是(n x C x H x W),输出C 到后一个stage。

5.根据权利要求4所述的一种集成注意力机制的行人重识别方法,其特征在于,所述步骤1.2中执行GroupNorm操作在特征维度上进行归一化。

技术说明书

一种集成注意力机制的行人重识别方法

技术领域

本技术涉及互联网通信技术领域,尤其是涉及一种集成注意力机制的行人重识别方法。

背景技术

行人重识别是利用计算机视觉技术判断不同相机的图像,或者视频序列中是否存在特定行人的技术,被广泛认为是图像检索的子问题。行人重识别技术可以在一个较大区域内跟踪一个人的轨迹,另外它在机器人技术、照片自动标注等方面也有着很高应用价值。行人重识别是学术界和工业界都非常关注的技术问题,相比于比较成熟的人脸识别技术,它依然是计算机视觉领域的难题。其主要挑战是识别和适应行人在不同相机上呈现的外貌变化,比如角度、姿势、色彩、遮挡等。现有行人重识别方案一般基于深度学习,即利用卷积神经网络(Convolutional Neural Network,下面称CNN)提取图片的特征向量,通过计算特征向量的相似度判断不同照片是否属于同一人。CNN是一种层级神经网络,其中低层对应图片的底层特征,高层对应着更为复杂的纹理特征。CNN通过层次结构自动学习得到输入图片的特征向量,但普通的CNN对于图片的局部特征同等看待,这样提取出的全局特征容易受到背景信息、噪音的干扰。

注意力机制模拟人脑的注意力机制,对不重要的部分投放较少注意力,对重要的部分投放更多注意力(其中注意力可理解为权重)。因此注意力机制可以灵活捕捉全局和局部的联系,有助于校准错位的图像,增强特征向量对姿势变化的适应性,消除噪音的干扰。在应用中注意力机制一般作为模块,作为卷积层或循环层的下一层嵌入到CNN中。已有的技术方案把注意力模块嵌入到CNN的尾部,即在CNN最终输出之前先经过多个并行的身体部位检测器提取出多个身体部位特征,最终组合输出特征向量。其中身体部位检测器就是注意力模块,每个注意力模块的掩码矩阵参数不同。具体实现来说可分为以下几个步骤:⑴每个身体部位检测器从CNN接收相同的全局张量输入,首先进行卷积操作得到了掩码矩阵。⑵对掩码矩阵进行sigmoid运算。⑶对⑵的结果进行tile运算,即在通道维度上的广播运算。⑷把⑴和⑶的结果进行element-wise运算,即对两个张量进行点积运算。⑸对⑷的结果在特征图维度上进行平均池化操作。⑹对⑸的结果经过全连接层处理实现降维。⑺把多个⑹的结果进行拼接操作,组合成全局特征。其中⑴-⑹是实现的是身体部位检测器,即注意力模块部分。

上述技术方案把注意力模块直接嵌入到CNN的末尾,而且是嵌入了多个注意力模块,每个

相关文档
最新文档