【CN109902202A】一种视频分类方法及装置【专利】
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2
CN 109902202 A
权 利 要 求 书
2/2 页
到所述视频的分类结果以 及所述视频的显著图 ,所述训练集中包括按照视频类型进行分类 的视频以 及视频显著图 ,所述双路神经网络模型包括一路 用于对所述视频进行分类的 第一 子神经网络以及一路用于确定所述视频的显著图的第二子神经网络;
增加模块 ,用于 将得到的 所述显著图 中 置 信度高 于 第一阈 值的 显著图 加入所述 训练 集;
(10)申请公布号 CN 109902202 A (43)申请公布日 2019.06.18 G06N 3/08(2006 .01)
权利要求书2页 说明书6页 附图3页
CN 109902202 A
CN 109902202 A
权 利 要 求 书
Biblioteka Baidu
1/2 页
1 .一种视频分类方法,其特征在于,包括: 提取待分类视频的关键帧 ; 将所述关键帧输入预先根据训练集训练得到的双路神经网络模型,得到所述视频的分 类结果以 及所述视频的显著图 ,所述训练集中包括按照视频类型进行分类的视频以 及视频 显著图 ,所述双路神经网络模型包括一路 用于对所述视频进行分类的 第一子神经网络以 及 一路用于确定所述视频的显著图的第二子神经网络; 将得到的所述显著图中置信度高于第一阈值的显著图加入所述训练集; 使用所述训练集中的视频显著图重新训练所述第二子神经网络,得到更新后的双路神 经网络模型。 2 .根据权利要求1所述的方法,其特征在于,所述方法还包括: 在提取待分类视频的关键帧之前,移除卷积神经网络VGG16的倒数第二层全连接层,得 到修改后的VGG16; 将修改后的VGG16与Inception结构相接; 将所述Inception结构后的拼接层与残差神经网络ResNet-50的res2c层拼接; 将修改 后的 VGG16的 输出与ResNet-50的 res2c层之 后的 部分 相连 ,得到拼接后的 双路 神经网络; 根据所述视频类型的数目修改所述ResNet-50的倒数第二层的全连接层,得到修改后 的ResNet-50; 将修改 后的 ResNet-50部分使 用在ImageNet上的 预设 训练权重进行初始化 ,得到修改 后的ResNet-50对应的权值; 对修改后的VGG16使用在ImageNet上训练的VGG16进行初始化,得到初始化模型; 利用所述训练集对所述初始化模型进行训练,得到所述双路神经网络模型。 3 .根据权利要求1所述的方法,其特征在于,所述方法还包括: 在将得到的所述显著图中置信度高于第一阈值的显著图加入所述训练集之前,提取置 信度高于所述第一阈值的显著图的特征向量; 根据所述特征向量确定出相似度高于第二阈值的冗余图像; 删除所述冗余图像,将得到剩余的所述显著图像加入所述训练集。 4 .根据权利要求1所述的方法,其特征在于,将所述关键帧输入预先根据训练集训练得 到的双路神经网络模型 ,得到所述视频的分类结果以 及所述视频的显著图 ,包括 : 在将所 述关 键帧 输 入所 述 双路 神经网 络 模型 之 后 ,统 计得 到的 各 视频 类型的 帧的 个 数; 将统计的各视频类型对应的帧的个数超过第三阈值的帧对应的视频类型作为所述待 分类视频的视频类型。 5 .根据权利要求1至4中任一项所述的方法,其特征在于,所述方法还包括: 在提取待分类视频的关键帧之前,通过最先进的显著性检测方式提取所述训练集中的 视频的显著图像,得到所述训练集中的所述视频显著图像。 6 .一种视频分类装置,其特征在于,包括: 第一提取模块,用于提取待分类视频的关键帧; 输入模块 ,用于将所述关键帧 输入预先根据 训练集 训练得到的 双路 神经网络模型 ,得
(74)专利代理机构 工业和信息化部电子专利中 心 11010
代理人 李勤媛
(51)Int .Cl . G06F 16/75(2019 .01) G06K 9/62(2006 .01) G06N 3/04(2006 .01)
( 54 )发明 名称 一种视频分类方法及装置
( 57 )摘要 本发明提供一种视频分类方法及装置,用以
解决相关技术中基于显著性引导的分类模型的 分类性能 较低的问 题。该方法包括 :提取待分类 视频的关键帧 ;将所述关键帧输入预先根据训练 集训练得到的双路神经网络模型,得到所述视频 的分类结果以 及所述视频的显著图 ,所述训练集 中 包括按照视频类型 进行分 类的 视频以 及视频 显著图 ,所述双路神经网络模型包括一路 用于对 所述视频 进行分 类的 第一子 神经网 络以 及一路 用于确定所述视频的显著图的第二子神经网络; 将得到的所述显著图中置信度高于第一阈值的 显著图加入所述训练集;使用所述训练集中的视 频显著图重新训练所述第二子神经网络,得到更 新后的双路神经网络模型。本发明有效提高了视 频分类的性能。
第一 训练模块 ,用于使 用所述 训练集中的 视频显著图 重新 训练所述 第二子 神经网 络 , 得到更新后的双路神经网络模型。
7 .根据权利要求6所述的装置,其特征在于,所述装置还包括: 移除模块,用于在提取待分类视频的关键帧之前,移除卷积神经网络VGG16的倒数第二 层全连接层,得到修改后的VGG16; 第一连接模块,用于将修改后的VGG16与Inception结构相接; 第二连接模块 ,用于将所述Ince ption结 构后的 拼接层与残差 神经网 络ResNet-50的 res2c层拼接; 第三连接模块,用于将修改后的VGG16的输出与ResNet-50的res2c层之后的部分相连, 得到拼接后的双路神经网络; 修改 模块 ,用于根据所述视频类型的 数目 修改 所述ResNet-50的 倒数 第二层的 全连接 层,得到修改后的ResNet-50; 第一初始化模块 ,用于将修改 后的 ResNet-50部分使 用在ImageNet上的 预设 训练权重 进行初始化,得到修改后的ResNet-50对应的权值; 第二初始化模块 ,用于对修改 后的 VGG16使 用在ImageNet上 训练的 VGG16进行初始化 , 得到初始化模型; 第二 训练模块 ,用于利 用所述 训练集对所述初始化模型进行 训练 ,得到所述双路 神经 网络模型。 8 .根据权利要求6所述的装置,其特征在于,所述装置还包括: 提取模块,用于在将得到的所述显著图中置信度高于第一阈值的显著图加入所述训练 集之前,提取置信度高于所述第一阈值的显著图的特征向量; 确定模块,用于根据所述特征向量确定出相似度高于第二阈值的冗余图像; 删除模块,用于删除所述冗余图像,将得到剩余的所述显著图像加入所述训练集。 9 .根据权利要求6所述的装置,其特征在于,所述输入模块,包括: 统计单元 ,用于在将所述关键帧 输入所述双路 神经网络模型之 后 ,统计得到的 各视频 类型的帧的个数; 确定单元,用于将统计的各视频类型对应的帧的个数超过第三阈值的帧对应的视频类 型作为所述待分类视频的视频类型。 10 .根据权利要求6至9中任一项所述的装置,其特征在于,所述装置还包括: 第二提取模块 ,用于在提取待分类视频的 关键帧 之前 ,通过最先进的 显著性检 测方式 提取所述训练集中的视频的显著图像,得到所述训练集中的所述视频显著图像。
( 19 )中华人民 共和国国家知识产权局
( 12 )发明专利申请
(21)申请号 201910015462 .3
(22)申请日 2019 .01 .08
(71)申请人 国家计算机网络与信息安全管理中 心
地址 100029 北京市朝阳区裕民路甲3号 申请人 北京航空航天大学
(72)发明人 袁庆升 包秀国 杜翠兰 李甲 郭承禹 刘洋 张翠 张睿智