生成人像分割模型的方法和视频关键帧提取方法_CN109816011A
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
取方法 ( 57 )摘要
本发明公开了一种生成人像分割模型的方 法和视频关键帧提取方法,生成人像分割模型的 方法包括 :获取 训练集 ,其中 训练集包括若干个 由当前帧图像、上一帧掩膜图像、人工标注的当 前帧掩膜图像组成的图像组 ;将由当前帧图像和 上一帧掩膜图像组成的数组输入预训练的人像 分 割模型 ,人像分 割模型为端对端模型 ,包括编 码模型和解码模型,编码模型适于从数组中提取 当前帧图像的特征,解码模型适于基于所提取的 特征 ,输出当前帧 掩膜图 像 ;基于人工标注的 当 前帧掩膜图像和输出的当前帧掩膜图像,训练人 像分 割模型 ,以 得到生成的 人像分 割模型。该方 案能够基于人像掩模图像,提取出人像运动差异 较大的视频帧作为关键帧 ,从而很好地表达人物 的运动行为。
( 19 )中华人民 共和国国家知识产权局
( 12 )发明专利申请
(21)申请号 201910055748 .4
(22)申请日 2019 .01 .21
(71)申请人 厦门美图之家科技有限公司 地址 361008 福建省厦门市湖里区火炬高 新区创业园创业大厦11室
(72)发明人 刘挺 王鹏飞 姜浩 张伟 许清泉
(74)专利代理机构 北京思睿峰知识产权代理有 限公司 11396
代理人 谢建云 张赞
(51)Int .Cl . G06K 9/62(2006 .01) G06N 3/04(2006 .01)
(10)申请公布号 CN 109816011 A (43)申请公布日 2019.05.28
( 54 )发明 名称 生成人像分割模型的方法和视频关键帧提
2
CN 109816011 A
权 利 要 求 书
2/2 页
所述指令当计算设备执行时 ,使得所述计算设备执行根据权利要求1-5所述的方法中的 任 一方法和用于执行根据权利要求6-8所述方法中任一方法的指令。
பைடு நூலகம்
3
CN 109816011 A
说 明 书
1/11 页
生成人像分割模型的方法和视频关键帧提取方法
权利要求书2页 说明书11页 附图4页
CN 109816011 A
CN 109816011 A
权 利 要 求 书
1/2 页
1 .一种生成人像分割模型的方法,该方法适于在计算设备中执行,所述方法包括: 获取训练集,所述训练集包括多个由当前帧图像、上一帧掩膜图像、人工标注的当前帧 掩膜图像组成的图像组; 将由当前帧图像和上一帧掩膜图像组成的数组输入预训练的人像分割模型,所述人像 分割模型为端对端模型,其中包括编码模型和解码模型, 所述编码模型适于从所述数组中提取当前帧图像的特征,所述解码模型适于基于所提 取的特征,输出当前帧掩膜图像; 基于所述人工标注的当前帧掩膜图像和输出的当前帧掩膜图像,训练所述人像分割模 型,以得到生成的人像分割模型。 2 .如权利要求1所述的方法,所述人像分割模型适于从包含人像特征的图像中分割出 人像特征,其中,所述掩模图像为人像掩膜图像。 3 .如权利要求1所述的方法,其中,所述数组为当前帧图像的RGB三通道图像信息和上 一帧掩膜图像的单通道掩膜信息连接成一个四通道数组。 4 .如权利要求1所述的方法,其中,所述编码模型包括卷积处理层和下采样层,所述卷 积处理层包括卷积层、激活层、归一化层, 所述卷积层适于将卷积参数作用于所述编码模型的输入 ,以得到特征图 ; 所述激活层适于将特征图进行非线性映射; 所述归一化层适于调整特征图的数据分布; 所述下采样层适于对特征图进行降采样。 5 .如权利要求1所述的方法,其中,所述训练人像分割模型的步骤包括: 基于编码模型 和解码模型的 损失函数 ,使 用反向 传播算法 调整人像分 割模型的 参数 , 以得到训练后的人像分割模型。 6 .一种视频关键帧提取方法,其中,该方法适于在计算设备中执行,所述方法包括: 将人像视频帧序列输入人像分割模型,以输出对应的人像掩膜图像序列帧; 从所述人像掩膜图像序列帧中过滤掉人像面积小于第一预定阈值的图像;以及 从过滤后的人像掩膜图像中提取形状特征差异大于第二阈值的图像 ,以 作为关键帧 , 其中,所述人像分割模型基于如权利要求1-9中任意一项中所述的方法生成。 7 .如权利要求6所述的方法,其中,所述方法包括: 将所述人像视频帧序列的第一帧图像的掩膜图像设置为全黑。 8 .如权利要求6所述的方法,其中,所述方法还包括: 对所述人像视频帧 序列进行预处理 ,以 将预处理后的人像视频帧 序列作为人像分割模 型的输入,所述预处理包括解码、缩放。 9 .一种计算设备,包括: 一个或多个处理器;和 存储器; 一个或多个程序,其中所述一个或多个程序存储在所述存储器中并被配置为由所述一 个或多个处理器执行 ,所述一个或多个程序包括 用于执行根据权利要求1-5所述方法中的 任一方法的指令和用于执行根据权利要求6-8所述方法中任一方法的指令。 10 .一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,
技术领域 [0001] 本发明涉及图像处理技术领域,尤其是生成图像人像分割模型的方法和视频关键 帧提取方法。
背景技术 [0002] 视频关键帧是指镜头中最重要、具有代表性的一帧或多帧图像。随着网络基础设 施的不断完善、新的网络技术应用及视频拍摄设备的普及,视频资源总量以及人们对视频 资源的需求量也随之增加。尤其是对视频信息进行智能标注、自动分类、视频内容自动检 测、过滤及视频内容检索等需求不断增加。视频关键帧提取作为视频信息处理的基础技术, 直接影响高级视频处理的结果。 [0003] 当前视频关键帧提取方法主要有:基于颜色(直方图)的帧差方法、基于运动分析 方法及基于视频帧聚类方法。基于颜色的帧 差法存在对光线变化敏感 ,不能体现全局特征 或不能体现局部细节变化的缺点。基于运动分析的关键帧提取方法使用光流分析计算视频 帧的运动量,存在算法复杂、计算量大的问题。基于聚类的关键帧提取方法可有效获取镜头 显著变化的视觉内容,但聚类的方法不能保持视频帧所具有的时序关系和动态信息。 [0004] 鉴于此,需要一种视频关键帧提取方法,能够解决传统关键帧提取技术中不能很 好地表达人像特征的问题。
本发明公开了一种生成人像分割模型的方 法和视频关键帧提取方法,生成人像分割模型的 方法包括 :获取 训练集 ,其中 训练集包括若干个 由当前帧图像、上一帧掩膜图像、人工标注的当 前帧掩膜图像组成的图像组 ;将由当前帧图像和 上一帧掩膜图像组成的数组输入预训练的人像 分 割模型 ,人像分 割模型为端对端模型 ,包括编 码模型和解码模型,编码模型适于从数组中提取 当前帧图像的特征,解码模型适于基于所提取的 特征 ,输出当前帧 掩膜图 像 ;基于人工标注的 当 前帧掩膜图像和输出的当前帧掩膜图像,训练人 像分 割模型 ,以 得到生成的 人像分 割模型。该方 案能够基于人像掩模图像,提取出人像运动差异 较大的视频帧作为关键帧 ,从而很好地表达人物 的运动行为。
( 19 )中华人民 共和国国家知识产权局
( 12 )发明专利申请
(21)申请号 201910055748 .4
(22)申请日 2019 .01 .21
(71)申请人 厦门美图之家科技有限公司 地址 361008 福建省厦门市湖里区火炬高 新区创业园创业大厦11室
(72)发明人 刘挺 王鹏飞 姜浩 张伟 许清泉
(74)专利代理机构 北京思睿峰知识产权代理有 限公司 11396
代理人 谢建云 张赞
(51)Int .Cl . G06K 9/62(2006 .01) G06N 3/04(2006 .01)
(10)申请公布号 CN 109816011 A (43)申请公布日 2019.05.28
( 54 )发明 名称 生成人像分割模型的方法和视频关键帧提
2
CN 109816011 A
权 利 要 求 书
2/2 页
所述指令当计算设备执行时 ,使得所述计算设备执行根据权利要求1-5所述的方法中的 任 一方法和用于执行根据权利要求6-8所述方法中任一方法的指令。
பைடு நூலகம்
3
CN 109816011 A
说 明 书
1/11 页
生成人像分割模型的方法和视频关键帧提取方法
权利要求书2页 说明书11页 附图4页
CN 109816011 A
CN 109816011 A
权 利 要 求 书
1/2 页
1 .一种生成人像分割模型的方法,该方法适于在计算设备中执行,所述方法包括: 获取训练集,所述训练集包括多个由当前帧图像、上一帧掩膜图像、人工标注的当前帧 掩膜图像组成的图像组; 将由当前帧图像和上一帧掩膜图像组成的数组输入预训练的人像分割模型,所述人像 分割模型为端对端模型,其中包括编码模型和解码模型, 所述编码模型适于从所述数组中提取当前帧图像的特征,所述解码模型适于基于所提 取的特征,输出当前帧掩膜图像; 基于所述人工标注的当前帧掩膜图像和输出的当前帧掩膜图像,训练所述人像分割模 型,以得到生成的人像分割模型。 2 .如权利要求1所述的方法,所述人像分割模型适于从包含人像特征的图像中分割出 人像特征,其中,所述掩模图像为人像掩膜图像。 3 .如权利要求1所述的方法,其中,所述数组为当前帧图像的RGB三通道图像信息和上 一帧掩膜图像的单通道掩膜信息连接成一个四通道数组。 4 .如权利要求1所述的方法,其中,所述编码模型包括卷积处理层和下采样层,所述卷 积处理层包括卷积层、激活层、归一化层, 所述卷积层适于将卷积参数作用于所述编码模型的输入 ,以得到特征图 ; 所述激活层适于将特征图进行非线性映射; 所述归一化层适于调整特征图的数据分布; 所述下采样层适于对特征图进行降采样。 5 .如权利要求1所述的方法,其中,所述训练人像分割模型的步骤包括: 基于编码模型 和解码模型的 损失函数 ,使 用反向 传播算法 调整人像分 割模型的 参数 , 以得到训练后的人像分割模型。 6 .一种视频关键帧提取方法,其中,该方法适于在计算设备中执行,所述方法包括: 将人像视频帧序列输入人像分割模型,以输出对应的人像掩膜图像序列帧; 从所述人像掩膜图像序列帧中过滤掉人像面积小于第一预定阈值的图像;以及 从过滤后的人像掩膜图像中提取形状特征差异大于第二阈值的图像 ,以 作为关键帧 , 其中,所述人像分割模型基于如权利要求1-9中任意一项中所述的方法生成。 7 .如权利要求6所述的方法,其中,所述方法包括: 将所述人像视频帧序列的第一帧图像的掩膜图像设置为全黑。 8 .如权利要求6所述的方法,其中,所述方法还包括: 对所述人像视频帧 序列进行预处理 ,以 将预处理后的人像视频帧 序列作为人像分割模 型的输入,所述预处理包括解码、缩放。 9 .一种计算设备,包括: 一个或多个处理器;和 存储器; 一个或多个程序,其中所述一个或多个程序存储在所述存储器中并被配置为由所述一 个或多个处理器执行 ,所述一个或多个程序包括 用于执行根据权利要求1-5所述方法中的 任一方法的指令和用于执行根据权利要求6-8所述方法中任一方法的指令。 10 .一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,
技术领域 [0001] 本发明涉及图像处理技术领域,尤其是生成图像人像分割模型的方法和视频关键 帧提取方法。
背景技术 [0002] 视频关键帧是指镜头中最重要、具有代表性的一帧或多帧图像。随着网络基础设 施的不断完善、新的网络技术应用及视频拍摄设备的普及,视频资源总量以及人们对视频 资源的需求量也随之增加。尤其是对视频信息进行智能标注、自动分类、视频内容自动检 测、过滤及视频内容检索等需求不断增加。视频关键帧提取作为视频信息处理的基础技术, 直接影响高级视频处理的结果。 [0003] 当前视频关键帧提取方法主要有:基于颜色(直方图)的帧差方法、基于运动分析 方法及基于视频帧聚类方法。基于颜色的帧 差法存在对光线变化敏感 ,不能体现全局特征 或不能体现局部细节变化的缺点。基于运动分析的关键帧提取方法使用光流分析计算视频 帧的运动量,存在算法复杂、计算量大的问题。基于聚类的关键帧提取方法可有效获取镜头 显著变化的视觉内容,但聚类的方法不能保持视频帧所具有的时序关系和动态信息。 [0004] 鉴于此,需要一种视频关键帧提取方法,能够解决传统关键帧提取技术中不能很 好地表达人像特征的问题。