(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210759308.9
(22)申请日 2022.06.30
(71)申请人 温州大学
地址 325000 浙江省温州市瓯海区东方南
路38号温州市国家大 学科技园孵化器
(72)发明人 张笑钦 廖唐飞 赵丽 冯士杰
徐曰旺
(74)专利代理 机构 北京阳光天下知识产权代理
事务所(普通 合伙) 11671
专利代理师 赵飞
(51)Int.Cl.
G06V 10/26(2022.01)
G06V 20/40(2022.01)
G06V 20/70(2022.01)
G06V 10/44(2022.01)G06V 10/54(2022.01)
G06V 10/62(2022.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)
G06N 3/04(2006.01)
(54)发明名称
一种基于孪生网络的视频人像分割算法
(57)摘要
本发明公开了一种基于孪生网络的视频人
像分割算法,涉及图像处理技术领域, 采用孪生
网络结构, 其基本结构包括视频帧获取图像模
块、 RGB分离模块、 Encoder网络模块、 SE模块、
Decoder网络模 块和JPU模块; 本发明采用深度学
习PyTorch框架构建上述模块, 由模型学习视频
处理方法, 通过对视频每帧预测一个精准的
alpha蒙版, 从给定的图像或视频中提取任 务, 实
现在复杂场景 下的高分辨 率视频人像分割。
权利要求书2页 说明书6页 附图6页
CN 115100409 A
2022.09.23
CN 115100409 A
1.一种基于孪生网络的视频人像分割算法, 其特征在于, 采用孪生网络结构, 其基本结
构包括视频帧图像获取模块、 RGB分离模块、 Encoder网络模块、 SE模块、 Decoder网络模块和
JPU模块, 包括以下步骤:
步骤S1: 通过所述视频帧获取模块从待分割视频获取当前视频帧图像并进行预处理,
得到预处 理的当前 频帧图像;
步骤S2: 通过所述RGB分离模块将得到的预处理视频帧图像分离为RGB颜色模式下的三
通道RGB视频帧图像;
步骤S3: 将三通道RGB视频帧图像输入所述Encoder网络模块, 采用Mobilenet V3网络,
提取五个三 通道RGB视频帧图像的多尺度粗粒度特 征;
步骤S4: 通过所述SE模块连接所述Encoder网络模块和 所述Decoder网络模块, 将粗粒
度特征输入到SE模块中, 通过 学习到每 个通道重要程度, 进行 特征通道级的特 征重标定;
步骤S5: 通过所述Decoder网络模块从所述Encoder网络模块、 当前视频帧图像下采样
以及ConvGRU循环神经网络得到不同尺度特征, 并进行特征融合, 捕获下采样中损失的边缘
特征、 浅层的文理特 征以及时序与空间特 征;
步骤S6: 通过所述JPU模块将当前视频帧、 当前视频帧下采样和Decoder网络模块获得
三个不同尺度的特征, 在给定相应低分辨率输出和高分辨率图像的情况下有效地生成高分
辨率特征图。
2.根据权利要求1所述的基于孪生网络的视频人像分割算法, 其特征在于, 所述通过所
述视频帧获取模块从待分割视频获取当前视频帧图像并进 行预处理, 得到预处理的当前频
帧图像包括: 步骤S11: 获取待分割视频的当前视频帧图像; 步骤S12: 对获取的当前视频帧
图像进行 预处理。
3.根据权利要求2所述的基于孪生网络的视频人像分割算法, 其特征在于, 所述对当前
视频帧进 行预处理包括: 步骤S121: 将所述待分割视频的尺 寸调整为预设尺 寸, 所述预设尺
寸为孪生网络要求的输入图像的尺寸; 步骤S122: 将调整尺 寸后图像的像素进 行归一化; 步
骤S123: 按预设顺序调整归一 化的图像的颜色通道的顺序。
4.根据权利要求1所述的基于孪生网络的视频人像分割算法, 其特征在于, 所述将三通
道RGB视频帧图像输入所述Encoder网络模块, 采用Mobilenet V3网络, 提取五个三通道RGB
视频帧图像的多尺度粗粒度特征, 包括采用轻量级网络Mobilenet V3 Large作为
backbone, 基于孪生网络构建四级编码 器, 通过下采样层和四级编码 器获得三通道RGB视频
帧分辨率的1/4、 1/8、 1/16、 1/ 32和1/64的粗粒度特 征图。
5.根据权利要求4所述的基于孪生网络的视频人像分割算法, 其特征在于, 所述下采样
层采用用双线性插值进行4倍下采样, 得到原图分辨率1/4的特征图; 所述四级编码器包括
第一编码器、 第二级编码 器、 第三级编 码器和第四级编 码器, 每级编 码器采用多个权重共享
的bottleneck结构, 每级编码器首先使用逐点卷积组, 其次使用深度卷积组, 并连接SE模块
学习权重, 最后通过短链接将包 含结构化信息的浅层特 征传递至深层特 征。
6.根据权利要求1所述的基于孪生网络的视频人像分割算法, 其特征在于,所述通过所
述SE模块连接所述Encoder网络模块和所述Decoder网络模块, 将粗粒度特征输入到SE模块
中, 通过学习到每个通道重要程度, 进行特征通道级的特征重标定, 包括: 用于将获得的粗
粒度特征通过S queeze操作转化为一个全局特征, 采用全局平均化实现, 得到全局特征; 对权 利 要 求 书 1/2 页
2
CN 115100409 A
2Squeeze操作得到的全局特征进行Excitation操作, 学习各个通道之间的非线性关系, 得到
不同通道的权 重, 重新标定特 征。
7.根据权利要求1所述的基于孪生网络的视频人像分割算法, 其特征在于, 所述通过所
述Decoder网络模块从所述Enco der网络模块、 当前视频帧图像下采样以及ConvGRU循环神
经网络得到不同尺度特征, 并进 行特征融合, 捕获下采样中损失的边缘特征、 浅层的文理特
征以及时序与空间特征, 包括通过与所述Encoder模块相对应的四级解码器, 将高层语义信
息逐步还原放大, 获得高分辨 率的特征图。
8.根据权利要求7所述的基于孪生网络的视频人像分割算法, 其特征在于, 所述四级解
码器用于多层特征融合、 降低通道数及获得高分辨率特征图, 分别得到当前视频帧分辨率
1/32、 1/16、 1/8、 1/4的特征图; 每级解码器的输入利用下采样过程的输出进行合并, 经卷积
归一化后, 再通过Co nvGRU循环网络利用前一帧及当前帧信息计算与输出。
9.根据权利要求1所述的基于孪生网络的视频人像分割算法, 其特征在于, 所述通过所
述JPU模块将从当前视频 帧、 当前视频 帧下采样、 Decoder网络模块获得三个不同尺度的特
征, 在给定相应低分辨率输出和高分辨率图像的情况下有效地生成 高分辨率特征图包括以
下步骤:步骤S41: 将从当前视频帧、 当前视频帧下采样所得和Decoder网络模块得到的三个
不同尺度的特征进行特征融合, 输出特征图; 步骤S42: 使用不同空洞率可分离卷积组来增
大视野、 捕获上下文信息, 输出四组分辨率不变的特征图, 并通过合并融合多尺度上下文信
息; 步骤S43: 对融合的多尺度上下文信息使用3 ×3的2D卷积生成通道数为1的alpha蒙版
图。
10.根据权利要求9所述的基于孪生网络的视频人像分割算法, 其特征在于, 所述将从
当前视频帧、 当前视频帧下采样所得和Decoder网络模块得到的三个不同尺度的特征进行
特征融合, 输出特征图包括以下步骤: 首先进行3 ×3的2D卷积操作将输入的三个特征统一
通道数, 其次进行上采样操作, 统一恢复到高分辨率特征尺度, 最后输出分辨率与当前视频
帧一致的特征图。权 利 要 求 书 2/2 页
3
CN 115100409 A
3
专利 一种基于孪生网络的视频人像分割算法
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-24 00:40:49上传分享