专利 一种基于孪生网络的视频人像分割算法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210759308.9 (22)申请日 2022.06.30 (71)申请人温州大学地址 325000 浙江省温州市瓯海区东方南路38号温州市国家大学科技园孵化器 (72)发明人张笑钦　廖唐飞　赵丽　冯士杰　徐曰旺　 (74)专利代理机构北京阳光天下知识产权代理事务所(普通合伙) 11671 专利代理师赵飞 (51)Int.Cl. G06V 10/26(2022.01) G06V 20/40(2022.01) G06V 20/70(2022.01) G06V 10/44(2022.01)G06V 10/54(2022.01) G06V 10/62(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) (54)发明名称一种基于孪生网络的视频人像分割算法 (57)摘要本发明公开了一种基于孪生网络的视频人像分割算法,涉及图像处理技术领域，采用孪生网络结构，其基本结构包括视频帧获取图像模块、 RGB分离模块、 Encoder网络模块、 SE模块、 Decoder网络模块和JPU模块；本发明采用深度学习PyTorch框架构建上述模块，由模型学习视频处理方法，通过对视频每帧预测一个精准的 alpha蒙版，从给定的图像或视频中提取任务，实现在复杂场景下的高分辨率视频人像分割。权利要求书2页说明书6页附图6页 CN 115100409 A 2022.09.23 CN 115100409 A 1.一种基于孪生网络的视频人像分割算法，其特征在于，采用孪生网络结构，其基本结构包括视频帧图像获取模块、 RGB分离模块、 Encoder网络模块、 SE模块、 Decoder网络模块和 JPU模块，包括以下步骤：步骤S1：通过所述视频帧获取模块从待分割视频获取当前视频帧图像并进行预处理，得到预处理的当前频帧图像；步骤S2：通过所述RGB分离模块将得到的预处理视频帧图像分离为RGB颜色模式下的三通道RGB视频帧图像；步骤S3：将三通道RGB视频帧图像输入所述Encoder网络模块，采用Mobilenet V3网络，提取五个三通道RGB视频帧图像的多尺度粗粒度特征；步骤S4：通过所述SE模块连接所述Encoder网络模块和所述Decoder网络模块，将粗粒度特征输入到SE模块中，通过学习到每个通道重要程度，进行特征通道级的特征重标定；步骤S5：通过所述Decoder网络模块从所述Encoder网络模块、当前视频帧图像下采样以及ConvGRU循环神经网络得到不同尺度特征，并进行特征融合，捕获下采样中损失的边缘特征、浅层的文理特征以及时序与空间特征；步骤S6：通过所述JPU模块将当前视频帧、当前视频帧下采样和Decoder网络模块获得三个不同尺度的特征，在给定相应低分辨率输出和高分辨率图像的情况下有效地生成高分辨率特征图。 2.根据权利要求1所述的基于孪生网络的视频人像分割算法，其特征在于，所述通过所述视频帧获取模块从待分割视频获取当前视频帧图像并进行预处理，得到预处理的当前频帧图像包括：步骤S11：获取待分割视频的当前视频帧图像；步骤S12：对获取的当前视频帧图像进行预处理。 3.根据权利要求2所述的基于孪生网络的视频人像分割算法，其特征在于，所述对当前视频帧进行预处理包括：步骤S121：将所述待分割视频的尺寸调整为预设尺寸，所述预设尺寸为孪生网络要求的输入图像的尺寸；步骤S122：将调整尺寸后图像的像素进行归一化；步骤S123：按预设顺序调整归一化的图像的颜色通道的顺序。 4.根据权利要求1所述的基于孪生网络的视频人像分割算法，其特征在于，所述将三通道RGB视频帧图像输入所述Encoder网络模块，采用Mobilenet V3网络，提取五个三通道RGB 视频帧图像的多尺度粗粒度特征，包括采用轻量级网络Mobilenet V3 Large作为 backbone，基于孪生网络构建四级编码器，通过下采样层和四级编码器获得三通道RGB视频帧分辨率的1/4、 1/8、 1/16、 1/ 32和1/64的粗粒度特征图。 5.根据权利要求4所述的基于孪生网络的视频人像分割算法，其特征在于，所述下采样层采用用双线性插值进行4倍下采样，得到原图分辨率1/4的特征图；所述四级编码器包括第一编码器、第二级编码器、第三级编码器和第四级编码器，每级编码器采用多个权重共享的bottleneck结构，每级编码器首先使用逐点卷积组，其次使用深度卷积组，并连接SE模块学习权重，最后通过短链接将包含结构化信息的浅层特征传递至深层特征。 6.根据权利要求1所述的基于孪生网络的视频人像分割算法，其特征在于,所述通过所述SE模块连接所述Encoder网络模块和所述Decoder网络模块，将粗粒度特征输入到SE模块中，通过学习到每个通道重要程度，进行特征通道级的特征重标定，包括：用于将获得的粗粒度特征通过S queeze操作转化为一个全局特征，采用全局平均化实现，得到全局特征；对权　利　要　求　书 1/2 页 2 CN 115100409 A 2Squeeze操作得到的全局特征进行Excitation操作，学习各个通道之间的非线性关系，得到不同通道的权重，重新标定特征。 7.根据权利要求1所述的基于孪生网络的视频人像分割算法，其特征在于，所述通过所述Decoder网络模块从所述Enco der网络模块、当前视频帧图像下采样以及ConvGRU循环神经网络得到不同尺度特征，并进行特征融合，捕获下采样中损失的边缘特征、浅层的文理特征以及时序与空间特征，包括通过与所述Encoder模块相对应的四级解码器，将高层语义信息逐步还原放大，获得高分辨率的特征图。 8.根据权利要求7所述的基于孪生网络的视频人像分割算法，其特征在于，所述四级解码器用于多层特征融合、降低通道数及获得高分辨率特征图，分别得到当前视频帧分辨率 1/32、 1/16、 1/8、 1/4的特征图；每级解码器的输入利用下采样过程的输出进行合并，经卷积归一化后，再通过Co nvGRU循环网络利用前一帧及当前帧信息计算与输出。 9.根据权利要求1所述的基于孪生网络的视频人像分割算法，其特征在于，所述通过所述JPU模块将从当前视频帧、当前视频帧下采样、 Decoder网络模块获得三个不同尺度的特征，在给定相应低分辨率输出和高分辨率图像的情况下有效地生成高分辨率特征图包括以下步骤:步骤S41：将从当前视频帧、当前视频帧下采样所得和Decoder网络模块得到的三个不同尺度的特征进行特征融合，输出特征图；步骤S42：使用不同空洞率可分离卷积组来增大视野、捕获上下文信息，输出四组分辨率不变的特征图，并通过合并融合多尺度上下文信息；步骤S43：对融合的多尺度上下文信息使用3 ×3的2D卷积生成通道数为1的alpha蒙版图。 10.根据权利要求9所述的基于孪生网络的视频人像分割算法，其特征在于，所述将从当前视频帧、当前视频帧下采样所得和Decoder网络模块得到的三个不同尺度的特征进行特征融合，输出特征图包括以下步骤：首先进行3 ×3的2D卷积操作将输入的三个特征统一通道数，其次进行上采样操作，统一恢复到高分辨率特征尺度，最后输出分辨率与当前视频帧一致的特征图。权　利　要　求　书 2/2 页 3 CN 115100409 A 3

专利 一种基于孪生网络的视频人像分割算法

专利一种基于孪生网络的视频人像分割算法