(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210789336.5
(22)申请日 2022.07.06
(71)申请人 广东工业大 学
地址 510090 广东省广州市越秀区东 风东
路729号
(72)发明人 胡洋 肖明 阮谢林 王俊鑫
唐志伟 崔志强 方镇彬 任华栋
沈宇轩 曾旺旺
(74)专利代理 机构 广州粤高专利商标代理有限
公司 44102
专利代理师 刘俊
(51)Int.Cl.
G06V 10/44(2022.01)
G06V 10/80(2022.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
H04N 19/42(2014.01)
(54)发明名称
一种基于Tran sformer进行压缩感知视频重
建的方法及系统
(57)摘要
本发明涉及视频重建技术领域, 公开了一种
基于Transformer的压缩感知视 频重建的方法及
系统, 包括以下步骤: S1.构建压缩感知重建网
络; S2.训练压缩感知重建网络; S3.将压缩感知
视频输入训练好的压缩感知重建网络中; S4.将
压缩感知视频划分为图像组; S5.通过随机编码
器的将图像组中压缩为一个测量帧; S6.通过半
二次分裂算法网络对测量帧进行解压; S7.通过
卷积神经网络提取视觉特征; S8.将提取的视觉
特征输入Transformer网络中, 并提取视觉特征
中的运动特征; S9.将运动特征与视觉特征进行
融合, 得到隐藏状态 的运动组合; S10.将隐藏状
态的运动组合与初始图像组结合, 得到重建视
频。 本发明解决了现有视频重建技术重建效率
低、 重建质量差的问题, 且具有数据传输宽带占
用低的特点。
权利要求书3页 说明书8页 附图3页
CN 115100429 A
2022.09.23
CN 115100429 A
1.一种基于Transformer的压缩感知视频重建的方法, 其特 征在于: 包括以下步骤:
S1.构建压缩感知重建网络; 所述的压缩感知重建网络包括随机编码器、 半二 次分裂算
法网络、 卷积神经网络、 Transformer网络;
S2.训练压缩感知重建网络;
S3.获取待处理的压缩感知视频, 并将压缩感知视频输入训练好的压缩感知重建网络
中;
S4.将压缩感知视频划分为若干个图像, 并将所述的若干个图像组合成图像组;
S5.通过随机编码器的将图像组中的所有图像压缩为 一个测量帧;
S6.通过半二次分裂算法网络对测量帧进行解压, 得到初始图像组;
S7.将得到的初始图像组通过 卷积神经网络提取视 觉特征;
S8.将提取的视 觉特征输入Transformer网络中, 并提取视 觉特征中的运动特 征;
S9.通过卷积神经网络将运动特 征与视觉特征进行融合, 得到隐藏状态的运动组合;
S10.将得到的隐藏状态的运动组合与初始图像组结合, 得到 重建视频。
2.根据权利要求1所述的基于Transformer的压缩感知视频重建的方法, 其特征在于:
所述的步骤S2中, 训练压缩感知重建网络的过程具体为:
S201.获取训练用数据, 通过训练用数据迭代训练半二次分裂算法网络;
S202.获取训练用图像组, 通过训练用图像组对卷积神经网络和Transformer网络进行
迭代训练; 迭代训练中, 卷积神经网络和Transformer网络共用一个均方误差作为误差函
数; 所述的误差函数为:
其中, Nk是训练用图像组中的图像数目, Ns是训练用图像组中的图像的面积、
是训练
用图像组中的第i个图像的图像块、
是训练用图像组中的第i个图像经 过重建的图像块。
3.根据权利要求1所述的基于Transformer的压缩感知视频重建的方法, 其特征在于:
所述的步骤S 5中, 通过随机编 码器的将图像组中的所有图像压缩为一个测量帧的过程具体
为;
其中,
是Hadamard乘积、 Φi是对应第i个图像的掩码、 F是图像的数量、 N是视频的噪
音、 Y是测量帧、 xi是第i个图像。
4.根据权利要求3所述的基于Transformer的压缩感知视频重建的方法, 其特征在于:
所述的步骤S5中, 还对公式(1)的编码操作进行了化简, 减少了编码所需要的运算次数, 化
简的具体过程 为:
设y=vec(Y)、 n=vec(N)、 x=vec(X)=[vec(X1)T,…,vec(XF)T]、 Φ=[diag(vec
(Φ1)),…,diag(vec(ΦF)),], vec为向量 化操作;
由此将公式(1)简化 为;
y=Φx+n。 (3)
5.根据权利要求4所述的基于Transformer的压缩感知视频重建的方法, 其特征在于:
所述的步骤S 6中, 半二次分裂算法 网络对测量帧进 行解压; 其中, 半二次分裂算法 网络在解权 利 要 求 书 1/3 页
2
CN 115100429 A
2压时的目标函数为:
其中, xr为解压后的压缩感知视频,
是求当目标值最小的时候返回x的值、 ‖ ‖是
正则化处理, λ是正则化参数, Ψ()是先验正则化操作, 先验正则化操作用于加入惩罚变
量, 减小求出错 误解的可能性。
6.根据权利要求1所述的基于Transformer的压缩感知视频重建的方法, 其特征在于:
所述的步骤S6中, 通过半二次分裂算法网络对测量帧进行解压, 得到初始图像组的过程具
体为; 将得到的测量帧输入半二次分裂算法网络中, 设置半二次分裂算法网络中的半二次
分裂算法的学习率, 通过半二次分裂算法进行k次迭代计算, 迭代完成后得到初始图像组:
xk=xk‑1+ΦT(ΦΦT+ ηk)‑1(y‑Φxk‑1) (5)
其中, xk是经过k次迭代后 得到的初始图像组, xk‑1是经过k‑1次迭代后的初始图像组, η
是学习率, Φ是半二次分裂算法的掩码。
7.根据权利要求1所述的基于Transformer的压缩感知视频重建的方法, 其特征在于:
所述的卷积神经网络包括用于提取视觉特征的提取卷积网络层和用于融合运动特征和视
觉特征的融合卷积网络层; 所述的步骤S7中, 提取卷积网络层提取了初始图像的三种规格
的视觉特征; 所述的步骤S9中, 融合卷积网络层通过裁剪拼接三种规格的视觉特征将视觉
特征与运动特 征融合, 得到隐藏状态的运动组合。
8.根据权利要求2所述的基于Transformer的压缩感知视频重建的方法, 其特征在于:
所述的步骤S8中, 将提取的视觉特征输入Transformer网络中, 并提取视觉特征中的运动特
征的具体过程 为;
S801.将视觉特征向量化为由若干个Transformer的二维最小单元patches组成的序
列, 将序列输入训练好的Transformer网络中, 并提取一级特 征:
其中, z0为Transformer网络提取的一级特征、 N为patches的个数,
为序列、
E是patches嵌入的投影矩阵、 EPOS是patches的位置嵌入矩阵; 所述的投影矩阵用于将二维
的patches序列放入高维空间, 所述的EPOS用于标记向量化后的patches在序列中的位置顺
序:
S802.对Transformer网络提取的运动特征进行多头自注意力层操作, 进一步提取特
征:
z′1=MSA(LN(z0))+z0 (7)
其中, z′1是进一步提取的二级特征、 MSA代表多头自注意力层操作、 LN()代表层标准化
操作;
S803.对二级特 征进行多层感知机操作, 得到运动特 征:
z1=MLP(LN(z′1))+z′1 (8)
其中, z1是运动特 征、 MLP代 表多层感知机操作。
9.根据权利要求8所述的基于Transformer的压缩感知视频重建的方法, 其特征在于:
所述的步骤S8中, 所述的patches的个数由视觉特征的面积和patches的面积决定; 所述的权 利 要 求 书 2/3 页
3
CN 115100429 A
3
专利 一种基于Transformer进行压缩感知视频重建的方法及系统
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-24 00:40:47上传分享