专利 一种基于Transformer进行压缩感知视频重建的方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210789336.5 (22)申请日 2022.07.06 (71)申请人广东工业大学地址 510090 广东省广州市越秀区东风东路729号 (72)发明人胡洋　肖明　阮谢林　王俊鑫　唐志伟　崔志强　方镇彬　任华栋　沈宇轩　曾旺旺　 (74)专利代理机构广州粤高专利商标代理有限公司 44102 专利代理师刘俊 (51)Int.Cl. G06V 10/44(2022.01) G06V 10/80(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) H04N 19/42(2014.01) (54)发明名称一种基于Tran sformer进行压缩感知视频重建的方法及系统 (57)摘要本发明涉及视频重建技术领域，公开了一种基于Transformer的压缩感知视频重建的方法及系统，包括以下步骤： S1.构建压缩感知重建网络； S2.训练压缩感知重建网络； S3.将压缩感知视频输入训练好的压缩感知重建网络中； S4.将压缩感知视频划分为图像组； S5.通过随机编码器的将图像组中压缩为一个测量帧； S6.通过半二次分裂算法网络对测量帧进行解压； S7.通过卷积神经网络提取视觉特征； S8.将提取的视觉特征输入Transformer网络中，并提取视觉特征中的运动特征； S9.将运动特征与视觉特征进行融合，得到隐藏状态的运动组合； S10.将隐藏状态的运动组合与初始图像组结合，得到重建视频。本发明解决了现有视频重建技术重建效率低、重建质量差的问题，且具有数据传输宽带占用低的特点。权利要求书3页说明书8页附图3页 CN 115100429 A 2022.09.23 CN 115100429 A 1.一种基于Transformer的压缩感知视频重建的方法，其特征在于：包括以下步骤： S1.构建压缩感知重建网络；所述的压缩感知重建网络包括随机编码器、半二次分裂算法网络、卷积神经网络、 Transformer网络； S2.训练压缩感知重建网络； S3.获取待处理的压缩感知视频，并将压缩感知视频输入训练好的压缩感知重建网络中； S4.将压缩感知视频划分为若干个图像，并将所述的若干个图像组合成图像组； S5.通过随机编码器的将图像组中的所有图像压缩为一个测量帧； S6.通过半二次分裂算法网络对测量帧进行解压，得到初始图像组； S7.将得到的初始图像组通过卷积神经网络提取视觉特征； S8.将提取的视觉特征输入Transformer网络中，并提取视觉特征中的运动特征； S9.通过卷积神经网络将运动特征与视觉特征进行融合，得到隐藏状态的运动组合； S10.将得到的隐藏状态的运动组合与初始图像组结合，得到重建视频。 2.根据权利要求1所述的基于Transformer的压缩感知视频重建的方法，其特征在于：所述的步骤S2中，训练压缩感知重建网络的过程具体为: S201.获取训练用数据，通过训练用数据迭代训练半二次分裂算法网络； S202.获取训练用图像组，通过训练用图像组对卷积神经网络和Transformer网络进行迭代训练；迭代训练中，卷积神经网络和Transformer网络共用一个均方误差作为误差函数；所述的误差函数为：其中， Nk是训练用图像组中的图像数目， Ns是训练用图像组中的图像的面积、是训练用图像组中的第i个图像的图像块、是训练用图像组中的第i个图像经过重建的图像块。 3.根据权利要求1所述的基于Transformer的压缩感知视频重建的方法，其特征在于：所述的步骤S 5中，通过随机编码器的将图像组中的所有图像压缩为一个测量帧的过程具体为；其中，是Hadamard乘积、 Φi是对应第i个图像的掩码、 F是图像的数量、 N是视频的噪音、 Y是测量帧、 xi是第i个图像。 4.根据权利要求3所述的基于Transformer的压缩感知视频重建的方法，其特征在于：所述的步骤S5中，还对公式(1)的编码操作进行了化简，减少了编码所需要的运算次数，化简的具体过程为：设y＝vec(Y)、 n＝vec(N)、 x＝vec(X)＝[vec(X1)T,…,vec(XF)T]、 Φ＝[diag(vec (Φ1)),…,diag(vec(ΦF)),]， vec为向量化操作；由此将公式(1)简化为； y＝Φx+n。 (3) 5.根据权利要求4所述的基于Transformer的压缩感知视频重建的方法，其特征在于：所述的步骤S 6中，半二次分裂算法网络对测量帧进行解压；其中，半二次分裂算法网络在解权　利　要　求　书 1/3 页 2 CN 115100429 A 2压时的目标函数为：其中， xr为解压后的压缩感知视频，是求当目标值最小的时候返回x的值、 ‖ ‖是正则化处理， λ是正则化参数， Ψ()是先验正则化操作，先验正则化操作用于加入惩罚变量，减小求出错误解的可能性。 6.根据权利要求1所述的基于Transformer的压缩感知视频重建的方法，其特征在于：所述的步骤S6中，通过半二次分裂算法网络对测量帧进行解压，得到初始图像组的过程具体为；将得到的测量帧输入半二次分裂算法网络中，设置半二次分裂算法网络中的半二次分裂算法的学习率，通过半二次分裂算法进行k次迭代计算，迭代完成后得到初始图像组： xk＝xk‑1+ΦT(ΦΦT+ ηk)‑1(y‑Φxk‑1) (5) 其中， xk是经过k次迭代后得到的初始图像组， xk‑1是经过k‑1次迭代后的初始图像组， η 是学习率， Φ是半二次分裂算法的掩码。 7.根据权利要求1所述的基于Transformer的压缩感知视频重建的方法，其特征在于：所述的卷积神经网络包括用于提取视觉特征的提取卷积网络层和用于融合运动特征和视觉特征的融合卷积网络层；所述的步骤S7中，提取卷积网络层提取了初始图像的三种规格的视觉特征；所述的步骤S9中，融合卷积网络层通过裁剪拼接三种规格的视觉特征将视觉特征与运动特征融合，得到隐藏状态的运动组合。 8.根据权利要求2所述的基于Transformer的压缩感知视频重建的方法，其特征在于：所述的步骤S8中，将提取的视觉特征输入Transformer网络中，并提取视觉特征中的运动特征的具体过程为； S801.将视觉特征向量化为由若干个Transformer的二维最小单元patches组成的序列，将序列输入训练好的Transformer网络中，并提取一级特征：其中， z0为Transformer网络提取的一级特征、 N为patches的个数，为序列、 E是patches嵌入的投影矩阵、 EPOS是patches的位置嵌入矩阵；所述的投影矩阵用于将二维的patches序列放入高维空间，所述的EPOS用于标记向量化后的patches在序列中的位置顺序： S802.对Transformer网络提取的运动特征进行多头自注意力层操作，进一步提取特征： z′1＝MSA(LN(z0))+z0 (7) 其中， z′1是进一步提取的二级特征、 MSA代表多头自注意力层操作、 LN()代表层标准化操作； S803.对二级特征进行多层感知机操作，得到运动特征： z1＝MLP(LN(z′1))+z′1 (8) 其中， z1是运动特征、 MLP代表多层感知机操作。 9.根据权利要求8所述的基于Transformer的压缩感知视频重建的方法，其特征在于：所述的步骤S8中，所述的patches的个数由视觉特征的面积和patches的面积决定；所述的权　利　要　求　书 2/3 页 3 CN 115100429 A 3

专利 一种基于Transformer进行压缩感知视频重建的方法及系统

专利一种基于Transformer进行压缩感知视频重建的方法及系统