专利 基于双流自注意力神经网络的图像篡改定位方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210858439.2 (22)申请日 2022.07.20 (71)申请人华南农业大学地址 510642 广东省广州市天河区五山路 483号 (72)发明人钟浩　梁炜健　黄远航　 (74)专利代理机构广州粤高专利商标代理有限公司 44102 专利代理师林丽明 (51)Int.Cl. G06V 20/00(2022.01) G06V 10/82(2022.01) G06V 10/44(2022.01) G06V 10/80(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称基于双流自注意力神经网络的图像篡改定位方法及系统 (57)摘要本发明涉及图像篡改定位技术领域，提出一种基于双流自注意力神经网络的图像篡改定位方法及系统，包括以下步骤：将待检测定位的输入图像进行约束卷积滤波处理，得到滤波图像；将输入图像和滤波图像分别进行重组编码后，分别输入基于自注意力的第一篡改图像编码器和第二篡改图像编码器中，分别输出第一特征图和第二特征图；其中，第一篡改图像编码器和第二篡改图像编码器中每个计算阶段包括若干堆叠设置的自注意力模块；将第一特征图和第二特征图进行拼接后，分别经过通道域和空间域解码，得到篡改区域定位结果。本发明通过自注意力神经网络捕获局部与全局不一致的能力，并通过 RGB模态与异常噪声提取模态的互补，有效提高了篡改图像定位的精度。权利要求书3页说明书10页附图4页 CN 115082774 A 2022.09.20 CN 115082774 A 1.基于双流自注意力神经网络的图像篡改定位方法，其特征在于，包括以下步骤：将待检测定位的输入图像进行约束卷积滤波处理，得到滤波图像；将所述输入图像和滤波图像分别进行重组编码后，分别输入基于自注意力的第一篡改图像编码器和第二篡改图像编码器中，分别输出第一特征图和第二特征图；其中，所述第一篡改图像编码器和第二篡改图像编码器中分别包括至少 3个计算阶段，每个计算阶段包括若干堆叠设置的自注意力模块；将第一特征图和第二特征图进行拼接后，分别经过通道域和空间域解码，得到篡改区域定位结果。 2.根据权利要求1所述的图像篡改定位方法，其特征在于，所述自注意力模块包括用于获取图像块间的关系信息的多头自注意力计算单元，和用于对图像各通道关系进行自学习加权的多层感知机；所述多头自注意力计算单元中包括若干并行的自注意力计算层，以及用于对并行的自注意力计算层的输出进行拼接和自学习的多头注意力层；其中所述第一篡改图像编码器与所述第二篡改图像编码器之间不共享可学习参数。 3.根据权利要求2所述的图像篡改定位方法，其特征在于，所述输入图像进行重组编码后得到维度为 N×C的二维矩阵Z；将二维矩阵Z输入自注意力计算层进行编码的步骤包括：将二维矩阵Z分别与三个由维度为C ×C的可学习参数构成的自学习矩阵相乘，得到查询矩阵Q、键矩阵K和值矩阵V；通过内积计算对查询矩阵Q与键矩阵K进行匹配并进行缩放，然后通过softmax函数激活得到归一化的权重矩阵；通过权重矩阵对值矩阵V进行加权处理，得到自注意力特征图；其表达式如下：式中， Zl‑1为输入第l层自注意力模块的图像， WQ、 WK、 WV∈C×C分别为具有可学习参数的矩阵。 4.根据权利要求3所述的图像篡改定位方法，其特征在于，所述多头注意力层进行编码的步骤包括：将并行的自注意力计算层输出的自注意力特征图采用多头注意力机制在通道维度上进行拼接，并在通道维度上与可学习参数矩阵相乘，得到多头注意力特征图；其表达式如下：式中， SAm(Zl‑1)表示图像Zl‑1在第m个通道维度的自注意力特征图； m为关系头数； [...； ...； ...]表示拼接操作； W0为一个可学习参数矩阵。 5.根据权利要求4所述的图像篡改定位方法，其特征在于，所述多层感知机包括用于编码扩张的第一全连接层，以及用于编码恢复的第二全连接层；所述多层感知机进行编码的步骤包括：将多头注意力特征图输入所述多层感知机中对各通道关系进行自学习加权；其表达式如下：权　利　要　求　书 1/3 页 2 CN 115082774 A 2式中，表示图像Zl‑1对应的多头注意力特征图； WL1、 WL2分别为第一全连接层、第二全连接层中具有可学习参数的矩阵，且WL1∈C×4C， WL2∈4C×C； Conv3×3(·)表示进行二维展开后进行3 ×3的二维卷积； GELU( ·)为GELU激活函数。 6.根据权利要求2～5任一项所述的图像篡改定位方法，其特征在于，所述自注意力模块中的多头自注意力计算单元和多层感知机采用残差连接方式连接；其表达式如下：式中， Zl‑1为输入第l层自注意力模块的图像，为多头自注意力计算单元输出的多头注意力特征图， Zl为第l层自注意力模块输出的特征图； MSA( ·)表示多头自注意力计算单元的编码处理， MLP( ·)表示多层感知机的编码处理； LN( ·)为归一化函数，用于进行通道上数据归一化。 7.根据权利要求1所述的图像篡改定位方法，其特征在于，将待检测定位的输入图像进行约束卷积滤波处理的步骤包括：采用约束卷积模块进行约束卷积滤波处理；其中，卷积核中心点的值固定为 ‑1，无法进行自学习；卷积核中其他坐标的参数相加的值限制为 1，且卷积核中其他非中心点坐标的参数可自学习；其表达式如下：式中， ωk(0,0)表示约束卷积模块中第k个卷积核的中心点坐标对应的值， ωk(m,n)表示约束卷积模块中第k个卷积核的其他坐标对应的值。 8.根据权利要求1所述的图像篡改定位方法，其特征在于，将第一特征图和第二特征图进行拼接后得到H ×W×C的拼接矩阵Zori，拼接矩阵Zori分别经过通道域和空间域解码后相加处理的步骤包括： (1)进行通道域加权：将拼接矩阵Zori通过一个1 ×1的卷积核后，在长宽上进行展平，得到大小为(H ×W)×C 的二维矩阵ZC；将二维矩阵ZC的转置矩阵与二维矩阵ZC相乘，得到大小为C ×C的通道注意力矩阵，再经过softmax函数进行归一化；将二维矩阵ZC与归一化的C ×C通道注意力矩阵的转置矩阵进行相乘，得到每一像素通道加权后的输出，将输出经过重组处理后与拼接矩阵Zori进行残差连接，得到通道域加权结果OutputC；其表达式如下： ZC＝ZoriWC OutputC＝Reshape(ZC×softmax(ZCTZC)T)+Zori 式中， Reshape( ·)表示重组处理； (2)进行空间域加权：将拼接矩阵Zori通过三个1 ×1的卷积核后，在长宽上进行展平，得到大小为(H ×W)×C 的二维矩阵ZSQ、 ZSK、 ZSV；权　利　要　求　书 2/3 页 3 CN 115082774 A 3

专利 基于双流自注意力神经网络的图像篡改定位方法及系统

专利基于双流自注意力神经网络的图像篡改定位方法及系统