专利 一种基于注意力网络的遥感影像建筑物特征提取方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210810000.2 (22)申请日 2022.07.11 (71)申请人河海大学地址 210024 江苏省南京市鼓楼区西康路1 号 (72)发明人周亚男　汪顺营　冯莉　杨先增　 (74)专利代理机构南京苏高专利商标事务所 (普通合伙) 32204 专利代理师王恒静 (51)Int.Cl. G06V 20/10(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 10/44(2022.01) G06V 10/80(2022.01)G06V 10/82(2022.01) (54)发明名称一种基于注意力网络的遥感影像建筑物特征提取方法 (57)摘要本发明公开了一种基于注意力网络的遥感影像建筑物特征提取方法，该方法包括：获取具有地物要素的遥感影像建筑物图片，并进行预处理，得到预处理后的图片；将预处理后的图片输入至注意力网络中，常规流包括5个卷积块，每个卷积块结构相同，经过常规流后的特征图为二值语义图Fs，形状流的输入为常规流5个卷积块的输出特征图；将常规流和形状流分别得到的二值图Fs和Fe经过通道连接后输入到融合模块，经过卷积下采样遇上采样操作后，最终输出为大小为 HW的目标二值语义图，该部分输出由常规流中使用的语义标签进行损失监督，从而得到边缘清晰的二值语义图。本发明改进传统的注意力机制，使得可以采用更小的网络结构提高遥感影像建筑物提取的效果。权利要求书2页说明书5页附图2页 CN 115063685 A 2022.09.16 CN 115063685 A 1.一种基于注意力网络的遥感影像建筑物特征提取方法，其特征在于，该方法包括：首先，获取具有地物要素的遥感影像建筑物图片，并进行预处理，得到预处理后的图片；其次，将大小为C ×H×W的预处理后的图片输入至注意力网络中，所述注意力网络包括常规流、形状流和融合模块，所述常规流包括5个卷积块，每个卷积块结构相同，经过常规流后的特征图为二值语义图Fs，所述形状流的输入为常规流5个卷积块的输出特征图，大小分别为CHW* 1/2i，将其上采样CHW大小后输入到4个串联的门控卷积层GCL后得到大小为1HW的二值边缘图Fe， 0≤i≤4；最后，将常规流和形状流分别得到的二值图Fs和Fe经过通道连接后输入到融合模块，经过卷积下采样遇上采样操作后，最终输出为大小为HW的目标二值语义图，该部分输出由常规流中使用的语义标签进行损失监督，从而得到边缘清晰的二值语义图。 2.根据权利要求1所述的基于注意力网络的遥感影像建筑物特征提取方法，其特征在于，每个卷积块包括编码器、注意力部分和解码器，所述常规流对图像的处理方法包括以下步骤： (1)将预处理后的图片输入到编码器中，编码器包括5个编码层，除了第一个编码层，其余四个编码层都会将特征图的尺寸缩小二分之一，当输入特征图大小为CHW时，先经过第一个编码层依旧为C1HW，经过第二个编码层后尺寸为C2H/2W/2，经过第三个编码层后尺寸为 C3H/22W/22，经过第四个编码层后尺寸为C4H/23W/23，经过第五个编码层后尺寸为C5H/24W/ 24，经过五个编码层后，尺寸变为原来的1/16，得到编码后的特征图Fe； (2)所述注意力部分包括通道注意力模块、位置注意力模块、叠加模块，首先将特征图Fe 经过一个1 ×1卷积，将通道维度数量从C5降为C’，空间维度尺寸不变得到C ’H/24W/24的特征图Fi，输入到通道注意力模块中，得到与Fi同样大小的特征图Fo1，所述通道注意力模块用于使用特征通道挤压和激励处理输入的特征图； (3)将大小为C5H/24W/24的特征图Fe先经过一个1 ×1卷积，将通道维度数量从C5降为C’，空间维度尺寸不变得到C ’H/24W/24的特征图Fi，此处的Fi与步骤(2)的Fi是相同的，步骤(2) 与步骤(3)的两个注意力是并行的，然后将其输入到位置注意力模块中，得到与Fi同样大小的特征图Fo2，所述位置注意力模块用于使用Criss ‑Cross Attention Module通过两次叠加得到像素的空间全局上下文信息； (4)将特征图Fo1和特征图Fo2输入到叠加模块中，叠加模块采用short ‑cut结构融合特征图Fo1和特征图Fo2，最终得到大小为3*C ’ ×H/24×W/24的输出特征图，所述叠加模块用于将不同输入的特征图在通道维度上进行叠加操作； (5)将步骤(4)中得到的特征图Fleveli经解码块上采样为1HW大小的二值语义图Fs。 3.根据权利要求1所述的基于注意力网络的遥感影像建筑物特征提取方法，其特征在于，所述形状流由边缘标签对输出的二值边缘图进行损失监督。 4.根据权利要求1所述的基于注意力网络的遥感影像建筑物特征提取方法，其特征在于，所述通道注意力模块具体为：挤压是在空间维度上进行压缩，将C ’H/24W/24的特征图Fi进行全局平均池化操作，每个通道得到一个标量，输出为C ’ ×1×1，激励是将得到的C ’ ×1×1特征图，送入两层的全连接神经网络，同时保持尺寸不变，然后再通过一个Sigmoid函数得到C ’个0～1之间的权重Mc，权　利　要　求　书 1/2 页 2 CN 115063685 A 2作为C’个通道各自的权重，然后将权重与对应通道的每个元素分别相乘，实现增强重要的特征，减弱不重要的特征，从而让提取的特征指向性更强，该模块的输出是大小为C ’ ×H/24 ×W/24的特征图Fo1。 5.根据权利要求4所述的基于注意力网络的遥感影像建筑物特征提取方法，其特征在于，所述位置注意力模块具体为：对于卷积得到大小为C ’ ×H/24×W/24的特征图Fi分别进行1 ×1卷积得到特征图Q、 K、 V，其中，特征图Q和K的大小为C ’ ×H/24×W/24，特征图V的大小为C ’ ×H/24×W/24，然后对Q和K 进行Affinicy操作，即在Q上任意像素点u取得一个通道向量Qu，共有H*W个，形状为C ’ ×1× 1，同时，在K和Q 上像素点u的同行同列所有位置上取得一个特征向量Ku、 Vu，有Ku、 Vu∈[(H/24 +W/24‑1)×C’]， Ki， u、 Vi， u表示Ku、 Vu上的第i个像素的通道向量，形状为C’ ×1×1，对Qu和Ku进行向量相乘操作得到向量Di， u，之后再通道维度上应用一个softmax层，获得注意图A，其表示任一像素点与其同行同列其他像素点的相关程度；然后再将Ai， u与Vi， u进行矩阵相乘，经过以上操作可以捕捉到任一像素点与其水平和垂直方向的上下文信息；但一个像素与其周围不在交叉路径中的像素之间的连接仍然缺失，通过两次CCAM模块叠加操作，每个位置都可以从给定图像的所有像素中收集全局上下文信息，该模块的输出是大小为C ’ ×H/24×W/ 24的特征图Fo2。 6.根据权利要求1所述的基于注意力网络的遥感影像建筑物特征提取方法，其特征在于，所述叠加模块包含了Short ‑Cut结构，当原始特征输入本模块时，先使用1 ×1卷积进行通道降维处理，之后将两个模块的输出结果和short ‑cut结构按照1:1:1的比例在通道尺度上串联起来，共同构成本模块输出。权　利　要　求　书 2/2 页 3 CN 115063685 A 3

专利 一种基于注意力网络的遥感影像建筑物特征提取方法

专利一种基于注意力网络的遥感影像建筑物特征提取方法