专利 基于光线隐式场的多视角建模方法、装置和建模设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210768179.X (22)申请日 2022.07.01 (71)申请人中国人民解放军国防科技大学地址 410073 湖南省长沙市开福区德雅路 109号 (72)发明人徐凯　惠军华　施逸飞　蔡志平　陈垚　 (74)专利代理机构长沙国科天河知识产权代理有限公司 432 25 专利代理师邱轶 (51)Int.Cl. G06T 7/50(2017.01) G06T 17/00(2006.01) G06V 10/774(2022.01) G06V 10/80(2022.01)G06V 10/82(2022.01) (54)发明名称基于光线隐式场的多视角建模方法、装置和建模设备 (57)摘要本申请涉及一种基于光线隐式场的多视角建模方法、装置和建模设备。通过相机参数和多视图特征构建的成本体积的三维特征得到多视图中参考视图的初始深度图，再从参考视图的相机取景方向投射一组光线，根据初始深度图得到各光线的初始深度，并在各初始深度的预设范围内均匀采样，得到各光线对应的若干采样点，然后通过极线感知器的自注意力机制得到的各采样点多视图特征间的相关性得到采样点的多视图融合视图特征，通过叠加多视图融合视图特征和成本体积三维特征得到各采样点的融合特征，将融合特征输入序列模型预测得到对应光线隐式场的深度值，再根据各光线的深度值得到的精确深度图进行多视角建模。本方法中基于光线的深度估计更简单、轻量化。权利要求书3页说明书12页附图4页 CN 115170628 A 2022.10.11 CN 115170628 A 1.一种基于光线隐式场的多视角建模方法，其特征在于，所述方法包括：根据相机参数和多视图的二维特征构建成本体积，根据所述成本体积的三维特征得到参考视图的初始深度图；其中多视图包括参考视图和多个源视图；从所述参考视图的相机取景方向投射一组光线，根据所述初始深度图得到各光线的初始深度，分别在各光线初始深度的预设范围内均匀采样，得到各光线对应的若干个采样点；通过极线感知器的自注意力机制层得到各采样点的多视图的二维特征间的匹配相关性，根据所述匹配相关性得到各采样点的多视图融合特征，将所述多视图融合特征和所述成本体积的三维特征叠加得到各采样点的融合特征；将所述各采样点的融合特征依次输入预先训练好的序列模型得到各采样点的序列特征和对应的整条光线特征，根据所述光线特征预测得到对应光线隐式场的深度值；根据所有光线隐式场的深度值得到所述参考视图的精确深度图，根据所述精确深度图进行多视角建模。 2.根据权利要求1所述的方法，其特征在于，所述通过极线感知器的自注意力机制层得到各采样点的多视图的二维特征间的匹配相关性，根据所述匹配相关性得到各采样点的多视图融合特征，包括：通过极线感知器的自注意力机制层得到各采样点的多视图的二维特征间的匹配相关性为： S＝SelfA ttention(Q， K， V)＝Softmax(QKT)V Q＝XWQ K＝XWk V＝XWv 其中， S为匹配相关性分数， Q为查询向量， K为键向量， V为值向量， X为输入的多视图二维特征， WQ、 Wk、 Wv分别为自注意力机制层学习得到的查询向量、键向量、值向量的权重，为在第P个采样点的多视图的二维特征， N为采样点的个数， I 为多视图的视图数量。根据所述匹配相关性得到各采样点的多视图融合特征为： Z＝RddNorm(X)＝ LayerNorm(X+S) 其中LayerN orm(·)为层标准化函数。 3.根据权利要求1所述的方法，其特征在于，所述极线感知器包括4个自注意力机制层；各所述自注意力机制层后包括2个Ad dNorm层和1个前馈层。 4.根据权利要求1所述的方法，其特征在于，所述将所述多视图融合特征和所述成本体积的三维特征叠加得到各采样点的融合特征，包括：将所述多视图融合特征和所述成本体积的三维特征叠加得到各采样点的融合特征为：其中，为采样点的多视图融合特征，为成本体积的三维特征， Fp为采样点的融合特征。 5.根据权利要求1所述的方法，其特征在于，所述将所述各采样点的融合特征依次输入权　利　要　求　书 1/3 页 2 CN 115170628 A 2预先训练好的序列模型得到各采样点的序列特征和对应的整条光线特征，包括：将所述各采样点的融合特征依次输入预先训练好的序列模型得到对应的整条光线特征为： ck＝zf○ck‑1+zi○z hk＝zo○tanh(ck) 其中， Fk为采样点的序列特征， hk‑1为第k‑1个隐节点， z为单元输入激活向量， zf为遗忘门激活向量， zu为更新门激活向量， zo为输出门激活向量， ck为第k个时刻输出的光线特征预测值， W、 Wf、 Wu、 Wo分别为单元输入门、遗忘门、更新门和输出门的权重矩阵， b、 bf、 bu、 bo分别为单元输入门、遗忘门、更新门和输出门的偏置向量， ○为点乘运算符号。 6.根据权利要求1所述的方法，其特征在于，训练所述序列模型的步骤包括：以光线特征为输入，采用多层感知机预测光线隐式场的深度值： ι＝MLPl(cK) 其中， MLP为多层感知机， cK为输出的光线特征预测值， ι为光线隐式场的深度值。以当前时刻k输出的光线特征预测值、采样点的序列特征以及当前时刻k预测的深度值为输入，采用多层感知机预测光线上采样点的符号距离：其中，为归一化的深度值，为归一化的符号距离， smax为光线上的最大符号距离；根据预测得到的深度值和符号距离构建所述序列模型的损失函数： L＝wsLs+wlLl+wslLsl 其中， L为序列模型的损失函数， Ls为符号距离的损失函数， Ll为深度值的损失函数， Lsl 为一致性惩罚损失函数， L1为L1范数， sk为符号距离的真实值，为符号距离的预测值， l为符号距离的真实值，为符号距离的预测值；通过优化所述损失函数，得到训练好的序列模型。 7.根据权利要求1至6任意一项所述的方法，其特征在于，所述光线的数量根据最终恢权　利　要　求　书 2/3 页 3 CN 115170628 A 3

专利 基于光线隐式场的多视角建模方法、装置和建模设备

专利基于光线隐式场的多视角建模方法、装置和建模设备