说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210367918.4 (22)申请日 2022.04.08 (71)申请人 浙江大学 地址 310058 浙江省杭州市西湖区余杭塘 路866号 (72)发明人 许威威 张云柯 王驰 鲍虎军  (74)专利代理 机构 杭州求是专利事务所有限公 司 33200 专利代理师 郑海峰 (51)Int.Cl. G06V 10/28(2022.01) G06V 10/762(2022.01) G06V 10/774(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于图块聚类的弱监督自然图像抠图 方法 (57)摘要 本发明公开了一种基于图块聚类的弱监督 自然图像抠图方法。 具体地, 用户先使用含有真 实透明度遮罩标注的数据对教师网络进行训练; 其次, 再使用透明度遮罩相似度度量来对图块聚 类模块进行训练; 接着, 使用训练完成的图块聚 类模块对含有真实透明度遮罩标注的数据进行 聚类并对聚类结果进行优化; 最终使用所有数据 分别使用传统图像抠图损失和聚类先验损失函 数对学生网络进行监督。 在使用时, 用户通过将 待抠图的图像及其对应三值图输入进学生网络 从而得到最终抠图结果。 本发明首次在仅有较少 真实透明度遮罩标注的数据的前提下, 利用不含 真实透明度遮罩标注的数据提升了抠图效果, 可 以克服之前方法需要大批量标注训练数据的问 题。 权利要求书4页 说明书9页 附图2页 CN 114693937 A 2022.07.01 CN 114693937 A 1.一种基于图块聚类的弱监 督自然图像抠图方法, 其特 征在于, 包括以下步骤: S1: 获取训练数据, 其中包括含有真实透 明度遮罩标注的数据集L及不含真实透 明度遮 罩标注的数据集U; 其中, 数据集L包括三部 分: 自然图像、 自然图像对应的三值图、 自然图像 对应的真实透明度遮罩; 数据集U包括两部 分: 自然图像及其对应的三值图; 其中, 所述三值 图将自然图像中的所有像素分为三类, 包括前景像素、 背景像素和待求解像素; 所述真实透 明度遮罩代 表的是自然图像中每 个位置上对应 像素的透明度; S2: 使用数据集L及深度学习抠 图损失函数训练教师网络T, 网络T是一个基于编 ‑解码 器架构的深度神经网络, 其中包括一个编码器和一个解码器; 输入一张自然图像及其对应 的三值图, 编码器将输入映射成高维语义特征数据, 解码器从高维语义特征数据中解码出 真实透明度遮罩作为预测结果; 使用抠图损失函数计算预测结果与真实透明度遮罩之 间的 差异即可对网络T 进行训练; S3: 使用数据集L和透 明度遮罩相似度损失训练图块聚类模块; 该图块聚类模块包含了 S2中训练完毕 的网络T的编码器和一个映射器网络M; 网络M是一个多层感知机(MLP), 负责 将网络T的编 码器输出的特征数据映射为用于图块聚类的特征数据; 训练 时, 输入一张自然 图像及其对应的三值图, 经过网络T的编码器和映射器网络M, 输出预测的图块聚类特征向 量; 最终使用透明度遮罩相似度损失来训练网络 M, 网络T的编码器不 参与训练; S4: 使用S3中训练完毕的图块聚类模块预测数据集L的聚类特征数据, 在预测结果上进 行聚类操作并对聚类结果进行优化; 其中, 先将数据集L中的自然图像及其对应的三值图数 据送入图块聚类模块, 获得对应的图块聚类特征数据; 在获取到所有图块聚类特征数据之 后, 对特征数据使用K ‑means算法进行聚类并获取聚类中心; S5: 对S4中获取的聚类中心进行进一步的优化并收集位于聚类中心附近的透明度遮 罩; 其中, 聚类中心优化包括过 滤无效聚类中心和相似聚类中心聚合; S6: 使用数据集L、 数据集U以及S5中优化后的聚类中心及其附近的透明度遮罩训练学 生网络S; 其中, 网络S是一个与网络T结构 完全相同的基于编 ‑解码器架构的深度神经网络, 且使用S2中训练好的网络T的权重进行初始 化; 训练时, 同时将数据集L和数据集U的数据 送 入网络S, 并由网络S输出透明度遮罩的预测结果; 针对数据集L中的数据, 使用抠图损失函 数并利用数据集L中已知的真实透明度遮罩进行训练; 针对数据集U中的数据, 首先将数据 送入S3中训练完毕的图块聚类模块 获得该数据对应的图块聚类特征数据, 接着依据此特征 数据查找距离最近的经过S 5优化后的聚类中心及其附近的透明度遮罩, 最后使用聚类先验 损失, 利用查找到的透明度遮罩 来进行训练; S7: 使用在S6中训练完成的网络S进行抠图; 输入待抠图的自然图像及其对应的三值图 给网络S, 网络S预测出 该自然图像对应的透明度遮罩, 即抠图结果。 2.根据权利要求1所述的方法, 其特征在于, 所述S2中的使用数据集L及深度学习抠图 损失函数训练教师网络T, 具体为: 首先使用在大型图像分类数据集训练过的图像分类模型作为网络的初始化, 再使用数 据集L以及相应的数据增广技巧, 使用常用的抠图损失函数对网络T对进行训练; 所述数据 增广技巧包括随机数据增广技巧、 随机非 刚体体形变和透明度抖动; 其中, 随机非 刚体形变 包括弹性形变(Elastic  Transform)和薄板样条形变(Thin  Plate Spline Transform), 透 明度抖动是对真实透明度遮罩进行随机伽马变换。权 利 要 求 书 1/4 页 2 CN 114693937 A 23.根据权利要求1所述的方法, 其特征在于, 所述S3中的透明度遮罩相似度损失具体 为: 给定数据集L中的自然图像 及其对应的三值图数据 和真实透明度遮 罩数据 将 和 送入网络T的编码器编码后得到特征数据FL, 透明度遮罩相似度损失函数Las则可如下 计算: Las= τ(sp, sn) sp={φ(MT(fi), MT(fj))} sn={φ(MT(fi), MT(fj))} 其中, fi, fj∈FL是特征数据FL中位置i和位置j上的特征数据, 是真实透明度 遮罩数据 在位置i和位置j上对应的透明度遮罩块; MT是网络M; τ是Circle损失, γ, θm是 Circle损失相关参数, sp和sn分别是Circle损失中的类内对和类间对; φ是余弦相似度, H和 G分别是透明度遮罩相似度度量 的两项指标; 是选择类内和类间对时使用的 阈值。 4.根据权利要求3所述的方法, 其特征在于, 所述透明度遮罩相似度度量H和G如下计 算: 其中αi, αj是两块相同大小的透明度遮罩块, || ·||1是L1范式, 是图像梯度算子, 是 排序操作。 5.根据权利要求1所述的方法, 其特征在于, 所述S3中的使用数据集L和透明度遮罩相 似度损失训练图块聚类模块, 具体为: 使用在网络T的编码器作为图块聚类模块编码器的初始化, 并对 映射器进行随机初始 化; 再使用数据集L以及相应的数据增广技巧, 使用透明度遮罩相似度损失对网络M对进行 训练; 所述数据增广技巧包括随机数据增广技巧、 随机非刚体体形变和透明度抖动; 其中, 随机非刚体形变包括弹性形变(Elastic  Transform)和薄板样条形变(Thin  Plate Spline  Transform), 透明度抖动是对真实透明度遮罩进行 随机伽马变换; 图块聚类模块的编码器 不参与训练。 6.根据权利要求1所述的方法, 其特征在于, 所述S5中, 满足以下两个条件任意一个的 聚类中心将被判别为无效聚类中心:权 利 要 求 书 2/4 页 3 CN 114693937 A 3

.PDF文档 专利 一种基于图块聚类的弱监督自然图像抠图方法

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于图块聚类的弱监督自然图像抠图方法 第 1 页 专利 一种基于图块聚类的弱监督自然图像抠图方法 第 2 页 专利 一种基于图块聚类的弱监督自然图像抠图方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:31:37上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。