华南理工大学技术简述|自动抠图技术之三分图自动生成技术

技术简述|自动抠图技术之三分图自动生成技术

发布时间： 2023-02-19 浏览次数： 10

抠图技术是图像合成流程中的关键技术，其目标是提取图像中的前景内容，将其作为一个独立的可编辑单元合成到其他背景中。整个图像合成的流程如图1所示。

图1 图像合成流程示意图

在往期推文《抠图技术的前世今生》中，我们详细介绍过抠图技术的发展。抠图问题本身是一个欠定问题，因为已知的信息量不足以求解该问题，所以求解抠图问题时需要添加额外的信息。我们最常见的绿幕抠图技术就是额外提供了背景颜色的信息，但该技术限制了拍摄场景。与绿幕抠图技术不同，自然抠图技术是面向自然图像的、可用于任意背景图像的抠图技术。如无特殊说明，下文中提到的抠图技术均指自然抠图技术。对于任意背景的图像，在抠图时通常需要人工绘制一种被称为三分图的辅助图像。绘制三分图时，需用白色和黑色分别标记待抠图像的已知前景和已知背景，增加已知信息供抠图技术求解，三分图的示意图如图2所示。

图2 图像与对应三分图示意图

然而，绘制三分图需要凭借人的先验知识，这妨碍了抠图技术的自动化。为了使抠图技术能运用在如证件照自动换底处理、视频通话实时背景替换、虚拟现实中人物与场景融合等自动化工作中，人们渴望无需人工交互的自动化抠图技术，即自动抠图技术。最容易想到的抠图技术自动化方法是将其中需要人工参与的三分图绘制工作自动化，这部分技术被称为三分图自动生成技术，整个流程如图3所示。

图3 基于三分图自动生成的自动抠图技术流程示意图

由于抠图技术在往期推文《抠图技术的前世今生》中已有详细介绍，这里就不再赘述，本次我们主要介绍与自动抠图技术有关的三分图自动生成技术的发展。由于三分图的人工绘制方法是凭借人的先验知识去标记已知前景和背景，所以三分图自动生成技术的原理是找寻其他额外信息以代替人的先验知识。根据额外信息获取的途径，可以将三分图自动生成技术大致分为基于特殊拍摄方法和基于数据驱动两类。

基于特殊拍摄方法的三分图自动生成技术

基于特殊拍摄方法的三分图自动生成技术是利用特殊拍摄手段或者特殊拍摄设备，获取比单一图像更多的信息作为额外信息，从而标记已知前景和背景的三分图自动生成方法。如McGuire等人使用多台不同焦距的摄像机同时拍摄，根据摄像机焦距与物距的关系，根据不同摄像机的焦距变化估计图像中不同物体到摄像机的距离，从而区分物体是前景还是背景，以此为据自动生成三分图，如图4中左图所示^[1]。Joshi等人的方法^[2]与McGuire等人类似，也是使用多台摄像机，但变量从摄像机的焦距变成了摄像机的角度。他们将物体在不同摄像机中成像的偏移距离作为额外信息，辅助判断物体到摄像机之间的距离，从而区分前景和背景，自动生成三分图，如图4中右图所示。此类技术对拍摄方法约束较大，不利于技术的推广。

图4 基于特殊拍摄方法的三分图自动生成技术示意图

基于数据驱动的三分图自动生成技术

基于数据驱动的三分图自动生成技术从大量有标签的数据中寻找统计规律，用统计规律作为额外信息自动生成三分图。近年来，由于深度学习方法发展迅速，三分图自动生成技术中采用的数据驱动方法均为深度学习方法。此类技术还可以进一步分为阶段式和端到端两类。

基于数据驱动的阶段式三分图自动生成技术的代表之一是王欣等人提出的方法^[3]。该方法先用分割算法对图像进行前景分割，得到二值化分割图，然后对该分割图进行形态学腐蚀膨胀处理，将前景与背景的边界区域转化为未知区域，得到三分图。在此基础上，冉清等人采用非学习卷积方法代替形态学腐蚀膨胀方法，通过前景与背景的边界区域像素以及前景像素在颜色与空间维度上的差异，选择性地将边界区域像素转换为未知区域，减少了未知区域像素数量^[4]。由于阶段式三分图自动生成方法将图像前景作为一个完整的整体，该类方法无法处理透明区域较大或者前景不连续的图像，如人像中的发丝区域。

为了弥补阶段式三分图自动生成技术的弊端，近年来研究人员将三分图生成问题作为一个三分类的图像分割问题，端到端地对三分图结果进行预测，基于数据驱动的端到端三分图自动生成技术应运而生。Chen等人提出了一种语义人像抠图算法（Semantic Human Matting, SHM）^[5]。该算法使用语义分割领域常用的金字塔场景解析网络作为三分图自动生成模块的算法模型，揭示了三分图自动生成问题与语义分割问题具有一定的相似性，可以使用相同的算法模型进行求解。三分图自动生成算法所使用的图像抠图数据集难以精确标注，存在样本量少的问题，因此Liu等人在精细化训练前，先使用大量具有粗糙标签的数据对算法模型进行预训练，该方法有效提升了算法的泛化能力^[6]。Wu等人先对全身人像进行姿态关键点预测，将人体关键点作为额外信息与图像一并输入三分图自动生成算法模型中，提高了算法在全身人像抠像场景的准确率^[7]。Li等人提出面向动物图像的自动抠图算法（Glance and Focus Matting, GFM）^[8]与面向多类别前景图像的自动抠图算法（Automatic Image Matting, AIM）^[9]。为了降低多类别前景的三分图自动生成算法的难度，Li 等人提出了三分图统一语义表达方法。该方法修改了三分图自动生成问题的训练标签。对于透明区域较大的图像，该方法将三分图标签中已知前景区域划分为未知区域；对无明显语义信息的图像，该方法将所有像素均标注为三分图的未知区域。AIM算法增加了三分图中未知区域的范围，以降低三分图精度为代价提高了算法的稳定性。然而，基于数据驱动的三分图自动生成技术过于依赖训练数据，存在适用范围小、可解释性差以及可扩展性差的问题。

智能算法研究中心对自动抠图技术也有所研究。我们运用自主研发的启发式优化算法开发了一个借助人工智能对半身像进行一键快速换底处理的软件，实现了自动、精确、高效的人物肖像照换底功能。感兴趣的朋友欢迎阅读往期推文《证件照制作哪家强？抠图给你亮一手》。

图5 往期推文《证件照制作哪家强？抠图给你亮一手》

参考文献

M. McGuire, W. Matusik, H. Pfister, J. F. Hughes and F. Durand, "Defocus video matting," ACM Transactions on Graphics (TOG), vol. 24, no. 3, pp. 567-576, 2005.
N. Joshi, W. Matusik and S. Avidan, "Natural video matting using camera arrays," ACM Transactions on Graphics (TOG), vol. 25, no. 3, pp. 779-786, 2006.
王欣, 王琦琦, 杨国威, 郭肖勇, "注意力机制和特征融合的自动抠图算法," 计算机辅助设计与图形学学报, vol. 32, no. 9, pp. 1473-1483, 2020.
冉清, 冯结青, "人体前景的自动抠图算法," 计算机辅助设计与图形学学报, vol. 32, no. 2, pp. 277-286, 2020.
Q. Chen, T. Ge, Y. Xu, Z. Zhiqiang, X. Yang, K. Gai, "Semantic human matting," in Proceedings of the 26th ACM international conference on Multimedia, 2018, pp. 618-626.
J. Liu, Y. Yao, W. Hou, M. Cui, X. Xie, C. Zhang, X. Hua, "Boosting semantic human matting with coarse annotations," in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020, pp. 8563-8572.
X Wu, X. N. Fang, T. Chen, F. Zhang, "JMNet: A joint matting network for automatic human matting," Computational Visual Media, vol. 6, no. 2, pp. 215-224, 2020.
J. Li, J. Zhang, S. J. Maybank and D. Tao, "Bridging composite and real: towards end-to-end deep image matting," International Journal of Computer Vision, vol. 130, pp. 246-266, 2021.
J. Li, J. Zhang, D. Tao, "Deep automatic natural image matting," in Proceedings of the Thirtieth International Joint Conference on Artificial Intelligence, 2021, pp. 800-806.

[10] 基于超像素快速分割的证件照抠图应用软件V1.0（2021SR0155716）开发人员：黄翰、孙梦托、刘泽洋

[11] 基于图像综合特征的答题卡填涂信息自动识别方法（201410338618.9）授权公告号：CN104239850B 发明人：黄翰、刘志方、梁椅辉

[12] 基于二值图像连通域统计的答题卡自动评分方法（201310473334.6）授权公告号：CN103559490B 发明人：黄翰、梁椅辉（已转让所有权）

[13] H. Huang, Y. Liang, X. Yang and Z. Hao, “Pixel-level discrete multiobjective sampling for image matting,” IEEE Transactions on Image Processing, vol. 28, no. 8, pp. 3739-3751, 2019.

[14] Y. Liang, H. Huang, Z. Hao and Z. Cai, “Multiobjective evolutionary optimization based on fuzzy multicriteria evaluation and decomposition for image matting,” IEEE Transactions on Fuzzy Systems, vol. 27, no. 5, pp. 1100-1111, 2019.

总编：黄翰

责任编辑：袁中锦

文字：凌霄

图片：凌霄

校稿：何莉怡

时间：2022年10月12日