当「分割一切」遇上图像修补：无需精细标记，单击物体实现物体移除、内容填补、场景替换-静雅生活网

导读：机器之心专栏　　机器之心编辑部　　这次，强大的「分割一切」模型—— Segment Anything Model，在图像修补任务上碰撞出了火花。　　4 月初，Meta 发布

　　机器之心专栏

　　机器之心编辑部

　　这次，强大的「分割一切」模型—— Segment Anything Model，在图像修补任务上碰撞出了火花。

　　4 月初，Meta 发布了史上首个图像分割基础模型 --SAM（Segment Anything Model） [ 1 ] 。作为分割模型，SAM 的能力强大，操作使用方式也十分友好，比如用户简单地点击来选择对应物体，物体就会立即被分割出来，且分割结果十分精准。截至 4 月 15 号，SAM 的 GitHub 仓库的 Star 数高达 26k。

当「分割一切」遇上图像修补：无需精细标记，单击物体实现物体移除、内容填补、场景替换

　　论文链接：http://arxiv.org/abs/2304.06790

　　代码库链接：https://github.com/geekyutao/Inpaint-Anything

　　方法介绍

　　尽管当前图像修补系统取得了重大进展，但它们在选择掩码图和填补空洞方面仍然面临困难。基于 SAM，研究者首次尝试无需掩码（Mask-Free）图像修复，并构建了「点击再填充」（Clicking and Filling）的图像修补新范式，他们将其称为修补一切（Inpaint Anything）（IA）。IA 背后的核心思想是结合不同模型的优势，以建立一个功能强大且用户友好的图像修复系统。

　　IA 拥有三个主要功能： ( i ) 移除一切（Remove Anything）：用户只需点击一下想要移除的物体，IA 将无痕地移除该物体，实现高效「魔法消除」； ( ii ) 填补一切（Fill Anything）：同时，用户还可以进一步通过文本提示（Text Prompt）告诉 IA 想要在物体内填充什么，IA 随即通过驱动已嵌入的 AIGC（AI-Generated Content）模型（如 Stable Diffusion [ 2 ] ）生成相应的内容填充物体，实现随心「内容创作」； ( iii ) 替换一切（Replace Anything）：用户也可以通过点击选择需要保留的物体对象，并用文本提示告诉 IA 想要把物体的背景替换成什么，即可将物体背景替换为指定内容，实现生动「环境转换」。IA 的整体框架如下图所示：

当「分割一切」遇上图像修补：无需精细标记，单击物体实现物体移除、内容填补、场景替换

　　Inpaint Anything（IA）示意图。用户可以通过单击来选择图像中的任何物体。借助强大的视觉模型，如 SAM [ 1 ] 、LaMa [ 3 ] 和 Stable Diffusion ( SD ) [ 3 ] ，IA 能够平滑移除选定物体（即 Remove Anything）。进一步地，通过向 IA 输入文本提示，用户可以用任何想要的内容填充物体（即 Fill Anything）或者任意替换对象的物体（即 Replace Anything）。

　　移除一切

　　填充一切实验结果

文本提示：a camera lens in the hand

　　文本提示：an aircraft carrier on the sea

　　文本提示：a sports car on a road

　　文本提示：a Picasso painting on the wall

　　替换一切实验结果

文本提示：sit on the swing

　　文本提示：breakfast

　　文本提示：a bus, on the center of a country road, summer

　　文本提示：crossroad in the city

　　总结

　　研究者建立这样一个有趣的项目，来展示充分利用现有大型人工智能模型所能获得的强大能力，并揭示「可组合人工智能」（Composable AI）的无限潜力。项目所提出的 Inpaint Anything ( IA ) 是一种多功能的图像修补系统，融合了物体移除、内容填补、场景替换等功能（更多的功能正在路上敬请期待）。

　　IA 结合了 SAM、图像修补模型（例如 LaMa）和 AIGC 模型（例如 Stable Diffusion）等视觉基础模型，实现了对用户操作友好的无掩码化图像修复，同时支持「点击删除，提示填充」的等「傻瓜式」人性化操作。此外，IA 还可以处理具有任意长宽比和 2K 高清分辨率的图像，且不受图像原始内容限制。

　　目前，项目已经完全开源。最后，欢迎大家分享和推广 Inpaint Anything ( IA ) ，也很期待看见更多基于 IA 所拓展的新项目。未来，研究者将进一步挖掘 Inpaint Anything ( IA ) 的潜力以支持更多实用的新功能，如细粒度图像抠图、编辑等，并将其应用到更多现实应用中。

　　参考文献

　　 [ 1 ] Alexander Kirillov, Eric Mintun, Nikhila Ravi, Hanzi Mao,Chloe Rolland, Laura Gustafson, Tete Xiao, Spencer Whitehead, Alexander C Berg, Wan-Yen Lo, et al. Segment anything. arXiv preprint arXiv:2304.02643, 2023.

　　 [ 2 ] Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Bj rn Ommer. High-resolution image synthesis with latent diffusion models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern

　　Recognition, pages 10684 – 10695, 2022.

　　 [ 3 ] Roman Suvorov, Elizaveta Logacheva, Anton Mashikhin, Anastasia Remizova, Arsenii Ashukha, Aleksei Silvestrov, Naejin Kong, Harshith Goka, Kiwoong Park, and Victor Lempitsky. Resolution-robust large mask inpainting with fourier convolutions. In Proceedings of the IEEE/CVF winter conference on applications of computer vision, pages 2149 – 2159, 2022.

　　 [ 4 ] Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Doll ar, and C Lawrence Zitnick. Microsoft coco: Common objects in context. In Computer Vision – ECCV 2014: 13th European Conference,

　　Zurich, Switzerland, September 6-12, 2014, Proceedings, Part V 13, pages 740 – 755. Springer, 2014.

　　 THE END

　　转载请联系本公众号获得授权

　　投稿或寻求报道：content@jiqizhixin.com