图1 基于深度学习的图像修复方法分类框架
扫 描 看 全 文
引用本文
阅读全文PDF
图像修复是指通过使用计算机算法和图像处理技术还原损坏、缺失或被破坏的图像区域,其目标是使修复后的图像在视觉上具有合理的结构、纹理和连贯性,并且尽可能与原始图像的外观和信息接近。传统的图像修复技术通常基于规则和启发式方法,利用像素间的局部关系、边缘信息、纹理统计等低级特征进行图像修复,难以修复具有复杂语义的图像。近年来,深度学习技术由于其强大的特征提取能力,在图像修复任务中逐渐成为主流方法。这些方法借助大规模数据集进行训练,通过深层次的卷积神经网络或生成对抗网络自动学习图像的高级特征和复杂语义信息。然而,现有的图像修复总结研究较少,且深度学习技术更新太快,为了更好地推动深度学习技术在图像修复领域中的应用及发展,有必要对现有相关方法进行分类和总结。该文对基于深度学习的图像修复方法进行了系统回顾和全面概述,从修复策略的角度出发对图像修复方法进行系统性总结。具体分析了每类方法的优势和局限性,总结了常用的数据集、定量评价指标及代表性方法的性能对比,对图像修复领域存在的难点问题及未来研究方向进行了展望。
Image inpainting is a process that involves utilizing computer algorithms and image processing techniques to restore damaged, missing, or corrupted regions within an image. The objective of this process is to generate visually reasonable and coherent structures and textures in the repaired regions, while simultaneously being as consistent as possible with the appearance of the original image. Traditional image inpainting techniques predominantly rely on rule-based and heuristic methods, utilizing low-level features such as local pixel relationships, edge information, and texture statistics to perform inpainting tasks. However, handling images with intricate semantics through these methods has proven challenging. In recent years, the prominence of deep learning technology has grown significantly in image inpainting tasks owing to its powerful feature extraction capabilities. By leveraging large-scale datasets, these methods automatically learn high-level features and complex semantic information of images through deep convolutional neural networks or generative adversarial networks. However, there are few existing summary studies on image inpainting, while the evolution of deep learning technology is progressing rapidly. In order to facilitate the effective application and development of deep learning methods in image inpainting, a systematic categorization and summary of existing techniques is imperative. This article provides a systematic review and comprehensive overview of deep learning-based image restoration methods, offering a systematic summary of image inpainting methods from the perspective of inpainting strategies. We specifically analyzed the strengths and limitations of each method category, summarized commonly used datasets, quantitative evaluation metrics, and performance comparisons of representative approaches. Ultimately, we discussed the existing challenges in the field of image inpainting and proposed potential research avenues for future investigations.
图像是人类沟通交流、传递、记录与保存信息的重要手段。早期的人们以纸、墙壁、石碑为载体记录生活及艺术创作,随着时间推移,这些图像载体受到环境、气候或人为因素的影响,导致其表面出现风化、褪色、氧化及污损,不利于文化的传承。最早的图像修复技术起源于文艺复兴时期,修复师根据古老的图像和颜色痕迹来修补损坏的部分,尽可能使修复的部分与原始的绘画风格和色彩相匹配,以便保持整体的视觉一致性。这项技术很大程度上依赖于修复师的经验和对古老艺术品的理解,费时且费力。
随着计算机技术的发展,数字图像逐渐成为记录和保存信息的主要媒介。然而,数字图像在传递和存储过程中,会不可避免地出现像素丢失等质量退化问题,因此,数字图像修复技术应运而生。传统的图像修复方法的工作原理是根据图像的已知区域推断未知区域,利用纹理结构一致性、样本相似性等思想构建算法,能够修复一些破损较小的图像。当破损的区域面积较大、与已知区域无明显相关性、结构纹理较复杂时,其修复后的图像与原始图像存在明显差异,且伴有破损边缘模糊、断层等问题。
近年来,随着计算硬件的不断进步,深度学习技术在计算机视觉、自然语言处理、语音识别等多个领域取得了突破性的进展[
尽管图像修复技术是许多视觉下游任务的基础,但相关的前沿综述性工作很少。因此,本文针对基于深度学习的图像修复算法的发展,从修复策略的角度出发,对图像修复算法进行系统性梳理,分类框架如
图1 基于深度学习的图像修复方法分类框架
Fig. 1 Classification framework for deep learning-based image inpainting methods
修复策略从不同的角度出发,为图像修复问题提供了不同的解决方案。本节将修复策略分为6类:像素生成式修复,渐进式修复、基于不规则卷积修复、基于Transformer修复、基于扩散模型修复和基于调制修复,并对每一类方法的核心思想和发展进程进行系统性梳理(见
基于像素生成式图像修复方法旨在通过逐个像素地生成缺失区域的像素值恢复损坏的图像。这种方法使用循环神经网络(RNN)[
1.1.1 基于RNN的生成式图像修复
基于RNN的生成式图像修复算法通常将图像分解成像素序列,并使用RNN对整张图像的像素序列进行遍历,学习全局样本的特征分布,从而逐个生成缺失区域的像素值,其原理如
图2 基于RNN的像素生成原理
Fig. 2 Principles of pixel generation based on RNN
其具体步骤分为3步。①数据准备。将缺失的图像分解成像素序列,并将缺失区域的像素作为输入序列。其中,每个像素通常由其坐标、周围像素的值和其他上下文信息组成。②模型构建。构建一个RNN模型,利用前一个时刻像素的值预测当前时刻的像素值。合理利用周围像素的值和全局特征,这些上下文信息能够很好地帮助模型理解图像的结构和纹理,从而生成更精确的像素值。③逐像素迭代生成。从图像的左上角开始,RNN模型将根据已生成的像素和上下文信息逐个像素点地预测修复后的像素值。每一次迭代,模型都根据之前生成的像素和上下文信息进一步优化修复结果。
Van等人于2016年提出一个新颖的PRNN(pixel recurrent neural networks)结构[
基于RNN的生成式图像修复算法可以利用图像中的时序和上下文信息,生成更加精确、纹理连贯的图像。由于这种方法需遍历全局像素点,因此,在处理大尺度图像时会面临计算复杂度高、耗时较长的问题。并且在遍历像素的后期阶段,像素点之间的相关性会逐渐减弱,使得该算法对于复杂的缺失图案表现不佳。
1.1.2 基于CNN的生成式图像修复
CNN在处理图像数据时,由于局部连接和共享权重的结构,能够有效地捕捉图像和其他空间数据中的局部特征,有助于降低参数量,提高模型的训练效率,并且对更大范围的特征关系也能较好地处理,其生成原理见
图3 基于CNN的像素生成原理
Fig. 3 Principles of pixel generation based on CNN
Oliveira等人受CNN的启发,提出了一种简单快速的图像修复方法,将待修复图像与加权平均内核进行卷积,计算像素邻域的加权平均值[
综上所述,像素生成式图像修复相比一些传统的图像修复方法,不需要先验信息或人工标记的辅助数据,更具有自主性和自适应性。并且可以适用于各种图像修复任务,包括缺失、遮挡、噪声和破损等,具有一定的通用性。但是该类方法存在以下缺点:①需要大量的计算资源和时间,特别是在处理高分辨率图像时;②需要大量高质量有标签的训练数据,否则修复结果可能不理想;③在修复具有复杂纹理和细节的情况下可能会产生伪影或不真实的细节。像素生成式图像修复方法在图像处理领域具有很大的研究前景,未来的研究方向将集中在改进模型的泛化能力、数据集的质量及计算效率等方面。
渐进式图像修复策略旨在将图像由较低质量一步一步修复成高质量的图像,从子任务中获得的附加信息有助于最终结果的生成,其实现方式有多种,包括由粗尺度图像逐渐修复到细尺度图像、由局部到整体修复图像、由低分辨率逐渐修复到高分辨率、由图案结构逐渐修复出图像内容、由掩膜到图像的修复。
1.2.1 粗尺度到细尺度图像修复
Yu等人观察到CNN从远程空间位置借用或复制信息方面的效率不高,导致修复大型缺失区域时产生与周围区域不一致的失真结构或模糊纹理,从而提出了一种新的基于深度生成模型的方法,不仅可以合成新的图像纹理结构,而且还可以在网络训练过程中显式地利用周围图像特征作为参考,以获得更好的预测结果[
1.2.2 局部到整体图像修复
由局部到整体的图像修复将整个修复任务细分成了不同的子任务,每个子任务都从缺失区域的外层逐渐向内进行修复,最终将局部修复的结果整合在一起,完成整幅图像的修复。这样可以确保修复的结果在局部和整体上都具有合理的结构和连贯性。Zhang等人提出一种基于局部-整体的语义图像修复方法,该方法将整个修复过程分成4个阶段,从缺失区域的外围逐步向中心进行修复,每个阶段旨在完成整个修复过程的一部分,并在后续阶段中进一步优化修复结果[
从局部到整体的的图像修复可以产生许多中间结果,合理利用这些中间结果可以减少最终修复结果的误差。但是,中间结果的生成也会消耗更多的计算时间。
1.2.3 低分辨率到高分辨率图像修复
由低分辨率到高分辨率的图像修复首先将高分辨率图像降采样为低分辨率图像,然后在低分辨率图像上进行修复,以减少计算成本。Yang等人提出了一种混合优化方法,该方法将编码器-解码器的预测作为全局内容约束,并将缺失区域与已知区域之间的局部神经patch块的相似性作为纹理约束[
1.2.4 结构到内容图像修复
由结构到内容的图像修复,其主要目标是先恢复图像的结构信息,然后再填充细节内容。这类方法首先通过设计算法尝试恢复图像的大致结构,包括边缘、轮廓和主要的物体形状,这一步旨在填充缺失区域,使得整体图像看起来更加完整和连贯。在结构恢复的基础上,再进一步利用周围像素的上下文信息完善修复结果。
边缘能够表现出物体的形状和轮廓,是常用的引导方式。Liao等人提出了一种考虑场景结构和上下文的图像修复模型E-CE[
分割技术可以预测图像中不同物体的边界和形状信息,用这些分割结果指导图像修复是非常有意义的。为解决生成模型没有利用语义分割信息约束物体的形状,从而导致边界模糊的问题,Song等人分解了图像修复过程中类间差异和类内变化,将修复过程分解为分割预测和分割引导2个步骤,首先预测缺失区域的分割标签,然后生成分割引导的修复结果[
由结构到内容的图像修复可以确保修复的图像保持原有的形状和结构,同时加入了更真实的纹理和细节信息。但是仍存在以下问题:①边缘信息无法指导颜色的生成;②分割信息依赖于标签的精度,如果相同语义标签的外观差异太大,则分割信息会混淆最终的修复结果。
1.2.5 掩膜到图像修复
由掩膜预测到图像修复是盲图像修复中常用的方法。盲图像修复是指在图像中缺失或损坏的像素位置未知的情况下,通过算法自动恢复这些缺失或损坏的像素,不需要为缺失区域指定掩码,使图像看起来完整和清晰。这种技术可以广泛应用于图像去噪、修复损坏的旧照片等。
Liu等人受到残差学习算法的启发,引入了编码器和解码器结构,并改进了L1损失函数处理异常值,该算法可以预测损坏区域中缺失的信息[
由掩膜到图像的修复方法不需要提供手动绘制的掩膜,省时省力。但仍然面临许多挑战:①难以准确区分受损区域和有效区域,有效区域可能包含纹理、边缘和其他重要信息,而这些信息也可能在受损区域存在,使得模型难以区分;②缺乏掩膜信息,模型容易受图像中复杂结构的干扰,导致不合理的修复效果;③预测受损区域始终存在一定的误差,难以实现高质量的修复效果。
综上所述,渐进式图像修复类方法可以逐渐提高修复结果的质量,并且生成的图像具有平滑自然的过渡效果,能够避免在修复区域和原始图像之间产生明显的边缘。另一方面,研究者可以根据数据集的特性和需求,自行设计在网络训练时添加所需细节。但该类方法存在以下缺点:①多次的迭代计算生成修复结果,需要大量的计算资源;②该类方法通常需要采用两阶段网络的结构,相对于一次性修复方法更加复杂;③想要生成高质量的修复结果可能需要更多时间,难以适应一些实时或高效率需求的应用。在未来,渐进式图像修复方法的研究可能集中在以下几方面:①开发更高效的算法,减少计算成本和时间延迟;②研究能够自动调整修复速度和细节程度的方法,以适应不同的需求和场景;③研究适用于实时或互动的应用,如视频修复。
在传统的图像修复中,缺失的区域通常是通过周围像素的信息填充,或者通过学习深度神经网络生成缺失内容。然而,在某些情况下,修复过程可能会引入伪影或不一致性。在基于不规则卷积的图像修复中,神经网络被设计用于改进架构中的卷积操作,具有更强大的自适应性,有助于在修复缺失区域的同时更好地保留原始图像的结构和纹理。卷积核的形状和尺寸可以灵活调整,因此,不规则卷积可以适应不同形状和大小的掩膜,并对其进行有效的修复。目前,根据卷积滤波器的类型,可以将不规则卷积分为部分卷积、门控卷积、双向卷积和区域卷积。
1.3.1 基于部分卷积的图像修复
Liu等人在2018年首次提出采用部分卷积进行不规则掩膜的图像修复[
图4 部分卷积
Fig. 4 Partial convolution
虽然部分卷积的提出大大提高了不规则图像修复的效率和精度,但是它并未精细到考虑卷积滤波器覆盖的像素数量。当滤波窗口内包含有效像素时,即使有效像素的数量非常小,当前位置的值都会变为1。
1.3.2 基于门控卷积的图像修复
Yu等人在2019年提出门控卷积[
图5 门控卷积
Fig. 5 Gate convolution
1.3.3 基于双向卷积的图像修复
传统的卷积在修复图像时只关注输入图像的局部特征,忽略了输出图像的全局特征。针对这个问题,Xie等人在2019年提出利用双向卷积进行图像修复[
图6 双向卷积
Fig. 6 Bi-directional convolution
1.3.4 基于区域卷积的图像修复
传统的图像修复方法通常使用全局卷积来填补图像中的缺失部分,这可能导致修复结果的细节丢失和模糊。为了解决这个问题,Ma等人引入了区域卷积和非局部相关的概念,在修复过程中更好地保留了图像细节和结构[
综上所述,基于不规则卷积修复的方法具有更大的自由度,能够更精确地捕获和修复图像中的细节,并且适用于不同形状的掩膜,在处理复杂图像修复问题时具有优势。相对于传统卷积方法,不规则卷积可以更好地减少伪影的产生,使修复结果更自然。但该类方法相比于传统卷积,其计算复杂度更大,且超参数更难调整。未来的研究可以关注于改进不规则卷积操作的设计,以提高其性能和适应性,同时降低计算量。
调制技术是一种在生成模型中使用的方法,它可以调整生成器的特征表示,从而控制生成样本的特征和风格。调制技术最初源自图像风格迁移的研究,后来被应用于生成对抗网络和其他生成模型中。近年来,调制技术在图像生成、图像修复、图像编辑等领域都有广泛的应用,可以帮助图像修复方法更好地控制图像的生成过程,从而产生更真实和合理的修复结果。在图像修复中,调制可以用于2个方面:特征调制和空间调制。特征调制通过学习参数调整生成器的特征表示,使其能够根据输入的条件信息生成不同风格或类别的修复结果。例如,可以通过调制参数指定修复结果的颜色、纹理或形状等特征。空间调制通过学习参数调整生成器的特征表示,使其能够根据输入的空间位置信息在不同位置上生成不同的修复内容。这样可以确保修复结果在不同位置上保持一致性和逼真性。
Zhao等人引入了一种通用的方法,即共调制生成对抗网络Co-Modulated GANs[
综上所述,基于调制的图像修复方法可以根据需求自行调整生成器的特征表示,对于保留图像的细节和纹理非常有用。这种有选择性地修复特定频率范围内信息的方式更具有灵活性,不会对整个图像进行过度处理。但是该类方法大多数都采用生成模型,对于高质量有标签的数据有大量的需求,而配对的数据集往往难以获取。因此,基于调制的修复方法在未来可以重点关注于有效利用有限数据和弱标签,以及如何更精确地控制生成样本的属性。
Transformer是Vaswani等人在2017年提出的一种基于注意力机制的神经网络架构[
如
图7 Transformer模型架构
Fig. 7 The architecture of Transformer
Wan等人将Transformer应用于图像修复领域,将Transformer的外观先验重构与CNN的纹理补充结合在一起,利用Transformer恢复了多样化的连贯结构以及一些粗糙的纹理,利用CNN在高分辨率掩膜图像的引导下增强了粗略先验的局部纹理细节[
综上所述,基于Transformer修复的方法在图像的全局上下文理解方面更有优势,能够更好地理解图像内容和语义信息,修复完成的图像更具有合理性。但是,Transformer模型通常需要大量的计算资源,应用于实时修复时可能导致较长的修复时间,并且当模型尺寸较大时,很难部署在受限的设备中。因此,基于Transformer的图像修复方法在未来可能集中于研究小规模的模型,尽可能在减小计算复杂性的同时,保证图像修复的性能,让其部署在移动设备或嵌入式系统中成为可能。
扩散模型是一类基于概率分布的生成模型,用于生成图像或其他类型的数据样本。它们通常利用随机扩散过程模拟样本生成的过程,通过逐渐去除信号中的噪声生成高质量的样本。在最近的研究中,扩散模型已经被证明可以生成高质量的图像,并且具有一些理想的属性[
Lugmayr等人提出了一种基于去噪扩散概率模型的图像修复方法RePaint,该方法适用于极端掩模[
图8 RePaint模型架构
Fig. 8 The architecture of RePaint
综上所述,基于扩散模型的修复方法利用扩散过程填补缺失区域,通常能够生成高质量的修复结果,在修复大面积缺失的图像上具有优势,还可以生成多样性的修复结果,在创造性修复方面为研究者提供更多的思路。但是该类方法存在训练时间长、计算复杂度高的问题,扩散模型通常依赖于一些参数的选择和调整,并且需要研究者在参数设置方面具有一定的经验。
数据集在整个机器学习流程中起着至关重要的作用,是用于训练、验证和测试机器学习模型的基础。实际上,收集大量配对的缺失图像和完整图像是相当困难的,因此,研究者大多数是利用大规模的公共数据集,通过在这些公共数据集上设计掩膜,生成缺失图像。在图像修复任务中,数据集被分为图像数据集和掩膜图像数据集。图像数据集的类别包括物体、场景、人脸等,掩膜图像数据集分为规则掩膜和不规则掩膜,规则掩膜一般由研究者直接在图像任意位置添加矩形掩膜获得。本节将介绍每个类别中的一些代表性数据集。
NVIDIA Irregular Mask数据集[
图9 掩膜图像数据集样例
Fig. 9 An example of masked image dataset
Quick Draw Irregular Mask数据集[
Foreground-aware数据集[
常用的街景图像数据集有谷歌街景数字图像数据集SVHN[
图10 图像数据集样例
Fig. 10 An example of image dataset
常用的场景数据集包含日常场景图像数据集MS COCO[
常用的人脸图像数据集包含人脸标志数据集Helen Face[
常用的物体图像数据集包括建筑物数据集Façade[
在完成图像修复工作后,一般需要通过质量评价指标衡量模型的性能。质量评价方法分为主观评价和客观评价,主观评价方法需要多名观察者对修复后的图像与原图进行对比并打分,客观评价方法采用不同的属性对修复后的图像与原图进行计算。主观评价依赖于观察者的主观感受,不仅费时费力,而且缺乏公平性。客观评价借助不同的评判指标对图像进行量化界定,能够区分人眼感知不到的细微差别,从不同角度和属性出发,对图像进行更全面的评判。例如,均方误差、峰值信噪比、结构相似性指数[
1)平均绝对偏差(mean absolute error, MAE,式中简记EMAE)[
(1)
2)均方误差(mean square error, MSE,式中简记EMSE)[
(2)
3)峰值信噪比(peak signal to noise ratio,PSNR,式中简记RPSNR)是一种衡量噪声影响修复结果程度的评价指标,比较修复后的图像Iout与原始图像Iimage之间的相似性。较高的PSNR值表示重建图像与原始图像之间的差异较小,即图像的质量较高。其计算公式为
(3)
4)结构相似性指数(structure similarity index measure,SSIM,式中简记MSSIM)是一种用于测量两个图像之间的相似度。SSIM能够感知结构信息的变化,它基于修复后的图像Iout和原始图像Iimage之间的3个属性进行比较测量:亮度、对比度、结构。SSIM的计算公式是3个属性的加权组合,
(4)
5)学习感知图像块相似性(learned perceptual image patch similarity,LPIPS,式中简记SLPIPS)[
(5) 和
是预训练网络第l层的特征图。
6)初始分数(inception score,IS,式中简记SIS)是一种用于评价生成对抗网络生成的图像质量和多样性的指标,能够衡量生成图像的逼真度和多样性。IS首先使用预训练的Inception V3模型提取修复后的图像Iout与原始图像Iimage的特征向量,然后,计算每张图像的预测类别分布及分布的多样性,最终,由预测类别分布的分散程度和均衡程度综合评估修复后图像Iout的质量和多样性。其计算公式为
(6)
7)Fréchet初始距离(Fréchet Inception distance,FID,式中简记dFID)的计算方法基于深度特征的统计特性,通常使用预训练的Inception V3模型提取图像的特征,计算修复后的图像和原始图像特征的多维高斯分布,并测量这两个分布之间的相似程度。FID越小,则表示这两个图像在特征空间中越接近,即修复后图像的质量越高。其计算公式为
(7)
结合上述质量评价指标,统计了一些代表性方法的部分实验结果,如
数据集 | 方法 | PSNR↑ | SSIM↑ | FID↓ | MAE↓ | LPIPS↓ | 图像尺寸 | 掩膜类型 |
---|---|---|---|---|---|---|---|---|
CelebA-HQ |
PEPSI[ | 28.60 | 0.92 | - | - | - | 256×256 | Irregular |
PRVS[ | 27.76 | 0.93 | - | 0.02 | - | 256×256 | Irregular | |
RePaint[ | - | - | 6.98 | - | 0.059 | 256×256 | Irregular | |
SDM[ | - | - | 4.05 | - | 0.052 | 512×512 | Irregular | |
Place2 |
Yu,et al[ | 18.91 | - | - | 8.60 | - | 256×256 | Irregular |
RFR[ | 22.62 | 0.81 | - | 0.038 | - | 256×256 | Irregular | |
HiFIll[ | - | - | 4.89 | 5.43 | - | 512×512 | Irregular | |
Ren,et al[ | 25.22 | 0.90 | 7.03 | - | - | 256×256 | Irregular | |
ParisStreetView |
Yang,et al[ | 17.59 | - | - | - | - | 128×128 | Square(25%) |
PRVS[ | 26.44 | 0.86 | - | 0.027 | - | 256×256 | Irregular | |
FFHQ |
BAT-Fill[ | 22.59 | 0.759 2 | - | 0.036 | 0.143 | 256×256 | Random |
ICT[ | 25.31 | 0.898 5 | - | 0.032 | 0.078 | 256×256 | Random | |
DGTS[ | 24.31 | 0.819 8 | - | 0.032 | 0.117 | 256×256 | Random |
图像修复作为底层任务,旨在从受损、缺失或受噪声干扰的图像中恢复出原始图像的信息,对于许多计算机高级视觉任务的成功具有关键意义。通过图像修复,可以有效地还原受损图像的内容和细节,使其恢复到更接近原始状态,从而为后续的视觉分析和应用提供更准确、可靠的数据基础。随着深度学习技术的飞速进步,涌现出大量新技术和新模型,从而推动基于深度学习的图像修复方法迈上蓬勃发展的阶段。这些方法通过应用新的模型架构、优化模型结构、采用先进的修复策略、先验信息等方面,取得了更加卓越的修复效果。然而,由于技术不断地迭代,这类方法在新技术方面的应用总结并未得到及时更新。因此,本文从修复策略的角度出发,尽可能全面地对基于深度学习的图像修复任务进行分类总结,概述了常用的图像修复数据集和质量评价指标,总结了一些代表性方法的性能对比。在此基础上,针对该领域目前存在的难题和未来研究趋势做出以下展望。
1)如何根据不同的图像区域或损坏类型自适应地采用不同的修复策略,是一个亟需解决的难题。基于像素生成式的修复方法通常可以有效地处理噪声,通过预测像素值降低噪声的影响,但是每个像素独立地预测和生成,会导致修复结果在复杂纹理区域出现失真和模糊。渐进式图像修复策略以分阶段处理的方式在解决复杂损坏、提高修复质量以及充分利用信息传递方面具有明显的优势。然而,不同阶段之间的信息传递可能不够充分,导致前后阶段之间的一致性和连贯性下降,并且每个阶段的修复都可能引入一定的误差,这些误差可能会在后续阶段中积累,从而影响修复结果的质量。基于卷积感知的修复策略可以适应不同类型的损坏,但对于大范围的复杂损坏可能失效,并且在处理复杂纹理和结构时容易引入失真和模糊。基于调制的修复方法注重保留图像的结构和纹理特征等高频信息,修复结果通常更加自然和真实,不容易引入失真,但常常忽略低频信息,而在一些情况下,图像的低频信息也很重要。因此,现有的方法大都针对于不同类型的损坏选择不同的修复策略,难以兼顾所有损坏模式。如何实现根据图像的特点灵活地采用修复策略是一个值得深入研究的方向。
2)计算效率高、成本低的高分辨率图像修复模型是一个有待研究的热点问题。随着科技的发展和商业应用的扩展,高分辨率图像在医疗、安防、卫星图像等诸多领域的需求逐渐增加,并且随着数据的可获取性和多样性不断提升,为训练更高质量的图像修复模型创造了良好的环境。尽管一些高级的图像修复方法(如Transformer类)在高分辨率图像上的修复结果优异,但其计算成本和硬件要求难以在实际应用中推广。虽然U-Net类和GAN类修复方法在高分辨率图像修复中具有一定的潜力,但它们通常采用增加卷积层扩大感受野的方式使模型学习高层次的图像信息,不仅会导致模型的参数量和计算量增加,还会增加模型的复杂性,从而使模型更容易过拟合训练数据。因此,研究低计算成本的高分辨率图像修复的方法对更好地利用丰富的大规模数据具有重要意义。
3)研究一种能在多类型数据集上进行综合训练并合理修复各种类型图像的模型具有重要意义。目前基于网络架构改进的图像修复方法大多数都是针对某一类数据集进行训练,不仅适用范围受限,而且无法统一衡量方法的好坏。如果能实现利用单一模型在多类型数据集上进行综合训练,让不同类型的任务共享底层特征表示,将有助于模型更好地捕捉数据之间的共性和联系,避免了为每种数据类型设计和训练独立模型的重复工作。这不仅可以将共享的底层特征表示迁移到其他相关任务上,还简化了系统的架构和部署。
4)研究一种能够自动检测图像受损区域并根据图像类型进行合理修复的网络架构具有实际意义。现有的大多数图像修复算法都需要给网络中输入缺失区域的掩膜图像,以指导模型更精准地修复受损区域,而在实际场景中获取受损区域的掩膜图像是不现实的。虽然基于掩膜到图像的盲图像修复方法能够让模型尽可能地从输入图像中推断缺损的位置和特征,但是在自主识别缺损区域及修复内容合理性方面仍面临很大的挑战。
5)随着对自动化及自适应图像修复方法的需求增加,设计一种无参考的质量评价指标迫在眉睫。当前使用的客观质量评价指标PSNR、SSIM、FID等都属于全参考质量评价指标,必须采用未破损的原图作为参考图像,对修复后的图像进行对比计算。如果在未来实现了自动化及自适应的图像修复方法,就需要在符合人眼视觉判断的无参考质量评价指标方面进行深入研究。
JAM J, KENDRICK C, WALKER K, et al. A comprehensivereview of past and present image inpainting methods[J]. Computer Vision and Image Understanding, 2021, 203: 103147. [百度学术]
RUMELHART D E, HINTON G E, WILLIAMS R J. Learning internal representations by error propagation[M]//Readings in Cognitive Science.Amsterdam: Elsevier, 1988: 399-421. [百度学术]
GOODFELLOW I J, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets[C]//Proceedings of the 27th International Conference on Neural Information Processing Systems. New York: ACM, 2014: 2672-2680. [百度学术]
VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all You need[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems.New York: ACM, 2017: 6000-6010. [百度学术]
DHARIWAL P, NICHOL A. Diffusion models beat GANs on image synthesis[EB/OL]. (2021-06-01)[2023-05-25]. https://arxiv.org/abs/2105.05233. [百度学术]
KÖHLER R, SCHULER C, SCHÖLKOPF B, et al. Mask-specific inpainting with deep neural networks[C]//German Conference on Pattern Recognition.Cham: Springer, 2014: 523-534. [百度学术]
REN J S, XU L, YAN Q, et al. Shepard convolutional neural networks[M]//Advances in Neural Information Processing Systems (NIPS). San Francisco: Morgan Kaufmann, 2015. [百度学术]
DAPOGNY A, CORD M, PÉREZ P. The missing data encoder: Cross-channel image completion with hide-and-seek adversarial network[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2020, 34(7): 10688-10695. [百度学术]
KOUTNÍK J, GREFF K, GOMEZ F, et al.A clockwork RNN[EB/OL]. (2014-02-14)[2023-05-25]. https://arxiv.org/abs/1402.3511. [百度学术]
LECUN Y, BOSER B, DENKER J S, et al. Backpropagation applied to handwritten zip code recognition[J]. Neural Computation, 1989, 1(4): 541-551. [百度学术]
VAN OORD A, KALCHBRENNER N, KAVUKCUOGLU K. Pixel recurrent neural networks[C]//International Conference on Machine Learning. New York: PMLR, 2016: 1747-1756. [百度学术]
HOCHREITER S, SCHMIDHUBER J. Long short-term memory [J]. Neural Computation, 1997, 9(8): 1735-1780. [百度学术]
VAN DEN OORD A, KALCHBRENNER N, VINYALS O, et al. Conditional image generation with PixelCNN decoders[C]//Proceedings of the 30th International Conference on Neural Information Processing Systems. New York: ACM, 2016: 4797-4805. [百度学术]
SALIMANS T, KARPATHY A, CHEN X, et al. PixelCNN++: Improving the PixelCNN with discretized logistic mixture likelihood and other modifications[EB/OL]. (2017-01-19)[2023-05-25]. https://arxiv.org/abs/1701.05517. [百度学术]
OLIVEIRA M M, BOWEN B, MCKENNA R, et al. Fast digital image inpainting[C]//Proceedings of the International Conference on Visualization, Imaging and Image Processing(VIIP 2001), Marbella: [s.n.], 2001: 106-107. [百度学术]
HADHOUD M M, MOUSTAFA K A, SHENODA S Z. Digital images inpainting using modified convolution based method[C]//Proceedings SPIE 7340, Optical Pattern Recognition XX.Orlando: SPIE, 2009, 7340: 234-240. [百度学术]
JAIN V, SEUNG S. Natural image denoising with convolutional networks[C]//Advances in Neural Information Processing Systems. Spain: Curran Associates, Inc, 2008: 769-776. [百度学术]
YU J H, LIN Z, YANG J M, et al. Generative image inpainting with contextual attention[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Salt Lake City: IEEE, 2018: 5505-5514. [百度学术]
SAGONG M C, SHIN Y G, KIM S W, et al. PEPSI: Fast image inpainting with parallel decoding network[C]//2919 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR). Long Beach: IEEE, 2020: 11352-11360. [百度学术]
MA Y Q, LIU X L, BAI S H, et al. Coarse-to-fine image inpainting via region-wise convolutions and non-local correlation[C]//Proceedings of the 28th International Joint Conference on Artificial Intelligence. Macao: IJCAI, 2019: 3123-3129. [百度学术]
ZHANG H R, HU Z Z, LUO C Z, et al. Semantic image inpainting with progressive generative networks[C]//Proceedings of the 26th ACM International Conference on Multimedia. New York: ACM, 2018: 1939-1947. [百度学术]
LI J Y, WANG N, ZHANG L F, et al. Recurrent feature reasoning for image inpainting[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle: IEEE, 2020: 7757-7765. [百度学术]
ZENG Y, LIN Z, YANG J M, et al. High-resolution image inpainting with iterative confidence feedback and guided upsampling[C]// European Conference on Computer Vision (ECCV). Cham: Springer, 2020: 1-17. [百度学术]
YANG C, LU X, LIN Z, et al. High-resolution image inpainting using multi-scale neural patch synthesis[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu: IEEE, 2017: 4076-4084. [百度学术]
YI Z L, TANG Q, AZIZI S, et al. Contextual residual aggregation for ultrahigh-resolution image inpainting[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle: IEEE, 2020: 7505-7514. [百度学术]
KULSHRESHTHA P, PUGH B, JIDDI S. Feature refinement to improve high resolution image inpainting[EB/OL]. (2002-06-29)[2023-05-25]. https://arxiv.org/abs/2206.13644. [百度学术]
LIU W H, CUN X D, PUN C M, et al. CoordFill: Efficient high-resolution image inpainting via parameterized coordinate querying[EB/OL]. (2023-03-15)[2023-05-25]. https://arxiv.org/abs/2303.08524. [百度学术]
LIAO L, HU R M, XIAO J, et al. Edge-aware context encoder for image inpainting[C]//2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Calgary: IEEE, 2018: 3156-3160. [百度学术]
NAZERI K, NG E, JOSEPH T, et al. EdgeConnect: Structure guided image inpainting using edge prediction[C]//2019 IEEE/CVF International Conference on Computer Vision Workshop (ICCVW). Seoul: IEEE, 2019: 3265-3274. [百度学术]
LI J Y, HE F X, ZHANG L F, et al. Progressive reconstruction of visual structure for image inpainting [C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV). New York: IEEE, 2020: 5961-5970. [百度学术]
REN Y R, YU X M, ZHANG R N, et al. StructureFlow: Image inpainting via structure-aware appearance flow[C]// 2019 IEEE/CVF International Conference on Computer Vision (ICCV). New York: IEEE, 2020: 181-190. [百度学术]
DENG X C, YU Y. Ancient mural inpainting via structure information guided two-branch model[J]. Heritage Science, 2023, 11(1): 1-17. [百度学术]
YANG J E, QI Z Q, SHI Y. Learning to incorporate structure knowledge for image inpainting[J]. Proceedings of the AAAI Conference on Artificial Intelligence (AAAI), 2020, 34(7): 12605-12612. [百度学术]
SONG Y H, YANG C, SHEN Y J, et al. SPG-net: Segmentation prediction and guidance network for image inpainting[EB/OL]. (2018-08-06)[2023-05-25]. https://arxiv.org/abs/1805.03356. [百度学术]
YU T, FENG R S, FENG R Y, et al. Inpaint anything: Segment anything meets image inpainting[EB/OL]. (2023-04-13)[2023-05-25]. https://arxiv.org/abs/2304.06790. [百度学术]
LIU Y, PAN J S, SU Z X. Deep blind image inpainting[M]//CUI Z, PAN J S, ZHANG S S, et al., Eds. Intelligence Science and Big Data Engineering. Visual Data Engineering. Cham: Springer International Publishing, 2019: 128-141. [百度学术]
WANG Y, CHEN Y C, TAO X, et al. VCNET: A robust approach to blind image inpainting[C]//European Conference on Computer Vision.Cham: Springer, 2020: 752-768. [百度学术]
PHUTKE S S, KULKARNI A, VIPPARTHI S K, et al. Blind image inpainting via omni-dimensional gated attention and wavelet queries[C]//2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops(CVPRW). Vancouver: IEEE, 2023: 1251-1260. [百度学术]
LIU G L, REDA F A, SHIH K J, et al. Catanzaro, Image inpainting for irregular holes using partial convolutions[C]//European Conference on Computer Vision (ECCV). Cham: Springer, 2018: 85-100. [百度学术]
CHEN M, ZHAO X D, XU D Q. Image inpainting for digital Dunhuang murals using partial convolutions and sliding window method[J]. Journal of Physics: Conference Series, 2019, 1302(3): 032040. [百度学术]
WANG N Y, WANG W L, HU W J, et al. Thanka mural inpainting based on multi-scale adaptive partial convolution and stroke-like mask[J]. IEEE Transactions on Image Processing, 2021, 30: 3720-3733. [百度学术]
YU J H, LIN Z, YANG J M, et al. Free-form image inpainting with gated convolution[C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV). Seoul: IEEE, 2019: 4470-4479. [百度学术]
CHANG Y L, LIU Z Y, LEE K Y, et al. Free-form video inpainting with 3D gated convolution and temporal PatchGAN[C]//2019 IEEE/CVF International Conference on Computer Vision(ICCV). Sesoul: IEEE, 2020: 9065-9074. [百度学术]
LI H A, WANG G Y, GAO K, et al. A gated convolution and self-attention-based pyramid image inpainting network[J]. Journal of Circuits, Systems and Computers, 2022, 31(12): 2250208. [百度学术]
XIE K, GAO L G, ZHANG H, et al. Inpainting truncated areas of CT images based on generative adversarial networks with gated convolution for radiotherapy[J]. Medical & Biological Engineering & Computing, 2023, 61(7): 1757-1772. [百度学术]
MA X X, DENG Y B, ZHANG L, et al. A novel generative image inpainting model with dense gated convolutional network[J]. International Journal of Computers Communications & Control, 2023, 18(2): 1-18. [百度学术]
XIE C H, LIU S H, LI C, et al. Image inpainting with learnable bidirectional attention maps[C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV). Seoul: IEEE, 2020: 8857-8866. [百度学术]
GUO X F, YANG H Y, HUANG D. Image inpainting via conditional texture and structure dual generation[C]//2021 IEEE/CVF International Conference on Computer Vision(ICCV). Montreal: IEEE, 2022: 14114-14123. [百度学术]
ZHAO S Y, CUI J, SHENG Y L, et al. Large scale image completion via co-modulated generative adversarial networks[EB/OL]. (2021-03-18)[2023-05-25]. https://arxiv.org/abs/2103.10428. [百度学术]
ZHENG H T, LIN Z, LU J W, et al. Image inpainting with cascaded modulation GAN and object-aware training[C]//AVIDAN S, BROSTOW G, CISSÉ M, et al. European Conference on Computer Vision. Cham: Springer, 2022: 277-296. [百度学术]
VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all You need[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems. New York: ACM, 2017: 6000-6010. [百度学术]
WAN Z Y, ZHANG J B, CHEN D D, et al. High-fidelity pluralistic image completion with transformers[C]//2021 IEEE/CVF International Conference on Computer Vision(ICCV). Montreal: IEEE, 2022: 4672-4681. [百度学术]
ZHOU Y Q, BARNES C, SHECHTMAN E, et al. TransFill: Reference-guided image inpainting by merging multiple color and spatial transformations[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR). Nashville: IEEE, 2021: 2266-2267. [百度学术]
WANG J K, CHEN S X, WU Z X, et al. FT-TDR: Frequency-guided transformer and top-down refinement network for blind face inpainting[J]. IEEE Transactions on Multimedia, 2023, 25: 2382-2392. [百度学术]
DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16×16 words: Transformers for image recognition at scale[EB/OL]. (2021-06-03)[2023-05-25]. https://arxiv.org/abs/2010.11929. [百度学术]
CAO C J, DONG Q L, FU Y M. Learning prior feature and attention enhanced image inpainting[C]//AVIDAN S, BROSTOW G, CISSÉ M, et al. European Conference on Computer Vision. Cham: Springer, 2022: 306-322. [百度学术]
YU Y S, DU D W, ZHANG L B, et al. Unbiased multi-modality guidance for image inpainting[C]//AVIDAN S, BROSTOW G, CISSÉ M, et al. European Conference on Computer Vision. Cham: Springer, 2022: 668-684. [百度学术]
LIU H P, WANG Y, WANG M, et al. Delving globally into texture and structure for image inpainting[C]//Proceedings of the 30th ACM International Conference on Multimedia. New York: ACM, 2022: 1270-1278. [百度学术]
CHEN B L, LIU T J, LIU K H. Lightweight image inpainting by stripe window transformer with joint attention to CNN[EB/OL]. (2023-01-02)[2023-05-25]. https://arxiv.org/abs/2301.00553. [百度学术]
NADERI M, GIVKASHI M H, KARIMI N, et al. SFI-swin: Symmetric face inpainting with swin transformer by distinctly learning face components distributions[EB/OL]. (2023-01-09)[2023-05-25]. https://arxiv.org/abs/2301.03130. [百度学术]
LIAO L, LIU T R, CHEN D L, et al. TransRef: Multi-scale reference embedding transformer for reference-guided image inpainting[EB/OL]. (2023-06-20)[2023-05-25]. https://arxiv.org/abs/2306.11528. [百度学术]
DHARIWAL P, NICHOL A. Diffusion models beat GANs on image synthesis[EB/OL]. (2021-06-01)[2023-05-25]. https://arxiv.org/abs/2105.05233.pdf. [百度学术]
HO J, JAIN A, ABBEEL P. Denoising diffusion probabilistic models[M]//Advances in neural Information Processing Systems.San Francisco: Margan Kaufmann, 2020. [百度学术]
LUGMAYR A, DANELLJAN M, ROMERO A, et al. RePaint: Inpainting using denoising diffusion probabilistic models[EB/OL]. (2022-08-31)[2023-07-25]. https://arxiv.org/abs/2201.09865. [百度学术]
LI W B, YU X, ZHOU K, et al. SDM: Spatial diffusion model for large hole image inpainting[EB/OL]. (2023-03-08)[2023-07-25]. https://arxiv.org/abs/2212.02963. [百度学术]
HORITA D, YANG J L, CHEN D, et al. A structure-guided diffusion model for large-hole diverse image completion[EB/OL]. (2022-11-18)[2023-07-25]. https://arxiv.org/abs/2211.10437. [百度学术]
GRILL J B, STRUB F, ALTCHÉ F, et al. Bootstrap your own latent: A new approach to self-supervised Learning[EB/OL]. (2020-09-10)[2023-05-25]. https://arxiv.org/abs/2006.07733. [百度学术]
ROMBACH R, BLATTMANN A, LORENZ D, et al. High-resolution image synthesis with latent diffusion models[C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New Orleans: IEEE, 2022: 10674-10685. [百度学术]
ISKAKOV K. Semi-parametric image inpainting[EB/OL]. (2018-11-13)[2023-07-25]. https://arxiv.org/abs/1807.02855. [百度学术]
XIONG W, YU J H, LIN Z, et al. Foreground-aware image inpainting[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach: IEEE, 2020: 5833-5841. [百度学术]
YUVAL N. Reading digits in natural images with unsupervised feature learning[C]//Proceedings of the NIPS Workshop on Deep Learning and Unsupervised Feature Learning.Granada: NIPS Foundation, 2011. [百度学术]
DOERSCH C, SINGH S, GUPTA A, et al. What makes Paris look like Paris?[J]. ACM Transactions on Graphics, 2012, 31(4): 1-9. [百度学术]
CORDTS M, OMRAN M, RAMOS S, et al. The cityscapes dataset for semantic urban scene understanding[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR). Las Vegas: IEEE, 2016: 3213-3223. [百度学术]
LIN T Y, MAIRE M, BELONGIE S, et al. Microsoft COCO: Common objects in context[C]//European Conference on Computer Vision. Cham: Springer, 2014: 740-755. [百度学术]
RUSSAKOVSKY O, DENG J, SU H, et al. ImageNet large scale visual recognition challenge[J]. International Journal of Computer Vision, 2015, 115(3): 211-252. [百度学术]
ZHOU B L, LAPEDRIZA A, KHOSLA A, et al. Places: A 10 million image database for scene recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(6): 1452-1464. [百度学术]
LE V, BRANDT J, LIN Z, et al. Interactive facial feature localization[C]//European Conference on Computer Vision. Berlin, Heidelberg: Springer, 2012: 679-692. [百度学术]
LIU Z W, LUO P, WANG X G, et al. Deep learning face attributes in the wild[C]//2015 IEEE International Conference on Computer Vision(ICCV). Santiago: IEEE, 2016: 3730-3738. [百度学术]
KARRAS T, AILA T M, LAINE S, et al. Progressive growing of GANs for improved quality, stability, and variation[EB/OL]. (2018-02-26)[2023-05-25]. https://arxiv.org/abs/1710.10196. [百度学术]
KARRAS T, LAINE S, AILA T M. A style-based generator architecture for generative adversarial networks[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR). Long Beach: IEEE, 2020: 4396-4405. [百度学术]
TYLECEK R, ŠÁRA R. Spatial pattern templates for recognition of objects with regular structure[C]//German Conference 35th on Pattern Recognition. Berlin, Heidelberg: Springer, 2013: 364-374. [百度学术]
CIMPOI M, MAJI S, KOKKINOS I, et al. Describing textures in the wild[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Columbus: IEEE, 2014: 3606-3613. [百度学术]
KRAUSE J, STARK M, JIA D, et al. 3D object representations for fine-grained categorization[C]//2013 IEEE International Conference on Computer Vision Workshops (ICCVW). Sydney: IEEE, 2014: 554-561. [百度学术]
WANG Z, BOVIK A C, SHEIKH H R, et al. Image quality assessment: From error visibility to structural similarity[J]. IEEE Transactions on Image Processing, 2004, 13(4): 600-612. [百度学术]
SALIMANS T, GOODFELLOW I, ZAREMBA W, et al. Improved techniques for training GANs[C]//Proceedings of the 30th International Conference on Neural Information Processing Systems. New York: ACM, 2016: 2234-2242. [百度学术]
HEUSEL M, RAMSAUER H, UNTERTHINER T, et al. GANs trained by a two time-scale update rule converge to a local Nash equilibrium[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems. New York: ACM, 2017: 6629-6640. [百度学术]
LOSSON O, MACAIRE L, YANG Y. Comparison of color demosaicing methods[M]//Advances in Imaging and Electron Physics. Amsterdam: Elsevier, 2010, 162: 173-265. [百度学术]
HACCIUS C, HERFET T. Computer vision performance and image quality metrics: A reciprocal relation[C]//Computer Science & Information Technology (CS & IT). Florence: Academy & Industry Research Collaboration Center (AIRCC), 2017: 27-37. [百度学术]
ZHANG R, ISOLA P, EFROS A A, et al. The unreasonable effectiveness of deep features as a perceptual metric[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 586-595. [百度学术]
0
浏览量
0
下载量
0
CSCD
相关文章
相关作者
相关机构