该文章参考于: 点击链接
介绍
Abstract
文档图像恢复是文档人工智能系统的一个重要方面,因为文档图像的质量会显著影响整体性能。目前流行的方法分别处理不同的恢复任务,导致系统复杂,无法利用多任务学习的潜在协同作用。为了克服这一挑战,我们提出了DocRes,这是一个通用模型,它统一了五个文档图像恢复任务,包括去变形、阴影、外观增强、去模糊和二值化。为了指导DocRes执行各种恢复任务,我们提出了一种新的视觉提示方法,称为动态任务特定提示(DTSPrompt)。不同任务的DTSPrompt包含不同的先验特征,这些特征是从输入图像中提取的附加特征。除了作为特定任务执行的提示之外,DTSPrompt还可以作为补充信息来增强模型的性能。此外,DTSPrompt比以前的视觉提示方法更灵活,因为它可以无缝地应用和适应高分辨率和可变分辨率的输入。实验结果表明,与现有的最先进的任务特定模型相比,DocRes实现了竞争或优越的性能。这强调了DocRes在更广泛的文档图像恢复任务中的潜力。

DTSPrompt
在 DocRes 模型的方法部分,针对五种文档图像修复任务,动态任务特定提示(DTSPrompt)的构造方式各不相同,均基于任务特性从输入图像中提取特定的先验特征。具体如下:
1. 文档展平(Dewarping)
-
核心思路:利用文档边界和位置信息辅助消除几何扭曲。
-
先验特征:
-
文档分割掩码():通过现有文档分割模型提取,用于明确文档边界,降低修复难度。
-
坐标特征:包括 x 坐标()和 y 坐标(),直接用像素点的位置坐标值表示,帮助模型感知几何位置关系。
-
-
构造方式:将上述三个特征沿通道维度拼接,形成三维提示()。
2. 去阴影(Deshadowing)
-
核心思路:利用含阴影的文档背景作为参考,辅助去除阴影。
-
先验特征:
- 带阴影的文档背景():通过膨胀操作消除文本内容,再用中值滤波平滑残留 artifacts 得到,保留阴影区域的背景信息。
-
构造方式:直接将该背景特征作为提示()。
3. 外观增强(Appearance Enhancement)
-
核心思路:利用原图与背景的差异作为初始增强指导。
-
先验特征:
- 图像差异特征():通过计算原图与文档背景()的差值绝对值,再用 255 减去该值得到,突出需要增强的文本与背景的对比。
-
构造方式:直接将该差异特征作为提示()。
4. 去模糊(Deblurring)
-
核心思路:利用梯度信息辅助恢复清晰边缘。
-
先验特征:
- 梯度图():从输入图像中提取梯度分布,反映图像的边缘和细节变化。
-
构造方式:将梯度图复制为三通道(适应模型输入格式),作为提示()。
5. 二值化(Binarization)
-
核心思路:结合文本分割结果和梯度信息,辅助区分前景文本与背景。
-
先验特征:
-
初始二值化结果():用 Sauvola 算法生成,提供初步的文本区域划分。
-
阈值图():与二值化结果配套的阈值信息。
-
梯度图():辅助强化文本边缘。
-
-
构造方式:将上述三个特征沿通道维度拼接,形成三维提示()。

Note
每个任务的 DTSPrompt 均遵循 “任务适配性” 原则:通过提取与任务目标强相关的先验特征(如边界、背景、梯度等),既作为模型区分任务的标识,又作为补充信息提升修复效果。这种构造方式灵活且适用于高分辨率和可变分辨率输入,无需依赖特定网络框架。