Abstract
恢复退化的低分辨率文本图像具有挑战性,尤其是对于在现实场景中笔画复杂且退化严重的中文文本图像。确保文本保真度和风格真实性对于高质量的文本图像超分辨率至关重要。最近,扩散模型由于其强大的数据分布建模能力和数据生成能力,在自然图像合成与恢复方面取得了巨大成功。在这项工作中,我们提出了一种图像扩散模型(IDM),以恢复具有逼真风格的文本图像。对于扩散模型而言,它们不仅适合对逼真的图像分布进行建模,也适合学习文本分布。根据现有研究,文本先验对于保证恢复后的文本结构的正确性很重要,因此我们还提出了一种用于文本识别的文本扩散模型(TDM),它可以指导IDM生成结构正确的文本图像。我们进一步提出了一种多模态混合模块(MoM),以使这两个扩散模型在所有扩散步骤中相互协作。在合成数据集和真实数据集上进行的大量实验表明,我们基于扩散的盲文本图像超分辨率方法(DiffTSR)能够同时恢复具有更准确文本结构和更逼真外观的文本图像。