


特征金字塔FPN
FPN(Feature Pyramid Network):
- 提出者:由 Facebook AI 提出,首次用于 Faster R-CNN。
- 核心思想:通过**自顶向下(top-down)+ 横向连接(lateral connection)**构建特征金字塔,将高层语义信息传播到低层,增强小目标的检测能力。
- 优点:融合不同尺度的特征,适用于多尺度目标检测。
不同的物体或其特征在不同的图像上或是在图像中的大小(或尺度)都有所不同,所以当在进行图像的工作时,只在单一个尺度下进行图像处理或是特征提取,往往会是不够的;尤其是小物体
四种实现方法


使用了1x1卷积改变通道数
示例
GAP 是 Global Average Pooling(全局平均池化) 的缩写,是一种用于将特征图(feature map)压缩为向量的操作

包括1x1卷积,上采样,卷积等操作

后面相当于有一个”注意力”,每一个weight有一个比重(可学习的参数)
源码

路径聚合网络PAN
PANet: Path Aggregation Network for Instance Segmentation
- 作者:Shu Liu, Lu Qi, Haifang Qin, Jianping Shi, Jiaya Jia
- 会议:CVPR 2018
- 链接(arXiv):https://arxiv.org/abs/1803.01534
🧠 论文核心贡献:
-
提出 PANet 结构:
- 在 FPN 基础上,添加了 bottom-up path augmentation,增强低层特征表达能力。
-
Adaptive Feature Pooling:
- 针对 RoI pooling 的改进,提升分割精度。
-
Fully-connected Fusion:
- 将不同级别的特征融合在一起用于 mask 预测,提高了实例分割性能。
虽然最初是为 实例分割(Instance Segmentation) 设计的,但其结构在目标检测中(如 YOLOv4)也被广泛应用,成为 backbone 和 neck 的组成部分。
路径聚合网络(Path Aggregation Network,简称PAN,PANet)是一种深度学习网络结构,用于图像分类和目标检测任务。它采用了多尺度特征融合和路径聚合的方法,能够有效地提高模型的性能和准确率,PAN网络结构包括主干网络和特征金字塔网络两部分,其中特征金字塔网络用于生成多尺度特征图,主干网络则用于将这些特征图进行路径聚合和特征融合。
在浅层的特征图中,通常分辨率较高、定位信息准确但语义信息不丰富. 而在深层的特征图中,通常分辨率较低、语义信息丰富但定位信息不准确. FPN解决了浅层特征语义信息不丰富的问题,但没有解决深层特征图定位信息不准确的问题. 定位信息对pixel-wise的任务来说尤为重要. 因此,用于实例分割任务的PANet在FPN的基础上又增加了一条由下而上的路径,用低层特征融合高层特征,以增强高层特征的定位信息. 同时,为减少低层特征信息的传递损失,在 处与backbone的第一个stage的特征图增加了short-cut分支.
在传统的目标检测模型中,如 Faster R-CNN,多尺度特征的处理通常采用金字塔结构或特征融合的方式。PANet 通过引入自上而下和自下而上的路径聚合,有效利用不同层次的特征图,使得模型能够更好地适应不同尺度目标和场景。

相关资源
- [PyTorch Lab 10-7 Block Design: FPN](https://www.youtube.com/watch?v=2UG2CRbTlto
- CNN Explainer
- 【数之道 08】走进”卷积神经网络”,了解图像识别背后的原理
- CVPR 2017 Open Access Repository-Feature Pyramid Networks for Object Detection
- [1803.01534] Path Aggregation Network for Instance Segmentation
- YOLO-V5: Architecture deep-dive || YOLO OBJECT DETECTION SERIES- YouTube
- 路径聚合网络PANet(Path AggregationNetwork)介绍-CSDN博客