TPAMI 2025 | 北理团队新作 SFM:轻量易集成,分割模型即插即用提性能

张开发
2026/4/11 10:02:35 15 分钟阅读

分享文章

TPAMI 2025 | 北理团队新作 SFM:轻量易集成,分割模型即插即用提性能
点击上方“小白学视觉”选择加星标或“置顶” 重磅干货第一时间送达在自动驾驶、机器人视觉等核心场景中语义分割需要为每个像素精准分配语义类别而纹理、边界这类高频细节正是决定分割精度的关键。但长期以来深度网络中的下采样操作会让高频信息因“混叠”失真这一痛点始终制约着分割性能的提升。近期Linwei Chen等学者提出的空间频率调制SFM框架为解决这一问题提供了全新思路——不是丢弃高频信息而是通过“调制-解调”的方式保护高频细节让主流分割模型的精度实现显著跃升。今天我们就来深度解读这篇聚焦语义分割高频处理的创新研究。论文信息题目 Spatial Frequency Modulation for Semantic Segmentation面向语义分割的空间频率调制作者Linwei Chen, Ying Fu, Lin Gu, Dezhi Zheng, Jifeng Dai一、核心痛点混叠退化高频越多精度越低现代语义分割网络依赖下采样操作扩大感受野、降低维度但这一过程却暗藏“致命缺陷”。根据奈奎斯特-香农采样定理当特征中高于奈奎斯特频率的高频信号占比混叠率过高时下采样会导致高频成分被错误表征为低频也就是“混叠”现象。研究团队通过定量分析发现了一个关键规律分割精度与混叠率呈明显负相关——混叠率越高分割精度越低这一现象被命名为“混叠退化”如图1。传统解决思路是用低通滤波器直接移除高频却牺牲了分割所需的精细细节而SFM框架的核心创新就是绕开“一刀切”的滤波方式通过调制和解调实现高频信息的“无损传递”。图1不同架构下混叠率与分割精度的关系混叠率越高精度持续下降二、SFM框架调制解调给高频信息找个“安全通道”SFM框架的核心逻辑可以概括为下采样前把高频“搬”到低频区域避开混叠上采样时再把高频“搬回来”恢复细节。整个框架的总体结构如图2所示主要包含两大核心模块——自适应重采样ARS实现调制多尺度自适应上采样MSAU实现解调。图2SFM框架总体结构图。(a)原始特征频率分布(b)ARS调制后高频被转移到低频区域(c)MSAU解调后高频细节恢复1. 自适应重采样ARS给高频区域“密集采样”降低混叠率调制的核心目标是在不改变特征图尺寸的前提下把高频信号转化为低频从而降低混叠率。ARS模块的工作流程如图3所示主要分为三步图3ARS调制模块工作流程首先用轻量级的高频敏感注意力生成器结合差异感知卷积和金字塔空间池化识别特征图中的高频区域如物体边界生成注意力图接着根据注意力图自适应分配采样坐标——高频区域分配更多坐标实现密集采样低频区域如平滑的天空、道路则稀疏采样最后通过非均匀采样生成调制特征密集采样让高频区域的像素波动速率降低相当于把高频“缩放”到低频范围从根源上减少混叠。为了让ARS精准学习采样策略研究还设计了两种损失函数频率调制损失约束调制特征的高频占比和语义高频损失针对性强化语义边界的采样确保调制过程既降低混叠又不丢失关键语义信息。2. 多尺度自适应上采样MSAU把高频“还原”细化分割细节经过下采样和网络处理后需要将低分辨率的调制特征恢复到原始尺寸这一步就是解调由MSAU模块完成如图4核心解决传统双线性上采样无法适配非均匀调制特征的问题。图4MSAU解调模块工作流程MSAU分为两个关键步骤 一是非均匀上采样。基于Delaunay三角剖分和重心插值从非均匀的调制特征中恢复出均匀网格的特征图确保像素坐标对齐如图5解决了传统上采样因坐标变形导致的细节丢失问题 二是多尺度关系挖掘。通过级联的局部像素关系模块LPRM用不同膨胀率的卷积层建模密集/稀疏采样区域的像素关系让高频密集区域的信息传递到稀疏区域修正稀疏采样可能导致的预测错误进一步细化分割结果。图5非均匀上采样的重心插值原理通过三个邻近像素恢复均匀网格的像素值三、效果验证不止提升分割精度还能泛化到多任务研究团队将SFM框架作为轻量级即插即用模块集成到ResNet、ConvNeXt、Swin Transformer等主流架构中在Cityscapes、ADE20K等数据集上完成了全面验证效果堪称“全面提分”语义分割核心提升在ADE20K数据集上Mask2Former-Swin-T集成SFM后mIoU提升1.5InternImage-T提升1.4对比传统低通池化方法Blur、Adaptive Blur等SFM以0.7-0.9 mIoU的优势领先甚至能增强可变形卷积的性能在Cityscapes上带来0.8 mIoU的额外提升。频率分布验证通过比率密度函数RDF分析特征频率如图6调制后的特征在奈奎斯特频率以上的高频功率显著降低解调后的特征则几乎恢复到原始特征的高频分布证明“调制-解调”的有效性。图6特征频率的RDF分析。(a)调制后高频占比显著降低(b)解调后高频分布接近原始特征多任务泛化能力SFM不仅适用于语义分割还能推广到图像分类、对抗鲁棒性、实例分割和全景分割等任务证明了其通用价值。比如在对抗攻击测试中集成SFM的模型鲁棒性显著提升这得益于高频信息的有效保留减少了对抗扰动带来的失真。四、总结从“丢弃高频”到“保护高频”思路的关键转变这篇研究的核心价值在于重新定义了语义分割中高频信息的处理方式传统方法为避免混叠而“丢弃高频”而SFM通过“调制-解调”的闭环实现了“保护高频”的目标。轻量级的ARS和MSAU模块无需大幅修改现有网络架构却能持续提升各类先进模型的性能既兼顾了精度又控制了计算成本。从技术层面看SFM的创新点在于将信号处理中的频率调制思想与计算机视觉的采样策略结合通过自适应采样实现频率的灵活调控从应用层面这一框架能无缝适配CNN和Transformer架构为自动驾驶、城市规划等依赖高精度语义分割的场景提供了新的技术方案。未来这一思路还可进一步拓展到视频分割、3D语义分割等领域为高频细节敏感的视觉任务提供新的解决思路。下载1OpenCV-Contrib扩展模块中文版教程在「小白学视觉」公众号后台回复扩展模块中文教程即可下载全网第一份OpenCV扩展模块教程中文版涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。下载2Python视觉实战项目52讲在「小白学视觉」公众号后台回复Python视觉实战项目即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目助力快速学校计算机视觉。下载3人工智能0基础学习攻略手册在「小白学视觉」公众号后台回复攻略手册即可获取《从 0 入门人工智能学习攻略手册》文档包含视频课件、习题、电子书、代码、数据等人工智能学习相关资源可以下载离线学习。交流群欢迎加入公众号读者群一起和同行交流目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群以后会逐渐细分请扫描下面微信号加群备注”昵称学校/公司研究方向“例如”张三 上海交大 视觉SLAM“。请按照格式备注否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告否则会请出群谢谢理解~

更多文章