PR | IRDFusion:基于迭代关系图差异引导的特征融合用于多光谱目标

张开发
2026/4/18 15:36:43 15 分钟阅读

分享文章

PR | IRDFusion:基于迭代关系图差异引导的特征融合用于多光谱目标
PR | IRDFusion基于迭代关系图差异引导的特征融合用于多光谱目标检测文章目录1.摘要引言2.相关工作2.1.目标检测2.2.用于检测的多光谱特征融合3.方法3.1.架构3.2.互惠特征精炼模块MFRM3.3.差异特征反馈模块DFFM3.4.重构为迭代关系图差异引导框架3.5. 损失函数5.结论题目IRDFusion: Iterative Relation-Map Difference guided Feature Fusion for Multispectral Object Detection期刊未发表论文https://arxiv.org/abs/2509.09085代码https://github.com/61s61min/IRDFusion.git年份20251.摘要引言当前的多光谱目标检测方法在进行特征融合时往往会保留多余的背景或噪声从而限制了感知性能。为了解决这一问题我们提出了一种基于跨模态特征对比和筛选策略的创新性特征融合框架不同于传统方法。所提出的方法通过融合具有目标感知能力的互补跨模态特征来自适应地增强显著结构。同时抑制共享背景干扰的模态特征。我们的解决方案围绕两个新颖且专门设计的模块展开互特征细化模块Mutual Feature Refinement ModuleMFRM和差分特征反馈模块Differential Feature Feedback ModuleDFFM。为实现稳健的特征学习MFRM和DFFM被集成到一个统一的框架中该框架被正式表述为迭代关系图差分引导特征融合机制称为IRDFusion。IRDFusion通过逐步放大显著关系来实现高质量的跨模态融合关键词多光谱目标检测、跨模态特征融合、互特征细化模块、差异特征反馈模块主要贡献提出了一种互特征细化模块MFRM用于增强两种模态间目标候选的模态特定特征确保稳健的特征对齐。受反馈差分放大器电路的启发一种差分特征提出反馈模块DFFM来计算两种模态之间的互补判别特征同时过滤冗余信息。MFRM和DFFM通过动态差异关系图反馈机制进行联合优化以有效地通过该机制整合来自不同模态的判别互补信息这为渐进式多光谱特征融合提供了一种新策略。所提出的方法IRDFusion基于MFRM和DFFM构建在FLIR、LLVIP和M3FD数据集上达到了最先进的性能。2.相关工作2.1.目标检测目标检测是计算机视觉领域的一项基本任务主要可大致分为单阶段检测器和双阶段检测器。单阶段检测器在特征图上直接进行回归实现高检测速度。相比之下双阶段检测器首先生成候选区域然后进行精细分类和边界框回归通常能达到更高的准确率。此外检测方法还可分为基于锚框和无锚框的方法。基于锚框的方法依赖预定义的锚框进行目标预测而无锚框的方法则直接定位目标中心点或边界点减少了对锚框设计的依赖降低了计算复杂度。近期对DETR框架的改进如DINO 通过对比去噪训练和改进的查询设计进一步提升了性能和训练效率。在我们的研究中我们选择了DETR框架因为它具有端到端训练能力、简化的检测流程以及有效的全局上下文建模能力这些特性提升了检测性能尤其是在复杂场景中。99)2.2.用于检测的多光谱特征融合多光谱目标检测结合了RGB和热成像两种模态以提高在复杂场景中的检测性能。我们提出的IRDFusion模型引入了一种新颖的关系差分反馈机制用于特征融合。具体而言IRDFusion首先增强跨模态的语义信息同时强调判别性差异线索。然后它提取并反馈模态间差异作为引导信号从而放大互补的目标特征并抑制冗余的背景信息。通过这种迭代反馈过程IRDFusion逐步优化跨模态对齐与现有的融合方法相比提高了精度和鲁棒性。3.方法3.1.架构该模型首先采用双分支骨干网络从RGB以及热学模式而所提出的IRDFusion模块用于逐步融合跨模态特征。IRDFusion通过放大模态间差异并利用它们作为引导信号来逐步引导融合过程从而增强特征表示。融合后的表示随后由简单特征金字塔SFP颈部处理接着是Transformer编码器最后输入到Co-DETR的多个并行检测头中。检测头的设计与Double-Co-DETR保持一致。架构有效地集成了互补的跨模态线索从而在挑战性条件下显著提升了检测性能。3.2.互惠特征精炼模块MFRM互惠特征精炼模块MFRM旨在增强两种模态之间的特征表示从而提高跨模态的一致性和判别能力。其核心思想是利用单一模态的自注意力矩阵与Transformer结构中两种模态的加权值Value特征进行交互。通过这种方式MFRM放大了跨模态表示并产生了更具信息量的融合特征。具体而言如图3所示首先通过不同的权重矩阵W将两种模态的特征投影生成查询Query、键Key和值Value矩阵。然后这些向量通过自注意力处理如公式(1)所述得到每种模态对应的注意力矩阵A i A_iAi​其中i ∈ {v, t}。nZK1SD0-1762086632599)其中F i F_iFi​表示RGB或红外模态的输入特征。Q i Q_iQi​,K i K_iKi​,V i V_iVi​分别表示查询、键和值矩阵。表示矩阵乘法W i q W^q_iWiq​,W i k W^k_iWik​,W i v W^v_iWiv​是线性变换的权重矩阵A i A_iAi​表示注意力矩阵d 表示特征维度。其次以RGB分支为例我们通过整合来自红外IR分支的值Value向量V t V_tVt​将红外模态的信息集成进来。具体来说将RGB分支的注意力矩阵应用于红外分支的值向量使模型能在RGB分支关注的空间区域内强调红外线索。这样两种模态之间的信息得到了有效增强从而加强了它们的交互和融合。此过程在公式(2)中形式化表达其中Vf_v 和Vf_t 分别是RGB和红外模态的融合值Value特征。在融合值向量的过程中我们在公式(3)中引入了一个可学习参数。该参数允许模型自适应地调整融合过程通过使模型能够根据输入数据的特征缩放特征融合从而提高鲁棒性。这种自适应机制有助于提升性能并在特征对齐方面提供更大的灵活性。其中λ v λ_vλv​和λ t λ_tλt​是模态的融合权重由可学习向量λ q 1 λ_q1λq​1,λ q 2 λ_q2λq​2,λ k 1 λ_k1λk​1,λ k 2 λ_k2λk​2和初始权重λinit 控制。最后我们根据公式(4)获得跨模态放大的特征。其中F i ′ F_iFi′​是最终的融合特征Vf_i 表示融合后的值Value。3.3.差异特征反馈模块DFFM差异特征反馈模块DFFM受差分反馈放大器电路的启发旨在利用模态间的差异特征作为指导信号进行动态的跨模态融合。具体而言这些差异特征捕捉了RGB和红外模态之间不重叠的信息从而突出了它们的互补特性同时抑制了共享的背景噪声。如图3下半部分所示以RGB分支为例首先计算RGB和红外模态之间的差异特征并引入一个可学习参数β来自适应控制其贡献。然后将得到的差异特征加权并反馈到RGB特征中放大模态间差异信号并指导MFRM从另一模态中提取判别性线索。通过迭代反馈DFFM逐步增强互补信息同时过滤冗余噪声从而产生更鲁棒和自适应的跨模态表示。该过程以RGB分支为例形式化表示在公式(5)中其中α, β, μ 是可学习参数。MLP和LN分别表示MLP层和层归一化。F(k)di f _v 表示相对于RGB模态的红外模态的差异特征。F′(k)i 指MFRM层第k次迭代的输出特征而F(k1)i 指MFRM层第k1次迭代的输入特征。3.4.重构为迭代关系图差异引导框架为了实现鲁棒的特征学习MFRM和DFFM被整合到一个统一的框架中该框架被正式表述为迭代关系图差异引导的特征融合框架命名为IRDFusion。在经过MFRM对F′v和F′t进行特征提炼后Fv−t的目标是获得跨模态的对象感知互补特征并消除共模背景和噪声信息。根据公式(1)-(5)跨模态差异特征Fv−t可以在公式(8)中重新表述。通过一些公式代换重构特征与注意力图C(v−t)2v的差异代表了RGB和红外注意力图之间的关系图差异Fv−t也可以被视为可见和热分支之间从值Value特征重构的特征的差异。以可见模态为例跨模态差异特征Fv−t以渐进的方式反馈以细化F(k1)v的特征其中k表示迭代索引如公式(9)所示。其中Av2v和At2t分别表示可见和热分支模态内特征的关系。值得一提的是在对RGB图像分支进行特征提炼期间热图像特征Ft是固定的。热图像分支Ft的提炼与公式(9)类似为清晰起见此处省略。3.5. 损失函数在本工作中我们采用CoDetr损失函数进行训练。CoDetr损失函数集成了多个组件以优化分类和定位性能。主检测头CoDINOHead使用质量焦点损失Quality Focal Loss进行分类有效解决了类别不平衡问题并使用L1损失和GIoU损失分别进行边界框回归和定位精度。除了主检测头外CoDetr还包括三个辅助检测头。RPN头应用交叉熵损失进行前景-背景分类并利用L1损失来细化边界框提议。ROI头采用交叉熵损失进行类别预测并采用GIoU损失来提高边界框回归的精度。Bbox头利用焦点损失Focal Loss进行分类GIoU损失进行回归交叉熵损失进行中心度预测有助于提高检测精度。这种综合的损失设计在稳健的分类和精确的定位之间取得了平衡。辅助检测头补充了主检测头进一步提升了整体检测性能。5.结论在本文中我们提出了IRDFusion这是一种新颖的多光谱目标检测框架通过渐进式、细粒度的特征融合有效整合了RGB和红外模态。该框架建立在两个互补的模块之上互惠特征精炼模块MFRM它增强跨模态语义对齐并抑制冗余背景以及差异特征反馈模块DFFM它动态提取模态间差异线索并迭代地将其反馈以指导融合。通过增强跨模态线索和引导差异特征IRDFusion利用MFRM加强跨模态语义一致性并利用DFFM迭代地提炼差异信息逐步放大显著的物体信号同时抑制共模噪声从而产生高度判别性和良好对齐的特征表示。在FLIR、LLVIP和M3FD数据集上进行的大量实验包括消融研究、跨框架评估和可视化证明了IRDFusion的鲁棒性和有效性。该方法在挑战性条件下如低光照和复杂背景持续优于最先进的方法。替换MFRM/DFFM模块的对比研究进一步验证了我们迭代差异融合策略的重要性。可视化结果表明IRDFusion通过利用跨模态特征增强和差异线索的迭代指导有效减少了误报和漏检。然而该方法在检测小尺寸或严重遮挡的物体时仍表现出局限性。尽管IRDFusion实现了显著的性能提升但计算效率和实时能力仍是实际部署面临的挑战。未来的工作将集中在轻量化优化、多尺度特征增强和动态注意力机制上以进一步提高效率和在严重遮挡下的检测性能。总体而言这项工作为多光谱目标检测提供了一种稳健且通用的解决方案突显了迭代差异引导的跨模态融合的价值。

更多文章