低空安全刚需!西工大UAV-DETR反无人机小目标检测,参数减少40%,mAP50:95提升6.6个百分点

张开发
2026/4/9 23:41:04 15 分钟阅读

分享文章

低空安全刚需!西工大UAV-DETR反无人机小目标检测,参数减少40%,mAP50:95提升6.6个百分点
导读反无人机检测正在成为低空安全领域的核心需求但无人机目标尺寸小、背景复杂、尺度变化剧烈传统检测器在这一场景下的精度和召回率往往难以兼顾。西北工业大学团队提出UAV-DETR在RT-DETR基础上做了四项针对性改造——用小波变换卷积替换骨干网络的标准卷积以保留小目标高频细节用滑动窗口自注意力替换全局注意力以避免小目标特征被淹没引入跨尺度特征融合模块增强多尺度表达并设计InnerCIoU-NWD混合损失解决小框梯度不足的问题。在自建的14,713张反无人机数据集上UAV-DETR以11.96M参数比RT-DETR减少约40%实现了62.56%的mAP50:95比RT-DETR提升6.61个百分点Precision 96.82%、Recall 94.93%均为所有对比方法中最高。在公开基准DUT-ANTI-UAV上同样验证了一致的改进。论文信息标题UAV-DETR: DETR for Anti-Drone Target Detection作者Jun Yang, Dong Wang, Hongxu Yin, Hongpeng Li, Jianxiong Yu机构西北工业大学自动化学院代码https://github.com/wd-sir/UAVDETR一、反无人机检测难在哪无人机在低空空域的广泛应用带来了安全监管需求反无人机目标检测是其中的关键技术环节。但这一任务面临几个特有的挑战小目标占比高。无人机在远距离监控画面中通常只占据极少像素边界框面积小传统基于IoU的损失函数对这类目标的梯度贡献不足导致定位精度难以提升。背景干扰严重。城市天际线、树林、复杂光照和天气条件下无人机与背景的对比度低全局注意力机制容易被大量背景token稀释小目标的弱特征被淹没。尺度变化剧烈。同一场景中可能同时出现近距离的大尺度无人机和远距离的极小目标要求检测器具备强健的多尺度特征融合能力。UAV-DETR正是针对这些问题从骨干网络、编码器、特征融合和损失函数四个层面对RT-DETR进行改造。二、UAV-DETR的四个核心改进图片来源于原论文2.1 WTConv Block小波变换卷积骨干传统卷积对小目标的高频结构细节如旋翼轮廓、机臂边缘的捕获能力有限。WTConv Block用小波变换卷积Wavelet Transform Convolution替换标准卷积采用2D Haar小波变换对特征图进行递归分解得到低频子带物体整体形状和高频子带细节与纹理深层分解对应更低的频率成分和更大的等效感受野双级联结构语义细化阶段不降采样保留空间分辨率 空间压缩阶段降采样消融实验中仅引入WTConv Block就将mAP50:95从55.95%提升至59.78%3.83个百分点同时参数量从19.87M降至14.71M。2.2 SWSA-IFI编码器滑动窗口自注意力RT-DETR原始的全局自注意力AIFI在反无人机场景中容易让小目标特征被大量背景信息稀释。SWSA的改进策略用1×1深度卷积生成Q/K/V大幅减少参数窗口大小w 步长s重叠窗口保证空间连续性引入可学习相对位置编码RPE消融显示加入SWSA-IFI后FLOPs从59.2G降至52.6G为所有配置中最低参数从14.71M降至11.45M。2.3 ECFRFN跨尺度特征融合包含两个子模块SBA模块内含RAURe-calibration Attention Unit自适应校准不同尺度的特征RepNCSPELAN4模块训练时多分支拓扑推理时重参数化为单个3×3卷积不增加推理开销消融中mAP50:95从59.51%提升至60.63%1.12个百分点但FLOPs从52.6G增加至66.7G。2.4 InnerCIoU-NWD混合损失NWD将边界框建模为2D高斯分布即使不重叠也有非零梯度InnerCIoU对边界框缩放后计算CIoU放大高IoU区域的有效梯度组合L_box λ · L_InnerCIoU (1-λ) · L_NWD消融显示mAP50提升1.95个百分点mAP50:95提升1.93个百分点是唯一一个在两个指标上都有明显正向贡献的组件。三、实验结果对比11个基线方法数据集自建反无人机数据集包含14,713张图像融合开源档案和自采集真实数据涵盖城市天际线、树林、不同光照/天气、单机和多机、极端尺度变化。训练:验证:测试 7:2:1。所有模型在RTX 3090上训练100 epochs。其中大部分模型从零训练不使用预训练权重但Faster R-CNN、SSD、DETR、Deformable DETR四个模型因从零训练收敛困难使用了预训练权重初始化论文中以_PT后缀标注。自建数据集主实验模型P(%)R(%)F1(%)mAP50(%)mAP75(%)mAP50:95(%)FLOPs(G)ParamsFaster R-CNN_PT53.6547.5150.4043.626.0414.41401.7136.7MSSD_PT95.3925.9040.7478.1623.2333.4358.411.7MYOLOv8m94.7487.4390.9493.0667.5460.2178.725.8MYOLOv10m93.4986.2389.7292.9167.5159.8558.915.3MYOLO11m94.5187.5090.8792.9767.0259.6967.620.0MYOLO12m91.7083.7987.5790.3556.4352.7667.120.1MHyper-YOLOm94.5588.1391.2393.4168.5660.61103.133.3MDETR_PT86.0483.3584.6782.6715.5231.5473.641.3MDef-DETR_PT92.2472.5981.2478.2632.3038.28157.439.8MRT-DETR96.2893.6394.9495.4558.5555.9556.919.9MVRF-DETR96.1093.2794.6695.4661.1956.3144.213.5MUAV-DETR96.8294.9395.8796.5871.0862.5666.711.96M关键对比vs RT-DETR基线mAP50:95 6.61个百分点mAP75 12.53个百分点参数减少约40%vs YOLO系列最优Hyper-YOLOmmAP50:95 1.95个百分点参数减少64%vs VRF-DETRmAP50:95 6.25个百分点但FLOPs 66.7G vs 44.2GVRF-DETR计算量更低DUT-ANTI-UAV公开基准模型P(%)R(%)F1(%)mAP50(%)ParamsRT-DETR89.8087.6088.6992.2019.9MUAV-DETR91.2088.6089.8893.4011.96MPrecision 1.4个百分点F1 1.19个百分点mAP50 1.2个百分点。改进幅度小于自建数据集。图片来源于原论文四、消融实验WTConv贡献最大混合损失双指标提升幅度最均衡配置mAP50(%)mAP50:95(%)FLOPs(G)Params(M)RT-DETR基线95.4555.9556.919.87WTConv Block95.5359.7859.214.71SWSA-IFI95.7359.5152.611.45ECFRFN94.6360.6366.711.96InnerCIoU-NWD96.5862.5666.711.96WTConv Block是mAP50:95提升最大的模块3.83个百分点同时参数从19.87M降至14.71MSWSA-IFI精度变化不大但效率贡献显著FLOPs降至52.6G参数降至11.45MECFRFN提升mAP50:95 1.12个百分点但mAP50略降1.1个百分点InnerCIoU-NWD在mAP501.95和mAP50:951.93两个指标上的提升幅度最大且最均衡WTConv Block也同时提升了两个指标但mAP50仅0.08五、总结与思考UAV-DETR以11.96M参数减少约40%实现了62.56%的mAP50:956.61个百分点在自建数据集和DUT-ANTI-UAV公开基准上均优于RT-DETR和多个YOLO变体。几个值得关注的设计选择小波变换卷积的实用价值。WTConv Block是消融中贡献最大的模块不仅提升精度还减少参数。将频域分析引入骨干网络对小目标检测具有天然适配性——小目标的区分性信息往往集中在高频子带。这一思路对其他小目标检测任务如遥感、医学影像也有借鉴意义。局部注意力 vs 全局注意力的权衡。SWSA-IFI的消融表明在小目标主导的场景中全局注意力并非最优选择。限制注意力范围不仅节省计算还能防止小目标特征被稀释。混合损失的互补性。NWD解决不重叠框的梯度消失对训练早期有利InnerCIoU强化高IoU区间的精细定位对训练后期有利两者互补效果明确。需要注意的局限自建数据集目前仅发布代码未公开数据外部复现需依赖DUT-ANTI-UAV大部分模型从零训练4个收敛困难的模型使用了预训练权重这一混合设置下的对比需要注意公平性FLOPs66.7G高于VRF-DETR44.2G和RT-DETR56.9G在对计算量敏感的边缘部署场景中需要权衡。

更多文章