低空安全刚需！西工大UAV-DETR反无人机小目标检测，参数减少40%，mAP50:95提升6.6个百分点

张开发

• 2026/4/9 23:41:04 • 15 分钟阅读

分享文章

低空安全刚需！西工大UAV-DETR反无人机小目标检测，参数减少40%，mAP50:95提升6.6个百分点

导读反无人机检测正在成为低空安全领域的核心需求但无人机目标尺寸小、背景复杂、尺度变化剧烈传统检测器在这一场景下的精度和召回率往往难以兼顾。西北工业大学团队提出UAV-DETR在RT-DETR基础上做了四项针对性改造——用小波变换卷积替换骨干网络的标准卷积以保留小目标高频细节用滑动窗口自注意力替换全局注意力以避免小目标特征被淹没引入跨尺度特征融合模块增强多尺度表达并设计InnerCIoU-NWD混合损失解决小框梯度不足的问题。在自建的14,713张反无人机数据集上UAV-DETR以11.96M参数比RT-DETR减少约40%实现了62.56%的mAP50:95比RT-DETR提升6.61个百分点Precision 96.82%、Recall 94.93%均为所有对比方法中最高。在公开基准DUT-ANTI-UAV上同样验证了一致的改进。论文信息标题UAV-DETR: DETR for Anti-Drone Target Detection作者Jun Yang, Dong Wang, Hongxu Yin, Hongpeng Li, Jianxiong Yu机构西北工业大学自动化学院代码https://github.com/wd-sir/UAVDETR一、反无人机检测难在哪无人机在低空空域的广泛应用带来了安全监管需求反无人机目标检测是其中的关键技术环节。但这一任务面临几个特有的挑战小目标占比高。无人机在远距离监控画面中通常只占据极少像素边界框面积小传统基于IoU的损失函数对这类目标的梯度贡献不足导致定位精度难以提升。背景干扰严重。城市天际线、树林、复杂光照和天气条件下无人机与背景的对比度低全局注意力机制容易被大量背景token稀释小目标的弱特征被淹没。尺度变化剧烈。同一场景中可能同时出现近距离的大尺度无人机和远距离的极小目标要求检测器具备强健的多尺度特征融合能力。UAV-DETR正是针对这些问题从骨干网络、编码器、特征融合和损失函数四个层面对RT-DETR进行改造。二、UAV-DETR的四个核心改进图片来源于原论文2.1 WTConv Block小波变换卷积骨干传统卷积对小目标的高频结构细节如旋翼轮廓、机臂边缘的捕获能力有限。WTConv Block用小波变换卷积Wavelet Transform Convolution替换标准卷积采用2D Haar小波变换对特征图进行递归分解得到低频子带物体整体形状和高频子带细节与纹理深层分解对应更低的频率成分和更大的等效感受野双级联结构语义细化阶段不降采样保留空间分辨率空间压缩阶段降采样消融实验中仅引入WTConv Block就将mAP50:95从55.95%提升至59.78%3.83个百分点同时参数量从19.87M降至14.71M。2.2 SWSA-IFI编码器滑动窗口自注意力RT-DETR原始的全局自注意力AIFI在反无人机场景中容易让小目标特征被大量背景信息稀释。SWSA的改进策略用1×1深度卷积生成Q/K/V大幅减少参数窗口大小w 步长s重叠窗口保证空间连续性引入可学习相对位置编码RPE消融显示加入SWSA-IFI后FLOPs从59.2G降至52.6G为所有配置中最低参数从14.71M降至11.45M。2.3 ECFRFN跨尺度特征融合包含两个子模块SBA模块内含RAURe-calibration Attention Unit自适应校准不同尺度的特征RepNCSPELAN4模块训练时多分支拓扑推理时重参数化为单个3×3卷积不增加推理开销消融中mAP50:95从59.51%提升至60.63%1.12个百分点但FLOPs从52.6G增加至66.7G。2.4 InnerCIoU-NWD混合损失NWD将边界框建模为2D高斯分布即使不重叠也有非零梯度InnerCIoU对边界框缩放后计算CIoU放大高IoU区域的有效梯度组合L_box λ · L_InnerCIoU (1-λ) · L_NWD消融显示mAP50提升1.95个百分点mAP50:95提升1.93个百分点是唯一一个在两个指标上都有明显正向贡献的组件。三、实验结果对比11个基线方法数据集自建反无人机数据集包含14,713张图像融合开源档案和自采集真实数据涵盖城市天际线、树林、不同光照/天气、单机和多机、极端尺度变化。训练:验证:测试 7:2:1。所有模型在RTX 3090上训练100 epochs。其中大部分模型从零训练不使用预训练权重但Faster R-CNN、SSD、DETR、Deformable DETR四个模型因从零训练收敛困难使用了预训练权重初始化论文中以_PT后缀标注。自建数据集主实验模型P(%)R(%)F1(%)mAP50(%)mAP75(%)mAP50:95(%)FLOPs(G)ParamsFaster R-CNN_PT53.6547.5150.4043.626.0414.41401.7136.7MSSD_PT95.3925.9040.7478.1623.2333.4358.411.7MYOLOv8m94.7487.4390.9493.0667.5460.2178.725.8MYOLOv10m93.4986.2389.7292.9167.5159.8558.915.3MYOLO11m94.5187.5090.8792.9767.0259.6967.620.0MYOLO12m91.7083.7987.5790.3556.4352.7667.120.1MHyper-YOLOm94.5588.1391.2393.4168.5660.61103.133.3MDETR_PT86.0483.3584.6782.6715.5231.5473.641.3MDef-DETR_PT92.2472.5981.2478.2632.3038.28157.439.8MRT-DETR96.2893.6394.9495.4558.5555.9556.919.9MVRF-DETR96.1093.2794.6695.4661.1956.3144.213.5MUAV-DETR96.8294.9395.8796.5871.0862.5666.711.96M关键对比vs RT-DETR基线mAP50:95 6.61个百分点mAP75 12.53个百分点参数减少约40%vs YOLO系列最优Hyper-YOLOmmAP50:95 1.95个百分点参数减少64%vs VRF-DETRmAP50:95 6.25个百分点但FLOPs 66.7G vs 44.2GVRF-DETR计算量更低DUT-ANTI-UAV公开基准模型P(%)R(%)F1(%)mAP50(%)ParamsRT-DETR89.8087.6088.6992.2019.9MUAV-DETR91.2088.6089.8893.4011.96MPrecision 1.4个百分点F1 1.19个百分点mAP50 1.2个百分点。改进幅度小于自建数据集。图片来源于原论文四、消融实验WTConv贡献最大混合损失双指标提升幅度最均衡配置mAP50(%)mAP50:95(%)FLOPs(G)Params(M)RT-DETR基线95.4555.9556.919.87WTConv Block95.5359.7859.214.71SWSA-IFI95.7359.5152.611.45ECFRFN94.6360.6366.711.96InnerCIoU-NWD96.5862.5666.711.96WTConv Block是mAP50:95提升最大的模块3.83个百分点同时参数从19.87M降至14.71MSWSA-IFI精度变化不大但效率贡献显著FLOPs降至52.6G参数降至11.45MECFRFN提升mAP50:95 1.12个百分点但mAP50略降1.1个百分点InnerCIoU-NWD在mAP501.95和mAP50:951.93两个指标上的提升幅度最大且最均衡WTConv Block也同时提升了两个指标但mAP50仅0.08五、总结与思考UAV-DETR以11.96M参数减少约40%实现了62.56%的mAP50:956.61个百分点在自建数据集和DUT-ANTI-UAV公开基准上均优于RT-DETR和多个YOLO变体。几个值得关注的设计选择小波变换卷积的实用价值。WTConv Block是消融中贡献最大的模块不仅提升精度还减少参数。将频域分析引入骨干网络对小目标检测具有天然适配性——小目标的区分性信息往往集中在高频子带。这一思路对其他小目标检测任务如遥感、医学影像也有借鉴意义。局部注意力 vs 全局注意力的权衡。SWSA-IFI的消融表明在小目标主导的场景中全局注意力并非最优选择。限制注意力范围不仅节省计算还能防止小目标特征被稀释。混合损失的互补性。NWD解决不重叠框的梯度消失对训练早期有利InnerCIoU强化高IoU区间的精细定位对训练后期有利两者互补效果明确。需要注意的局限自建数据集目前仅发布代码未公开数据外部复现需依赖DUT-ANTI-UAV大部分模型从零训练4个收敛困难的模型使用了预训练权重这一混合设置下的对比需要注意公平性FLOPs66.7G高于VRF-DETR44.2G和RT-DETR56.9G在对计算量敏感的边缘部署场景中需要权衡。

低空安全刚需！西工大UAV-DETR反无人机小目标检测，参数减少40%，mAP50:95提升6.6个百分点

最新文章

开源CV模型落地：MogFace在老年看护系统跌倒检测前的人脸存在性验证

validate.js的10个核心验证规则详解：从required到valid_email

UE4SS全攻略：构建你的游戏Mod开发引擎

atopile生态系统探索：如何利用包管理器加速硬件开发

你用真金白银买股票，钱到底被谁赚走了？所谓的“市值蒸发“，只是把那些本来就不存在的、基于预期的信用货币，给抹掉了而已

【PHP AI代码校验配置终极指南】：20年架构师亲授7大避坑法则与实时校验落地框架

推荐文章

CSS Scroll Snap：打造丝滑滚动体验

【2026年最新600套毕设项目分享】springboot高校学习讲座预约系统（14328）

STM32H7 USB复合设备库：CDC+MSC+SDMMC一体化固件

STM32异步Web服务器：零拷贝HTTP/WS工业网关实战

Linux命令-nc（用于设置路由器，是网络工具中的瑞士军刀）

【电池损耗+需求响应】考虑电池储能寿命与需求响应模型的发电计划优化程序Matlab代码

相关文章

2025 AI写作革命：自定义API打造专属小说生成器

用GDAL和PyTorch搞定多光谱.tif图像训练Faster R-CNN（避坑全记录）

HC-SR501人体红外传感器：从参数解析到树莓派实战应用

2026年三维扫描仪选购指南：专业厂家如何选，这几点是关键

微信小程序项目目录结构优化指南：从tabBar报错看最佳实践

探索Feishin：打造个人专属的自托管音乐播放解决方案

分享文章

更多文章

基于运动学模型的MPC轨迹跟踪算法纯Matlab实现与解析

OpenClaw监控告警系统：千问3.5-9B分析服务器日志并触发通知

OpenClaw技能开发：为Kimi-VL-A3B-Thinking定制专属多模态插件

PS为什么要花19亿美元收购一家做SEO的公司？

程序员副业指南：CSDN变现全路径

第6章数据类型转换-6.5 转换为列表

Python字典的.get()方法

工程 / 计算机 / 电子领域 EI 会议推荐：2026 年学术会议精选（EI稳定检索 + 权威出版）【4-5月新推】

超越硅脂：液态金属、微流体与未来散热的终极形态

大厂程序员收入瓶颈？收藏！大模型AI+成未来十年新风口，小白也能抓住红利突破薪资天花板！

总线上已有 0 号主站时：站地址冲突的现象与处理思路

Python入门：轻松掌握输入输出与数据类型，2025年ASOC SCI2区TOP，基于动态模糊系统的改进灰狼算法FGWO，深度解析+性能实测。

低空安全刚需！西工大UAV-DETR反无人机小目标检测，参数减少40%，mAP50:95提升6.6个百分点

最新文章

开源CV模型落地：MogFace在老年看护系统跌倒检测前的人脸存在性验证

validate.js的10个核心验证规则详解：从required到valid_email

UE4SS全攻略：构建你的游戏Mod开发引擎

atopile生态系统探索：如何利用包管理器加速硬件开发

你用真金白银买股票，钱到底被谁赚走了？ 所谓的“市值蒸发“，只是把那些本来就不存在的、基于预期的信用货币，给抹掉了而已

【PHP AI代码校验配置终极指南】：20年架构师亲授7大避坑法则与实时校验落地框架

推荐文章

CSS Scroll Snap：打造丝滑滚动体验

【2026年最新600套毕设项目分享】springboot高校学习讲座预约系统（14328）

STM32H7 USB复合设备库：CDC+MSC+SDMMC一体化固件

STM32异步Web服务器：零拷贝HTTP/WS工业网关实战

Linux命令-nc（用于设置路由器，是网络工具中的瑞士军刀）

【电池损耗+需求响应】考虑电池储能寿命与需求响应模型的发电计划优化程序Matlab代码

相关文章

2025 AI写作革命：自定义API打造专属小说生成器

用GDAL和PyTorch搞定多光谱.tif图像训练Faster R-CNN（避坑全记录）

HC-SR501人体红外传感器：从参数解析到树莓派实战应用

2026年三维扫描仪选购指南：专业厂家如何选，这几点是关键

微信小程序项目目录结构优化指南：从tabBar报错看最佳实践

探索Feishin：打造个人专属的自托管音乐播放解决方案

分享文章

更多文章

你用真金白银买股票，钱到底被谁赚走了？所谓的“市值蒸发“，只是把那些本来就不存在的、基于预期的信用货币，给抹掉了而已