开发者社区> clichong> 正文

论文阅读笔记 | 目标检测算法——YOLOX

简介: 论文阅读笔记 | 目标检测算法——YOLOX
+关注继续查看
福利推荐:阿里云、腾讯云、华为云等大品牌云产品全线2折优惠活动来袭,4核8G云服务器899元/3年,新老用户共享优惠,点击这里立即抢购>>>

paper:YOLOX: Exceeding YOLO Series in 2021

image.png

摘要:

作者将YOLO检测器切换为anchor_free方式,并且结合了一些先进的检测测量,比如一个解耦的检测器头部以及一个标签分配策略SimOTA。

ps:作者用一个YOLOX-L模型赢得了流感知挑战(2021年CVPR自动驾驶研讨会)的第一名


1. Introduction


YOLO系列始终追求实时应用的最佳速度和精度取舍,提取了当时可用的最先进的检测技术(例如,anchor用于YOLOv2,残差网络用于YOLOv3),并优化最佳实践的实现。

然而在过去的两年中,目标检测学术界的主要进展集中在anchor_free检测器,高级标签分配策略和端到端(NMS-free)检测器,这些研究成果还没有被集成在YOLO系列中,YOLOv4和YOLOv5目前还是使用了anchor_based及手动的指定训练分配规则(比如anchor相关的设置)。


作者还认为,YOLOv4和YOLOv5中对anchor有点过度的优化,所以重新将YOLOv3-SPP版本作为优化起点。原因是,YOLOv3由于计算资源有限,在各种实际应用中软件支持不足,仍然是行业中应用最广泛的探测器之一。


对于COCO数据集中640x640的分辨率大小达到了47.3%的mAP效果。而且,如果使用YOLOv5的backbone以及添加上一个PAN检测头,YOLOX-L达到了50%的mAP效果,如图所示:

image.png


2. YOLOX


在一开始时文章介绍了一些参数的设置,包括学习率,epochsize等等,这里跳过。作者将YOLOv3+Darknet53作为基准。


2.1 YOLOv3 baseline

采用Darknet53+SPP结构为基准,改变了一点学习的策略,增加EMA权重更新,余弦lr调度调整,IoU损失和IoU感知分支。对于分类与目标分支采用二值交叉熵损失,对于回归分支采用IoU损失。


在数据增强方面,作者只采用了RandomHorizontalFlip,ColorJitterand及多尺度,抛弃了RandomResizedCrop策略,因为作者举得这与Mosaic的数据增加有点重叠。

以上策略作为YOLOX的baseline,mAP为38.5%


2.2 Decoupled head

在目标检测中,分类任务与回归任务之间的冲突是一个的问题,因此用于分类和定位的检测头一般被解耦应用在于大多数探测器中。但是由于YOLO系列与FPN结构的不断进化,YOLO系列的检测头保持耦合。


实验证明,耦合的检测头会损害检测器性能:

1)将YOLO的头部替换为解耦的头部,极大地提高了收敛速度

2)解耦头对于YOLO的端到端版本至关重要

image.png

由图可见,收敛速度确实快很多。

因此,作者将YOLO检测头替换为的lite解耦头,如图2所示:

image.png

效果带来了提升,但是在推断过程中会有1.1ms的延迟。


2.3 Strong data augmentation

作者将Mosaic和MixUp添加到数据增强策略中,以提高YOLOX的性能,而且在最后的15个epoch中关闭这个训练策略。

在使用了以上的数据增强方式后,作者发现ImageNet的预训练没有带来收益,所以作者从头开始训练所有以下模型。


2.4 Anchor-free

基于anchor的方法hi带来许多问题:

1)为了达到最优的检测性能,需要在训练前进行聚类分析,确定一组最优的锚点。那些聚集的锚点是特定领域的,不太一般化。

2)锚框的机制增加了检测头的复杂性,以及每幅图像的预测数量。在设备之间移动如此大量的预测可能会成为整体延迟方面的潜在瓶颈。

而anchor_free的方法降低了设计量,需要启发式调整和许多技巧(比如Anchor Clustering,Grid Sensitive),简化了训练与编码阶段。

将YOLO系列转化为Anchor-free,思想就是对于特征图上的每个点直接预测4个值(网格左上角的两个偏移量,以及预测框的高度和宽度,根据这4个值确定回归框),将每个物体的中心位置指定为阳性样本,并预先定义一个刻度范围,为每个FPN层级进行指定。


2.5 Multi positives

对于对象中心点的3x3的范围定义为正样本,也就是说如果某个特征点预测的4个值所构成的边界框的中心点在这个3x3的范围中时,其会被确认为正样本。而对于多个正样本中只会选择其中的一个作为候选框。

而在优化这些高质量的预测框时有可能带来有益的梯度,这可能会缓解训练中正负样本的极端不平衡。


2.6 SimOTA

作者对标签分配总结出了4个关键点:

1)loss/quality aware

2)center prior

3)dynamic top-k:对于每个ground-truth的动态正锚框数量

4)global view:全局视图

SimOTA满足以上的所以要求

OTA从全局角度分析标签分配,并将分配过程表述为最优运输(Optimal Transport ,OT)问题。在实践中作者发现,通过Sinkhorn-Knopp算法解决OT问题会带来25%的额外训练时间,因此作者将其简化为dynamic top-k策略,命名为SimOTA,以得到近似解。

SimOTA首先计算成对匹配度,表示为每个预测gt对的成本或质量。在SimOTA中,ground-truth与预测框之间的成本计算为:

image.png

对于每个ground-truth,选择在固定中心区域内代价最小的topk预测作为正样本。最后,将这些正预测对应的栅格赋为正,其余栅格赋为负。


3. Result


  • 与YOLOv5的对比:

image.png

  • 轻量级版本(YOLOX-Tiny,YOLOX-Nano)与其他轻量级的对比:

image.png

  • 与SOTA的对比:

image.png

总结:

作者为YOLO系列结合了比较先进的检测技术,比如:解耦检测头、anchor_free(逐像素点预测思想)、先进的标签分配策略。YOLOX在速度和精度之间实现了比其他所有模型尺寸的对手更好的权衡。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
数据驱动的自动驾驶系统算法最新论文合集(27篇)
感知:2-D/3-D 目标检测和分割基本是采用深度学习模型,无论激光雷达、摄像头或者传感器融合的形式;跟踪基本是tracking-by-detection方式,不过把跟踪和检测集成在一起做深度学习模型也是大家讨论的热点之一。
40 0
自动数据增强论文及算法解读(附代码)
自动数据增强论文及算法解读(附代码)
58 0
RCNN目标检测算法内容详解(依托论文讲解)
RCNN目标检测算法内容详解(依托论文讲解)
59 0
PGL图学习之基于UniMP算法的论文引用网络节点分类任务[系列九]
PGL图学习之基于UniMP算法的论文引用网络节点分类任务[系列九]
46 0
论文阅读笔记 | 目标检测算法——Generalized Focal Lossv1,v2
论文阅读笔记 | 目标检测算法——Generalized Focal Lossv1,v2
275 0
论文阅读笔记 | 目标检测算法——PP-YOLOv2
论文阅读笔记 | 目标检测算法——PP-YOLOv2
131 0
论文阅读笔记 | 目标检测算法——PP-YOLO
论文阅读笔记 | 目标检测算法——PP-YOLO
135 0
论文阅读笔记 | 目标检测算法——DETR
论文阅读笔记 | 目标检测算法——DETR
216 0
论文阅读笔记 | 目标检测算法——Dynamic R-CNN算法
论文阅读笔记 | 目标检测算法——Dynamic R-CNN算法
80 0
论文阅读笔记 | 目标检测算法——Libra R-CNN算法
论文阅读笔记 | 目标检测算法——Libra R-CNN算法
134 0
+关注
文章
问答
文章排行榜
最热
最新
相关电子书
更多
网易云音乐音视频算法处理的 Serverless 探索之路
立即下载
阿里技术参考图册-算法篇
立即下载
阿里千亿特征深度学习算法XNN实践
立即下载


http://www.vxiaotou.com