引言
近年来随着自动驾驶、视频监控系统的高速发展,现实需求对行人检测要求越来越高。传统的行人检测算法根据检测方法的不同,分为双阶段检测算法和单阶段检测算法。常见的双阶段目标检测算法主要包含目标定位和目标分类两个步骤。首先,提取出图像中所有可能包含目标的区域,即目标定位。然后对所提取的每个区域进行分类,确定含有的目标类型。常见算法包括Faster R-CNN[1]、RetinaNet[2]等。单阶段检测算法是直接将从图像中提取的特征进行位置预测和种类识别,常见的单阶段检测算法包括YOLO等。
传统的目标检测算法在大多数现实场景中都取得了不错的效果,但是在一些密集场景中,如大型商场、景区、人流量大的客运站等,算法对行人目标的检测性能仍需要提升,主要原因是密集场景中的行人目标密集且行人尺度不一。
针对密集目标检测中目标数量多、尺寸不一的问题,王泽宇等[3]基于YOLOv8n提出密集行人检测算法MER-YOLO,使用MobileVit作为主干网络提升模型对聚集区域的特征提取能力,之后通过引入高效多尺度注意力(Efficient Multi-scale Attention,EMA)提高全局信息交互能力,采用排斥损失函数作为边界损失函数降低模型的漏检情况。黄昆等[4]基于YOLOv8提出检测算法Crowd-YOLOv8,通过使用nostride-Conv-SPD模块加强网络对细微信息的特征提取能力,并引入小目标检测头和上采样算子对多尺度特征进行融合,增强了小尺度目标检测效果。吕志轩等[5]提出了多分支无锚框行人检测算法MBAN,该算法通过在主干网络后引入多分支网络结构,并结合距离损失函数来对关键区域进行指导,使网络对行人局部检测位置进行差异化学习,强化对行人局部特征的捕捉,改善网络对遮挡行人的识别能力。
为了有效解决上述问题,本文提出了一种基于YOLOv8n模型改进的密集行人检测算法,旨在增强对多尺度行人目标的特征提取能力,加强检测头的定位检测能力,更好识别密集行人目标,提升检测精度。
本文详细内容请下载:
https://www.chinaaet.com/resource/share/2000006319
作者信息:
王丽黎1,2,樊盼盼1,张诗雨1
(1.西安理工大学 自动化与信息工程学院,陕西 西安 710048;
2.无线光通信与网络研究重点实验室,陕西 西安 710048)
