李承烨 1,2,3,4 , 张震 1,2,3,4 , 梁哲恒 5,6 , 姚潮生 5,6
张金波 5,6 , 晏荣杰 2,3,4 , 吴鹏 2,3,4
1.中国科学院大学杭州高等研究院
2.中国科学院基础软件与系统重点实验室
3.计算机科学国家重点实验室(中国科学院软件研究所)
4.中国科学院大学
5.网络空间安全联合实验室(中国南方电网有限公司)
6.广东电网有限责任公司


目标检测技术是计算机视觉领域的关键组成部分,它在各种实际应用中扮演着至关重要的角色. 目标检测技术经历了几十年的发展,从早期依赖于手工特征提取的方法,到当前深度学习模型的广泛应用.
目前在目标检测领域缺少以深度学习基础模型技术的改进为发展脉络的总结研究下,文章以人工智能领域基础模型的发展过程为线索,围绕不同种类基础模型概述了基于这些模型的不同目标检测模型的发展,同时对这些基于不同模型的目标检测算法进行了比较,并分析不同模型的优缺点以及制定不同模型的改进策略. 概述了目标检测技术的评估指标以及不同阶段的技术,特别强调了深度学习如何推动目标检测性能的显著提升,讨论了目标检测在处理多样化场景以及提高实时性和准确性方面的挑战,并对未来可能的研究方向进行了深度探讨,包括但不限于模型的泛化能力、计算效率以及与更复杂任务的结合,为多个未来研究方向提出了可能的提高策略. 旨在提供一个清晰的技术演进视角,以促进目标检测领域的进一步研究和应用.
关键词:目标检测 / 深度学习 / 模型架构 / 人工智能 / 计算机视觉

计算机视觉是人工智能的一大基础任务,其目标是要求人工智能算法或系统可以接受各种各样的图像进行处理然后获得反馈. 如今,计算机视觉技术已经应用到了各种环境之中,如在工业中辅助人类对零部件缺陷进行检测、在医疗领域为医生提供快速的肿瘤分割参考、在道路环境中赋予车辆更全面且精细的环境感知能力等. 在计算机视觉这一大的框架下,又可以按照侧重点的不同将其分为一些子任务,如图像分类、目标检测、实例分割、计算摄影以及3维视觉等研究方向. 图像识别与分类是所有计算机视觉任务的基础,图像分类任务要求人工智能系统对输入的图像进行理解,并且对图像的类别进行判断. 伴随着深度学习在计算机视觉上的崛起,人们逐渐不再满足于简单的分类任务,开始研究以前受到技术限制的其他视觉任务,如目标检测.
目标检测是继图像分类后的另一个计算机视觉基石任务. 目标检测的核心在于“是什么”和“在哪里”. 分类问题只需要评估图片中的物体是什么,且图像中仅包含单一的待识别物体,而目标检测的输入图像往往不止包含1个目标,同时不仅需要知道输入图像中包含了哪些种类的物体,而且需要对它们进行准确的定位. 所以,对于目标检测模型性能的评估不仅需要传统的类别准确度判断,还要对定位的偏差进行评估. 同时,目标检测也是很多其他重要的视觉任务的基础,如实例分割、工业缺陷检测、目标跟踪乃至视频理解等. 随着计算机视觉的发展,目标检测算法也应用到了很多实际的问题上,如自动驾驶、机器人、工业保障等. 大量的现实使用场景要求目标检测不仅定位要准确,同时也具有较快的识别速度. 因为目标检测任务具有广泛的使用场景,目标检测算法已经得到了学术界和工业界的广泛研究. 如图1所示,学术界对目标检测任务的研究呈明显的蓬勃发展趋势.



从20世纪90年代到21世纪初期,自基于手工特征和传统机器学习的目标检测算法到如今各种基于深度学习方法的算法,目标检测领域经历了从传统方法到深度学习的革命性转变. 到如今,最新的深度学习模型架构以及为不同领域的检测特殊设计的针对性方法已经能够在一定程度上满足人们对目标检测算法性能的需求. 然而如3.1节中实验数据展示,现有的目标检测算法仍不能很好解决所有检测问题,因此,我们总结了一些目标检测领域内面临的挑战和未来的发展方向;还回顾在30年中目标检测算法的发展历程;总结了目标检测受到的主要挑战,列举了目标检测领域未来的研究方向,并且通过统计DBLP数据库中相应子研究领域的论文数量进行佐证.
1)多样性. 多样性是目标检测领域中的一个重要难题,尤其随着数据集的不断扩展和应用场景的多样化,早期传统基于机器学习的目标检测任务由于计算资源和数据限制,主要集中在人脸检测和行人检测等单一场景. 随着技术的发展,数据集的规模和类别迅速增加,PASCAL VOC包含了20类目标,MS COCO扩展至80类,最新的数据集如LVIS,更是涵盖了超过1 000个类别.
2)准确性和实时性. 提高准确性作为目标检测的首要目标,一直是研究人员们探索的核心主题. 不仅涉及算法的设计和优化,还包括数据质量的提升、模型泛化能力的增强以及对复杂场景的适应性改进.
3)小目标检测. 小目标检测是计算机视觉领域的一个重要子领域,专注于从图像或视频中识别和定位尺寸较小的目标,特别是在遥感图像分析、医学影像诊断以及工业检测和军事领域等.
4)弱监督、无监督目标检测. 弱监督目标检测指的是在有限或不完整标注信息的情况下进行目标检测.
5)域适应、域泛化目标检测. 域适应是指在源域上训练模型,并对其进行调整使其能在一个特定的目标域上有效工作. 目标域的数据在训练过程中是可用的,但是往往没有标签数据. 域适应目标检测通常发生在训练数据(源域)和实际应用数据(目标域)之间存在显著差异的情况下.
6)少样本目标检测. 少样本目标检测也称Few-shot,旨在强调训练目标检测模型时仅使用非常有限的注释样本(比如每一类仅有几个被完全标注的实例)仍然能有效地识别和定位新的目标,因此要求模型在极少数据的支持下也能够快速适应.
7)3维目标检测. 3维目标检测是指在3维空间中识别和定位对象的技术. 与传统的2维目标检测(仅在图像平面上识别和定位对象)不同,3维目标检测考虑了对象的深度信息,提供了更全面的场景理解.
8)增量学习. 增量学习也称为连续学习或终生学习,是机器学习中的一个概念,指的是模型在学习新任务或新数据时,能够保留以前学到的知识,并且具有利用过去的知识来帮助学习新任务的能力.
9)开放世界和开放词汇目标检测. 现有的目标检测器主要依赖于大规模基准数据集进行训练,但在不同领域之间的性能差异巨大. 特别是在开放世界环境中,当遇到与已知类别差异很大的未知类别时,依赖基准数据集训练的检测模型往往无法有效识别. 这种无法识别未知目标的缺陷严重限制了目标检测器在实际场景中的泛化能力.
10)通用人工智能(artificial general intelligence,AGI). AGI通常被认为是人工智能领域研究和发展的终极目标. AGI是指一种具备广泛认知能力的人工智能, 能够像人类一样在各种环境和任务中理解、学习和应用知识. 与当前的狭义人工智能(narrow AI),也称弱人工智能(weak AI)不同,AGI不仅能在特定任务上表现出色,还能进行跨领域的学习和决策,具有自主意识和自适应能力.
11)跨领域适应性. 面对多样化和不断变化的实际应用环境,如何使目标检测模型具有良好的跨领域适应性成为一个重要挑战. 这涉及到模型在不同光照、天气条件、场景背景下都能保持稳定和准确的检测能力.
12)实时处理与资源优化. 在需要快速反应的应用中,如自动驾驶车辆或实时监控系统,如何在保证高准确度的同时实现高效的实时处理,尤其是在计算资源有限的设备上,是一个技术难题.

我们希望通过这种以深度学习发展历程为线索的目标检测综述,能够让人们更全面地了解目标检测的历史演进及其与深度学习技术的紧密联系. 从目标检测领域的早期阶段,即传统算法主导的时期,到深度学习的兴起,目标检测技术经历了翻天覆地的变化. 这一转变不仅体现在检测精度和效率的显著提升上,也表现在模型对复杂场景的处理能力上. 尽管目标检测领域的快速发展已经能够解决部分问题,但仍然面临诸多挑战. 本文旨在为未来的研究者们提供一个清晰的历史视角和当前技术挑战的概览,从而促进该领域的持续创新与发展. 通过对过去的成就和未解决的问题的深入分析,我们期望激发新的研究思路,推动目标检测技术在未来的突破和进步.
李承烨, 张震, 梁哲恒, 姚潮生, 张金波, 晏荣杰, 吴鹏. 目标检测模型综述[J]. 计算机研究与发展, 2025, 62(12): 2895-2928. DOI: 10.7544/issn1000-1239.202440315
Li Chengye, Zhang Zhen, Liang Zheheng, Yao Chaosheng, Zhang Jinbo, Yan Rongjie, Wu Peng. Survey on Object Detection Models[J]. Journal of Computer Research and Development, 2025, 62(12): 2895-2928. DOI: 10.7544/issn1000-1239.202440315

扫码可获取全文
