摘 要:文章讨论了目标检测在计算机视觉领域中的重要性,并介绍了目标检测算法的 2 种主要类型:传统计算机视觉方法和基于深度学习的方法。随着深度学习技术的发展,基于深度学习的目标检测算法逐渐成为主流,并取得了较好的效果。然而,为进一步提高 Faster R-CNN 在目标检测方面的性能,文章结合鲸鱼优化算法对Faster R-CNN 网络进行优化,并使用 PASCAL VOC 2012数据集对网络性能进行测试。实验结果表明,基于鲸鱼优化算法的 Faster R-CNN 网络性能明显优于标准 Faster RCNN 网络。基于此,深度学习的目标检测算法将在未来有更广泛的应用和更好的效果。
关键词:Faster R-CNN;目标检测:实时性
中图法分类号:TP391文献标识码:A
1 引言
目标检测是计算机视觉领域的一项重要任务,其主要作用是在图像或视频中自动识别并定位感兴趣的目标物体。目标检测在许多应用中都具有重要作用,如自动驾驶、医学影像分析领域等。
现有的目标检测算法主要分为2 类:传统计算机视觉方法的算法和基于深度学习的算法。传统计算机视觉方法主要基于图像特征提取和分类器构建,如Haar 特征[1] 、HOG 特征[2] 、SIFT 特征[3] 等。而基于深度学习的算法主要基于卷积神经网络和其变种,如Faster R⁃CNN[4] 、YOLO[5] 等。随着深度学习技术的不断发展,基于深度学习的目标检测算法逐渐成为主流,并取得了较好的效果。这些算法不仅具有较高的检测准确率,还具有较快的检测速度,能够满足实时应用的需求。
随着技术的不断发展,其应用范围将会越来越广泛。为了进一步提高Faster R⁃CNN 在目标检测方面的性能,本文结合鲸鱼优化算法对Faster R⁃CNN 网络进行优化,并采用数据集PASCAL VOC 2012 对网络性能做了测试,实验结果表明,基于鲸鱼优化算法的Faster R⁃CNN 网络性能明显优于标准Faster R⁃CNN网络。
2 Faster R⁃CNN 网络与鲸鱼优化算法
2.1 Faster R⁃CNN 网络架构
Faster R⁃CNN 是目标检测领域中比较先进的一种网络结构,其架构主要包括卷积层、RPN 网络、ROI池化和全连接层。其中,卷积层用于提取图像的特征,RPN 网络用于生成候选区域,ROI 池化用于对候选区域进行特征提取,全连接层用于对候选区域进行分类和回归。Faster R⁃CNN 的基本架构如图1 所示。
(1)卷积层。
本文的Faster R⁃CNN 使用了深度卷积神经网络来提取图像的特征。常用的卷积神经网络有VGG[6] 、ResNet、Inception 等,这些网络可以提取不同层次的特征。本文将ResNet 卷积神经网络作为特征提取器。
(2)RPN 网络。
RPN 是Faster R⁃CNN 中的一个关键模块,其作用是生成候选区域,即物体可能出现的位置。