一、YOLO模型介绍
YOLO 是一种高效的物体检测模型,能够通过单一网络进行快速的物体检测。结合预训练模型,YOLO 可以在许多视觉任务中加速开发过程,提高性能。预训练模型的优势在于能够节省训练时间、提高模型性能,并且适用于迁移学习任务。对于物体检测,使用预训练的 YOLO 模型是一种非常高效的做法,尤其是在没有大量标注数据时。YOLO 模型的核心特点是采用一个单独的神经网络对图像进行处理,进行 物体检测、分类、和 定位(即边界框回归)。YOLO 是一种 端到端(end-to-end)训练的模型,输入图像后,直接输出检测结果(物体类别、边界框位置及其置信度)。
YOLO 模型的主要特点:
- 实时性强:YOLO 的一个最大特点是能够在实时应用中进行物体检测。传统物体检测算法(如 R-CNN)通过多个阶段生成候选区域,然后再进行分类和回归,而 YOLO 通过一次前向传播就能完成物体检测,因此推理速度极快。
- 端到端训练:YOLO 使用单一的神经网络进行训练,不需要复杂的候选区域生成和后处理步骤。
- 全局信息:YOLO 在进行物体检测时会同时考虑整张图像,避免了局部区域的局限性,能够更好地捕捉物体的全局上下文信息。
- 多尺度检测:YOLO 能够检测不同尺度的物体,尤其是 YOLOv3 及后续版本通过引入多层次检测机制(使用不同尺度的特征图进行检测),在不同大小的物体上取得了较好的平衡。
YOLO广泛应用于多个领域,包括智能交通、安防监控、医疗影像分析等。其高效的目标检测能力为这些领域的技术发展提供了有力支持,进一步巩固了其作为大模型的地位。
二、模型下载与安装
comfyui-YOLO插件:https://github.com/kadirnar/comfyui-YOLO
cd models/ultralytics
wget https://github.com/ultralytics/assets/releases/download/v8.2.0/model_name.pt
官方各个模型及区别:
2.1、SAM (Segment Anything Model) 系列 - 图像分割
模型文件名 | 版本 | 规模 | 区别与作用 |
---|---|---|---|
sam_b.pt | V1 | Base | 原始SAM的Base版本。 |
sam_l.pt | V1 | Large | 原始SAM的Large版本,精度最高,速度最慢。 |
sam2_b.pt | V2 | Base | V2升级:支持高分辨率分割和长上下文。 |
sam2_l.pt | V2 | Large | V2升级:同上,Large规模。 |
sam2_s.pt | V2 | Small | V2升级:新增Small规模,速度更快。 |
sam2_t.pt | V2 | Tiny | V2升级:新增Tiny规模,速度极致。 |
sam2.1_b.pt | V2.1 | Base | V2.1升级:在V2基础上进行微调和性能优化。 |
sam2.1_l.pt | V2.1 | Large | V2.1的Large版本。 |
sam2.1_s.pt | V2.1 | Small | V2.1的Small版本。 |
sam2.1_t.pt | V2.1 | Tiny | V2.1的Tiny版本。 |
作用:用于零样本图像分割,无需训练即可根据提示(点、框)分割图像中的任何物体。
2.2、YOLOv12 系列 - 目标检测
模型文件名 | 规模 | 作用 |
---|---|---|
yolo12n.pt | Nano | 极速,用于边缘设备。 |
yolo12s.pt | Small | 速度与精度平衡。 |
yolo12m.pt | Medium | 平衡型。 |
yolo12l.pt | Large | 高精度。 |
yolo12x.pt | XLarge | 超高精度,计算量大。 |
版本升级:YOLOv12 核心升级为引入以注意力为中心的架构(Attention-Centric),旨在显著提升检测精度,尤其是在复杂场景下,但可能牺牲部分速度。
2.3、YOLOv11 系列 - 目标检测与多任务
命名规则:yolo11{规模}-{任务}.pt
-
规模:
n
(nano)<s
(small)<m
(medium)<l
(large)<x
(xlarge) | 速度↗️,精度↗️ -
任务:无后缀-
det
(检测),cls
(分类),seg
(分割),pose
(姿态),obb
(旋转框检测)
模型文件名 | 规模 | 任务 | 作用 |
---|---|---|---|
yolo11n.pt | Nano | 检测 | 极速,用于边缘设备。 |
yolo11s.pt | Small | 检测 | 速度与精度平衡。 |
yolo11m.pt | Medium | 检测 | 平衡型。 |
yolo11l.pt | Large | 检测 | 高精度。 |
yolo11x.pt | XLarge | 检测 | 超高精度,计算量大。 |
yolo11n-grayscale.pt | Nano | 灰度检测 | 专为单通道灰度图像优化。 |
*11n/s/m/l/x-cls.pt | 各规模 | 图像分类 | 用于图像分类任务。 |
*11n/s/m/l/x-seg.pt | 各规模 | 实例分割 | 检测目标并生成像素级掩膜。 |
*11n/s/m/l/x-pose.pt | 各规模 | 姿态估计 | 检测人体关键点。 |
*11n/s/m/l/x-obb.pt | 各规模 | 旋转框检测 | 检测倾斜/旋转的物体(如遥感影像)。 |
版本升级:YOLOv11 是 Ultralytics 框架对 YOLO 架构的最新工程化整合与优化,统一了训练 pipeline,在速度和精度上相比 v8 有提升。
总结选择建议:
-
追求极致速度/边缘部署:YOLOv5n/u, YOLOv8n, YOLOv10n, YOLOv12n
-
最佳精度:YOLOv9e, YOLOv12x, YOLOv11x
-
最新技术/平衡选择:YOLOv10, YOLOv11, YOLOv12
-
成熟稳定/工业部署:YOLOv5, YOLOv8
-
无需训练分割一切:SAM 2.1
-
开放词汇检测:YOLOv8-World
-
旋转目标检测:使用
-obb
模型 -
人体姿态估计:使用
-pose
模型
三、工作流
物体检测:
视频物体检测:
对象分割:
物体姿态估计:
调整图像大小:
可视化:
五、总结
综上所述,YOLO不仅在模型架构和性能上符合大模型的特征,其广泛的应用领域和模型规模也进一步证明了其作为大模型的重要性。YOLO 是一种高效的物体检测模型,能够通过单一网络进行快速的物体检测。结合预训练模型,YOLO 可以在许多视觉任务中加速开发过程,提高性能。预训练模型的优势在于能够节省训练时间、提高模型性能,并且适用于迁移学习任务。对于物体检测,使用预训练的 YOLO 模型是一种非常高效的做法,尤其是在没有大量标注数据时。未来的目标检测技术将继续在速度、精度和通用性上取得突破,为更多的实际应用提供技术支持。