Yolo

YOLO You Only Look Once
- 2016
- by Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi
YOLOv3
YOLOv4
- AlexeyAB/darknet
YOLOv5
- by Ultralytics
- ultralytics/yolov5
YOLOv6
- by 美团, 2022
- BiC - Bi-directional Concatenation
- ATTA - anchor-aided training
- meituan/YOLOv6
  - GPLv3
WongKinYiu/yolov7
- GPLv3
- speed & accuracy
YOLOv8 - Detection, Instance Segmentation, Pose/Keypoints, Oriented Detection, Classification
- by Ultralytics
- backbone & neck architectures
- anchor-free split
YOLOv9
- based on YOLOv5
- WongKinYiu/yolov9
- PGI - Programmable Gradient Information
- GELAN - Generalized Efficient Layer Aggregation Network
YOLOv10
- by 清华大学, 2024
- Key Features: NMS-Free Training, Holistic Model Design, Enhanced Model Capabilities
- THU-MIG/yolov10
  - AGPLv3
  - 暂无 segmentation THU-MIG/yolov10#98
- YOLOv10: Real-Time End-to-End Object Detection
YOLOv11
- by ultralytics
Yolo World - Object Detection
- based one YOLOv8
- AILab-CVC/YOLO-World
  - by 腾讯
- MDETR, GLIP
- Open-Vocabulary detection
ultralytics
- 是一家专注于计算机视觉的 AI 公司
- 将其品牌与 YOLO 生态绑定
- https://docs.ultralytics.com/
- ultralytics/ultralytics
  - AGPLv3
  - ~/.config/Ultralytics/settings.json
参考
- Eric-Canas/qrdet
  - 检测 QR Code
  - YOLOv8

model	file	for	Size
YOLOv8	`yolov8{n,s,m,l,x}.pt`	Detection	6, 22, 50, 83, 131 MB
YOLOv9	`yolov9{c,e}.pt`	Object Detection	49, 112 MB
YOLOv10	`yolov10{n,s,m,b,l,x}.pt`		2.3, 7.2, 15.4, 19.1, 24.4, 29.5 MP

suffix	for	notes
n	nano
s	small
m	medium
l	large
x	extra large
b	base
oob	Oriented Bounding Box
pose	Pose Estimation
seg	Segmentation
world	World Detection
cls	Classification
oiv	Object Instance Verification
human	Human Detection
nas	Neural Architecture Search

https://docs.ultralytics.com/models/yolov8/
https://github.com/ultralytics/assets/releases
- 模型下载
Open-Vocabulary Detection - 开放词汇检测
- 具有识别新对象的能力
- 结合语言模型
- 多模态学习
Closed-Vocabulary Detection - 封闭词汇检测
- 固定 label
CLIP - Contrastive Language-Image Pretraining
Contrastive Learning - 对比学习
NAS - Neural Architecture Search - 神经网络架构搜索
- 是一种自动化方法，用于设计和优化深度神经网络的架构。
- 通过搜索空间找到最佳的神经网络结构，以实现特定任务的性能最大化，同时减少人类专家在设计网络架构时所需的时间和精力。
- Search Space
  - 层类型（如卷积层、全连接层、池化层等）、层的配置（如过滤器数量、内核大小、步幅等）以及层之间的连接方式
- Search Strategy
  - 随机搜索、进化算法、强化学习和梯度方法等
- Performance Estimation
  - 准确性、推理速度、参数数量和计算复杂度等
MPS - Metal Performance Shaders
- PyTorch 加速
FLOPs - Floating Point Operations per Second - 每秒浮点运算次数
- 代表模型在一次前向传播过程中需要执行的浮点运算的总次数
TOPS - Tera Operations per Second - 每秒万亿次运算
TTA - Test Time Augmentation - 测试时数据增强
AMP - Automatic Mixed Precision - 自动混合精度
- 混合精度训练
- 减少内存占用
- 加速训练
NMS - Non-Maximum Suppression - 非极大值抑制
- 用于去除重叠的边界框
  - half conf=0.05
- https://github.com/THU-MIG/yolov10/issues/136
imgsz
- 32 的倍数 https://stackoverflow.com/a/75270907/1870054
- 会 scale 图像到这个大小
- 会保持 ratio - 填充灰色
- train 时为整数
- predict 和 export 可以为 tuple 例如 w,h
epochs
- Small Dataset < 1000
  - epochs 50 - 100
- Medium Dataset < 10000
  - epochs 100 - 300
- Large Dataset > 10000
  - epochs 300 - 1000
模型选择 - size, speed, accuracy

train

https://docs.ultralytics.com/modes/train/

data.yaml
# path: # root dir
train: src/dataset/train # 训练集图像路径
val: src/dataset/val # 验证集图像路径
# test:

nc: 3 # 类别数量
names: ['cat', 'dog', 'bird'] # 类别名称列表

# download:

results.csv

epoch：当前的训练轮数（epoch），每个 epoch 表示模型在整个训练数据集上进行了一次完整的训练。
train/box_loss：训练过程中边界框回归损失（Box Loss），衡量预测的边界框与真实边界框之间的差距。
- 准确地定位目标对象
- IoU, GIoU
- 初始值 0.2 - 2
- 收敛期望值 0.1 - 0.5
train/cls_loss：训练过程中分类损失（Class Loss），衡量预测的类别与真实类别之间的差距。
- 正确分类检测到的目标
- 交叉熵损失（Cross-Entropy Loss）或 Focal Loss
- 初始值 1-5
- 收敛期望值 0.01 - 0.5
train/dfl_loss：训练过程中分配函数损失（Distribution Focal Loss），用于提高边界框的预测准确性。
- 优化边界框的预测，使预测框更精确地拟合目标。
- 初始值 0.5 - 1
- 收敛期望值 0.05 - 0.3
- YOLO v5, v7+
metrics/precision(B)：验证集上的精度（Precision），表示在所有预测为正类的样本中，实际为正类的比例。
metrics/recall(B)：验证集上的召回率（Recall），表示在所有实际为正类的样本中，被正确预测为正类的比例。
metrics/mAP50(B)：在 IoU 阈值为 0.5 时的平均精度（Mean Average Precision）。
- 检测框与真实框有 50% 或以上的重叠就算作正确检测。
- 比较宽松的标准。
metrics/mAP50-95(B)：在不同 IoU 阈值（0.5 到 0.95）下的平均精度。
- 从 0.5 到 0.95，步长为 0.05，计算平均精度
- 更全面地反映模型在各种匹配严格程度下的检测能力。
val/box_loss：验证集上的边界框回归损失。
val/cls_loss：验证集上的分类损失。
val/dfl_loss：验证集上的分配函数损失。
lr/pg0、lr/pg1、lr/pg2：不同参数组的学习率（Learning Rate）。

训练损失（train/box_loss、train/cls_loss、train/dfl_loss）
- 逐渐减小 ⬇️
- 衡量模型在训练集上的拟合程度。较低的训练损失表示模型在训练集上的表现良好。
验证损失（val/box_loss、val/cls_loss、val/dfl_loss）
- 评估模型在验证集上的泛化能力。较低的验证损失表示模型在未见过的数据上的表现良好。
精度和召回率（metrics/precision(B)、metrics/recall(B)）
- 高精度表示误报少，高召回率表示漏报少。
平均精度（metrics/mAP50(B)、metrics/mAP50-95(B)）
- 衡量目标检测模型的整体性能
- 逐步上升 ⬆️
学习率（lr/pg0、lr/pg1、lr/pg2）
精度期望值
- 一般应用 - 70%+
- 高风险应用 - 90%+
  - 自动驾驶、医疗诊断等高风险应用

精度（Precision） = 真阳性（TP） / （真阳性（TP） + 假阳性（FP））
召回率（Recall） = 真阳性（TP） / （真阳性（TP） + 假阴性（FN））

IoU - Intersection over Union - 交并比
- 衡量模型预测的边界框与真实边界框之间的重叠程度
- IoU = Intersection Area / Union Area
  - Intersection Area：预测边界框与真实边界框的重叠区域面积
  - Union Area：预测边界框与真实边界框的联合区域面积，即两者面积之和减去重叠区域的面积。
- IoU 越高，模型的检测效果越好
mAP - Mean Average Precision

Notes

FPN - Feature Pyramid Network - 特征金字塔网络
- 旨在通过在不同尺度上检测目标来提高目标检测的性能。它从深度卷积神经网络（如 ResNet）的不同层提取特征，并通过上采样和横向连接（lateral connections）将这些特征融合在一起。这样可以有效地检测不同大小的目标。
P2 - 最浅的一层特征图，分辨率最高，捕捉到的细节最多。适合检测小目标。
- < 8px
P5 - 中间层特征图，分辨率适中，适合检测中等大小的目标。

FAQ

YOLOv5 vs YOLOv8

YOLOv5
- 易用
YOLOv8
- 更快、更准

YoloV8 Model Size

Model	Size (MB)	Inference Time (ms)	mAP COCO
YOLOv8n	6.5 MB	0.99 ms (A100)	37.3
YOLOv8s	22.6 MB	1.2 ms (A100)	44.9
YOLOv8m	52.1 MB	1.83 ms (A100)	50.2
YOLOv8l	87.8 MB	2.39 ms (A100)	52.9
YOLOv8x	136.9 MB	3.53 ms (A100)	53.9

scales: # model compound scaling constants, i.e. 'model=yolov8n.yaml' will call yolov8.yaml with scale 'n'
  # [depth, width, max_channels]
  n: [0.33, 0.25, 1024] # YOLOv8n summary: 225 layers,  3157200 parameters,  3157184 gradients,   8.9 GFLOPs
  s: [0.33, 0.50, 1024] # YOLOv8s summary: 225 layers, 11166560 parameters, 11166544 gradients,  28.8 GFLOPs
  m: [0.67, 0.75, 768] # YOLOv8m summary: 295 layers, 25902640 parameters, 25902624 gradients,  79.3 GFLOPs
  l: [1.00, 1.00, 512] # YOLOv8l summary: 365 layers, 43691520 parameters, 43691504 gradients, 165.7 GFLOPs
  x: [1.00, 1.25, 512] # YOLOv8x summary: 365 layers, 68229648 parameters, 68229632 gradients, 258.5 GFLOPs

n/s - 几百张图片
s/m - 几千张图片
l/x - 几万张图片
x - > 10万张图片

depth - 模型深度
- 深度缩放因子，控制模型中每个模块的重复次数，影响模型的总层数。
width - 模型宽度
- 宽度缩放因子，控制模型中每个层的通道数，影响模型的参数数量。
N/S, L/X 只改了缩放系数
S/M/L 通道数不一样
https://github.com/ultralytics/ultralytics/issues/1155#issuecomment-1735325530
- 怎么选择
https://github.com/ultralytics/ultralytics/blob/main/ultralytics/cfg/models/v8/yolov8.yaml
https://www.researchgate.net/figure/YOLOv5-different-model-sizes-where-FP16-stands-for-the-half-floating-point-precision_fig3_354846944
https://zhuanlan.zhihu.com/p/598566644

Cascade

Hierarchical, Cascade
Cascade RCNN
- 适合小对象, 精细化
- two-stage detector
- RPN region proposal network
Yolo
- single-stage detector
- YOLOv8 optimized for speed and simplicity
YOLO + RCNN
- Faster R-CNN
参考
- Comparing YOLOv8x vs Cascade RCNN on human detection ultralytics#3248
- Hierarchical Classification in Yolo v8 ultralytics#4353
- Open-Vocabulary One-Stage Detection with Hierarchical Visual-Language Knowledge Distillation

SyntaxError: 'v5loader' is not a valid YOLO argument

可能没之前的数据，取消 resume 参数

train​

Notes​

FAQ

YOLOv5 vs YOLOv8​

YoloV8 Model Size​

Cascade​

SyntaxError: 'v5loader' is not a valid YOLO argument​

train

Notes

YOLOv5 vs YOLOv8

YoloV8 Model Size

Cascade

SyntaxError: 'v5loader' is not a valid YOLO argument