Training Glossary

abbr.	stand for	meaning
AWR	Advantage-Weighted Regression	优势加权回归
CPO	Contextual Policy Optimization	上下文策略优化
DoRA	Weight-Decomposed Low-Rank Adaptation	动态秩适配
DPO	Direct Preference Optimization	直接偏好优化
FSDP	Fully Sharded Data Parallelism	完全分片数据并行
GaLore	Gated Low-Rank Adaptation	门控低秩适配
GRPO	Group Relative Policy Optimization	组相对策略优化
KTO	Knowledge Transfer Optimization	知识迁移优化
LoftQ	LoRA-Fine-Tuning-Aware Quantization	低秩微调感知量化
LoRA	Low-Rank Adaptation	低秩适配
ORPO	Online Relative Policy Optimization	在线相对策略优化
P-Tuning	Prompt Tuning	提示微调
PEFT	Parameter-Efficient Fine-Tuning	仅微调部分参数
PPO	Proximal Policy Optimization	近端策略优化
QLoRA	Quantized LoRA	量化低秩适配
ReFT	Recurrent Fine-Tuning	递归微调
RLHF	Reinforcement Learning from Human Feedback	人类反馈强化学习
RS-LoRA	Rank-Stabilized LoRA	稳定秩低秩适配
RSLORA	Rank-Stabilized LoRA	稳定秩低秩适配
SFT	Supervised Fine-Tuning	监督微调
SimPO	Similarity Policy Optimization	相似性策略优化

en	cn
Alignment Fine-tuning	对齐微调
Classification Model Training	分类模型训练
Embedding Model Training	嵌入模型训练
Fine-Tuning	微调
Instruction Fine-tuning	指令微调
Instruction Supervised Fine-tuning	指令监督微调
Model Compression	模型压缩
Model Distillation	模型蒸馏
Model Optimization	模型优化
Model Pruning	模型剪枝
Post-Training	后训练
Pre-Training	预训练
Reward Model Training	反馈模型训练
Task-Specific Fine-tuning	任务特定微调
Transfer Learning	迁移学习

Full Training
- Optimizer - 8bit
- Gradient - 16bit
- Weight - 16bit
Model Pruning - 模型剪枝
- 通过去除模型中不重要的参数或连接来减少模型的大小和计算需求。
LoRA (Low-Rank Adaptation) - 低秩适配
- 通过在预训练模型的基础上，添加低秩矩阵来实现微调。
- PEFT 技术
- 不直接修改模型原有的巨大权重矩阵，而是在模型的特定层（通常是Transformer的注意力层）旁边注入两个较小的、可训练的“低秩”矩阵 (A和B)。
- 优点：
  - 大幅减少可训练参数：使得在有限资源下微调大模型成为可能。
  - 更小的存储需求：微调后只需要保存很小的LoRA权重文件，而不是整个模型的副本。
  - 快速切换任务：可以为不同任务训练不同的LoRA适配器，加载不同的适配器即可切换模型行为。
  - 减少灾难性遗忘：由于不改动原始权重，模型在预训练任务上的表现通常能得到较好保留。
QLoRA (Quantized LoRA) - 量化低秩适配
- 在LoRA的基础上，进一步对低秩矩阵进行量化，以减少模型的内存占用和计算开销。
DPO (Direct Preference Optimization) - 直接偏好优化
- RLHF 技术
- 利用 👍👎 反馈来优化模型输出。
- 优点
  - 实现简单
  - 训练稳定
  - 效果有竞争力
GRPO (Group Relative Policy Optimization) - 组相对策略优化
- 基于偏好对齐的策略优化方法
- 在 DPO 的基础上，进一步引入了组偏好信息。
DeepSpeed ZeRO - Zero Redundancy Optimizer
- 显存优化,训练远超单个GPU显存容量的巨大模型
- stage
  - 对优化器状态进行切分（例如Adam优化器的momentum和variance）
  - 对梯度也进行切分
  - 将模型参数本身也进行切分。每个GPU只保留当前计算层所需的参数，其他参数在使用时动态聚合。
- ZeRO-Offload
  - 将部分或全部被切分的状态（参数、梯度、优化器状态）进一步卸载到CPU内存中，进一步降低GPU显存需求。
Q-learning
- 一种基于值的强化学习算法，通过学习状态-动作值函数来指导智能体的行为。
- 主要思想是使用Q值来表示在给定状态下采取某个动作的预期回报。