Wener笔记故事指南
降低成本
- 模型交付
- 量化 - Quantization
- 降低精度
- 减少内存占用和计算需求
- 例如 FP32 -> INT8, INT4, BIT1.5
- 蒸馏 - Distillation
- 将大型模型的知识转移到较小的模型中,实现性能接近的同时降低计算成本。
- 例如 Teacher-Student
- 剪枝 - Pruning
- 去除冗余参数
- 例如 L1, L2, FPGM, Taylor
- 推理
- Flash Attention
- KV缓存 - KV Cache
- 训练 - Training
- MoE - Mixture of Experts
AI vs ML vs DL
- AI: Artificial Intelligence - 人工智能
- ML: Machine Learning - 机器学习
- 强调学习过程 - Data -> Model -> Prediction
- ML 是实现 AI 的方式之一
- DL: Deep Learning - 深度学习
- Algorithms
RAG
- RAQ - retrieval-augmented generation - 检索增强生成
- 参考
STT vs ASR
- STT: Speech to Text - 语音转文本
- ASR: Automatic Speech Recognition - 自动语音识别