Skip to main content

AI FAQ

降低成本

  • 模型交付
    • 量化 - Quantization
      • 降低精度
      • 减少内存占用和计算需求
    • 蒸馏 - Distillation
      • 将大型模型的知识转移到较小的模型中,实现性能接近的同时降低计算成本。
      • 例如 Teacher-Student
    • 剪枝 - Pruning
      • 去除冗余参数
      • 例如 L1, L2, FPGM, Taylor
  • 推理
    • Flash Attention
      • 减少内存占用和计算需求
    • KV缓存 - KV Cache
      • 减少计算需求
  • 训练 - Training
  • MoE - Mixture of Experts
    • 减少内存和计算需求
sizeint8int4perf
1B~2-3GB~1-1.5GB适用于简单任务,如基础问答、文本分类,但易出现无意义输出,复杂任务表现不佳。
3B~6-9GB~3-4.5GB能处理中等复杂度任务,如简单对话、文本摘要,性能适中,但仍有限制。
7B~14GB~7GB在大多数NLP任务上表现良好,如机器翻译、情感分析,性能与资源消耗较平衡。
13B~26GB~13GB具备较高准确性和生成质量,适合专业领域应用,如法律、金融等。
30B~60GB~30GB可处理复杂任务,如多轮对话、代码生成,性能接近人类水平。
65B~130GB~65GB顶级模型,适用于前沿研究和高端应用,具备极强的语言理解和生成能力。

量化

  • 量化 - Quantization
    • 降低精度
    • 减少内存占用和计算需求
    • 例如 FP32,FP16 -> INT8 [-128, 127], INT4 [-8, 7], BIT1.5, FP16, BF16
  • 量化的负面效果
    • 可能导致模型准确性下降
    • 限制某些特定任务的表现
    • 需要额外的调优以恢复性能
    • 例如: 推理模型进入无限循环
  • 量化方法
    • AWQ - Adaptive Weight Quantization
    • GPTQ - Generalized Post-Training Quantization
    • CLAQ - Column-Level Adaptive weight Quantization
  • 参照指标
    • MMMU_VAL (Accuracy)
    • DocVQA_VAL (Accuracy)
    • MMBench_DEV_EN (Accuracy)
    • MathVista_MINI (Accuracy)

Train

AI vs ML vs DL

  • AI > ML > DL

  • AI: Artificial Intelligence - 人工智能
    • 强调应用
    • 规则系统
    • 专家系统
    • 机器学习
  • ML: Machine Learning - 机器学习
    • 强调学习过程 - Data -> Model -> Prediction
    • ML 是实现 AI 的方式之一
  • DL: Deep Learning - 深度学习
    • DL 是实现 ML 的方式之一
  • Algorithms
    • 通用的概念

RAG

STT vs ASR

  • STT: Speech to Text - 语音转文本
    • 产品功能描述
  • ASR: Automatic Speech Recognition - 自动语音识别
    • 技术