Skip to main content

推理

  • 模型大小与架构 (Model Size & Architecture)
    • 参数量
    • 模型的层数、宽度等
  • 精度与量化 (Precision & Quantization)
    • 原始精度 - FP32, BF16
    • 量化精度 - FP16、INT8、INT4、q4_k_m
  • 上下文长度/序列长度 Context Length
    • 影响激活值
    • 影响KV缓存
  • 输入输出特性
    • 文本、图片、音频

  • 延迟
    • 单次推理延迟
    • 首个Token延迟 (Time to First Token, TTFT - LLM)
    • 每输出Token延迟 (Time Per Output Token, TPOT - LLM)
  • 吞吐量 (Throughput)
    • 每秒推理次数 - inferences per second, IPS
    • 每秒生成Token数 - tokens per second, TPS
  • 准确性 (Accuracy)
    • 优化(如量化、剪枝)后,模型在新数据上的表现是否仍在可接受范围内。
    • 需要在性能和精度之间做权衡。

Service

  • vLLM
    • Text
  • SGLang
    • Text, Image
  • Image
    • ComfyUI
    • SD
  • Audio
    • Whisper
  • Embeddings

模型大小

sizeint8int4perf
1B~2-3GB~1-1.5GB适用于简单任务,如基础问答、文本分类,但易出现无意义输出,复杂任务表现不佳。
3B~6-9GB~3-4.5GB能处理中等复杂度任务,如简单对话、文本摘要,性能适中,但仍有限制。
7B~14GB~7GB在大多数NLP任务上表现良好,如机器翻译、情感分析,性能与资源消耗较平衡。
13B~26GB~13GB具备较高准确性和生成质量,适合专业领域应用,如法律、金融等。
30B~60GB~30GB可处理复杂任务,如多轮对话、代码生成,性能接近人类水平。
65B~130GB~65GB顶级模型,适用于前沿研究和高端应用,具备极强的语言理解和生成能力。