| aqlm | 2, 3, 4 | 加法量化,据称在低位数下表现良好。 |
| awq | 4 | Activation-aware Weight Quantization,一种流行的 4 位量化方法。 |
| deepspeedfp | 8/16 | DeepSpeed 提供的浮点量化支持,可能包括 FP8, FP16 等。 |
| tpu_int8 | 8 | 针对 Google TPU 优化的 INT8 量化。 |
| fp8 | 8 | 8 位浮点数表示,有不同的格式 (如 E4M3, E5M2)。 |
| ptpc_fp8 | 8 | Post-Training Per-Channel FP8 量化。 |
| fbgemm_fp8 | 8 | 使用 FBGEMM (Facebook General Matrix Multiply) 库的 FP8 量化。 |
| modelopt | 多种 | NVIDIA Model Optimizer,支持包括 INT4, INT8, FP8 在内的多种量化方案。 |
| nvfp4 | 4 | NVIDIA 提出的 FP4 格式,用于超低精度推理。 |
| marlin | 4 | 针对 NVIDIA GPU 的 GPTQ 优化内核,通常用于 4 位量化。 |
| bitblas | 1-8 | 高度优化的位级 GEMM 操作库,支持多种位宽。 |
| gguf | 2-8+ | Georgi Gerganov Universal Format,常用于 llama.cpp,支持多种量化级别 (如 q2_K, q3_K_S, q4_0, q4_K_M, q5_K_M, q6_K, q8_0)。 |
| gptq_marlin_24 | 4 | 结合了 GPTQ 和 Marlin 的优化,针对特定配置 (如24个样本的校准)。 |
| gptq_marlin | 4 | GPTQ 算法与 Marlin 内核的结合,用于高效的 4 位推理。 |
| gptq_bitblas | 4 | GPTQ 算法与 BitBLAS 内核的结合。 |
| awq_marlin | 4 | AWQ 算法与 Marlin 内核的结合。 |
| gptq | 2, 3, 4, 8 | Post-Training Quantization 方法,常用于 3 位或 4 位量化。 |
| compressed-tensors | 多种 | 通用术语,指用于减小模型大小的压缩张量技术,可能包含多种量化方法。 |
| bitsandbytes | 8, 4 (NF4) | 流行的量化库,支持 8 位量化和 4 位 NormalFloat (NF4) 等。 |
| qqq | 2, 3, 4 | 可能是指特定的量化库或算法,位数需要具体确认。 |
| hqq | 2, 3, 4 | Half-Quadratic Quantization,一种较新的量化方法,旨在平衡精度和压缩率。 |
| experts_int8 | 8 | 针对 MoE (Mixture of Experts) 模型中的 Experts 部分进行 INT8 量化。 |
| neuron_quant | 8, 16 | 针对 AWS Inferentia/Trainium (Neuron) 芯片的量化。 |
| ipex | 8 | Intel Extension for PyTorch,支持 INT8 量化等针对 Intel CPU 和 GPU 的优化。 |
| quark | 2, 4 | 一种据称能保持较高准确率的低位量化方法。 |
| moe_wna16 | 16 | 针对 MoE 模型的权重和激活使用 16 位量化 (可能是 FP16 或 BF16)。 |
| torchao | 多种 | PyTorch Applied Overlap,一个用于模型优化的库,支持包括量化在内的多种技术。具体位数取决于所使用的量化算法。 |