不同规模大模型显存占用估算
| 精度类型 | 每参数显存 | 模型权重 | 推理显存 | 训练显存 |
|---|---|---|---|---|
| FP32 (全精度) | 4 bytes | 32 GB | 42 GB | 128 GB |
| FP16 (半精度) | 2 bytes | 16 GB | 21 GB | 64 GB |
| INT8 (8位量化) | 1 byte | 8 GB | 10.4 GB | 32 GB |
| INT4 (4位量化) | 0.5 bytes | 4 GB | 5.2 GB | 16 GB |
权重显存 = 8B × 1 byte = 8 GB
推理显存 = 8 GB × 1.3 = 10.4 GB
结论:至少需要 12GB 显存
| 精度类型 | 每参数显存 | 模型权重 | 推理显存 | 训练显存 |
|---|---|---|---|---|
| FP32 (全精度) | 4 bytes | 36 GB | 47 GB | 144 GB |
| FP16 (半精度) | 2 bytes | 18 GB | 23 GB | 72 GB |
| INT8 (8位量化) | 1 byte | 9 GB | 11.7 GB | 36 GB |
| INT4 (4位量化) | 0.5 bytes | 4.5 GB | 5.9 GB | 18 GB |
权重显存 = 9B × 1 byte = 9 GB
推理显存 = 9 GB × 1.3 = 11.7 GB
结论:至少需要 16GB 显存
| 精度类型 | 每参数显存 | 模型权重 | 推理显存 | 训练显存 |
|---|---|---|---|---|
| FP32 (全精度) | 4 bytes | 128 GB | 166 GB | 512 GB |
| FP16 (半精度) | 2 bytes | 64 GB | 83 GB | 256 GB |
| INT8 (8位量化) | 1 byte | 32 GB | 41.6 GB | 128 GB |
| INT4 (4位量化) | 0.5 bytes | 16 GB | 20.8 GB | 64 GB |
权重显存 = 32B × 1 byte = 32 GB
推理显存 = 32 GB × 1.3 = 41.6 GB
结论:至少需要 48GB 显存(推荐A100 80GB或双卡)
| 模型规模 | INT8推理 | INT4推理 | 推荐显卡 |
|---|---|---|---|
| 7B | 9.1 GB | 4.6 GB | RTX 3060 12GB+ |
| 8B | 10.4 GB | 5.2 GB | RTX 3060 12GB+ ✅ |
| 9B | 11.7 GB | 5.9 GB | RTX 4060 Ti 16GB+ ✅ |
| 13B | 16.9 GB | 8.5 GB | RTX 3090 24GB+ |
| 32B | 41.6 GB | 20.8 GB | A100 80GB / RTX 4090×2 ⚠️ |
| 34B | 44.2 GB | 22.1 GB | A100 80GB |
| 70B | 91 GB | 45.5 GB | A100 80GB×2 或 H100 |
8B × 1 × 1.3 = 10.4 GB
9B × 1 × 1.3 = 11.7 GB
32B × 1 × 1.3 = 41.6 GB
32B × 0.5 × 1.3 = 20.8 GB