🖥️ LLM显存需求计算器

不同规模大模型显存占用估算

🧮 自定义计算器

预估显存需求

11.7 GB

💳 推荐显卡配置:

🧮 显存计算公式详解

核心公式:

总显存 = 模型权重 + 激活值 + KV缓存 + 梯度(训练)+ 优化器状态(训练)

1. 模型权重显存(必需)

权重显存 = 参数量(B) × 精度(bytes) × 10^9
例如:9B × 1 byte (INT8) × 10^9 = 9 GB

2. 推理额外开销(约30%)

推理显存 = 权重显存 × 1.3
包含:激活值缓存 + KV缓存 + 输入输出buffer
例如:9 GB × 1.3 = 11.7 GB

3. 训练额外开销(约4倍)

训练显存 = 权重显存 × 4
包含:模型权重 + 梯度 + 优化器状态(Adam需要2份) + 激活值
例如:9 GB × 4 = 36 GB

4. 完整公式

显存(GB) = 参数(B) × 精度(bytes) × 场景系数 × 10^9 / 10^9

场景系数:
• 推理(Inference) = 1.3
• 微调(LoRA) = 2.0
• 全量训练(Full Training) = 4.0

📊 8B模型显存需求表

精度类型 每参数显存 模型权重 推理显存 训练显存
FP32 (全精度) 4 bytes 32 GB 42 GB 128 GB
FP16 (半精度) 2 bytes 16 GB 21 GB 64 GB
INT8 (8位量化) 1 byte 8 GB 10.4 GB 32 GB
INT4 (4位量化) 0.5 bytes 4 GB 5.2 GB 16 GB
💡 推荐配置(8B模型):
  • RTX 3060 (12GB) - INT8量化,推理流畅 ✅
  • RTX 4060 Ti (16GB) - INT8量化,推理舒适 ✅
  • RTX 4060 (8GB) - INT4量化,勉强可用 ⚠️
📐 计算示例(8B INT8推理):
权重显存 = 8B × 1 byte = 8 GB
推理显存 = 8 GB × 1.3 = 10.4 GB
结论:至少需要 12GB 显存

📊 9B模型显存需求表

精度类型 每参数显存 模型权重 推理显存 训练显存
FP32 (全精度) 4 bytes 36 GB 47 GB 144 GB
FP16 (半精度) 2 bytes 18 GB 23 GB 72 GB
INT8 (8位量化) 1 byte 9 GB 11.7 GB 36 GB
INT4 (4位量化) 0.5 bytes 4.5 GB 5.9 GB 18 GB
💡 推荐配置(9B模型):
  • RTX 4060 Ti (16GB) - INT8量化,推理流畅 ✅
  • RTX 3090/4090 (24GB) - INT8量化,推理舒适 ✅
  • RTX 3060 (12GB) - INT4量化,紧张但可用 ⚠️
📐 计算示例(9B INT8推理):
权重显存 = 9B × 1 byte = 9 GB
推理显存 = 9 GB × 1.3 = 11.7 GB
结论:至少需要 16GB 显存

📊 32B模型显存需求表

精度类型 每参数显存 模型权重 推理显存 训练显存
FP32 (全精度) 4 bytes 128 GB 166 GB 512 GB
FP16 (半精度) 2 bytes 64 GB 83 GB 256 GB
INT8 (8位量化) 1 byte 32 GB 41.6 GB 128 GB
INT4 (4位量化) 0.5 bytes 16 GB 20.8 GB 64 GB
⚠️ 推荐配置(32B模型):
  • A100 40GB - INT8量化,推理可用(紧张)
  • A100 80GB - INT8量化,推理舒适 ✅
  • H100 80GB - INT8量化,推理最佳 ✅
  • RTX 4090 (24GB) - INT4量化,推理可用 ⚠️
  • 多卡方案 - 2×RTX 4090 或 2×A6000
📐 计算示例(32B INT8推理):
权重显存 = 32B × 1 byte = 32 GB
推理显存 = 32 GB × 1.3 = 41.6 GB
结论:至少需要 48GB 显存(推荐A100 80GB或双卡)
🚫 不推荐配置:
消费级显卡(RTX 40/30系列)难以单卡运行32B模型
即使INT4量化也需要约21GB显存,接近24GB上限,实际使用会频繁OOM

📈 常见模型显存对比(含8B、9B、32B)

模型规模 INT8推理 INT4推理 推荐显卡
7B 9.1 GB 4.6 GB RTX 3060 12GB+
8B 10.4 GB 5.2 GB RTX 3060 12GB+ ✅
9B 11.7 GB 5.9 GB RTX 4060 Ti 16GB+ ✅
13B 16.9 GB 8.5 GB RTX 3090 24GB+
32B 41.6 GB 20.8 GB A100 80GB / RTX 4090×2 ⚠️
34B 44.2 GB 22.1 GB A100 80GB
70B 91 GB 45.5 GB A100 80GB×2 或 H100
📊 计算公式应用示例:
8B模型 (INT8)
8B × 1 × 1.3 = 10.4 GB
9B模型 (INT8)
9B × 1 × 1.3 = 11.7 GB
32B模型 (INT8)
32B × 1 × 1.3 = 41.6 GB
32B模型 (INT4)
32B × 0.5 × 1.3 = 20.8 GB

💡 优化建议

⚠️ 注意事项: