LLM 显存计算器
计算本地运行 LLM 所需的 GPU 显存。检查你的显卡能否运行任何模型。
0.56 bytes/param
VRAM Estimation
This model does not fit. You need 156 GB more VRAM.
Recommendation
This model is too large even at the lowest quantization for your current GPU setup. Consider using more GPUs or a GPU with more VRAM.
Quantization Comparison
| Quantization | Model Size | + KV Cache | Total VRAM | Fits? |
|---|---|---|---|---|
| FP16 (16-bit) | 130 GB | 143 GB | 274 GB | No |
| Q8_0 (8-bit) | 72 GB | 143 GB | 216 GB | No |
| Q6_K (6-bit) | 54 GB | 143 GB | 198 GB | No |
| Q5_K_M (5-bit) | 45 GB | 143 GB | 189 GB | No |
| Q4_K_M (4-bit) | 37 GB | 143 GB | 180 GB | No |
| Q3_K_M (3-bit) | 29 GB | 143 GB | 173 GB | No |
| Q2_K (2-bit) | 22 GB | 143 GB | 166 GB | No |
| GPTQ 4-bit | 37 GB | 143 GB | 180 GB | No |
| AWQ 4-bit | 37 GB | 143 GB | 180 GB | No |
| GGUF IQ2_XS (2-bit) | 20 GB | 143 GB | 164 GB | No |
Note: These are estimates. Actual VRAM usage varies based on model architecture, inference engine (llama.cpp, vLLM, etc.), batch size, and system configuration. KV cache uses a simplified GQA estimation. For MoE models, all expert weights must reside in VRAM even though only a subset is active per token.
如何使用此工具
- 从下拉菜单选择你的 GPU,包括 NVIDIA 消费级显卡、数据中心 GPU 和 Apple Silicon Mac。
- 如果使用多 GPU 配置,选择 GPU 数量(支持 1-8 块)。
- 选择要运行的 LLM 模型,或选择 '自定义' 手动输入参数量。
- 选择量化级别——Q4_K_M 是大多数用户的推荐选择。
- 设置上下文长度——更长的上下文需要更多 KV Cache 显存。
- 查看结果:显存条显示使用量与可用内存对比,附带详细分解和推荐。
本地运行 LLM:显存需求详解
在本地 GPU 上运行大语言模型可获得完全隐私、零 API 成本和离线访问。最大的限制是 GPU 显存(VRAM),每个模型参数都必须加载到显存中。
模型显存占用取决于参数量和量化级别。70B 参数模型在 FP16 下需要约 140GB 显存,但 Q4_K_M 量化后只需约 39GB。
量化通过降低精度来节省显存。GGUF 格式的 Q4_K_M 和 Q5_K_M 是社区公认的最佳平衡点。Q3_K_M 以下质量会明显下降。
MoE 模型(如 DeepSeek R1)虽然每个 Token 只激活部分参数,但所有专家参数都必须加载到显存。KV Cache 随上下文长度增长,长对话会消耗额外显存。
最后更新:2026 年 2 月
常见问题
显存是如何计算的?
显存 = 模型权重(参数量 × 量化后每参数字节数)+ KV Cache(随上下文长度增长)+ 运行时开销(约 500MB)。MoE 模型如 DeepSeek R1 需加载所有专家参数。
应该使用哪种量化?
Q4_K_M 是大多数用户的最佳选择——在质量和显存节省之间取得了良好平衡。Q5_K_M 质量更好但需要更多显存。Q3_K_M 及以下会明显影响输出质量。
可以使用多块 GPU 运行吗?
可以!选择 GPU 数量查看总显存。模型可通过 llama.cpp、vLLM 或 Ollama 等框架分布到多块 GPU 上。但多 GPU 配置会有一些通信开销。