免费 LLM 显存计算器 — GPU 内存检测

计算本地运行 LLM 所需的 GPU 显存。检查你的显卡能否运行任何模型。

GPU

Number of GPUs

Total: 32 GB VRAM

LLM Model

Quantization

0.56 bytes/param

Context Length

VRAM Estimation

VRAM Usage1042 GB / 32 GB (3255.2%)

EXCEEDS VRAM by 1010 GB

Model Weights

211 GB

405B x 0.56 B/param

KV Cache

829 GB

4,096 ctx length

Overhead

1.0 GB

Runtime + CUDA kernels

This model does not fit. You need 1010 GB more VRAM.

Recommendation

This model is too large even at the lowest quantization for your current GPU setup. Consider using more GPUs or a GPU with more VRAM.

Quantization Comparison

Quantization	Model Size	+ KV Cache	Total VRAM	Fits?
FP16 (16-bit)	754 GB	829 GB	1585 GB	No
Q8_0 (8-bit)	415 GB	829 GB	1245 GB	No
Q6_K (6-bit)	313 GB	829 GB	1144 GB	No
Q5_K_M (5-bit)	260 GB	829 GB	1091 GB	No
Q4_K_M (4-bit)	211 GB	829 GB	1042 GB	No
Q3_K_M (3-bit)	166 GB	829 GB	996 GB	No
Q2_K (2-bit)	128 GB	829 GB	959 GB	No
GPTQ 4-bit	211 GB	829 GB	1042 GB	No
AWQ 4-bit	211 GB	829 GB	1042 GB	No
GGUF IQ2_XS (2-bit)	117 GB	829 GB	947 GB	No

GPU: RTX 5090 (32 GB)Model: Llama 4 405B (Est)Quant: Q4_K_M (4-bit)Context: 4,096 tokens

Note: These are estimates. Actual VRAM usage varies based on model architecture, inference engine (llama.cpp, vLLM, etc.), batch size, and system configuration. KV cache uses a simplified GQA estimation. For MoE models, all expert weights must reside in VRAM even though only a subset is active per token.

如何使用此工具

从下拉菜单选择你的 GPU，包括 NVIDIA 消费级显卡、数据中心 GPU 和 Apple Silicon Mac。
如果使用多 GPU 配置，选择 GPU 数量（支持 1-8 块）。
选择要运行的 LLM 模型，或选择 '自定义' 手动输入参数量。
选择量化级别——Q4_K_M 是大多数用户的推荐选择。
设置上下文长度——更长的上下文需要更多 KV Cache 显存。
查看结果：显存条显示使用量与可用内存对比，附带详细分解和推荐。

本地运行 LLM：显存需求详解

在本地 GPU 上运行大语言模型可获得完全隐私、零 API 成本和离线访问。最大的限制是 GPU 显存（VRAM），每个模型参数都必须加载到显存中。

模型显存占用取决于参数量和量化级别。70B 参数模型在 FP16 下需要约 140GB 显存，但 Q4_K_M 量化后只需约 39GB。

量化通过降低精度来节省显存。GGUF 格式的 Q4_K_M 和 Q5_K_M 是社区公认的最佳平衡点。Q3_K_M 以下质量会明显下降。

MoE 模型（如 DeepSeek R1）虽然每个 Token 只激活部分参数，但所有专家参数都必须加载到显存。KV Cache 随上下文长度增长，长对话会消耗额外显存。

最后更新：2026 年 3 月

常见问题

显存是如何计算的？

显存 = 模型权重（参数量 × 量化后每参数字节数）+ KV Cache（随上下文长度增长）+ 运行时开销（约 500MB）。MoE 模型如 DeepSeek R1 需加载所有专家参数。

应该使用哪种量化？

Q4_K_M 是大多数用户的最佳选择——在质量和显存节省之间取得了良好平衡。Q5_K_M 质量更好但需要更多显存。Q3_K_M 及以下会明显影响输出质量。

可以使用多块 GPU 运行吗？

可以！选择 GPU 数量查看总显存。模型可通过 llama.cpp、vLLM 或 Ollama 等框架分布到多块 GPU 上。但多 GPU 配置会有一些通信开销。