DevTk.AI

LLM 显存计算器

计算本地运行 LLM 所需的 GPU 显存。检查你的显卡能否运行任何模型。

Total: 24 GB VRAM

0.56 bytes/param

VRAM Estimation

VRAM Usage180 GB / 24 GB (751.5%)
EXCEEDS VRAM by 156 GB
Model Weights
37 GB
70B x 0.56 B/param
KV Cache
143 GB
4,096 ctx length
Overhead
0.50 GB
Runtime + CUDA kernels
NO

This model does not fit. You need 156 GB more VRAM.

Recommendation

This model is too large even at the lowest quantization for your current GPU setup. Consider using more GPUs or a GPU with more VRAM.

Quantization Comparison

QuantizationModel Size+ KV CacheTotal VRAMFits?
FP16 (16-bit)130 GB143 GB274 GBNo
Q8_0 (8-bit)72 GB143 GB216 GBNo
Q6_K (6-bit)54 GB143 GB198 GBNo
Q5_K_M (5-bit)45 GB143 GB189 GBNo
Q4_K_M (4-bit)37 GB143 GB180 GBNo
Q3_K_M (3-bit)29 GB143 GB173 GBNo
Q2_K (2-bit)22 GB143 GB166 GBNo
GPTQ 4-bit37 GB143 GB180 GBNo
AWQ 4-bit37 GB143 GB180 GBNo
GGUF IQ2_XS (2-bit)20 GB143 GB164 GBNo
GPU: RTX 4090 (24 GB)Model: Llama 3.3 70BQuant: Q4_K_M (4-bit)Context: 4,096 tokens

Note: These are estimates. Actual VRAM usage varies based on model architecture, inference engine (llama.cpp, vLLM, etc.), batch size, and system configuration. KV cache uses a simplified GQA estimation. For MoE models, all expert weights must reside in VRAM even though only a subset is active per token.

如何使用此工具

  1. 从下拉菜单选择你的 GPU,包括 NVIDIA 消费级显卡、数据中心 GPU 和 Apple Silicon Mac。
  2. 如果使用多 GPU 配置,选择 GPU 数量(支持 1-8 块)。
  3. 选择要运行的 LLM 模型,或选择 '自定义' 手动输入参数量。
  4. 选择量化级别——Q4_K_M 是大多数用户的推荐选择。
  5. 设置上下文长度——更长的上下文需要更多 KV Cache 显存。
  6. 查看结果:显存条显示使用量与可用内存对比,附带详细分解和推荐。

本地运行 LLM:显存需求详解

在本地 GPU 上运行大语言模型可获得完全隐私、零 API 成本和离线访问。最大的限制是 GPU 显存(VRAM),每个模型参数都必须加载到显存中。

模型显存占用取决于参数量和量化级别。70B 参数模型在 FP16 下需要约 140GB 显存,但 Q4_K_M 量化后只需约 39GB。

量化通过降低精度来节省显存。GGUF 格式的 Q4_K_M 和 Q5_K_M 是社区公认的最佳平衡点。Q3_K_M 以下质量会明显下降。

MoE 模型(如 DeepSeek R1)虽然每个 Token 只激活部分参数,但所有专家参数都必须加载到显存。KV Cache 随上下文长度增长,长对话会消耗额外显存。

最后更新:2026 年 2 月

常见问题

显存是如何计算的?

显存 = 模型权重(参数量 × 量化后每参数字节数)+ KV Cache(随上下文长度增长)+ 运行时开销(约 500MB)。MoE 模型如 DeepSeek R1 需加载所有专家参数。

应该使用哪种量化?

Q4_K_M 是大多数用户的最佳选择——在质量和显存节省之间取得了良好平衡。Q5_K_M 质量更好但需要更多显存。Q3_K_M 及以下会明显影响输出质量。

可以使用多块 GPU 运行吗?

可以!选择 GPU 数量查看总显存。模型可通过 llama.cpp、vLLM 或 Ollama 等框架分布到多块 GPU 上。但多 GPU 配置会有一些通信开销。

相关工具