DeepSeek V4 API 价格 2026：官方定价、Flash vs Pro 与免费额度

DeepSeek 2026 年 4 月的价格口径已经从旧的 V3.2/R1，切到 DeepSeek V4 Flash 和 DeepSeek V4 Pro。这两个模型都支持 1M 上下文、最大 384K 输出、OpenAI 兼容 API、Anthropic 兼容 API、JSON 输出和工具调用。

真正影响账单的不是表面输入价，而是缓存命中价。DeepSeek 会把输入 token 拆成「缓存命中」和「缓存未命中」，V4 Flash 的缓存命中输入价只有未命中的 1/50。

官方来源：DeepSeek 模型价格、上下文硬盘缓存和 Anthropic API 兼容。

快速答案：DeepSeek V4 每百万 Token API 价格

如果你只想查 2026 年 DeepSeek V4 官方价格，看这张表即可：

模型	缓存命中输入 / 百万	缓存未命中输入 / 百万	输出 / 百万	上下文	适合场景
deepseek-v4-flash	¥0.02	¥1	¥2	1M	高频聊天、抽取、代码 Agent 子任务
deepseek-v4-pro	¥0.025	¥3	¥6	1M	更难的代码、推理密集 Agent、长程任务

DeepSeek V4 同时支持 OpenAI 兼容接口、Anthropic 兼容接口、JSON 输出、工具调用、Chat Prefix Completion，以及非思考模式下的 FIM Completion。

当前 DeepSeek V4 价格

人民币价格，单位均为每百万 tokens。

模型	缓存命中输入	缓存未命中输入	输出	上下文	备注
deepseek-v4-flash	¥0.02	¥1	¥2	1M	大多数聊天、代码、Agent 工作流默认首选
deepseek-v4-pro	¥0.025	¥3	¥6	1M	当前 2.5 折价格会在北京时间 2026-05-31 23:59 后正式调整为原定价的 1/4

美元价格为：V4 Flash 缓存命中 $0.0028/M、未命中 $0.14/M、输出 $0.28/M；V4 Pro 当前缓存命中 $0.003625/M、未命中 $0.435/M、输出 $0.87/M。DeepSeek 官方说明，V4 Pro 在 2.5 折活动结束后会正式调整为原定价的 1/4。

deepseek-chat 和 deepseek-reasoner 现在是兼容别名，分别对应 V4 Flash 的非思考模式和思考模式，并计划在 2026-07-24 弃用。新接入建议直接使用 deepseek-v4-flash 或 deepseek-v4-pro。

为什么实际账单会低很多

DeepSeek 的扣费公式是：

费用 =
  prompt_cache_hit_tokens * 缓存命中价 / 1,000,000
+ prompt_cache_miss_tokens * 缓存未命中价 / 1,000,000
+ completion_tokens * 输出价 / 1,000,000

缓存默认开启，不需要额外改代码。你可以在 usage 里看两个字段：

usage.prompt_cache_hit_tokens
usage.prompt_cache_miss_tokens

缓存适合有稳定前缀的场景，比如固定 system prompt、AGENTS.md、仓库上下文、产品需求文档、多轮对话历史、长文档问答等。它是尽力而为，不保证 100% 命中。

1000 万 token 为什么可能只花 2 元多

你同事「昨天到今天用了 1000 万 token 才花两块多」这个情况是合理的，但前提是大部分输入命中了缓存，并且输出不大。按 V4 Flash 国内价格举例：

850 万缓存命中输入 * ¥0.02/M = ¥0.17
100 万缓存未命中输入 * ¥1/M = ¥1.00
50 万输出 * ¥2/M = ¥1.00
合计 = ¥2.17

这不是「任意 1000 万 token 都只要 2 元」。如果 1000 万全是缓存未命中输入，成本就是 ¥10；如果还有大量输出，成本会继续增加。关键是你的工作流是否反复复用同一段上下文。

成本估算

工作负载	V4 Flash 无缓存	V4 Flash 输入 85% 命中
1000 万输入 + 100 万输出	¥12	¥3.45
5000 万输入 + 500 万输出	¥60	¥17.25
5 亿输入 + 5000 万输出	¥600	¥172.50

对于 Agent，缓存命中率往往比单价更重要。建议上线前记录 prompt_cache_hit_tokens / (prompt_cache_hit_tokens + prompt_cache_miss_tokens)，再决定用 V4 Flash、V4 Pro，还是其他模型。

V4 Pro 永久降价

DeepSeek V4 Pro 目前显示 2.5 折价格，活动截止到 北京时间 2026-05-31 23:59。官方价格页已经说明，活动结束后 V4 Pro API 价格会正式调整为原定价的 1/4，也就是当前价格不会回到原定价。

价格类型	当前价 / 5月31日后正式价	原定价参考
缓存命中输入	¥0.025/M	¥0.1/M
缓存未命中输入	¥3/M	¥12/M
输出	¥6/M	¥24/M

建议：高频生产流量先用 V4 Flash；复杂代码任务、长程 Agent、需要更强推理的任务，用 V4 Pro 做质量优先的测试和生产路由。

DeepSeek API 免费额度、赠送余额和充值余额

DeepSeek 公共 API 文档没有发布一个长期固定的 V4 免费额度表。官方扣费说明里写的是：费用会从你的充值余额或赠送余额中扣除，并且当两种余额同时存在时，会优先使用赠送余额。

所以做成本规划时，应默认 DeepSeek V4 是按量付费；只有当你自己的平台余额显示有可用赠送额度时，才把它计入免费额度。你也可以通过 /user/balance 接口检查这些字段：

total_balance
granted_balance
topped_up_balance

结论：有些账号或活动可能会出现赠送余额，但不要把它当成长期稳定的免费生产额度。

OpenAI 兼容 API 示例

from openai import OpenAI

client = OpenAI(
    api_key="your-deepseek-api-key",
    base_url="https://api.deepseek.com"
)

response = client.chat.completions.create(
    model="deepseek-v4-flash",
    messages=[
        {"role": "system", "content": "你是一个严谨的编程助手。"},
        {"role": "user", "content": "分析这个仓库结构。"}
    ],
)

print(response.choices[0].message.content)
print(response.usage.prompt_cache_hit_tokens)
print(response.usage.prompt_cache_miss_tokens)

如果要接入 Claude Code 这类 Anthropic 生态工具：

export ANTHROPIC_BASE_URL=https://api.deepseek.com/anthropic
export ANTHROPIC_AUTH_TOKEN=your-deepseek-api-key

怎么选

场景	建议
高频聊天、摘要、抽取	V4 Flash
编程 Agent，重复读取仓库上下文	V4 Flash 起步，看缓存命中率
更难的自治 Agent / 长程代码任务	V4 Pro，质量优先时使用
图像或音频输入	选其他多模态模型
强合规/数据出境敏感	先做法务和数据驻留评估

DeepSeek V4 API 价格 2026：官方定价、Flash vs Pro 与免费额度

快速答案：DeepSeek V4 每百万 Token API 价格

当前 DeepSeek V4 价格

为什么实际账单会低很多

1000 万 token 为什么可能只花 2 元多

成本估算

V4 Pro 永久降价

DeepSeek API 免费额度、赠送余额和充值余额

OpenAI 兼容 API 示例

怎么选

相关文章

2026 国产大模型 API 价格对比：GLM-5.1、MiniMax M3、Qwen3.7、DeepSeek V4 与 MiMo

Gemini 3.5 Flash vs DeepSeek V4：API 价格、Agent 场景和选型建议

AI Coding Agent 成本对比 2026：Codex、Claude Code、Cursor、DeepSeek、GPT-5.5