DeepSeek V4 API 价格 2026:官方定价、Flash vs Pro 与免费额度
2026年5月更新。DeepSeek V4 官方 API 价格:V4 Flash 缓存命中输入 ¥0.02/M,未命中 ¥1/M,输出 ¥2/M;V4 Pro 当前 ¥0.025/¥3/¥6,5月31日后正式调整为原定价 1/4。含免费额度说明和缓存命中成本拆解。
DeepSeek 2026 年 4 月的价格口径已经从旧的 V3.2/R1,切到 DeepSeek V4 Flash 和 DeepSeek V4 Pro。这两个模型都支持 1M 上下文、最大 384K 输出、OpenAI 兼容 API、Anthropic 兼容 API、JSON 输出和工具调用。
真正影响账单的不是表面输入价,而是缓存命中价。DeepSeek 会把输入 token 拆成「缓存命中」和「缓存未命中」,V4 Flash 的缓存命中输入价只有未命中的 1/50。
官方来源:DeepSeek 模型价格、上下文硬盘缓存 和 Anthropic API 兼容。
快速答案:DeepSeek V4 每百万 Token API 价格
如果你只想查 2026 年 DeepSeek V4 官方价格,看这张表即可:
| 模型 | 缓存命中输入 / 百万 | 缓存未命中输入 / 百万 | 输出 / 百万 | 上下文 | 适合场景 |
|---|---|---|---|---|---|
| deepseek-v4-flash | ¥0.02 | ¥1 | ¥2 | 1M | 高频聊天、抽取、代码 Agent 子任务 |
| deepseek-v4-pro | ¥0.025 | ¥3 | ¥6 | 1M | 更难的代码、推理密集 Agent、长程任务 |
DeepSeek V4 同时支持 OpenAI 兼容接口、Anthropic 兼容接口、JSON 输出、工具调用、Chat Prefix Completion,以及非思考模式下的 FIM Completion。
当前 DeepSeek V4 价格
人民币价格,单位均为每百万 tokens。
| 模型 | 缓存命中输入 | 缓存未命中输入 | 输出 | 上下文 | 备注 |
|---|---|---|---|---|---|
| deepseek-v4-flash | ¥0.02 | ¥1 | ¥2 | 1M | 大多数聊天、代码、Agent 工作流默认首选 |
| deepseek-v4-pro | ¥0.025 | ¥3 | ¥6 | 1M | 当前 2.5 折价格会在北京时间 2026-05-31 23:59 后正式调整为原定价的 1/4 |
美元价格为:V4 Flash 缓存命中 $0.0028/M、未命中 $0.14/M、输出 $0.28/M;V4 Pro 当前缓存命中 $0.003625/M、未命中 $0.435/M、输出 $0.87/M。DeepSeek 官方说明,V4 Pro 在 2.5 折活动结束后会正式调整为原定价的 1/4。
deepseek-chat 和 deepseek-reasoner 现在是兼容别名,分别对应 V4 Flash 的非思考模式和思考模式,并计划在 2026-07-24 弃用。新接入建议直接使用 deepseek-v4-flash 或 deepseek-v4-pro。
为什么实际账单会低很多
DeepSeek 的扣费公式是:
费用 =
prompt_cache_hit_tokens * 缓存命中价 / 1,000,000
+ prompt_cache_miss_tokens * 缓存未命中价 / 1,000,000
+ completion_tokens * 输出价 / 1,000,000
缓存默认开启,不需要额外改代码。你可以在 usage 里看两个字段:
usage.prompt_cache_hit_tokens
usage.prompt_cache_miss_tokens
缓存适合有稳定前缀的场景,比如固定 system prompt、AGENTS.md、仓库上下文、产品需求文档、多轮对话历史、长文档问答等。它是尽力而为,不保证 100% 命中。
1000 万 token 为什么可能只花 2 元多
你同事「昨天到今天用了 1000 万 token 才花两块多」这个情况是合理的,但前提是大部分输入命中了缓存,并且输出不大。按 V4 Flash 国内价格举例:
850 万缓存命中输入 * ¥0.02/M = ¥0.17
100 万缓存未命中输入 * ¥1/M = ¥1.00
50 万输出 * ¥2/M = ¥1.00
合计 = ¥2.17
这不是「任意 1000 万 token 都只要 2 元」。如果 1000 万全是缓存未命中输入,成本就是 ¥10;如果还有大量输出,成本会继续增加。关键是你的工作流是否反复复用同一段上下文。
成本估算
| 工作负载 | V4 Flash 无缓存 | V4 Flash 输入 85% 命中 |
|---|---|---|
| 1000 万输入 + 100 万输出 | ¥12 | ¥3.45 |
| 5000 万输入 + 500 万输出 | ¥60 | ¥17.25 |
| 5 亿输入 + 5000 万输出 | ¥600 | ¥172.50 |
对于 Agent,缓存命中率往往比单价更重要。建议上线前记录 prompt_cache_hit_tokens / (prompt_cache_hit_tokens + prompt_cache_miss_tokens),再决定用 V4 Flash、V4 Pro,还是其他模型。
V4 Pro 永久降价
DeepSeek V4 Pro 目前显示 2.5 折价格,活动截止到 北京时间 2026-05-31 23:59。官方价格页已经说明,活动结束后 V4 Pro API 价格会正式调整为原定价的 1/4,也就是当前价格不会回到原定价。
| 价格类型 | 当前价 / 5月31日后正式价 | 原定价参考 |
|---|---|---|
| 缓存命中输入 | ¥0.025/M | ¥0.1/M |
| 缓存未命中输入 | ¥3/M | ¥12/M |
| 输出 | ¥6/M | ¥24/M |
建议:高频生产流量先用 V4 Flash;复杂代码任务、长程 Agent、需要更强推理的任务,用 V4 Pro 做质量优先的测试和生产路由。
DeepSeek API 免费额度、赠送余额和充值余额
DeepSeek 公共 API 文档没有发布一个长期固定的 V4 免费额度表。官方扣费说明里写的是:费用会从你的充值余额或赠送余额中扣除,并且当两种余额同时存在时,会优先使用赠送余额。
所以做成本规划时,应默认 DeepSeek V4 是按量付费;只有当你自己的平台余额显示有可用赠送额度时,才把它计入免费额度。你也可以通过 /user/balance 接口检查这些字段:
total_balance
granted_balance
topped_up_balance
结论:有些账号或活动可能会出现赠送余额,但不要把它当成长期稳定的免费生产额度。
OpenAI 兼容 API 示例
from openai import OpenAI
client = OpenAI(
api_key="your-deepseek-api-key",
base_url="https://api.deepseek.com"
)
response = client.chat.completions.create(
model="deepseek-v4-flash",
messages=[
{"role": "system", "content": "你是一个严谨的编程助手。"},
{"role": "user", "content": "分析这个仓库结构。"}
],
)
print(response.choices[0].message.content)
print(response.usage.prompt_cache_hit_tokens)
print(response.usage.prompt_cache_miss_tokens)
如果要接入 Claude Code 这类 Anthropic 生态工具:
export ANTHROPIC_BASE_URL=https://api.deepseek.com/anthropic
export ANTHROPIC_AUTH_TOKEN=your-deepseek-api-key
怎么选
| 场景 | 建议 |
|---|---|
| 高频聊天、摘要、抽取 | V4 Flash |
| 编程 Agent,重复读取仓库上下文 | V4 Flash 起步,看缓存命中率 |
| 更难的自治 Agent / 长程代码任务 | V4 Pro,质量优先时使用 |
| 图像或音频输入 | 选其他多模态模型 |
| 强合规/数据出境敏感 | 先做法务和数据驻留评估 |
相关内容:
- DeepSeek V4 配置到 Claude Code 教程 — 终端 Agent 接入
- DeepSeek V4 接入 OpenCode、Codex、Cline、Kilo、Roo — 多工具配置
- 2026 AI API 价格对比 — 对比 OpenAI、Claude、Gemini、小米 MiMo 等模型
- AI 模型定价计算器 — 估算你的月度成本