2026年2月新模型:Gemini 3.1 Pro、GPT-5.3 Codex、Claude 4.6|40+ 大模型价格对比
2月26日更新:Gemini 3.1 Pro $1.25/M、GPT-5.3 Codex $2/M、Claude Opus 4.6 $5/M、DeepSeek V3.2 仅 $0.27/M。40+ 主流 AI 大模型 API 完整定价表,含月费计算器。
2026 年 2 月,AI API 市场再次迎来重磅更新。本月三款新模型集中发布:Google Gemini 3.1 Pro(ARC-AGI-2 得分 77.1%)、OpenAI GPT-5.3 Codex(专攻 Agent 编程,比 GPT-5.2 快 25%)、Anthropic Claude 4.6 全家桶(SWE-bench 80.8%,最大输出 128K)。七大厂商同台竞技,价格差距空前悬殊——最便宜和最贵的模型之间,单价差了上百倍。
这篇文章会帮你理清当前所有主流 AI API 的真实价格、不同场景下的月度成本估算,以及如何在不牺牲质量的前提下大幅削减 API 开支。
2026 年 2 月 AI API 七大厂商最新动态
先快速过一遍各家的产品线(标注 🆕 为本月新发布):
OpenAI 依然是体量最大的玩家。🆕 GPT-5.3 Codex($2/$10 每百万 Token)是专为 Agent 编程打造的新模型,速度比 GPT-5.2 快 25%,200K 上下文、32K 最大输出。旗舰模型 GPT-5 支持 400K 上下文窗口,同时还有 GPT-4.1(百万级上下文)、GPT-4o,以及专注推理的 o3/o4-mini 系列。
Anthropic 本月发布了 🆕 Claude 4.6 家族:Opus 4.6($5/$25)SWE-bench 得分 80.8%,最大输出升级到 128K;Sonnet 4.6($3/$15)是新一代最佳性价比旗舰。Claude 4.5 系列继续在售。
Google 发布了 🆕 Gemini 3.1 Pro($1.25/$10),ARC-AGI-2 得分 77.1%,支持原生视频理解,百万级上下文。Gemini 2.5 Pro 和 Flash 继续作为中端和经济型选择。
xAI 带着 Grok 3 进入 API 市场,中等定价、强推理能力,Mini 版本的价格也相当有诚意。
Meta 坚持开源路线,Llama 3.3 70B 通过各第三方 API 提供商可以用到极低的托管价格。
DeepSeek 继续以价格屠夫的姿态搅动市场。V3.2 和 R1 在国内外开发者中都积累了大量用户。🆕 DeepSeek V4(1T 参数、开源)是最新补充。
Mistral 守住了欧洲市场的生态位,Small 3.1 是目前市面上最便宜的有能力的模型之一。
完整价格表(每百万 Token)
以下是截至 2026 年 2 月的最新定价,所有价格单位为美元/百万 token。
旗舰级 / 最高能力模型
| 模型 | 厂商 | 输入价格 | 输出价格 | 上下文窗口 | 状态 |
|---|---|---|---|---|---|
| 🆕 Claude Opus 4.6 | Anthropic | $5.00 | $25.00 | 200K | 2月新 |
| 🆕 Gemini 3.1 Pro | $1.25 | $10.00 | 1M | 2月新 | |
| Claude Opus 4.5 | Anthropic | $5.00 | $25.00 | 200K | |
| GPT-5 | OpenAI | $1.25 | $10.00 | 400K | |
| Gemini 2.5 Pro | $1.25 | $10.00 | 1M | ||
| Grok 3 | xAI | $3.00 | $15.00 | 128K | |
| o3 | OpenAI | $2.00 | $8.00 | 200K |
旗舰级模型本月迎来重磅更新。Claude Opus 4.6 SWE-bench 得分 80.8%,最大输出升级到 128K tokens,是目前代码能力最强的模型。Gemini 3.1 Pro ARC-AGI-2 得分 77.1%,新增原生视频理解能力,百万级上下文依然是独家优势。
中端 / 最佳性价比模型
| 模型 | 厂商 | 输入价格 | 输出价格 | 上下文窗口 | 状态 |
|---|---|---|---|---|---|
| 🆕 Claude Sonnet 4.6 | Anthropic | $3.00 | $15.00 | 200K | 2月新 |
| 🆕 GPT-5.3 Codex | OpenAI | $2.00 | $10.00 | 200K | 2月新 |
| Claude Sonnet 4.5 | Anthropic | $3.00 | $15.00 | 200K | |
| GPT-4.1 | OpenAI | $2.00 | $8.00 | 1M | |
| GPT-4o | OpenAI | $2.50 | $10.00 | 128K | |
| o4-mini | OpenAI | $1.10 | $4.40 | 200K | |
| DeepSeek R1 | DeepSeek | $0.55 | $2.19 | 128K |
中端档本月新增两位重量级选手。Claude Sonnet 4.6 是新一代最佳性价比旗舰,SWE-bench 79.6%。GPT-5.3 Codex 专为 Agent 编程打造,速度比 GPT-5.2 快 25%,32K 最大输出非常适合代码生成。DeepSeek R1 依然是推理场景的价格之王。
经济型 / 高吞吐模型
| 模型 | 厂商 | 输入价格 | 输出价格 | 上下文窗口 |
|---|---|---|---|---|
| DeepSeek V3.2 | DeepSeek | $0.27 | $1.10 | 128K |
| Llama 3.3 70B | Meta (托管) | $0.88 | $0.88 | 128K |
| Gemini 2.5 Flash | $0.15 | $0.60 | 1M | |
| GPT-4.1 Nano | OpenAI | $0.10 | $0.40 | 1M |
| Mistral Small 3.1 | Mistral | $0.20 | $0.60 | 128K |
| Claude Haiku 4.5 | Anthropic | $1.00 | $5.00 | 200K |
经济型这一档出现了真正的「白菜价」。GPT-4.1 Nano 输入只要 $0.10/百万 token,Gemini 2.5 Flash $0.15,Mistral Small 3.1 $0.20——这些价格放在两年前是不可想象的。对于分类、摘要、数据清洗等高频任务,这些模型已经足够胜任。
想针对自己的使用场景做精确对比?用我们的 AI 模型价格计算器 输入你的实际用量,一键生成各模型的月度成本估算。
不同预算怎么选模型
企业级(月 API 开支 $5,000 以上)
企业场景要的是最高能力和最大稳定性。Claude Opus 4.5 适合需要极致推理能力的场景(复杂分析、长篇内容生成、多步骤 Agent 工作流),GPT-5 则在综合能力和多模态上更均衡。如果你的业务需要处理超长文档,Gemini 2.5 Pro 的百万级上下文窗口是独一无二的。
实际操作建议:不要把所有请求都打到旗舰模型上。用 Opus/GPT-5 处理复杂任务,简单请求路由到 Sonnet/GPT-4.1,能节省 60-80% 的成本。
创业公司(月 $500-$5,000)
这个阶段模型路由策略最关键。主力用 Claude Sonnet 4.5 或 GPT-4.1,它们的质量已经足够支撑绝大多数产品场景。高频低复杂度的任务(意图分类、内容过滤、格式化)交给 Gemini 2.5 Flash 或 DeepSeek V3.2。
如果你的产品主要面向中国用户,DeepSeek 系列值得重点考虑——不仅价格低,中文理解能力也是一线水平,而且国内访问延迟更低。
个人开发者 / 副业项目(月 $500 以下)
预算有限就要把每一分钱花在刀刃上。Gemini 2.5 Flash($0.15/$0.60)和 Mistral Small 3.1($0.20/$0.60)是这个价位的最优选择。DeepSeek V3.2($0.27/$1.10)在中文场景下性价比极高。
开源爱好者可以考虑 Llama 3.3 70B,通过第三方 API 提供商只要 $0.88/百万 token(输入输出同价),如果你的业务是输出密集型的,这个定价结构非常划算。
月度成本实测估算
光看每百万 token 的单价可能没什么直观感受。下面我们按三种典型用量来算一下月度开支(假设输入输出 1:1)。
轻度使用(每月 100 万输入 + 100 万输出 token)
适合个人项目、内部工具原型。
| 模型 | 月费用 |
|---|---|
| Gemini 2.5 Flash | $0.75 |
| Mistral Small 3.1 | $0.80 |
| DeepSeek V3.2 | $1.37 |
| Llama 3.3 70B | $1.76 |
| DeepSeek R1 | $2.74 |
| GPT-5 | $11.25 |
| Claude Opus 4.5 | $30.00 |
中度使用(每月 5000 万输入 + 5000 万输出 token)
适合早期创业产品、B 端 SaaS。
| 模型 | 月费用 |
|---|---|
| Gemini 2.5 Flash | $38 |
| Mistral Small 3.1 | $40 |
| DeepSeek V3.2 | $69 |
| Llama 3.3 70B | $88 |
| DeepSeek R1 | $137 |
| GPT-5 | $563 |
| Claude Opus 4.5 | $1,500 |
重度使用(每月 5 亿输入 + 5 亿输出 token)
适合大规模线上产品。
| 模型 | 月费用 |
|---|---|
| Gemini 2.5 Flash | $375 |
| Mistral Small 3.1 | $400 |
| DeepSeek V3.2 | $685 |
| Llama 3.3 70B | $880 |
| DeepSeek R1 | $1,370 |
| GPT-5 | $5,625 |
| Claude Opus 4.5 | $15,000 |
数据说话:在重度使用场景下,选 Gemini 2.5 Flash 还是 Claude Opus 4.5,月费差了 40 倍。
想精确计算你的实际 prompt 会消耗多少 token?用 Token 计数器 测量你的 prompt 长度,然后在 价格计算器 里模拟不同模型的月度开支。
隐藏成本:比单价更重要的事
裸的每 token 价格只是冰山一角。以下几个因素在实际生产中影响更大:
速率限制(Rate Limits)
几乎所有厂商都对低等级账号设置了 RPM(每分钟请求数)和 TPM(每分钟 token 数)限制。OpenAI 和 Anthropic 都需要一定的历史用量或预付费才能解锁更高的限额。如果你的应用需要突发并发能力,要提前升级 tier 或购买预付额度。
DeepSeek 这方面相对宽松,但在高峰期(尤其是国内流量高峰时段)可能会出现排队和延迟增加的情况,需要做好降级方案。
Prompt 缓存
Anthropic 和 OpenAI 都提供了 prompt 缓存机制——重复使用的 system prompt 在首次调用后会以大幅折扣价格计费。如果你的系统 prompt 很长且在所有请求中复用,缓存可以将输入成本降低 50-90%。这个功能在生产环境中的 ROI 非常高,但很多团队忽略了它。
批量 API(Batch API)
OpenAI 的 Batch API 对非实时任务提供 50% 折扣(24 小时内完成),Anthropic 的 Message Batches API 也有类似优惠。数据标注、内容批量生成、周报汇总等不需要实时响应的任务,永远应该走批量端点。
推理 Token(Reasoning Tokens)
o3、o4-mini、DeepSeek R1 这类推理模型会在内部消耗大量「思考 token」——你要为这些看不见的 token 付费,但它们不会出现在最终输出里。一次 o3 请求实际消耗的 token 可能是可见输出的 5-10 倍。使用推理模型时一定要监控实际 token 消耗,而不是只看输出长度。
国内中转 / 代理成本
对于使用 OpenAI、Anthropic 等海外 API 的国内开发者,还需要考虑中转代理的成本。主流中转服务通常会在原价基础上加 10-30% 的溢价。相比之下,DeepSeek 可以直接国内调用,没有这层额外开支,这也是它在国内开发者中特别受欢迎的原因之一。
6 个实战省钱策略
1. 按复杂度路由请求
不是每个请求都需要用你最贵的模型。建一个简单的分类器(哪怕只是关键词匹配或正则),把简单查询分发给 Flash/Small/V3.2,只把真正复杂的任务升级到 Opus/GPT-5。很多团队实测下来,70-80% 的请求其实用经济型模型就够了。
2. 用好 Prompt 缓存
如果你每次请求都发送相同的 system prompt,务必启用 prompt 缓存。在 Anthropic 的实现中,缓存后的 prompt 后续调用成本降低 90%。在应用层面,也可以对相同或高度相似的查询做结果缓存。
3. 非实时任务走批量 API
内容审核队列、文档处理、批量翻译——任何不需要实时响应的任务都应该用批量 API,直接省一半钱。
4. 优化 Prompt 长度
更短的 prompt 意味着更少的花费。去掉冗余指令,压缩示例,使用结构化格式。一个经过精心工程化的 prompt 可以比初稿短 30-50%,同时产出质量更好。用 Token 计数器 测量每个版本的 prompt 实际 token 消耗,做到心中有数。
5. 对重复任务做微调
如果你在大量调用同一类请求,微调一个小模型通常比用通用大模型更便宜且效果更好。OpenAI 和 Mistral 都提供了微调 API,DeepSeek 的开源版本也可以自行微调部署。
6. 设置预算上限
所有主流厂商都提供用量仪表板和消费告警。设置硬性月度上限,防止开发测试阶段的意外账单。特别是在接入推理模型的初期,token 消耗可能比你预期的高得多。
关于本地部署:另一种省钱路径
如果你有 GPU 资源(自有或租用),本地部署开源模型是绕过 API 定价的另一条路。DeepSeek V3.2 和 Llama 3.3 70B 都是开源的,可以在自己的基础设施上运行。在重度使用场景下,本地部署的总拥有成本可能比 API 调用更低。
不过本地部署需要考虑 GPU 显存需求。想评估你的硬件能否跑得动目标模型?可以用我们的 VRAM 计算器 快速估算所需显存。
总结
2026 年的 AI API 市场,选择比以往任何时候都多,价格区间也比以往任何时候都宽。从 Gemini 2.5 Flash 的 $0.15/百万输入 token 到 Claude Opus 4.5 的 $5.00/百万,差了 33 倍。
管理成本的关键不是死盯一个模型,而是建立一套按任务复杂度智能路由的策略——让旗舰模型只处理真正需要它的请求,把 70% 以上的流量交给经济型模型。
对于国内开发者,DeepSeek 系列目前是综合考虑价格、中文能力、访问便利性后的最优选择之一。 但不要忽略 Gemini Flash 和 Mistral Small 等海外经济型模型——在英文场景下它们的性价比可能更高。
现在就用 AI 模型价格计算器 模拟你的实际使用场景,找到最适合你的模型组合。定价在持续变化,建议每季度重新评估一次你的模型选择。
本月新模型深度解析:
- Gemini 3.1 Pro 价格指南 — $1.25/M,ARC-AGI-2 77.1%,原生视频理解,百万级上下文
- GPT-5.3 Codex 价格指南 — $2/M,Agent 编程专用,200K 上下文,32K 输出
按厂商深度解析:
- DeepSeek API 价格 2026 完全指南 — V3.2 仅 $0.27,附代码示例和迁移教程
- Claude API 价格 2026 完全指南 — Opus/Sonnet/Haiku 对比,Prompt Caching 90% 省钱攻略
- OpenAI API 定价指南 2026 — GPT-5 $1.25/M、GPT-4.1、o3,批量 API 半价优惠
- Google Gemini API 定价指南 2026 — Gemini 2.5 Pro $1.25/M、Flash $0.15/M,免费额度详解
- Grok API 定价指南 2026 — Grok 3 $3/M、Mini $0.30/M,$25 免费额度
- Mistral API 定价指南 2026 — Large 3 $2/M、Small 3.1 $0.20/M,欧盟 GDPR 合规
- AI API 降本 80%:8 个省钱策略 — 含代码示例的实战降本指南
- 自建大模型 vs API 成本对比
- AI API 速率限制对比