2026 国产大模型 API 价格对比:GLM-5.1、MiniMax M3、Qwen3.7、DeepSeek V4 与 MiMo
对比 GLM-5.1、MiniMax M3、Qwen3.7、DeepSeek V4 和小米 MiMo 的最新 API 价格、上下文窗口与 Agent 使用场景。
国产模型已经不能简单归类为“便宜替代品”。现在既有极低价文本路由,也有主打长程编程、原生多模态和百万上下文的高端 Agent 模型。
真正有用的问题不是谁赢了厂商榜单,而是谁能以最低的任务总成本完成你的业务。总成本需要同时计算输出 token、缓存命中、长上下文溢价、延迟、重试次数和人工返工。
最新价格快照
美元价格使用官方国际站 API 价格;人民币价格保留人民币,不用浮动汇率伪装成官方美元价格。
| 模型 | 输入 / 百万 | 缓存输入 / 百万 | 输出 / 百万 | 上下文 | 适合场景 |
|---|---|---|---|---|---|
| DeepSeek V4 Flash | $0.14 | $0.0028 | $0.28 | 1M | 最低成本文本分流 |
| 小米 MiMo-V2.5 | $0.14 | $0.0028 | $0.28 | 1M | 低价多模态 Agent |
| MiniMax M3,输入不超过 512K | $0.30 | $0.06 | $1.20 | 1M | 长上下文多模态 Agent |
| GLM-5.1 | $1.40 | $0.26 | $4.40 | 200K | 长程工程任务 |
| Qwen3.7 Plus,输入不超过 256K | ¥2 | 未列出 | ¥8 | 1M | 阿里云生产工作负载 |
| Qwen3.7 Max | ¥12 | 未列出 | ¥36 | 1M | 高端千问旗舰 |
MiniMax M3 输入超过 512K 后,输入、缓存输入和输出分别为 $0.60、$0.12 和 $2.40/M。Qwen3.7 Plus 输入在 256K 到 1M 时,输入和输出分别为 ¥6 和 ¥24/M。
这轮更新有什么不同
MiniMax M3 把超长上下文价格打下来了
MiniMax M3 于 2026 年 6 月 1 日上线,支持 1M 上下文、图片和视频输入、工具调用以及非常大的最大输出。国际站标准价格只有 $0.30/$1.20,适合长代码库、多模态 Agent 和长输出任务。
GLM-5.1 主打持续执行,不是短题跑分
Z.AI 对 GLM-5.1 的定位是长程 Coding 和 Agent 任务。它的国际站 API 单价明显高于 MiniMax、DeepSeek 和 MiMo,因此必须验证更高的完成率、更少的重试是否能覆盖价格溢价。
千问已经远不止 Qwen 2.5
Qwen3.7 Plus 和 Max 已通过阿里云百炼提供 1M 上下文。Plus 更适合作为性价比主力;Max 属于高价旗舰,只应在质量提升可以被业务评测证明时使用。
推荐路由
| 工作负载 | 建议起点 |
|---|---|
| 分类、抽取、简单工具调用 | DeepSeek V4 Flash |
| 成本敏感的 Coding Agent | 小米 MiMo-V2.5 |
| 长代码库、图片/视频输入、长输出 | MiniMax M3 |
| 多小时工程工作流 | GLM-5.1 |
| 已经使用阿里云技术栈 | Qwen3.7 Plus |
不要把全部流量都打到一个旗舰模型。应该测量任务成功率、总输出 token、重试次数、延迟和人工修复时间。高单价模型可能拥有更低的单任务成本,但必须由你的真实任务集证明。
可以使用 AI 模型价格计算器 对比 canonical 数据中使用美元定价的模型。
已核对官方来源:Z.AI 定价、GLM-5.1 文档、MiniMax 按量定价、MiniMax M3 发布公告、阿里云百炼模型价格、DeepSeek 定价 和 小米 MiMo 定价。