2026 国产大模型 API 价格对比：GLM-5.1、MiniMax M3、Qwen3.7、DeepSeek V4 与 MiMo

国产模型已经不能简单归类为“便宜替代品”。现在既有极低价文本路由，也有主打长程编程、原生多模态和百万上下文的高端 Agent 模型。

真正有用的问题不是谁赢了厂商榜单，而是谁能以最低的任务总成本完成你的业务。总成本需要同时计算输出 token、缓存命中、长上下文溢价、延迟、重试次数和人工返工。

最新价格快照

美元价格使用官方国际站 API 价格；人民币价格保留人民币，不用浮动汇率伪装成官方美元价格。

模型	输入 / 百万	缓存输入 / 百万	输出 / 百万	上下文	适合场景
DeepSeek V4 Flash	$0.14	$0.0028	$0.28	1M	最低成本文本分流
小米 MiMo-V2.5	$0.14	$0.0028	$0.28	1M	低价多模态 Agent
MiniMax M3，输入不超过 512K	$0.30	$0.06	$1.20	1M	长上下文多模态 Agent
GLM-5.1	$1.40	$0.26	$4.40	200K	长程工程任务
Qwen3.7 Plus，输入不超过 256K	¥2	未列出	¥8	1M	阿里云生产工作负载
Qwen3.7 Max	¥12	未列出	¥36	1M	高端千问旗舰

MiniMax M3 输入超过 512K 后，输入、缓存输入和输出分别为 $0.60、$0.12 和 $2.40/M。Qwen3.7 Plus 输入在 256K 到 1M 时，输入和输出分别为 ¥6 和 ¥24/M。

MiniMax M3 于 2026 年 6 月 1 日上线，支持 1M 上下文、图片和视频输入、工具调用以及非常大的最大输出。国际站标准价格只有 $0.30/$1.20，适合长代码库、多模态 Agent 和长输出任务。

Z.AI 对 GLM-5.1 的定位是长程 Coding 和 Agent 任务。它的国际站 API 单价明显高于 MiniMax、DeepSeek 和 MiMo，因此必须验证更高的完成率、更少的重试是否能覆盖价格溢价。

Qwen3.7 Plus 和 Max 已通过阿里云百炼提供 1M 上下文。Plus 更适合作为性价比主力；Max 属于高价旗舰，只应在质量提升可以被业务评测证明时使用。

不要把全部流量都打到一个旗舰模型。应该测量任务成功率、总输出 token、重试次数、延迟和人工修复时间。高单价模型可能拥有更低的单任务成本，但必须由你的真实任务集证明。

可以使用 AI 模型价格计算器对比 canonical 数据中使用美元定价的模型。