Gemini API 价格 2026（3月更新）：3.1 Pro、2.5 Flash + 免费额度

Google 的 Gemini 在 2026 年已经是 AI API 市场里最不容忽视的选手。2 月份新发布的 Gemini 3.1 Pro（ARC-AGI-2 得分 77.1%，原生视频理解）让 Google 在推理能力上直追 GPT-5 和 Claude Opus——定价 $2.00/百万 token 仍然极具竞争力。加上 百万级上下文窗口 和 行业最慷慨的免费额度，没有其他厂商能提供这样的组合。

这篇文章会帮你彻底搞清楚 Gemini 全系列（含新款 3.1 Pro）的定价结构、免费层细节、超长上下文溢价机制、与竞品的成本对比，以及在什么场景下 Gemini 是你的最优选择。

Gemini 2026 模型定价表

截至 2026 年 2 月，Google 提供四个 Gemini API 模型：

模型	输入价格	输出价格	上下文窗口	最大输出	定位
Gemini 3.1 Pro（新）	$2.00/M	$12.00/M	1M	16K	最强推理、原生视频、多模态
Gemini 2.5 Pro	$1.25/M	$10.00/M	1M	64K	旗舰级，复杂推理，长输出
Gemini 2.5 Flash	$0.15/M	$0.60/M	1M	64K	高性价比，高吞吐
Gemini 2.0 Flash	$0.10/M	$0.40/M	1M	8K	超低价，简单任务

价格单位：美元/百万 token (M = Million)。来源：Google AI Studio 官方定价。更新日期：2026年2月27日

新品：Gemini 3.1 Pro（2026年2月发布）

Gemini 3.1 Pro 是 Google 最新旗舰模型，主要亮点：

ARC-AGI-2 得分 77.1% — Google 全系列模型中最高的推理分数
原生视频理解 — 直接通过 API 处理和分析视频内容
音频输入 — 无需预处理即可转录和分析音频
Grounding — 通过 Google 搜索将模型输出与真实数据连接

定价为 $2.00/$12.00（略高于 Gemini 2.5 Pro 的 $1.25/$10.00），主要取舍是价格和最大输出：3.1 Pro 目前为 16K token/响应 vs 2.5 Pro 的 64K。推理重型和多模态任务选 3.1 Pro；需要长输出或更低成本时用 2.5 Pro。

几个要点

四款模型都支持百万级上下文窗口，这在行业里是独一档的。GPT-5 的上下文窗口是 400K，Claude 系列只有 200K
2.5 Pro 输入价 $1.25 和 GPT-5 完全相同，3.1 Pro 为 $2.00，两者都拥有 2.5 倍于 GPT-5 的上下文容量
2.5 Flash 的 $0.15/$0.60 几乎是市面上有百万级上下文的模型中最低的定价
2.0 Flash 更便宜但最大输出只有 8K，适合简单分类、提取类任务

免费额度详解——Gemini 最大的差异化优势

这是很多开发者不知道的：Gemini 的免费层是所有主流 AI API 中最慷慨的，没有之一。

模型	免费额度	限制
Gemini 3.1 Pro	25 RPM	每分钟 25 次请求，不限日用量
Gemini 2.5 Pro	25 RPM	每分钟 25 次请求，不限日用量
Gemini 2.5 Flash	500 RPM	每分钟 500 次请求
Gemini 2.0 Flash	500 RPM	每分钟 500 次请求

来对比一下其他厂商的免费政策：

OpenAI：没有免费层。新账号有 $5 试用额度，用完即止
Anthropic：没有免费层。需要预充值才能调用
DeepSeek：注册送少量额度，但不是持续免费

Gemini 的免费额度是持续的、不限期的。这意味着什么？

你可以用 Flash 500 RPM 的免费额度跑完整个开发和测试阶段，一分钱不花
个人项目如果日活不高，Flash 免费层可能完全够用——每分钟 500 次请求，一天就是 72 万次
Pro 的 25 RPM 对于开发调试也绑绑有余

对于个人开发者和初创团队来说，Gemini 的免费层意味着你可以零成本验证产品原型。 这在其他平台上是做不到的。

超长上下文定价——注意隐藏的 2 倍溢价

Gemini 百万级上下文是最大卖点，但有一个很多人忽略的细节：当输入超过 200K token 时，价格翻倍。

Gemini 2.5 Pro 上下文定价

上下文范围	输入价格	输出价格
0 - 200K token	$1.25/M	$10.00/M
200K - 1M token	$2.50/M	$15.00/M

Gemini 2.5 Flash 上下文定价

上下文范围	输入价格	输出价格
0 - 200K token	$0.15/M	$0.60/M
200K - 1M token	$0.30/M	$1.20/M

这意味着什么？

举个实际例子：你要用 2.5 Pro 处理一份 50 万 token 的长文档（大约 400 页 PDF）。其中前 200K 按 $1.25 计费，后 300K 按 $2.50 计费。一次请求的输入成本：

前 200K：0.2M x $1.25 = $0.25
后 300K：0.3M x $2.50 = $0.75
总计：$1.00 输入成本

加上输出（假设 2000 token），单次请求总成本约 $1.02。不算便宜，但考虑到你在处理 50 万 token 的上下文——这是 Claude 和 GPT-5 物理上做不到的事（它们的上下文窗口根本装不下）。

关键判断标准： 如果你的平均输入在 200K 以内，Gemini 的定价和 GPT-5 完全一样。只有在使用超长上下文时才需要考虑溢价。对大多数应用来说，200K 的上下文已经足够了。

Gemini vs GPT-5 vs Claude vs DeepSeek 价格对比

这是开发者最关心的——同级别模型之间，价格差多少？

旗舰级对比

模型	厂商	输入价格	输出价格	上下文
Gemini 3.1 Pro	Google	$2.00	$12.00	1M
Gemini 2.5 Pro	Google	$1.25	$10.00	1M
GPT-5	OpenAI	$1.25	$10.00	400K
Claude Sonnet 4.6	Anthropic	$3.00	$15.00	200K
Claude Opus 4.6	Anthropic	$5.00	$25.00	200K

分析： Gemini 3.1 Pro（$2.00/$12.00）比 2.5 Pro（$1.25/$10.00）略贵，但推理能力更强。2.5 Pro 和 GPT-5 输入输出价格完全相同，而 Gemini 的上下文窗口是 GPT-5 的 2.5 倍。Claude Sonnet 4.6 的输入价格仍然是 Gemini 2.5 Pro 的 2.4 倍。

经济型对比

模型	厂商	输入价格	输出价格	上下文
Gemini 2.0 Flash	Google	$0.10	$0.40	1M
Gemini 2.5 Flash	Google	$0.15	$0.60	1M
DeepSeek V3.2	DeepSeek	$0.27	$1.10	128K
Claude Haiku 4.5	Anthropic	$1.00	$5.00	200K

分析： Gemini Flash 系列在经济型市场的定价非常激进。2.5 Flash 比 DeepSeek V3.2 还便宜将近一半（输入 $0.15 vs $0.27），而且上下文窗口是 DeepSeek 的 8 倍。Claude Haiku 在这一档里完全不具备价格竞争力。

综合价格倍数（以 Gemini 2.5 Flash 为基准）

模型	输入比 Flash 贵	输出比 Flash 贵
Gemini 2.5 Flash	1x（基准）	1x（基准）
DeepSeek V3.2	1.8x	1.8x
Gemini 2.5 Pro	8.3x	16.7x
GPT-5	8.3x	16.7x
Claude Sonnet 4.6	20x	25x
Claude Opus 4.6	33x	41.7x

月费估算——三种典型场景

场景 1：个人开发者（轻度使用）

每天 10 万输入 + 5 万输出 token

模型	月费
Gemini 2.5 Flash	$0.99
Gemini 2.0 Flash	$0.90
DeepSeek V3.2	$2.46
Gemini 3.1 Pro	$18.75
Gemini 2.5 Pro	$18.75
GPT-5	$18.75
Claude Sonnet 4.6	$31.50

实际上： 个人开发者用 Gemini Flash 的免费层就够了，月费 $0。

场景 2：初创团队（中度使用）

每天 100 万输入 + 50 万输出 token

模型	月费
Gemini 2.5 Flash	$9.90
Gemini 2.0 Flash	$9.00
DeepSeek V3.2	$24.60
Gemini 3.1 Pro	$187.50
Gemini 2.5 Pro	$187.50
GPT-5	$187.50
Claude Sonnet 4.6	$315.00

场景 3：企业级（重度使用）

每天 1000 万输入 + 500 万输出 token

模型	月费
Gemini 2.5 Flash	$99
Gemini 2.0 Flash	$90
DeepSeek V3.2	$246
Gemini 3.1 Pro	$1,875
Gemini 2.5 Pro	$1,875
GPT-5	$1,875
Claude Sonnet 4.6	$3,150

重度使用场景下，Gemini 2.5 Flash 只要 $99/月，而 Claude Sonnet 要 $3,150——差了 32 倍。

精确计算你自己的 API 月费？用 AI 模型价格计算器。

什么场景选 Gemini？

Gemini 不是万能的，但在以下四个场景里它是最优解：

1. 长文档处理和分析

如果你的应用需要处理超过 200K token 的输入——整本书、大型代码库、多份合同对比——Gemini 是唯一的选择。GPT-5 的 400K 上下文只有 Gemini 的 40%，Claude 的 200K 更是只有五分之一。

典型场景：法律文档审阅、学术论文分析、大型代码库重构建议。

2. 零成本开发和原型验证

利用免费层的 Flash 500 RPM，你可以在不花一分钱的情况下完成：

产品 MVP 的全部开发和测试
内部工具的日常运行（如果用量不大）
学习和实验各种 AI 应用架构

其他厂商做不到这一点。

3. 高吞吐低成本任务

内容分类、情感分析、数据清洗、格式转换——这类任务不需要顶级推理能力，但需要大量调用。2.5 Flash 的 $0.15/$0.60 和 2.0 Flash 的 $0.10/$0.40 是这类场景的最优价格。

4. Google Cloud 生态集成

如果你的基础设施已经在 Google Cloud 上（GKE、BigQuery、Vertex AI），使用 Gemini 可以享受统一计费、更低延迟、以及 Vertex AI 平台的企业级 SLA 和安全合规能力。通过 Vertex AI 调用 Gemini 还支持数据不出区域的隐私保证。

什么时候不选 Gemini？

需要最强指令跟随和创意输出：Claude 在这方面仍然有明显优势
需要最丰富的第三方工具生态：OpenAI 的社区生态最完善
主要面向中国用户且预算紧张：DeepSeek 中文能力更强、国内访问无障碍、价格也更低
需要高级推理（数学/逻辑）：o3 和 DeepSeek R1 在纯推理任务上更强

快速上手代码示例

Python 调用 Gemini API

import google.generativeai as genai

genai.configure(api_key="your-gemini-api-key")

# 使用 2.5 Pro
model = genai.GenerativeModel("gemini-2.5-pro")
response = model.generate_content("用 Python 实现一个高效的 LRU 缓存")
print(response.text)

使用 2.5 Flash（推荐日常开发）

model = genai.GenerativeModel("gemini-2.5-flash")

# 带系统提示词
response = model.generate_content(
    "分析这段代码的性能瓶颈并给出优化建议：\n\n" + your_code,
    generation_config=genai.GenerationConfig(
        temperature=0.3,
        max_output_tokens=4096
    )
)
print(response.text)

JavaScript / TypeScript（使用 REST API）

const API_KEY = 'your-gemini-api-key';
const MODEL = 'gemini-2.5-flash';

const response = await fetch(
  `https://generativelanguage.googleapis.com/v1beta/models/${MODEL}:generateContent?key=${API_KEY}`,
  {
    method: 'POST',
    headers: { 'Content-Type': 'application/json' },
    body: JSON.stringify({
      contents: [{
        parts: [{ text: '用 TypeScript 写一个类型安全的事件总线' }]
      }]
    })
  }
);

const data = await response.json();
console.log(data.candidates[0].content.parts[0].text);

处理超长文档（百万级上下文）

model = genai.GenerativeModel("gemini-2.5-pro")

# 上传长文档
long_document = open("large_document.txt").read()  # 假设 50 万 token

response = model.generate_content([
    "请详细总结以下文档的核心观点，并列出关键数据：",
    long_document
])
print(response.text)

这种量级的输入在 Claude（200K 上限）和 GPT-5（400K 上限）上根本做不到。

省钱技巧

1. 善用免费层

开发测试阶段全部用免费额度。Flash 500 RPM 的免费层对于绝大多数开发场景绰绰有余。只有上线跑生产流量后才需要切换到付费层。

2. 默认用 Flash，只在必要时升级 Pro

2.5 Flash 的能力已经可以覆盖 80% 以上的日常任务。只有在需要最强推理能力（复杂代码生成、多步分析、困难数学题）时才升级到 Pro。输入成本差 8 倍、输出差 17 倍——这不是小数目。

3. 控制上下文长度在 200K 以内

超过 200K 后价格翻倍。如果你的输入接近这个阈值，考虑：

预处理文档，只提取相关段落
分段处理后汇总，而不是一次性塞入全部内容
用 Token 计数器在发送前测量实际 token 数

4. 批量请求合并

如果你有多个短 prompt 需要处理，考虑合并为一个请求（在 prompt 中列出多个子任务），减少请求次数和 overhead。

5. 利用结构化输出减少 token 浪费

Gemini 支持 JSON 模式输出。相比自由文本，结构化输出通常更短，你需要支付的输出 token 更少：

response = model.generate_content(
    "提取以下文本中的所有人名和职位，以 JSON 格式返回",
    generation_config=genai.GenerationConfig(
        response_mime_type="application/json"
    )
)

6. 关注 Google Cloud 的承诺使用折扣

如果你通过 Vertex AI 使用 Gemini 且月用量较大，可以与 Google Cloud 销售团队谈承诺使用折扣（CUD），通常能在标准价格基础上再省 20-30%。

总结

2026 年的 Gemini API 有四大核心竞争力：

Gemini 3.1 Pro 新旗舰——ARC-AGI-2 77.1%，原生视频理解，推理能力直追 GPT-5 和 Claude Opus
百万级上下文——行业独一档，处理超长文档没有替代品
免费层慷慨——Pro 和 Flash 都有免费额度，个人开发者可以零成本起步
Flash 系列极致性价比——$0.15/$0.60 的定价比 DeepSeek V3.2 还便宜，且上下文窗口大 8 倍

如果你在做的项目涉及长文档处理、需要零成本验证原型、或者需要大量低成本 API 调用，Gemini 应该排在你的评估清单第一位。

对于已经在用 GPT-5 的开发者，值得考虑把部分请求迁移到 Gemini：旗舰级定价完全一致，但你能获得更大的上下文窗口。

对于预算有限的个人开发者和小团队：先用免费层把产品跑起来，Flash 处理高吞吐任务，3.1 Pro 处理推理重型任务，2.5 Pro 用于需要长输出的场景。

相关资源：

AI API 价格对比 2026 — 7 大厂商 25+ 模型完整定价一览
AI 模型价格计算器 — 在线模拟你的月度 API 开支
DeepSeek API 价格指南 — 另一个极致性价比选择
Claude API 价格指南 — 高端 API 的省钱攻略
Grok API 定价指南 2026 — Grok 3 $3/M、Mini $0.30/M，$25 免费额度
Mistral API 定价指南 2026 — Large 3 $2/M、Small 3.1 $0.20/M，欧盟 GDPR 合规
Gemini 3.1 Pro 价格指南 — $2.00/M，ARC-AGI-2 77.1%，百万级上下文
GPT-5.3 Codex 价格指南 — $2/M，Agent 编程，200K 上下文，32K 输出