
Gemini 3.1 Pro 定价解析 — 上下文分层、缓存以及如何通过 Crazyrouter 节省成本
title: "Gemini 3.1 Pro 定价解析 — 上下文分层、缓存以及如何通过 Crazyrouter 节省成本" slug: gemini-3-1-pro-pricing summary: "Gemini 3.1 Pro 预览版 API 定价完整解析 — ≤200K 上下文每 MTok 12,>200K 上下文每 MTok 18,上下文缓存,以及 Crazyrouter 节省方案。" tag: 定价 language: en cover_image_url: "https://raw.githubusercontent.com/xujfcn/images/main/blog/covers/claude-sonnet-4-6-pricing.jpg" meta_title: "Gemini 3.1 Pro 定价 2026 — 上下文分层、缓存及 Crazyrouter" meta_description: "完整的 Gemini 3.1 Pro 定价指南。上下文分层定价,缓存价格为 $0.20/MTok,1M 上下文窗口 — 加上 Crazyrouter 折扣。" meta_keywords: "Gemini 3.1 Pro 定价, Google AI API 成本, Gemini API, 上下文缓存, Crazyrouter 折扣" date: "2026-04-27"#
Gemini 3.1 Pro 定价解析 — 上下文分层、缓存以及如何通过 Crazyrouter 节省成本#
Google 的 Gemini 3.1 Pro 预览版是当今功能最强大的大型语言模型之一,提供高达 100 万 token 的上下文窗口、多模态输入支持和强大的推理性能。然而,伴随着强大的功能,每个开发者和团队首先会问的问题是:它实际成本是多少?
与许多按固定 token 费率收费的竞争模型不同,Gemini 3.1 Pro 引入了上下文分层定价结构——这意味着每个 token 的成本会根据您使用了多少 1M 上下文窗口而变化。这是 API 定价方式的一个重大转变,理解它每月可以为您节省数百甚至数千美元。
在本指南中,我们将详细解析 Gemini 3.1 Pro 预览版定价的各个方面:基本费率、上下文分层、缓存折扣、免费层级、接地成本,以及如何通过 Crazyrouter 以 10% 的折扣获取它。我们还将通过实际成本场景,并与 GPT-5.4 和 Claude Sonnet 4.6 进行直接定价比较。
让我们深入了解。
基本定价:上下文分层的输入和输出#
Gemini 3.1 Pro 定价模型的决定性特征是其两层上下文结构。Google 根据您的总提示(输入)是否在 200K token 以内或超出此范围来划分定价。
第一层级:提示 ≤ 200K token#
| 组件 | 每百万 token (MTok) 价格 |
|---|---|
| 输入 | $2.00 |
| 输出 | $12.00 |
第二层级:提示 > 200K token#
| 组件 | 每百万 token (MTok) 价格 |
|---|---|
| 输入 | $4.00 |
| 输出 | $18.00 |
音频输入#
| 组件 | 每百万 token (MTok) 价格 |
|---|---|
| 音频 | $1.00 |
层级边界是200,000 输入上下文 token。一旦您的提示超过该阈值,输入和输出定价都会上涨——输入从每 MTok 4,输出从每 MTok 18。
这很重要,因为 1M 上下文窗口是 Gemini 3.1 Pro 的主要亮点功能之一。如果您使用它来处理整个代码库、长文档或扩展的对话历史记录,您很可能会经常超过 200K 的边界。围绕此层级规划您的提示架构可以带来显著的节省。
对于大多数标准 API 用例——聊天机器人、摘要、中等上下文的代码生成——您将轻松保持在 ≤200K 层级内。更高的层级专为真正需要深度上下文的高级用户设计:法律文档分析、完整代码库审查或多文档研究综合。
音频输入单独定价,无论上下文长度如何,均为每 MTok $1.00,这使得 Gemini 3.1 Pro 成为语音和音频处理工作负载的具有竞争力的选择。
上下文缓存:真正的成本节约器#
上下文缓存是 Gemini 3.1 Pro 定价真正有趣的地方。如果您反复发送相同的长上下文——例如系统提示、参考文档、代码库——您可以将其缓存起来,并在后续请求中支付显著更少的费用。
缓存定价#
| 缓存层级 | 每百万 token (MTok) 价格 |
|---|---|
| ≤ 200K 上下文 | $0.20 |
| > 200K 上下文 | $0.40 |
| 缓存存储 | 每 MTok 每小时 $4.50 |
对于 200K 层级内的提示,缓存的输入 token 仅需每 MTok 2.00 输入费率优惠 90%**。对于 >200K 层级,缓存的 token 成本为每 MTok 4.00 费率降低了 90%。
权衡之处在于每 MTok 每小时 $4.50 的存储成本。这意味着当您在短时间内频繁地对相同上下文发出请求时,缓存是最具成本效益的。
何时缓存有意义#
上下文缓存非常适合以下场景:
- 带有大型系统提示的聊天机器人:如果您的系统提示是 50K token,并且您每小时处理数百次对话,缓存该提示可以节省大量成本。
- 文档问答系统:上传文档一次,缓存它,然后对其运行多次查询。
- 代码助手:缓存代码库,让用户在整个会话中询问有关代码库的问题。
- 批量处理:当使用共享上下文对许多输入进行相同的分析时。
何时缓存没有意义#
如果您发送的是没有重复上下文的独特、一次性提示,缓存会增加存储成本而无益。盈亏平衡点取决于您的请求频率——通常,如果您每小时重复使用相同上下文超过几次,缓存就能收回成本。
快速计算:缓存投资回报率#
假设您有一个 100K token 的上下文,您在一小时内查询 50 次:
不使用缓存:
- 50 次请求 × 100K 输入 token = 5M 输入 token
- 成本:5 × 10.00
使用缓存:
- 1 次未缓存请求:100K token × 0.20
- 49 次缓存请求:4.9M token × 0.98
- 存储:0.1 MTok × 0.45
- 总计:$1.63
在这种情况下,这相当于节省了 84%。您对缓存上下文发出的请求越多,经济效益就越好。
免费层级:先试后付#
Google 为 Gemini 3.1 Pro 预览版提供了免费层级,这对于原型开发和轻量级开发来说已经足够慷慨:
- 速率限制:低于付费层级(适用特定的 RPM/TPM 限制)
- 访问:通过 Google AI Studio 和 Gemini API 提供
- 限制:免费层级请求可能用于模型改进;不建议用于生产或敏感数据
免费层级让您无需投入任何预算即可测试 Gemini 3.1 Pro 的能力——包括其推理、代码生成、多模态理解以及巨大的上下文窗口。这是在扩展之前,针对您的特定用例对模型进行基准测试的可靠方法。
对于生产工作负载,您需要升级到付费层级以获得更高的速率限制、数据隐私保证和 SLA 覆盖。
与 Google 搜索进行接地#
Gemini 3.1 Pro 支持与 Google 搜索进行接地,这使得模型能够获取实时网络信息,以提高事实准确性并提供最新响应。
接地定价#
| 组件 | 价格 |
|---|---|
| 接地请求 | 每 1,000 次请求 $35.00 |
| 每日免费额度 | 每日 1,500 次请求 (RPD) |
每项接地请求 $0.035,如果您大规模使用,这将增加一层可观的成本。然而,每日 1,500 次免费请求为适度使用提供了不错的缓冲。
接地对于以下场景特别有价值:
- 新闻和时事:关于模型训练数据之外的最新发展的查询
- 事实核查:根据实时网络来源验证声明
- 研究助手:获取最新的论文、文章或数据点
如果您的应用程序不需要实时信息,您可以完全跳过接地并避免此成本。对于需要的应用程序,除了您的 token 成本外,请预算每 1,000 次接地查询大约 $35。
通过 Crazyrouter 以 9 折获取 Gemini 3.1 Pro#
Crazyrouter 以 Google 官方定价的 90% 提供 Gemini 3.1 Pro 预览版访问权限——所有 token 成本均享受 10% 的固定折扣。
Crazyrouter 的 Gemini 3.1 Pro 定价#
| 组件 | Google 官方 | Crazyrouter (9 折) |
|---|---|---|
| 输入 ≤200K | $2.00/MTok | $1.80/MTok |
| 输出 ≤200K | $12.00/MTok | $10.80/MTok |
| 输入 >200K | $4.00/MTok | $3.60/MTok |
| 输出 >200K | $18.00/MTok | $16.20/MTok |
集成是无缝的——Crazyrouter 使用与 OpenAI 兼容的 API 格式,因此您只需更改代码中的两行即可切换。
Python (OpenAI SDK)#
from openai import OpenAI
client = OpenAI(
api_key="your-crazyrouter-api-key",
base_url="https://crazyrouter.com/v1"
)
response = client.chat.completions.create(
model="gemini-3.1-pro-preview",
messages=[
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Explain context-tiered pricing in AI APIs."}
],
max_tokens=2048
)
print(response.choices[0].message.content)
cURL#
curl https://crazyrouter.com/v1/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer your-crazyrouter-api-key" \
-d '{
"model": "gemini-3.1-pro-preview",
"messages": [
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Explain context-tiered pricing in AI APIs."}
],
"max_tokens": 2048
}'
无需更改 SDK,无需新库,也无迁移烦恼。如果您的应用程序已经使用 OpenAI SDK 格式,您只需修改两行代码即可在每次 Gemini 3.1 Pro 请求中享受 10% 的折扣。
实际成本场景#
让我们通过三个实际场景来理解这些数字。
场景 1:客户支持聊天机器人#
设置:10K token 系统提示,平均 2K token 用户消息,1K token 响应,每日 5,000 次对话。
每月 token 使用量:
- 输入:(10K + 2K) × 5,000 × 30 = 1.8B token = 1,800 MTok
- 输出:1K × 5,000 × 30 = 150M token = 150 MTok
Google 直购:
- 输入:1,800 × 3,600
- 输出:150 × 1,800
- 总计:每月 $5,400
Crazyrouter (9 折):
- 输入:1,800 × 3,240
- 输出:150 × 1,620
- **总计:每月 540)
如果对系统提示使用上下文缓存,输入成本会进一步降低——与每次重新发送相比,将 10K 系统提示缓存到所有 15 万次每日请求中,成本将微乎其微。
场景 2:法律文档分析器(长上下文)#
设置:500K token 法律文档(>200K 层级),5K token 查询,10K token 分析输出,每日 200 次分析。
每月 token 使用量:
- 输入:505K × 200 × 30 = 3.03B token = 3,030 MTok (>200K 层级)
- 输出:10K × 200 × 30 = 60M token = 60 MTok
Google 直购:
- 输入:3,030 × 12,120
- 输出:60 × 1,080
- 总计:每月 $13,200
Crazyrouter (9 折):
- 输入:3,030 × 10,908
- 输出:60 × 972
- **总计:每月 1,320)
此场景突显了上下文层级的重要性。每份文档 500K token,您将稳居 >200K 定价层级。在此处,为会话中的重复查询缓存文档将显著降低成本。
场景 3:带有代码上下文的开发者工具#
设置:80K token 代码库上下文(已缓存),3K token 查询,2K token 响应,每日 1,000 次请求。
每月 token 使用量:
- 缓存输入:80K × 1,000 × 30 = 2.4B token = 2,400 MTok
- 新鲜输入:3K × 1,000 × 30 = 90M token = 90 MTok
- 输出:2K × 1,000 × 30 = 60M token = 60 MTok
Google 直购(带缓存):
- 缓存输入:2,400 × 480
- 新鲜输入:90 × 180
- 输出:60 × 720
- 缓存存储:0.08 MTok × 259.20
- 总计:每月约 $1,639
Crazyrouter(token 成本 9 折):
- 缓存输入:2,400 × 432
- 新鲜输入:90 × 162
- 输出:60 × 648
- 缓存存储:约 $259.20
- **总计:每月约 138)
即使缓存承担了大部分工作,Crazyrouter 的 10% 折扣随着时间的推移仍然能累积可观的节省。
Gemini 3.1 Pro 与 GPT-5.4 与 Claude Sonnet 4.6 对比#
Gemini 3.1 Pro 在价格上与其他领先模型相比如何?
| 模型 | 输入价格 (MTok) | 输出价格 (MTok) | 上下文窗口 | 备注 |
|---|---|---|---|---|
| Gemini 3.1 Pro (≤200K) | $2.00 | $12.00 | 1M tokens | 分层定价,提供缓存 |
| Gemini 3.1 Pro (>200K) | $4.00 | $18.00 | 1M tokens | 深度上下文的更高层级 |
| GPT-5.4 | $2.50 | $10.00 | 256K tokens | 固定定价,无上下文层级 |
| Claude Sonnet 4.6 | $3.00 | $15.00 | 200K tokens | 提供扩展思考功能 |
主要比较#
Gemini 3.1 Pro 与 GPT-5.4 对比:Gemini 在输入成本上胜出(每 MTok 2.50),但在输出上略逊一筹(10.00)。如果您的工作负载是输入密集型(大上下文,短响应),Gemini 更便宜。如果您生成长输出,GPT-5.4 具有优势。Gemini 的 1M 上下文窗口比 GPT-5.4 的 256K 大 4 倍,这对于长文档工作负载来说是一个决定性的优势。
Gemini 3.1 Pro 与 Claude Sonnet 4.6 对比:在 ≤200K 层级内,Gemini 在输入(3.00)和输出(15.00)方面都更便宜。Claude Sonnet 4.6 提供了扩展的思考能力,这可能为复杂的推理任务提供溢价的理由,但就纯粹的每 token 价格而言,Gemini 3.1 Pro 是更经济的选择。
上下文窗口因素:Gemini 的 1M token 上下文是无与伦比的。如果您的用例需要处理超过 200K-256K token 的文档,Gemini 3.1 Pro 实际上是这三者中唯一的选择——即使在 >200K 层级定价(18.00)下,它也支持了竞争对手根本无法实现的工作负载。
缓存优势:Gemini 的上下文缓存价格为 $0.20/MTok,在 GPT-5.4 或 Claude Sonnet 4.6 的标准定价中没有直接的对应。对于重复上下文的工作负载,这可以使 Gemini 3.1 Pro 比其标示价格显著便宜。
主要要点#
-
上下文层级很重要:尽可能保持在 200K 输入 token 以下,以获得 12.00 的费率,而不是 18.00。相应地架构您的提示。
-
缓存是游戏规则的改变者:以 4.50)意味着您应该有策略地缓存——高频率、短持续时间的会话受益最大。
-
1M 上下文窗口是独一无二的:没有其他主要模型提供如此多的上下文。如果您需要它,Gemini 3.1 Pro 是明确的选择——而且分层定价意味着您只在实际使用深度上下文时才支付溢价。
-
免费层级用于原型开发:在投入预算之前测试所有功能。Google 的免费层级足以进行有意义的评估。
-
接地成本会累积:每 1,000 次请求 $35,与 Google 搜索进行接地功能强大但并不便宜。明智地使用每日 1,500 次免费请求,并且只在实时信息确实能提高输出质量时才启用接地。
-
Crazyrouter 节省 10%:10% 的固定折扣,零集成摩擦。对于每月在 Gemini API 调用上花费 500+。
开始使用 Gemini 3.1 Pro 进行构建#
Gemini 3.1 Pro 预览版提供了前沿的性能,其定价结构奖励了智能架构。上下文分层模型,结合积极的缓存折扣,意味着了解定价的开发者可以以令人惊讶的合理成本构建强大的应用程序。
准备好开始了吗?注册 Crazyrouter 以 9 折获取 Gemini 3.1 Pro 官方定价——无合同,无最低消费,每次 API 调用都享受更优惠的费率。您现有的 OpenAI SDK 代码开箱即用。更改您的 base_url,即可上线。
最后更新:2026 年 4 月 27 日
免责声明:定价信息基于发布日期时 Google 公开可用的数据。价格可能随时更改,恕不另行通知。Crazyrouter 折扣费率受 Crazyrouter 当前条款和定价政策的约束。在做出购买决定之前,请务必在 Google AI 和 Crazyrouter 官方网站上核实当前定价。本文仅供参考,不构成财务建议。


