Gemini 2.5 Flash-Lite 定价详解 — 适合大规模工作负载的最便宜 Gemini 模型

Gemini 2.5 Flash-Lite API 定价全面解析 — 仅需 $0.10/$0.40 每百万 Token，支持上下文缓存、免费额度，以及 Crazyrouter 折扣。

Crazyrouter Team

April 27, 2026 / 239 views

Gemini 2.5 Flash-Lite 定价详解 — 适合大规模工作负载的最便宜 Gemini 模型

Crazyrouter

Check live pricing Read the docs Open image tool Create account

Gemini 2.5 Flash-Lite 定价详解 — 适合大规模工作负载的最便宜 Gemini 模型#

如果你正在运行大规模 AI 工作负载，每一分钱都很重要，那么 Google 的 Gemini 2.5 Flash-Lite 值得你关注。输入仅需 $0.10 每百万 Token**，输出仅需 **$ 0.40 每百万 Token，它是整个 Gemini 系列中最便宜的模型 — 也是目前市场上最实惠的生产级 API 之一。

在本指南中，我们将全面解析 Gemini 2.5 Flash-Lite 的定价：基础费率、上下文缓存折扣、免费额度、与 GPT-5-nano 和 Grok 4.1 Fast 的对比，以及如何通过 Crazyrouter 额外节省 10%。

最后更新：2026 年 4 月 27 日。

基础定价 — 你实际需要支付多少#

Gemini 2.5 Flash-Lite 采用简单直接的按 Token 计费模型。没有隐藏费用，没有最低消费承诺，也没有分级定价门槛。用多少付多少。

以下是完整的价格表：

Token 类型	每百万 Token (MTok) 价格
输入 — 文本	$0.10
输入 — 图片	$0.10
输入 — 视频	$0.10
输入 — 音频	$0.30
输出 — 文本	$0.40

几个值得注意的点：

文本、图片和视频输入的价格完全相同，均为 $0.10/MTok。这很不寻常 — 大多数提供商对多模态输入会收取额外费用。Flash-Lite 对它们一视同仁，这使得它在视觉和视频分析流水线中极具性价比。
音频输入为 $0.30/MTok — 仍然非常有竞争力，但是文本费率的 3 倍。如果你需要处理大量音频，这一点值得纳入成本模型。
输出 Token 统一为 $0.40/MTok，与输入模态无关。这种 4:1 的输出与输入比率在大多数经济型模型中是标准配置。

换个角度来看：处理 10 亿个输入 Token（文本）仅需 $100。这样的定价使得大规模批量分类、文档提取和大规模摘要在经济上变得可行。

Token 与实际内容的对应关系#

实际估算参考：

约 750 个英文单词 ≈ 1,000 个 Token
一个典型的 500 词 API 请求 + 200 词响应 ≈ 约 670 个输入 Token + 约 270 个输出 Token
按 Flash-Lite 费率计算，单次请求大约花费 $0.000175 — 不到百分之二美分

上下文缓存 — 大幅降低重复提示的成本#

如果你在多个请求中发送相同的系统提示、少样本示例或参考文档，上下文缓存可以显著降低你的成本。缓存的 Token 按标准输入费率的一小部分计费。

缓存类型	每 MTok 价格
缓存输入 — 文本/图片/视频	$0.025
缓存输入 — 音频	$0.075
缓存存储	$1.00 每 MTok 每小时

与标准输入定价相比，缓存输入 Token 享有 75% 的折扣。对于 80% 以上提示内容为静态的工作负载（系统指令、RAG 上下文、文档引用），缓存可以将你的有效输入成本降至接近零。

上下文缓存适用场景#

上下文缓存在以下场景中表现出色：

长系统提示的聊天机器人 — 如果你的系统提示有 4,000 个 Token，每天处理 10,000 次对话，仅输入部分缓存就能每天节省约 $3.00。
文档问答 — 上传一份 50 页的文档，缓存一次，然后以缓存费率对其运行数百次查询。
共享上下文的批处理 — 每个请求都包含相同少样本示例和分类定义的分类任务。

缓存存储费用#

$1.00/MTok/小时的存储费意味着你需要策略性地管理缓存内容和缓存时长。一个 10,000 Token 的缓存上下文每小时维护成本为$ 0.01 — 对于活跃的工作负载来说微不足道，但用完后记得清理。

小贴士： 缓存存储按小时计费。如果你的工作负载是突发性的（例如每晚的批处理任务），在任务开始时创建缓存，完成后删除。除非缓存正在持续服务请求，否则不要让它 24/7 运行。

免费额度 — 先试后买#

Google 为 Gemini 2.5 Flash-Lite 提供了免费额度，让你可以轻松地进行原型开发和测试，无需任何财务承诺。免费额度包括：

对完整模型功能的限速访问
足够用于开发、测试和小规模实验的配额
无需绑定信用卡即可开始使用

免费额度适合以下场景：

评估模型质量 — 在投入生产工作负载之前先行验证
构建原型和概念验证应用
运行基准测试 — 针对你的具体用例进行评估
学生和爱好者探索 AI 能力

要使用免费额度，只需创建一个 Google AI Studio 账户并生成 API Key。无需设置账单即可立即开始发送请求。

请注意，免费额度的请求有较低的速率限制，在高峰时段可能会有较高的延迟。对于生产工作负载，建议升级到付费层以获得有保障的吞吐量和优先访问。

Crazyrouter — 每次请求额外节省 10%#

接下来是重点。Crazyrouter 以 Google 官方定价的 90% 提供 Gemini 2.5 Flash-Lite — 每个 Token 统一享受 10% 折扣。

Token 类型	Google 官方价格	Crazyrouter 价格	节省幅度
输入 (文本/图片/视频)	$0.10/MTok	$0.09/MTok	10%
输入 (音频)	$0.30/MTok	$0.27/MTok	10%
输出	$0.40/MTok	$0.36/MTok	10%

在大规模使用下，10% 的节省会迅速累积。每月处理 100 亿 Token？只需更改 base URL，你就能每月节省 $100 以上。

如何通过 Crazyrouter 使用 Gemini 2.5 Flash-Lite#

Crazyrouter 完全兼容 OpenAI SDK 格式。你不需要新的库 — 只需将现有代码指向 Crazyrouter 的端点即可。

Python (OpenAI SDK)#

python

from openai import OpenAI

client = OpenAI(
    api_key="your-crazyrouter-api-key",
    base_url="https://crazyrouter.com/v1"
)

response = client.chat.completions.create(
    model="gemini-2.5-flash-lite",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Explain quantum computing in simple terms."}
    ],
    max_tokens=500
)

print(response.choices[0].message.content)

cURL#

bash

curl https://crazyrouter.com/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer your-crazyrouter-api-key" \
  -d '{
    "model": "gemini-2.5-flash-lite",
    "messages": [
      {"role": "system", "content": "You are a helpful assistant."},
      {"role": "user", "content": "Explain quantum computing in simple terms."}
    ],
    "max_tokens": 500
  }'

就这么简单。替换 base_url，使用你的 Crazyrouter API Key，就可以以 10% 的折扣运行 Gemini 2.5 Flash-Lite。无需更改 SDK，无需迁移烦恼。

Crazyrouter 还提供跨 200+ 模型的统一 API，涵盖 OpenAI、Anthropic、Google、xAI 等 — 让你无需重写集成代码即可在模型之间自由切换。

3 个大规模场景 — 真实成本测算#

让我们看看 Gemini 2.5 Flash-Lite 在生产场景中的实际成本。

场景 1：客服聊天机器人（每天 10K 次对话）#

平均每次对话：2,000 输入 Token，500 输出 Token
每日用量：2000 万输入 Token + 500 万输出 Token
月度成本（Google）： (600M × $0.10 + 150M ×$ 0.40) / 1M = $120/月
月度成本（Crazyrouter）： $120 × 0.90 = **$ 108/月**
节省： $12/月，$ 144/年

对于每天处理 10,000 次对话的聊天机器人，月成本仅略超 $100。对于一个能处理多模态输入并提供连贯、上下文相关响应的模型来说，这个价格非常便宜。

场景 2：文档分类流水线（每月 100 万份文档）#

平均每份文档：3,000 输入 Token，100 输出 Token（分类标签 + 置信度）
月度用量：30 亿输入 Token + 1 亿输出 Token
月度成本（Google）： (3,000M × $0.10 + 100M ×$ 0.40) / 1M = $340/月
月度成本（Crazyrouter）： $340 × 0.90 = **$ 306/月**
节省： $34/月，$ 408/年

以 $306/月处理一百万份文档 — 每份文档仅$ 0.000306。很难找到更便宜的了。

场景 3：视频内容审核（每天 10 万个视频）#

平均每次视频分析：5,000 输入 Token（视频帧），200 输出 Token
每日用量：5 亿输入 Token + 2000 万输出 Token
月度用量：150 亿输入 + 6 亿输出
月度成本（Google）： (15,000M × $0.10 + 600M ×$ 0.40) / 1M = $1,740/月
月度成本（Crazyrouter）： $1,740 × 0.90 = **$ 1,566/月**
节省： $174/月，$ 2,088/年

即使在超大规模下 — 每天 10 万个视频 — Flash-Lite 的月成本也控制在 $2,000 以内。而且由于视频输入与文本定价相同（$ 0.10/MTok），不会有多模态附加费侵蚀你的预算。

Gemini 2.5 Flash-Lite vs. GPT-5-nano vs. Grok 4.1 Fast#

Flash-Lite 与其他经济型模型相比如何？以下是正面对比：

特性	Gemini 2.5 Flash-Lite	GPT-5-nano	Grok 4.1 Fast
输入价格	$0.10/MTok	$0.15/MTok	$0.12/MTok
输出价格	$0.40/MTok	$0.60/MTok	$0.50/MTok
多模态输入	文本、图片、视频、音频	文本、图片	文本、图片
上下文窗口	1M tokens	128K tokens	256K tokens
上下文缓存	✅ 支持 ($0.025/MTok)	✅ 支持	❌ 不支持
免费额度	✅ 有	✅ 有限	✅ 有
音频输入	✅ 原生支持	❌ 不支持	❌ 不支持
视频输入	✅ 原生支持	❌ 不支持	❌ 不支持

结论#

Gemini 2.5 Flash-Lite 在价格上全面胜出。 以 $0.10/$ 0.40 的价格，它的输入比 GPT-5-nano 便宜 33%，输出也便宜 33%。与 Grok 4.1 Fast 相比，输入便宜 17%，输出便宜 20%。

但价格并不是唯一的考量因素：

上下文窗口： Flash-Lite 的 1M Token 上下文窗口远超竞争对手。如果你需要处理长文档、完整代码库或长时间对话，这是一个巨大的优势。
多模态广度： Flash-Lite 原生支持文本、图片、视频和音频 — 且输入价格相同（音频除外）。GPT-5-nano 和 Grok 4.1 Fast 仅限于文本和图片。
缓存： Flash-Lite 和 GPT-5-nano 都支持上下文缓存，但 Flash-Lite 的缓存费率（$0.025/MTok）极具竞争力。Grok 4.1 Fast 完全不提供缓存功能。

GPT-5-nano 或 Grok 4.1 Fast 可能胜出的场景： 如果你的工作负载纯粹基于文本，并且需要某个模型更擅长的特定指令遵循特性或工具调用模式，那么模型质量比价格更重要。务必在你的实际用例上进行测试。

核心要点#

Gemini 2.5 Flash-Lite 是最便宜的 Gemini 模型，输入 $0.10/MTok，输出$ 0.40/MTok — 非常适合大规模、成本敏感的工作负载。
上下文缓存可将输入成本降低 75%，适用于重复提示和共享上下文，使聊天机器人、RAG 流水线和批处理更加经济。
多模态输入（文本、图片、视频）价格完全相同，均为 $0.10/MTok — 视觉或视频分析无额外附加费。
1M Token 上下文窗口是经济型模型中最大的，支持竞争对手无法处理的用例。
Crazyrouter 额外为你节省 10%，每个 Token 都享受折扣，且无需更改任何代码 — 只需替换 base URL。
免费额度让你在投入生产之前零风险地评估模型。

立即开始使用 Gemini 2.5 Flash-Lite#

准备好让最便宜的 Gemini 模型为你工作了吗？

免费试用 — 在 Google AI Studio 注册并开始使用免费额度进行实验。
通过 Crazyrouter 节省 10% — 在 crazyrouter.com 创建账户，获取你的 API Key，然后将 OpenAI SDK 指向 https://crazyrouter.com/v1。通过单一统一 API 访问 Gemini 2.5 Flash-Lite 以及 200+ 其他模型。
估算你的成本 — 使用上面的定价表来预估你的预期支出，别忘了为包含重复提示的工作负载考虑上下文缓存。

无论你是在构建聊天机器人、运行文档处理流水线，还是大规模审核内容，Gemini 2.5 Flash-Lite 都能以极具竞争力的价格提供生产级 AI，让大规模工作负载在经济上切实可行。

👉 在 Crazyrouter 上开始使用 Gemini 2.5 Flash-Lite →

免责声明：定价信息截至 2026 年 4 月 27 日准确，可能随时变更。在做出购买决策前，请务必在 Google AI 官方定价页面和 Crazyrouter 定价页面上核实最新费率。Crazyrouter 是独立的 API 网关，与 Google 无关联。本文中的成本估算基于所列的每 Token 费率，为近似值，实际费用可能因实际 Token 数量、缓存行为和使用模式而异。