Login
Back to Blog
Gemini 2.5 Flash-Lite 定价详解 — 适合大规模工作负载的最便宜 Gemini 模型

Gemini 2.5 Flash-Lite 定价详解 — 适合大规模工作负载的最便宜 Gemini 模型

C
Crazyrouter Team
April 27, 2026
1 views中文Pricing
Share:


title: Gemini 2.5 Flash-Lite 定价详解 — 适合大规模工作负载的最便宜 Gemini 模型 slug: gemini-2-5-flash-lite-pricing-zh summary: Gemini 2.5 Flash-Lite API 定价全面解析 — 仅需 0.10/0.10/0.40 每百万 Token,支持上下文缓存、免费额度,以及 Crazyrouter 折扣。 tag: Pricing language: zh cover_image_url: https://raw.githubusercontent.com/xujfcn/images/main/blog/covers/claude-sonnet-4-6-pricing.jpg meta_title: Gemini 2.5 Flash-Lite 定价 2026 — 最便宜的 Gemini 模型 & Crazyrouter meta_description: Gemini 2.5 Flash-Lite 完整定价指南。输入仅 $0.10/MTok — Gemini 系列最便宜的模型。缓存、免费额度,以及 Crazyrouter 折扣。 meta_keywords: Gemini 2.5 Flash-Lite pricing, cheapest AI API, Google budget model, Crazyrouter discount#

Gemini 2.5 Flash-Lite 定价详解 — 适合大规模工作负载的最便宜 Gemini 模型#

如果你正在运行大规模 AI 工作负载,每一分钱都很重要,那么 Google 的 Gemini 2.5 Flash-Lite 值得你关注。输入仅需 0.10每百万Token,输出仅需0.10 每百万 Token**,输出仅需 **0.40 每百万 Token,它是整个 Gemini 系列中最便宜的模型 — 也是目前市场上最实惠的生产级 API 之一。

在本指南中,我们将全面解析 Gemini 2.5 Flash-Lite 的定价:基础费率、上下文缓存折扣、免费额度、与 GPT-5-nano 和 Grok 4.1 Fast 的对比,以及如何通过 Crazyrouter 额外节省 10%。

最后更新:2026 年 4 月 27 日。


基础定价 — 你实际需要支付多少#

Gemini 2.5 Flash-Lite 采用简单直接的按 Token 计费模型。没有隐藏费用,没有最低消费承诺,也没有分级定价门槛。用多少付多少。

以下是完整的价格表:

Token 类型每百万 Token (MTok) 价格
输入 — 文本$0.10
输入 — 图片$0.10
输入 — 视频$0.10
输入 — 音频$0.30
输出 — 文本$0.40

几个值得注意的点:

  • 文本、图片和视频输入的价格完全相同,均为 $0.10/MTok。这很不寻常 — 大多数提供商对多模态输入会收取额外费用。Flash-Lite 对它们一视同仁,这使得它在视觉和视频分析流水线中极具性价比。
  • 音频输入为 $0.30/MTok — 仍然非常有竞争力,但是文本费率的 3 倍。如果你需要处理大量音频,这一点值得纳入成本模型。
  • 输出 Token 统一为 $0.40/MTok,与输入模态无关。这种 4:1 的输出与输入比率在大多数经济型模型中是标准配置。

换个角度来看:处理 10 亿个输入 Token(文本)仅需 $100。这样的定价使得大规模批量分类、文档提取和大规模摘要在经济上变得可行。

Token 与实际内容的对应关系#

实际估算参考:

  • 约 750 个英文单词 ≈ 1,000 个 Token
  • 一个典型的 500 词 API 请求 + 200 词响应 ≈ 约 670 个输入 Token + 约 270 个输出 Token
  • 按 Flash-Lite 费率计算,单次请求大约花费 $0.000175 — 不到百分之二美分

上下文缓存 — 大幅降低重复提示的成本#

如果你在多个请求中发送相同的系统提示、少样本示例或参考文档,上下文缓存可以显著降低你的成本。缓存的 Token 按标准输入费率的一小部分计费。

缓存类型每 MTok 价格
缓存输入 — 文本/图片/视频$0.025
缓存输入 — 音频$0.075
缓存存储$1.00 每 MTok 每小时

与标准输入定价相比,缓存输入 Token 享有 75% 的折扣。对于 80% 以上提示内容为静态的工作负载(系统指令、RAG 上下文、文档引用),缓存可以将你的有效输入成本降至接近零。

上下文缓存适用场景#

上下文缓存在以下场景中表现出色:

  1. 长系统提示的聊天机器人 — 如果你的系统提示有 4,000 个 Token,每天处理 10,000 次对话,仅输入部分缓存就能每天节省约 $3.00。
  2. 文档问答 — 上传一份 50 页的文档,缓存一次,然后以缓存费率对其运行数百次查询。
  3. 共享上下文的批处理 — 每个请求都包含相同少样本示例和分类定义的分类任务。

缓存存储费用#

1.00/MTok/小时的存储费意味着你需要策略性地管理缓存内容和缓存时长。一个10,000Token的缓存上下文每小时维护成本为1.00/MTok/小时的存储费意味着你需要策略性地管理缓存内容和缓存时长。一个 10,000 Token 的缓存上下文每小时维护成本为 0.01 — 对于活跃的工作负载来说微不足道,但用完后记得清理。

小贴士: 缓存存储按小时计费。如果你的工作负载是突发性的(例如每晚的批处理任务),在任务开始时创建缓存,完成后删除。除非缓存正在持续服务请求,否则不要让它 24/7 运行。


免费额度 — 先试后买#

Google 为 Gemini 2.5 Flash-Lite 提供了免费额度,让你可以轻松地进行原型开发和测试,无需任何财务承诺。免费额度包括:

  • 对完整模型功能的限速访问
  • 足够用于开发、测试和小规模实验的配额
  • 无需绑定信用卡即可开始使用

免费额度适合以下场景:

  • 评估模型质量 — 在投入生产工作负载之前先行验证
  • 构建原型和概念验证应用
  • 运行基准测试 — 针对你的具体用例进行评估
  • 学生和爱好者探索 AI 能力

要使用免费额度,只需创建一个 Google AI Studio 账户并生成 API Key。无需设置账单即可立即开始发送请求。

请注意,免费额度的请求有较低的速率限制,在高峰时段可能会有较高的延迟。对于生产工作负载,建议升级到付费层以获得有保障的吞吐量和优先访问。


Crazyrouter — 每次请求额外节省 10%#

接下来是重点。CrazyrouterGoogle 官方定价的 90% 提供 Gemini 2.5 Flash-Lite — 每个 Token 统一享受 10% 折扣。

Token 类型Google 官方价格Crazyrouter 价格节省幅度
输入 (文本/图片/视频)$0.10/MTok$0.09/MTok10%
输入 (音频)$0.30/MTok$0.27/MTok10%
输出$0.40/MTok$0.36/MTok10%

在大规模使用下,10% 的节省会迅速累积。每月处理 100 亿 Token?只需更改 base URL,你就能每月节省 $100 以上

如何通过 Crazyrouter 使用 Gemini 2.5 Flash-Lite#

Crazyrouter 完全兼容 OpenAI SDK 格式。你不需要新的库 — 只需将现有代码指向 Crazyrouter 的端点即可。

Python (OpenAI SDK)#

python
from openai import OpenAI

client = OpenAI(
    api_key="your-crazyrouter-api-key",
    base_url="https://crazyrouter.com/v1"
)

response = client.chat.completions.create(
    model="gemini-2.5-flash-lite",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Explain quantum computing in simple terms."}
    ],
    max_tokens=500
)

print(response.choices[0].message.content)

cURL#

bash
curl https://crazyrouter.com/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer your-crazyrouter-api-key" \
  -d '{
    "model": "gemini-2.5-flash-lite",
    "messages": [
      {"role": "system", "content": "You are a helpful assistant."},
      {"role": "user", "content": "Explain quantum computing in simple terms."}
    ],
    "max_tokens": 500
  }'

就这么简单。替换 base_url,使用你的 Crazyrouter API Key,就可以以 10% 的折扣运行 Gemini 2.5 Flash-Lite。无需更改 SDK,无需迁移烦恼。

Crazyrouter 还提供跨 200+ 模型的统一 API,涵盖 OpenAI、Anthropic、Google、xAI 等 — 让你无需重写集成代码即可在模型之间自由切换。


3 个大规模场景 — 真实成本测算#

让我们看看 Gemini 2.5 Flash-Lite 在生产场景中的实际成本。

场景 1:客服聊天机器人(每天 10K 次对话)#

  • 平均每次对话:2,000 输入 Token,500 输出 Token
  • 每日用量:2000 万输入 Token + 500 万输出 Token
  • 月度成本(Google): (600M × 0.10+150M×0.10 + 150M × 0.40) / 1M = $120/月
  • 月度成本(Crazyrouter): 120×0.90=120 × 0.90 = **108/月**
  • 节省: 12/月,12/月,144/年

对于每天处理 10,000 次对话的聊天机器人,月成本仅略超 $100。对于一个能处理多模态输入并提供连贯、上下文相关响应的模型来说,这个价格非常便宜。

场景 2:文档分类流水线(每月 100 万份文档)#

  • 平均每份文档:3,000 输入 Token,100 输出 Token(分类标签 + 置信度)
  • 月度用量:30 亿输入 Token + 1 亿输出 Token
  • 月度成本(Google): (3,000M × 0.10+100M×0.10 + 100M × 0.40) / 1M = $340/月
  • 月度成本(Crazyrouter): 340×0.90=340 × 0.90 = **306/月**
  • 节省: 34/月,34/月,408/年

306/月处理一百万份文档—每份文档仅306/月处理一百万份文档 — 每份文档仅 0.000306。很难找到更便宜的了。

场景 3:视频内容审核(每天 10 万个视频)#

  • 平均每次视频分析:5,000 输入 Token(视频帧),200 输出 Token
  • 每日用量:5 亿输入 Token + 2000 万输出 Token
  • 月度用量:150 亿输入 + 6 亿输出
  • 月度成本(Google): (15,000M × 0.10+600M×0.10 + 600M × 0.40) / 1M = $1,740/月
  • 月度成本(Crazyrouter): 1,740×0.90=1,740 × 0.90 = **1,566/月**
  • 节省: 174/月,174/月,2,088/年

即使在超大规模下 — 每天 10 万个视频 — Flash-Lite 的月成本也控制在 2,000以内。而且由于视频输入与文本定价相同(2,000 以内。而且由于视频输入与文本定价相同(0.10/MTok),不会有多模态附加费侵蚀你的预算。


Gemini 2.5 Flash-Lite vs. GPT-5-nano vs. Grok 4.1 Fast#

Flash-Lite 与其他经济型模型相比如何?以下是正面对比:

特性Gemini 2.5 Flash-LiteGPT-5-nanoGrok 4.1 Fast
输入价格$0.10/MTok$0.15/MTok$0.12/MTok
输出价格$0.40/MTok$0.60/MTok$0.50/MTok
多模态输入文本、图片、视频、音频文本、图片文本、图片
上下文窗口1M tokens128K tokens256K tokens
上下文缓存✅ 支持 ($0.025/MTok)✅ 支持❌ 不支持
免费额度✅ 有✅ 有限✅ 有
音频输入✅ 原生支持❌ 不支持❌ 不支持
视频输入✅ 原生支持❌ 不支持❌ 不支持

结论#

Gemini 2.5 Flash-Lite 在价格上全面胜出。0.10/0.10/0.40 的价格,它的输入比 GPT-5-nano 便宜 33%,输出也便宜 33%。与 Grok 4.1 Fast 相比,输入便宜 17%,输出便宜 20%。

但价格并不是唯一的考量因素:

  • 上下文窗口: Flash-Lite 的 1M Token 上下文窗口远超竞争对手。如果你需要处理长文档、完整代码库或长时间对话,这是一个巨大的优势。
  • 多模态广度: Flash-Lite 原生支持文本、图片、视频和音频 — 且输入价格相同(音频除外)。GPT-5-nano 和 Grok 4.1 Fast 仅限于文本和图片。
  • 缓存: Flash-Lite 和 GPT-5-nano 都支持上下文缓存,但 Flash-Lite 的缓存费率($0.025/MTok)极具竞争力。Grok 4.1 Fast 完全不提供缓存功能。

GPT-5-nano 或 Grok 4.1 Fast 可能胜出的场景: 如果你的工作负载纯粹基于文本,并且需要某个模型更擅长的特定指令遵循特性或工具调用模式,那么模型质量比价格更重要。务必在你的实际用例上进行测试。


核心要点#

  1. Gemini 2.5 Flash-Lite 是最便宜的 Gemini 模型,输入 0.10/MTok,输出0.10/MTok,输出 0.40/MTok — 非常适合大规模、成本敏感的工作负载。

  2. 上下文缓存可将输入成本降低 75%,适用于重复提示和共享上下文,使聊天机器人、RAG 流水线和批处理更加经济。

  3. 多模态输入(文本、图片、视频)价格完全相同,均为 $0.10/MTok — 视觉或视频分析无额外附加费。

  4. 1M Token 上下文窗口是经济型模型中最大的,支持竞争对手无法处理的用例。

  5. Crazyrouter 额外为你节省 10%,每个 Token 都享受折扣,且无需更改任何代码 — 只需替换 base URL。

  6. 免费额度让你在投入生产之前零风险地评估模型。


立即开始使用 Gemini 2.5 Flash-Lite#

准备好让最便宜的 Gemini 模型为你工作了吗?

  1. 免费试用 — 在 Google AI Studio 注册并开始使用免费额度进行实验。
  2. 通过 Crazyrouter 节省 10% — 在 crazyrouter.com 创建账户,获取你的 API Key,然后将 OpenAI SDK 指向 https://crazyrouter.com/v1。通过单一统一 API 访问 Gemini 2.5 Flash-Lite 以及 200+ 其他模型。
  3. 估算你的成本 — 使用上面的定价表来预估你的预期支出,别忘了为包含重复提示的工作负载考虑上下文缓存。

无论你是在构建聊天机器人、运行文档处理流水线,还是大规模审核内容,Gemini 2.5 Flash-Lite 都能以极具竞争力的价格提供生产级 AI,让大规模工作负载在经济上切实可行。

👉 在 Crazyrouter 上开始使用 Gemini 2.5 Flash-Lite →


免责声明:定价信息截至 2026 年 4 月 27 日准确,可能随时变更。在做出购买决策前,请务必在 Google AI 官方定价页面Crazyrouter 定价页面 上核实最新费率。Crazyrouter 是独立的 API 网关,与 Google 无关联。本文中的成本估算基于所列的每 Token 费率,为近似值,实际费用可能因实际 Token 数量、缓存行为和使用模式而异。

Related Articles