Login
Back to Blog
GPT-5-mini 定价解析 — 具有缓存和批量折扣的超低成本AI

GPT-5-mini 定价解析 — 具有缓存和批量折扣的超低成本AI

C
Crazyrouter Team
April 27, 2026
1 views中文Pricing
Share:


title: GPT-5-mini 定价解析 — 具有缓存和批量折扣的超低成本AI slug: gpt-5-mini-pricing summary: GPT-5-mini API 定价完整解析 — 每 MTok 0.75/0.75/4.50,自动缓存享10%折扣,批量API享50%折扣,以及 Crazyrouter 节省方案。 tag: Pricing language: en cover_image_url: https://raw.githubusercontent.com/xujfcn/images/main/blog/covers/claude-sonnet-4-6-pricing.jpg meta_title: GPT-5-mini 定价 2026 — 经济型AI模型、缓存与 Crazyrouter meta_description: GPT-5-mini 完整定价指南。输入仅需 $0.75/MTok。自动缓存,批量API享50%折扣 — 更有 Crazyrouter 优惠。 meta_keywords: GPT-5-mini pricing, cheap AI API, OpenAI budget model, Crazyrouter discount#

GPT-5-mini 定价解析 — 具有缓存和批量折扣的超低成本AI#

OpenAI 的 GPT-5 系列推出了一系列模型,旨在满足各种用例和预算需求。在价格表的最底端——但能力绝不逊色——是 GPT-5-mini。它是 GPT-5 系列中最经济的模型,其表现远超其价格定位。

如果您正在运行高吞吐量管道、构建聊天机器人或大规模内容审核,GPT-5-mini 是让您在不让 API 账单失控的情况下完成这些任务的模型。它仅需每百万输入 token 0.75每百万输出token0.75** 和**每百万输出 token 4.50,以其更大型号的一小部分成本提供 GPT-5 级别的推理能力。

在本指南中,我们将从各个角度详细解析 GPT-5-mini 的定价——基础费率、自动缓存、批量 API 折扣,以及 Crazyrouter 如何进一步削减您的成本。我们还将通过实际成本情景进行演示,以便您在投入任何 token 之前,准确估算您的工作负载将花费多少。

基础定价#

GPT-5-mini 采用单一价格层级,保持简洁。没有单独的“长上下文”费率——无论上下文长度如何,您都将获得一个价格。

组件每百万 token 价格
输入$0.75
缓存输入$0.075
输出$4.50

就是这样。没有隐藏层级,也没有针对更长提示的意外乘数。无论您在单个请求中发送 1,000 个 token 还是 100,000 个 token,每个 token 的费率都保持不变。

作为参考,以下是 GPT-5-mini 与 GPT-5 系列其他模型的对比:

模型输入 (每 MTok)输出 (每 MTok)
GPT-5-nano$0.30$1.20
GPT-5-mini$0.75$4.50
GPT-5.4$2.50$10.00

GPT-5-mini 处于最佳位置——对于需要真正推理的任务,它比 GPT-5-nano 功能强大得多,而成本仅为 GPT-5.4 的一小部分。对于大多数生产工作负载而言,它是默认选择。

自动缓存 — 重复输入享90%折扣#

OpenAI API 中最强大的成本节约功能之一是自动提示缓存,GPT-5-mini 完全支持此功能。当您发送共享相同前缀(系统提示、少量示例或消息开头的任何重复内容)的请求时,OpenAI 会自动缓存该前缀,并对缓存部分仅收取标准输入价格的 10%

这意味着缓存的输入 token 仅需每百万 token $0.075——与基础费率相比,这几乎是免费的。

工作原理#

缓存是自动的。您无需启用、配置或更改您的 API 调用。OpenAI 会检测您的提示开头何时与最近发送的请求匹配,并自动应用缓存费率。

以下是符合缓存条件的情况:

  • 系统提示 — 如果您的应用程序中的每个请求都使用相同的系统提示,那么在首次请求后,整个块都会被缓存。
  • 少量示例 — 提示开头的静态示例是主要的缓存候选对象。
  • 共享上下文 — 在短时间内跨请求的任何重复前缀。

计算方式#

假设您的典型请求如下所示:

  • 系统提示 + 少量示例:2,000 token(首次请求后缓存)
  • 用户特定内容:500 token(从不缓存)
  • 输出:300 token

不使用缓存:

  • 输入:2,500 token × 0.75/MTok=0.75/MTok = 0.001875
  • 输出:300 token × 4.50/MTok=4.50/MTok = 0.00135
  • 每个请求总计:$0.003225

使用缓存(首次请求后):

  • 缓存输入:2,000 token × 0.075/MTok=0.075/MTok = 0.00015
  • 新鲜输入:500 token × 0.75/MTok=0.75/MTok = 0.000375
  • 输出:300 token × 4.50/MTok=4.50/MTok = 0.00135
  • 每个请求总计:$0.001875

这使得每个请求的成本降低了 42%——而且是自动发生的。您的提示中可缓存的部分越多,节省的费用就越多。

缓存 + 批量 API:终极组合#

这才是真正有趣的地方。缓存与批量 API 折扣(我们将在下文介绍)叠加使用。如果您正在运行带有重复系统提示的批量作业,那么缓存的输入 token 价格将是每百万 token $0.0375——这比基础输入费率优惠了 95%。

批量 API — 全部享50%折扣#

OpenAI 的批量 API 专为不需要实时响应的工作负载而设计。您提交一批请求,OpenAI 会在 24 小时内处理它们。作为这种灵活性的交换,您可以在输入和输出 token 上获得统一的50% 折扣

组件标准价格批量 API 价格
输入$0.75/MTok$0.375/MTok
缓存输入$0.075/MTok$0.0375/MTok
输出$4.50/MTok$2.25/MTok

批量 API 非常适合以下场景:

  • 数据分类 — 隔夜标记数千条记录。
  • 内容生成 — 批量生成产品描述、摘要或翻译。
  • 评估管道 — 对模型输出进行评分或对大型数据集运行质量检查。
  • 内容审核 — 批量处理被标记的内容,而不是逐一处理。

何时使用批量与实时#

当延迟不重要时,请使用批量 API。如果您的用户正在等待响应,请使用标准 API。如果您正在处理一个可以等待几分钟或几小时的项目队列,请将其批量处理并节省 50%。

Crazyrouter 定价 — 更加便宜#

CrazyrouterOpenAI 官方定价的 55% 提供 GPT-5-mini。这意味着在已经很低的基础费率之上,每个 token 还能享受 45% 的折扣。

组件OpenAI 官方Crazyrouter 价格节省
输入$0.75/MTok$0.4125/MTok45% off
输出$4.50/MTok$2.475/MTok45% off

该 API 与 OpenAI 的 SDK 完全兼容——您只需更改 base_url 并使用您的 Crazyrouter API 密钥。其他一切都保持不变:相同的请求格式、相同的响应格式、相同的模型名称。

代码示例:OpenAI Python SDK#

python
from openai import OpenAI

client = OpenAI(
    api_key="your-crazyrouter-api-key",
    base_url="https://crazyrouter.com/v1"
)

response = client.chat.completions.create(
    model="gpt-5-mini",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Explain quantum computing in simple terms."}
    ]
)

print(response.choices[0].message.content)

代码示例:cURL#

bash
curl https://crazyrouter.com/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer your-crazyrouter-api-key" \
  -d '{
    "model": "gpt-5-mini",
    "messages": [
      {"role": "system", "content": "You are a helpful assistant."},
      {"role": "user", "content": "Explain quantum computing in simple terms."}
    ]
  }'

就是这样。只需更改两行代码(base_urlapi_key),您就可以在每个请求上节省 45%。无需更改 SDK,也无需迁移的麻烦。

实际成本对比#

让我们通过三个高吞吐量生产场景来具体分析这些数字。

场景 1:分类管道#

您每天分类 100,000 份客户支持工单。每份工单平均有 200 个输入 token,以及 50 个 token 的分类输出。您使用一个 1,500 个 token 的系统提示,该提示会被缓存。

每日 token 使用量:

  • 缓存输入:1,500 × 100,000 = 150M token
  • 新鲜输入:200 × 100,000 = 20M token
  • 输出:50 × 100,000 = 5M token
提供商缓存输入新鲜输入输出每日总计每月 (30天)
OpenAI Standard$11.25$15.00$22.50$48.75$1,462.50
OpenAI Batch$5.63$7.50$11.25$24.38$731.25
Crazyrouter$6.19$8.25$12.38$26.81$804.38

使用批量 API,您每天处理 10 万张工单的成本不到 $25。使用 Crazyrouter 的实时 API,您可以获得即时响应,成本与 OpenAI 的批量定价大致相同。

场景 2:面向客户的聊天机器人#

您的聊天机器人每天处理 50,000 次对话。平均每次对话:800 个输入 token(包括一个 500 个 token 的系统提示,该提示会被缓存)和 400 个输出 token。

每日 token 使用量:

  • 缓存输入:500 × 50,000 = 25M token
  • 新鲜输入:300 × 50,000 = 15M token
  • 输出:400 × 50,000 = 20M token
提供商缓存输入新鲜输入输出每日总计每月 (30天)
OpenAI Standard$1.88$11.25$90.00$103.13$3,093.75
Crazyrouter$1.03$6.19$49.50$56.72$1,701.56

Crazyrouter 在此聊天机器人工作负载上为您每月节省 $1,392。请注意,由于聊天机器人需要实时响应,因此批量 API 在此不适用。

场景 3:大规模内容审核#

您每天审核 500,000 篇用户生成的内容。每篇文章平均有 150 个输入 token,以及 30 个 token 的审核结果。系统提示为 1,000 个 token(已缓存)。

每日 token 使用量:

  • 缓存输入:1,000 × 500,000 = 500M token
  • 新鲜输入:150 × 500,000 = 75M token
  • 输出:30 × 500,000 = 15M token
提供商缓存输入新鲜输入输出每日总计每月 (30天)
OpenAI Standard$37.50$56.25$67.50$161.25$4,837.50
OpenAI Batch$18.75$28.13$33.75$80.63$2,418.75
Crazyrouter$20.63$30.94$37.13$88.69$2,660.63

每天处理五十万篇文章,如果您能容忍延迟,批量 API 显然是赢家。对于实时审核,Crazyrouter 在提供即时结果的同时,让您的成本接近批量定价。

GPT-5-mini vs GPT-5-nano vs GPT-5.4:您应该使用哪一个?#

GPT-5 系列为您提供了三个不同的层级。以下是关于它们的考量:

GPT-5-nano (每 MTok 0.30/0.30/1.20)#

超轻量级选项。GPT-5-nano 专为最简单的任务而设计,在这些任务中,速度和成本比深度更重要。例如:基本分类、实体提取、简单格式重排或将查询路由到正确的模型。它速度快且极其便宜,但无法很好地处理细致入微的推理或复杂的指令。

最适合: 高吞吐量、低复杂度的任务。将其用作路由器或预过滤器。

GPT-5-mini (每 MTok 0.75/0.75/4.50)#

主力模型。GPT-5-mini 能够处理绝大多数生产任务,具有扎实的推理能力、良好的指令遵循能力和可靠的输出质量。这是大多数团队应该开始的地方——足以胜任实际工作,且价格低廉,易于扩展。

最适合: 聊天机器人、分类、摘要、内容生成、代码辅助以及大多数生产工作负载。

GPT-5.4 (每 MTok 2.50/2.50/10.00)#

重量级选手。GPT-5.4 适用于质量不容妥协的任务——复杂分析、需要真正优秀的创意写作、多步骤推理,或任何错误答案代价高昂的场景。它的成本比 GPT-5-mini 高 3-4 倍,因此请有选择地使用它。

最适合: 复杂推理、高风险决策、高端用户体验,以及 GPT-5-mini 输出质量不足以满足要求的任务。

智能方法:分层路由#

许多生产系统会同时使用这三个模型:

  1. GPT-5-nano 路由传入请求并处理简单任务。
  2. GPT-5-mini 处理大部分标准工作负载。
  3. GPT-5.4 介入处理复杂或高价值请求。

这种方法使您的平均成本接近 GPT-5-mini 的费率,同时在关键之处提供 GPT-5.4 的质量。

主要收获#

  • GPT-5-mini 输入成本为 0.75/MTok,输出成本为0.75/MTok,输出成本为 4.50/MTok — 它是 GPT-5 系列中最经济且功能强大的模型。
  • 自动缓存将输入成本降低 90%,适用于系统提示和少量示例等重复前缀。无需配置。
  • 批量 API 节省 50%,适用于可容忍长达 24 小时延迟的工作负载的输入和输出。
  • 缓存 + 批量叠加 — 批量模式下的缓存输入仅需 $0.0375/MTok,比基础费率优惠 95%。
  • Crazyrouter 以官方定价的 55% 提供 GPT-5-mini — 节省 45%,且无需任何迁移工作。只需更换 base_url
  • 单一层级定价意味着没有意外。无论上下文长度如何,费率都相同。
  • 对于大多数生产工作负载,GPT-5-mini 是默认选择。使用 GPT-5-nano 进行简单路由,使用 GPT-5.4 进行复杂推理。

在 Crazyrouter 上开始使用 GPT-5-mini#

准备好以 45% 的折扣运行 GPT-5-mini 了吗?Crazyrouter 为您提供完整的 OpenAI API 兼容性,价格更低,没有速率限制的烦恼,也无需任何迁移工作。

  1. 注册 crazyrouter.com
  2. 从仪表板获取您的 API 密钥
  3. 将您的 base_url 更改为 https://crazyrouter.com/v1
  4. 开始节省每个请求的费用

无合同,无最低消费。按使用量付费,只为您所用买单。

👉 立即试用 Crazyrouter →


最后更新:2026年4月27日

免责声明:定价信息基于截至发布日期 OpenAI 公开可用的数据。价格可能会发生变化。Crazyrouter 定价基于当前费率,并可能进行调整。在做出购买决定之前,请务必在官方 OpenAI 定价页面Crazyrouter 上核实当前定价。成本情景中的 token 数量为估算值,实际使用量可能因您的具体实现而异。

Related Articles