GPT-5-mini 定价解析 — 具有缓存和批量折扣的超低成本AI

title: GPT-5-mini 定价解析 — 具有缓存和批量折扣的超低成本AI slug: gpt-5-mini-pricing summary: GPT-5-mini API 定价完整解析 — 每 MTok $0.75/$ 4.50，自动缓存享10%折扣，批量API享50%折扣，以及 Crazyrouter 节省方案。 tag: Pricing language: en cover_image_url: https://raw.githubusercontent.com/xujfcn/images/main/blog/covers/claude-sonnet-4-6-pricing.jpg meta_title: GPT-5-mini 定价 2026 — 经济型AI模型、缓存与 Crazyrouter meta_description: GPT-5-mini 完整定价指南。输入仅需 $0.75/MTok。自动缓存，批量API享50%折扣 — 更有 Crazyrouter 优惠。 meta_keywords: GPT-5-mini pricing, cheap AI API, OpenAI budget model, Crazyrouter discount#

GPT-5-mini 定价解析 — 具有缓存和批量折扣的超低成本AI#

OpenAI 的 GPT-5 系列推出了一系列模型，旨在满足各种用例和预算需求。在价格表的最底端——但能力绝不逊色——是 GPT-5-mini。它是 GPT-5 系列中最经济的模型，其表现远超其价格定位。

如果您正在运行高吞吐量管道、构建聊天机器人或大规模内容审核，GPT-5-mini 是让您在不让 API 账单失控的情况下完成这些任务的模型。它仅需每百万输入 token $0.75** 和**每百万输出 token$ 4.50，以其更大型号的一小部分成本提供 GPT-5 级别的推理能力。

在本指南中，我们将从各个角度详细解析 GPT-5-mini 的定价——基础费率、自动缓存、批量 API 折扣，以及 Crazyrouter 如何进一步削减您的成本。我们还将通过实际成本情景进行演示，以便您在投入任何 token 之前，准确估算您的工作负载将花费多少。

基础定价#

GPT-5-mini 采用单一价格层级，保持简洁。没有单独的“长上下文”费率——无论上下文长度如何，您都将获得一个价格。

组件	每百万 token 价格
输入	$0.75
缓存输入	$0.075
输出	$4.50

就是这样。没有隐藏层级，也没有针对更长提示的意外乘数。无论您在单个请求中发送 1,000 个 token 还是 100,000 个 token，每个 token 的费率都保持不变。

作为参考，以下是 GPT-5-mini 与 GPT-5 系列其他模型的对比：

模型	输入 (每 MTok)	输出 (每 MTok)
GPT-5-nano	$0.30	$1.20
GPT-5-mini	$0.75	$4.50
GPT-5.4	$2.50	$10.00

GPT-5-mini 处于最佳位置——对于需要真正推理的任务，它比 GPT-5-nano 功能强大得多，而成本仅为 GPT-5.4 的一小部分。对于大多数生产工作负载而言，它是默认选择。

自动缓存 — 重复输入享90%折扣#

OpenAI API 中最强大的成本节约功能之一是自动提示缓存，GPT-5-mini 完全支持此功能。当您发送共享相同前缀（系统提示、少量示例或消息开头的任何重复内容）的请求时，OpenAI 会自动缓存该前缀，并对缓存部分仅收取标准输入价格的 10%。

这意味着缓存的输入 token 仅需每百万 token $0.075——与基础费率相比，这几乎是免费的。

工作原理#

缓存是自动的。您无需启用、配置或更改您的 API 调用。OpenAI 会检测您的提示开头何时与最近发送的请求匹配，并自动应用缓存费率。

以下是符合缓存条件的情况：

系统提示 — 如果您的应用程序中的每个请求都使用相同的系统提示，那么在首次请求后，整个块都会被缓存。
少量示例 — 提示开头的静态示例是主要的缓存候选对象。
共享上下文 — 在短时间内跨请求的任何重复前缀。

计算方式#

假设您的典型请求如下所示：

系统提示 + 少量示例：2,000 token（首次请求后缓存）
用户特定内容：500 token（从不缓存）
输出：300 token

不使用缓存：

输入：2,500 token × $0.75/MTok =$ 0.001875
输出：300 token × $4.50/MTok =$ 0.00135
每个请求总计：$0.003225

使用缓存（首次请求后）：

缓存输入：2,000 token × $0.075/MTok =$ 0.00015
新鲜输入：500 token × $0.75/MTok =$ 0.000375
输出：300 token × $4.50/MTok =$ 0.00135
每个请求总计：$0.001875

这使得每个请求的成本降低了 42%——而且是自动发生的。您的提示中可缓存的部分越多，节省的费用就越多。

缓存 + 批量 API：终极组合#

这才是真正有趣的地方。缓存与批量 API 折扣（我们将在下文介绍）叠加使用。如果您正在运行带有重复系统提示的批量作业，那么缓存的输入 token 价格将是每百万 token $0.0375——这比基础输入费率优惠了 95%。

批量 API — 全部享50%折扣#

OpenAI 的批量 API 专为不需要实时响应的工作负载而设计。您提交一批请求，OpenAI 会在 24 小时内处理它们。作为这种灵活性的交换，您可以在输入和输出 token 上获得统一的50% 折扣。

组件	标准价格	批量 API 价格
输入	$0.75/MTok	$0.375/MTok
缓存输入	$0.075/MTok	$0.0375/MTok
输出	$4.50/MTok	$2.25/MTok

批量 API 非常适合以下场景：

数据分类 — 隔夜标记数千条记录。
内容生成 — 批量生成产品描述、摘要或翻译。
评估管道 — 对模型输出进行评分或对大型数据集运行质量检查。
内容审核 — 批量处理被标记的内容，而不是逐一处理。

何时使用批量与实时#

当延迟不重要时，请使用批量 API。如果您的用户正在等待响应，请使用标准 API。如果您正在处理一个可以等待几分钟或几小时的项目队列，请将其批量处理并节省 50%。

Crazyrouter 定价 — 更加便宜#

Crazyrouter 以 OpenAI 官方定价的 55% 提供 GPT-5-mini。这意味着在已经很低的基础费率之上，每个 token 还能享受 45% 的折扣。

组件	OpenAI 官方	Crazyrouter 价格	节省
输入	$0.75/MTok	$0.4125/MTok	45% off
输出	$4.50/MTok	$2.475/MTok	45% off

该 API 与 OpenAI 的 SDK 完全兼容——您只需更改 base_url 并使用您的 Crazyrouter API 密钥。其他一切都保持不变：相同的请求格式、相同的响应格式、相同的模型名称。

代码示例：OpenAI Python SDK#

python

from openai import OpenAI

client = OpenAI(
    api_key="your-crazyrouter-api-key",
    base_url="https://crazyrouter.com/v1"
)

response = client.chat.completions.create(
    model="gpt-5-mini",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Explain quantum computing in simple terms."}
    ]
)

print(response.choices[0].message.content)

代码示例：cURL#

bash

curl https://crazyrouter.com/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer your-crazyrouter-api-key" \
  -d '{
    "model": "gpt-5-mini",
    "messages": [
      {"role": "system", "content": "You are a helpful assistant."},
      {"role": "user", "content": "Explain quantum computing in simple terms."}
    ]
  }'

就是这样。只需更改两行代码（base_url 和 api_key），您就可以在每个请求上节省 45%。无需更改 SDK，也无需迁移的麻烦。

实际成本对比#

让我们通过三个高吞吐量生产场景来具体分析这些数字。

场景 1：分类管道#

您每天分类 100,000 份客户支持工单。每份工单平均有 200 个输入 token，以及 50 个 token 的分类输出。您使用一个 1,500 个 token 的系统提示，该提示会被缓存。

每日 token 使用量：

缓存输入：1,500 × 100,000 = 150M token
新鲜输入：200 × 100,000 = 20M token
输出：50 × 100,000 = 5M token

提供商	缓存输入	新鲜输入	输出	每日总计	每月 (30天)
OpenAI Standard	$11.25	$15.00	$22.50	$48.75	$1,462.50
OpenAI Batch	$5.63	$7.50	$11.25	$24.38	$731.25
Crazyrouter	$6.19	$8.25	$12.38	$26.81	$804.38

使用批量 API，您每天处理 10 万张工单的成本不到 $25。使用 Crazyrouter 的实时 API，您可以获得即时响应，成本与 OpenAI 的批量定价大致相同。

场景 2：面向客户的聊天机器人#

您的聊天机器人每天处理 50,000 次对话。平均每次对话：800 个输入 token（包括一个 500 个 token 的系统提示，该提示会被缓存）和 400 个输出 token。

每日 token 使用量：

缓存输入：500 × 50,000 = 25M token
新鲜输入：300 × 50,000 = 15M token
输出：400 × 50,000 = 20M token

提供商	缓存输入	新鲜输入	输出	每日总计	每月 (30天)
OpenAI Standard	$1.88	$11.25	$90.00	$103.13	$3,093.75
Crazyrouter	$1.03	$6.19	$49.50	$56.72	$1,701.56

Crazyrouter 在此聊天机器人工作负载上为您每月节省 $1,392。请注意，由于聊天机器人需要实时响应，因此批量 API 在此不适用。

场景 3：大规模内容审核#

您每天审核 500,000 篇用户生成的内容。每篇文章平均有 150 个输入 token，以及 30 个 token 的审核结果。系统提示为 1,000 个 token（已缓存）。

每日 token 使用量：

缓存输入：1,000 × 500,000 = 500M token
新鲜输入：150 × 500,000 = 75M token
输出：30 × 500,000 = 15M token

提供商	缓存输入	新鲜输入	输出	每日总计	每月 (30天)
OpenAI Standard	$37.50	$56.25	$67.50	$161.25	$4,837.50
OpenAI Batch	$18.75	$28.13	$33.75	$80.63	$2,418.75
Crazyrouter	$20.63	$30.94	$37.13	$88.69	$2,660.63

每天处理五十万篇文章，如果您能容忍延迟，批量 API 显然是赢家。对于实时审核，Crazyrouter 在提供即时结果的同时，让您的成本接近批量定价。

GPT-5-mini vs GPT-5-nano vs GPT-5.4：您应该使用哪一个？#

GPT-5 系列为您提供了三个不同的层级。以下是关于它们的考量：

GPT-5-nano (每 MTok $0.30/$ 1.20)#

超轻量级选项。GPT-5-nano 专为最简单的任务而设计，在这些任务中，速度和成本比深度更重要。例如：基本分类、实体提取、简单格式重排或将查询路由到正确的模型。它速度快且极其便宜，但无法很好地处理细致入微的推理或复杂的指令。

最适合： 高吞吐量、低复杂度的任务。将其用作路由器或预过滤器。

GPT-5-mini (每 MTok $0.75/$ 4.50)#

主力模型。GPT-5-mini 能够处理绝大多数生产任务，具有扎实的推理能力、良好的指令遵循能力和可靠的输出质量。这是大多数团队应该开始的地方——足以胜任实际工作，且价格低廉，易于扩展。

最适合： 聊天机器人、分类、摘要、内容生成、代码辅助以及大多数生产工作负载。

GPT-5.4 (每 MTok $2.50/$ 10.00)#

重量级选手。GPT-5.4 适用于质量不容妥协的任务——复杂分析、需要真正优秀的创意写作、多步骤推理，或任何错误答案代价高昂的场景。它的成本比 GPT-5-mini 高 3-4 倍，因此请有选择地使用它。

最适合： 复杂推理、高风险决策、高端用户体验，以及 GPT-5-mini 输出质量不足以满足要求的任务。

智能方法：分层路由#

许多生产系统会同时使用这三个模型：

GPT-5-nano 路由传入请求并处理简单任务。
GPT-5-mini 处理大部分标准工作负载。
GPT-5.4 介入处理复杂或高价值请求。

这种方法使您的平均成本接近 GPT-5-mini 的费率，同时在关键之处提供 GPT-5.4 的质量。

主要收获#

GPT-5-mini 输入成本为 $0.75/MTok，输出成本为$ 4.50/MTok — 它是 GPT-5 系列中最经济且功能强大的模型。
自动缓存将输入成本降低 90%，适用于系统提示和少量示例等重复前缀。无需配置。
批量 API 节省 50%，适用于可容忍长达 24 小时延迟的工作负载的输入和输出。
缓存 + 批量叠加 — 批量模式下的缓存输入仅需 $0.0375/MTok，比基础费率优惠 95%。
Crazyrouter 以官方定价的 55% 提供 GPT-5-mini — 节省 45%，且无需任何迁移工作。只需更换 base_url。
单一层级定价意味着没有意外。无论上下文长度如何，费率都相同。
对于大多数生产工作负载，GPT-5-mini 是默认选择。使用 GPT-5-nano 进行简单路由，使用 GPT-5.4 进行复杂推理。

在 Crazyrouter 上开始使用 GPT-5-mini#

准备好以 45% 的折扣运行 GPT-5-mini 了吗？Crazyrouter 为您提供完整的 OpenAI API 兼容性，价格更低，没有速率限制的烦恼，也无需任何迁移工作。

注册 crazyrouter.com
从仪表板获取您的 API 密钥
将您的 base_url 更改为 https://crazyrouter.com/v1
开始节省每个请求的费用

无合同，无最低消费。按使用量付费，只为您所用买单。

👉 立即试用 Crazyrouter →

最后更新：2026年4月27日

免责声明：定价信息基于截至发布日期 OpenAI 公开可用的数据。价格可能会发生变化。Crazyrouter 定价基于当前费率，并可能进行调整。在做出购买决定之前，请务必在官方 OpenAI 定价页面和 Crazyrouter 上核实当前定价。成本情景中的 token 数量为估算值，实际使用量可能因您的具体实现而异。

GPT-5-mini 定价解析 — 具有缓存和批量折扣的超低成本AI