
GPT-5-mini 定价解析 — 具有缓存和批量折扣的超低成本AI
title: GPT-5-mini 定价解析 — 具有缓存和批量折扣的超低成本AI slug: gpt-5-mini-pricing summary: GPT-5-mini API 定价完整解析 — 每 MTok 4.50,自动缓存享10%折扣,批量API享50%折扣,以及 Crazyrouter 节省方案。 tag: Pricing language: en cover_image_url: https://raw.githubusercontent.com/xujfcn/images/main/blog/covers/claude-sonnet-4-6-pricing.jpg meta_title: GPT-5-mini 定价 2026 — 经济型AI模型、缓存与 Crazyrouter meta_description: GPT-5-mini 完整定价指南。输入仅需 $0.75/MTok。自动缓存,批量API享50%折扣 — 更有 Crazyrouter 优惠。 meta_keywords: GPT-5-mini pricing, cheap AI API, OpenAI budget model, Crazyrouter discount#
GPT-5-mini 定价解析 — 具有缓存和批量折扣的超低成本AI#
OpenAI 的 GPT-5 系列推出了一系列模型,旨在满足各种用例和预算需求。在价格表的最底端——但能力绝不逊色——是 GPT-5-mini。它是 GPT-5 系列中最经济的模型,其表现远超其价格定位。
如果您正在运行高吞吐量管道、构建聊天机器人或大规模内容审核,GPT-5-mini 是让您在不让 API 账单失控的情况下完成这些任务的模型。它仅需每百万输入 token 4.50,以其更大型号的一小部分成本提供 GPT-5 级别的推理能力。
在本指南中,我们将从各个角度详细解析 GPT-5-mini 的定价——基础费率、自动缓存、批量 API 折扣,以及 Crazyrouter 如何进一步削减您的成本。我们还将通过实际成本情景进行演示,以便您在投入任何 token 之前,准确估算您的工作负载将花费多少。
基础定价#
GPT-5-mini 采用单一价格层级,保持简洁。没有单独的“长上下文”费率——无论上下文长度如何,您都将获得一个价格。
| 组件 | 每百万 token 价格 |
|---|---|
| 输入 | $0.75 |
| 缓存输入 | $0.075 |
| 输出 | $4.50 |
就是这样。没有隐藏层级,也没有针对更长提示的意外乘数。无论您在单个请求中发送 1,000 个 token 还是 100,000 个 token,每个 token 的费率都保持不变。
作为参考,以下是 GPT-5-mini 与 GPT-5 系列其他模型的对比:
| 模型 | 输入 (每 MTok) | 输出 (每 MTok) |
|---|---|---|
| GPT-5-nano | $0.30 | $1.20 |
| GPT-5-mini | $0.75 | $4.50 |
| GPT-5.4 | $2.50 | $10.00 |
GPT-5-mini 处于最佳位置——对于需要真正推理的任务,它比 GPT-5-nano 功能强大得多,而成本仅为 GPT-5.4 的一小部分。对于大多数生产工作负载而言,它是默认选择。
自动缓存 — 重复输入享90%折扣#
OpenAI API 中最强大的成本节约功能之一是自动提示缓存,GPT-5-mini 完全支持此功能。当您发送共享相同前缀(系统提示、少量示例或消息开头的任何重复内容)的请求时,OpenAI 会自动缓存该前缀,并对缓存部分仅收取标准输入价格的 10%。
这意味着缓存的输入 token 仅需每百万 token $0.075——与基础费率相比,这几乎是免费的。
工作原理#
缓存是自动的。您无需启用、配置或更改您的 API 调用。OpenAI 会检测您的提示开头何时与最近发送的请求匹配,并自动应用缓存费率。
以下是符合缓存条件的情况:
- 系统提示 — 如果您的应用程序中的每个请求都使用相同的系统提示,那么在首次请求后,整个块都会被缓存。
- 少量示例 — 提示开头的静态示例是主要的缓存候选对象。
- 共享上下文 — 在短时间内跨请求的任何重复前缀。
计算方式#
假设您的典型请求如下所示:
- 系统提示 + 少量示例:2,000 token(首次请求后缓存)
- 用户特定内容:500 token(从不缓存)
- 输出:300 token
不使用缓存:
- 输入:2,500 token × 0.001875
- 输出:300 token × 0.00135
- 每个请求总计:$0.003225
使用缓存(首次请求后):
- 缓存输入:2,000 token × 0.00015
- 新鲜输入:500 token × 0.000375
- 输出:300 token × 0.00135
- 每个请求总计:$0.001875
这使得每个请求的成本降低了 42%——而且是自动发生的。您的提示中可缓存的部分越多,节省的费用就越多。
缓存 + 批量 API:终极组合#
这才是真正有趣的地方。缓存与批量 API 折扣(我们将在下文介绍)叠加使用。如果您正在运行带有重复系统提示的批量作业,那么缓存的输入 token 价格将是每百万 token $0.0375——这比基础输入费率优惠了 95%。
批量 API — 全部享50%折扣#
OpenAI 的批量 API 专为不需要实时响应的工作负载而设计。您提交一批请求,OpenAI 会在 24 小时内处理它们。作为这种灵活性的交换,您可以在输入和输出 token 上获得统一的50% 折扣。
| 组件 | 标准价格 | 批量 API 价格 |
|---|---|---|
| 输入 | $0.75/MTok | $0.375/MTok |
| 缓存输入 | $0.075/MTok | $0.0375/MTok |
| 输出 | $4.50/MTok | $2.25/MTok |
批量 API 非常适合以下场景:
- 数据分类 — 隔夜标记数千条记录。
- 内容生成 — 批量生成产品描述、摘要或翻译。
- 评估管道 — 对模型输出进行评分或对大型数据集运行质量检查。
- 内容审核 — 批量处理被标记的内容,而不是逐一处理。
何时使用批量与实时#
当延迟不重要时,请使用批量 API。如果您的用户正在等待响应,请使用标准 API。如果您正在处理一个可以等待几分钟或几小时的项目队列,请将其批量处理并节省 50%。
Crazyrouter 定价 — 更加便宜#
Crazyrouter 以 OpenAI 官方定价的 55% 提供 GPT-5-mini。这意味着在已经很低的基础费率之上,每个 token 还能享受 45% 的折扣。
| 组件 | OpenAI 官方 | Crazyrouter 价格 | 节省 |
|---|---|---|---|
| 输入 | $0.75/MTok | $0.4125/MTok | 45% off |
| 输出 | $4.50/MTok | $2.475/MTok | 45% off |
该 API 与 OpenAI 的 SDK 完全兼容——您只需更改 base_url 并使用您的 Crazyrouter API 密钥。其他一切都保持不变:相同的请求格式、相同的响应格式、相同的模型名称。
代码示例:OpenAI Python SDK#
from openai import OpenAI
client = OpenAI(
api_key="your-crazyrouter-api-key",
base_url="https://crazyrouter.com/v1"
)
response = client.chat.completions.create(
model="gpt-5-mini",
messages=[
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Explain quantum computing in simple terms."}
]
)
print(response.choices[0].message.content)
代码示例:cURL#
curl https://crazyrouter.com/v1/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer your-crazyrouter-api-key" \
-d '{
"model": "gpt-5-mini",
"messages": [
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Explain quantum computing in simple terms."}
]
}'
就是这样。只需更改两行代码(base_url 和 api_key),您就可以在每个请求上节省 45%。无需更改 SDK,也无需迁移的麻烦。
实际成本对比#
让我们通过三个高吞吐量生产场景来具体分析这些数字。
场景 1:分类管道#
您每天分类 100,000 份客户支持工单。每份工单平均有 200 个输入 token,以及 50 个 token 的分类输出。您使用一个 1,500 个 token 的系统提示,该提示会被缓存。
每日 token 使用量:
- 缓存输入:1,500 × 100,000 = 150M token
- 新鲜输入:200 × 100,000 = 20M token
- 输出:50 × 100,000 = 5M token
| 提供商 | 缓存输入 | 新鲜输入 | 输出 | 每日总计 | 每月 (30天) |
|---|---|---|---|---|---|
| OpenAI Standard | $11.25 | $15.00 | $22.50 | $48.75 | $1,462.50 |
| OpenAI Batch | $5.63 | $7.50 | $11.25 | $24.38 | $731.25 |
| Crazyrouter | $6.19 | $8.25 | $12.38 | $26.81 | $804.38 |
使用批量 API,您每天处理 10 万张工单的成本不到 $25。使用 Crazyrouter 的实时 API,您可以获得即时响应,成本与 OpenAI 的批量定价大致相同。
场景 2:面向客户的聊天机器人#
您的聊天机器人每天处理 50,000 次对话。平均每次对话:800 个输入 token(包括一个 500 个 token 的系统提示,该提示会被缓存)和 400 个输出 token。
每日 token 使用量:
- 缓存输入:500 × 50,000 = 25M token
- 新鲜输入:300 × 50,000 = 15M token
- 输出:400 × 50,000 = 20M token
| 提供商 | 缓存输入 | 新鲜输入 | 输出 | 每日总计 | 每月 (30天) |
|---|---|---|---|---|---|
| OpenAI Standard | $1.88 | $11.25 | $90.00 | $103.13 | $3,093.75 |
| Crazyrouter | $1.03 | $6.19 | $49.50 | $56.72 | $1,701.56 |
Crazyrouter 在此聊天机器人工作负载上为您每月节省 $1,392。请注意,由于聊天机器人需要实时响应,因此批量 API 在此不适用。
场景 3:大规模内容审核#
您每天审核 500,000 篇用户生成的内容。每篇文章平均有 150 个输入 token,以及 30 个 token 的审核结果。系统提示为 1,000 个 token(已缓存)。
每日 token 使用量:
- 缓存输入:1,000 × 500,000 = 500M token
- 新鲜输入:150 × 500,000 = 75M token
- 输出:30 × 500,000 = 15M token
| 提供商 | 缓存输入 | 新鲜输入 | 输出 | 每日总计 | 每月 (30天) |
|---|---|---|---|---|---|
| OpenAI Standard | $37.50 | $56.25 | $67.50 | $161.25 | $4,837.50 |
| OpenAI Batch | $18.75 | $28.13 | $33.75 | $80.63 | $2,418.75 |
| Crazyrouter | $20.63 | $30.94 | $37.13 | $88.69 | $2,660.63 |
每天处理五十万篇文章,如果您能容忍延迟,批量 API 显然是赢家。对于实时审核,Crazyrouter 在提供即时结果的同时,让您的成本接近批量定价。
GPT-5-mini vs GPT-5-nano vs GPT-5.4:您应该使用哪一个?#
GPT-5 系列为您提供了三个不同的层级。以下是关于它们的考量:
GPT-5-nano (每 MTok 1.20)#
超轻量级选项。GPT-5-nano 专为最简单的任务而设计,在这些任务中,速度和成本比深度更重要。例如:基本分类、实体提取、简单格式重排或将查询路由到正确的模型。它速度快且极其便宜,但无法很好地处理细致入微的推理或复杂的指令。
最适合: 高吞吐量、低复杂度的任务。将其用作路由器或预过滤器。
GPT-5-mini (每 MTok 4.50)#
主力模型。GPT-5-mini 能够处理绝大多数生产任务,具有扎实的推理能力、良好的指令遵循能力和可靠的输出质量。这是大多数团队应该开始的地方——足以胜任实际工作,且价格低廉,易于扩展。
最适合: 聊天机器人、分类、摘要、内容生成、代码辅助以及大多数生产工作负载。
GPT-5.4 (每 MTok 10.00)#
重量级选手。GPT-5.4 适用于质量不容妥协的任务——复杂分析、需要真正优秀的创意写作、多步骤推理,或任何错误答案代价高昂的场景。它的成本比 GPT-5-mini 高 3-4 倍,因此请有选择地使用它。
最适合: 复杂推理、高风险决策、高端用户体验,以及 GPT-5-mini 输出质量不足以满足要求的任务。
智能方法:分层路由#
许多生产系统会同时使用这三个模型:
- GPT-5-nano 路由传入请求并处理简单任务。
- GPT-5-mini 处理大部分标准工作负载。
- GPT-5.4 介入处理复杂或高价值请求。
这种方法使您的平均成本接近 GPT-5-mini 的费率,同时在关键之处提供 GPT-5.4 的质量。
主要收获#
- GPT-5-mini 输入成本为 4.50/MTok — 它是 GPT-5 系列中最经济且功能强大的模型。
- 自动缓存将输入成本降低 90%,适用于系统提示和少量示例等重复前缀。无需配置。
- 批量 API 节省 50%,适用于可容忍长达 24 小时延迟的工作负载的输入和输出。
- 缓存 + 批量叠加 — 批量模式下的缓存输入仅需 $0.0375/MTok,比基础费率优惠 95%。
- Crazyrouter 以官方定价的 55% 提供 GPT-5-mini — 节省 45%,且无需任何迁移工作。只需更换
base_url。 - 单一层级定价意味着没有意外。无论上下文长度如何,费率都相同。
- 对于大多数生产工作负载,GPT-5-mini 是默认选择。使用 GPT-5-nano 进行简单路由,使用 GPT-5.4 进行复杂推理。
在 Crazyrouter 上开始使用 GPT-5-mini#
准备好以 45% 的折扣运行 GPT-5-mini 了吗?Crazyrouter 为您提供完整的 OpenAI API 兼容性,价格更低,没有速率限制的烦恼,也无需任何迁移工作。
- 注册 crazyrouter.com
- 从仪表板获取您的 API 密钥
- 将您的 base_url 更改为
https://crazyrouter.com/v1 - 开始节省每个请求的费用
无合同,无最低消费。按使用量付费,只为您所用买单。
最后更新:2026年4月27日
免责声明:定价信息基于截至发布日期 OpenAI 公开可用的数据。价格可能会发生变化。Crazyrouter 定价基于当前费率,并可能进行调整。在做出购买决定之前,请务必在官方 OpenAI 定价页面 和 Crazyrouter 上核实当前定价。成本情景中的 token 数量为估算值,实际使用量可能因您的具体实现而异。