
GPT-5 定价解析 — 推理令牌、缓存、批量API以及如何通过Crazyrouter节省成本
title: GPT-5 定价解析 — 推理令牌、缓存、批量API以及如何通过Crazyrouter节省成本 slug: gpt-5-pricing summary: GPT-5 API 定价完整解析 — 每 MTok 1.25 美元/10 美元,推理令牌按输出计费,自动缓存享 10% 折扣,批量 API 享 50% 折扣,以及 Crazyrouter 带来的节省。 tag: Pricing language: en cover_image_url: https://raw.githubusercontent.com/xujfcn/images/main/blog/covers/claude-sonnet-4-6-pricing.jpg meta_title: GPT-5 定价 2026 — 推理令牌、缓存和 Crazyrouter 折扣 meta_description: 完整的 GPT-5 定价指南。推理令牌、自动缓存、批量 API 享 50% 折扣 — 另有 Crazyrouter 折扣。 meta_keywords: GPT-5 pricing, OpenAI API cost, GPT-5 API, reasoning model, Crazyrouter discount#
GPT-5 定价解析 — 推理令牌、缓存、批量API以及如何通过Crazyrouter节省成本#
GPT-5 是 OpenAI 迄今为止最强大的模型——一个统一的 reasoning model,它继承了 o3 和 o4-mini 系列,同时融合了 GPT-4o 的对话流畅性。它拥有 400K 的上下文窗口、128K 的最大输出令牌,以及内置的 chain-of-thought 推理能力,可以处理从多步数学证明到复杂代码生成的一切任务。
但能力越大,成本也越高。GPT-5 的定价结构引入了一个让许多开发者措手不及的概念:推理令牌 (reasoning tokens)。这些不可见的令牌在模型内部思考过程中生成,并按输出费率计费。如果您不了解它们的工作原理,您的 API 账单可能会比预期高出 5-10 倍。
本指南将详细解析 GPT-5 API 定价的方方面面——基础费率、推理令牌机制、自动缓存、批量 API 折扣,以及如何通过使用 Crazyrouter 作为 API 代理来降低 45% 的成本。无论您是构建生产级应用还是首次尝试 GPT-5,这都是您所需的定价参考。
最后更新:2026 年 4 月 27 日。
基本定价#
GPT-5 的定价遵循 OpenAI 标准的按令牌计费模型,但其费率反映了其作为前沿 reasoning model 的地位。
| 组成部分 | 每百万令牌价格 |
|---|---|
| 输入令牌 | $1.25 |
| 缓存输入令牌 | $0.125 (90% 折扣) |
| 输出令牌 | $10.00 |
关键规格#
- 上下文窗口: 400,000 tokens
- 最大输出令牌: 128,000 tokens
- 知识截止日期: 2026 年初
- 支持的模态: 文本、图像、音频输入;文本和音频输出
乍一看,输入价格似乎合理——每百万令牌 1.25 美元与其他前沿模型相比具有竞争力。每 MTok 10.00 美元的输出价格是成本增加的地方,尤其是在您考虑推理令牌之后(下文将详细介绍)。
作为比较,以下是 GPT-5 与其他 OpenAI 模型的对比:
| 模型 | 输入 ($/MTok) | 输出 ($/MTok) | 上下文 |
|---|---|---|---|
| GPT-5 | $1.25 | $10.00 | 400K |
| o3 | $2.00 | $8.00 | 200K |
| o4-mini | $0.40 | $1.60 | 200K |
| GPT-4o | $2.50 | $10.00 | 128K |
| GPT-4.1 | $2.00 | $8.00 | 1M |
GPT-5 的输入令牌实际上比 GPT-4o 和 GPT-4.1 更便宜,同时其能力与之相当或超越。400K 的上下文窗口是 o3 提供的一倍。从纸面上看,这是一个很有吸引力的价值主张——直到推理令牌出现。
推理令牌:隐藏的成本倍增器#
这是理解 GPT-5 定价最重要的一点。如果理解错误,您的成本将变得不可预测。
什么是推理令牌?#
当 GPT-5 处理一个复杂请求时,它不会直接给出答案。它会先进行思考。模型会生成一个内部的 chain of thought——分解问题、考虑方法、检查工作——然后才产生您在 API 输出中看到的可见响应。
这些内部思考步骤会消耗推理令牌 (reasoning tokens)。您在响应内容中看不到它们(它们默认是隐藏的),但它们绝对会出现在您的账单上。
推理令牌如何计费?#
推理令牌按输出令牌费率计费——每百万令牌 10.00 美元。这是关键细节。即使您从未看到这些令牌,它们的成本也与可见输出相同。
以下是典型的 API 响应示例:
{
"usage": {
"prompt_tokens": 1200,
"completion_tokens": 8500,
"completion_tokens_details": {
"reasoning_tokens": 6400,
"accepted_prediction_tokens": 0,
"rejected_prediction_tokens": 0
}
}
}
在此示例中,总 completion tokens 为 8,500——但其中只有 2,100 是可见响应。其余 6,400 是推理令牌。您支付的是 8,500 个输出令牌的费用,而不是 2,100 个。
为什么推理令牌可能是可见输出的 2-10 倍#
推理令牌与可见输出的比例取决于任务的复杂性:
- 简单问答或文本生成: 推理令牌可能是可见输出的 0.5-1 倍。模型不需要深入思考。
- 多步数学或逻辑: 推理令牌可能是可见输出的 3-5 倍。模型正在内部逐步进行计算。
- 复杂代码生成或调试: 推理令牌可能达到可见输出的 5-10 倍。模型在向您展示最终答案之前,正在内部进行规划、编写、审查和修改。
这意味着一个产生 1,000 个可见输出令牌的请求,实际上可能消耗 5,000-10,000 个总输出令牌。以每 MTok 10 美元计算,这对于单个请求来说是 0.01 美元和 0.10 美元之间的差异。
使用 reasoning_effort 控制成本#
OpenAI 提供了一个 reasoning_effort 参数,让您可以控制 GPT-5 的思考程度。这是您管理推理令牌成本的主要杠杆。
| 级别 | 行为 | 推理令牌影响 |
|---|---|---|
minimal | 最低限度推理 | ~0.5x visible output |
low | 轻度推理 | ~1–2x visible output |
medium | 平衡(许多任务的默认值) | ~2–5x visible output |
high | 深度推理,最大准确度 | ~5–10x visible output |
from openai import OpenAI
client = OpenAI()
response = client.chat.completions.create(
model="gpt-5",
reasoning_effort="low", # Reduce reasoning for simpler tasks
messages=[
{"role": "user", "content": "Summarize this article in 3 bullet points."}
]
)
经验法则: 对于直接的任务(摘要、翻译、简单问答),使用 low 或 minimal。将 medium 和 high 保留给准确性至关重要的任务——数学、代码、复杂分析。这一个参数可以在常规请求上将您的成本降低 50-80%。
自动缓存:重复输入享 90% 折扣#
GPT-5 支持自动提示缓存 (automatic prompt caching)——与之前的 OpenAI 模型不同,您无需做任何事情来启用它。它就是开箱即用的。
工作原理#
当您向 GPT-5 发送请求时,OpenAI 会自动缓存提示前缀。如果后续请求共享相同的提示前缀(系统提示、少样本示例或提示开头的任何重复内容),则缓存部分将按缓存输入费率计费:**1.25/MTok——享受 90% 的折扣。
缓存保留#
缓存的提示会保留长达 24 小时,并具有延长保留期,尽管确切的持续时间取决于使用模式。频繁访问的缓存会保留更长时间。不常使用的缓存可能会更快过期。
缓存何时最有效#
当您拥有以下情况时,缓存最有价值:
- 长系统提示在所有请求中保持不变(例如,用于客户支持机器人的 5,000 令牌系统提示)
- 少样本示例预置在每个请求之前
- 文档上下文多个用户查询相同文档(例如,RAG 管道中检索到的上下文是相同的文档)
实际示例#
假设您的系统提示是 10,000 令牌,并且您每天发出 1,000 个请求:
- 不使用缓存: 10,000 × 1,000 = 10M 输入令牌 × 12.50/天**
- 使用缓存: 10,000 × 1,000 = 10M 输入令牌 × 1.25/天**
仅凭系统提示的自动缓存,每天就能节省 11.25 美元——每月 337.50 美元。
最大化缓存命中率的技巧#
- 将静态内容放在首位。 缓存从提示的开头开始匹配。您的系统提示和少样本示例应放在任何动态用户内容之前。
- 保持系统提示一致。 即使是单个字符的更改也会使该点之后的所有缓存失效。
- 批量处理类似请求。 如果多个用户正在查询同一文档,请通过相同的提示结构路由它们。
批量API:异步工作负载享 50% 折扣#
OpenAI 的批量 API (Batch API) 允许您提交大量请求并在 24 小时内收到结果。权衡是:您放弃了实时响应,以换取所有令牌成本的 50% 折扣。
| 组成部分 | 标准价格 | 批量API价格 |
|---|---|---|
| 输入令牌 | $1.25/MTok | $0.625/MTok |
| 缓存输入 | $0.125/MTok | $0.0625/MTok |
| 输出令牌 | $10.00/MTok | $5.00/MTok |
何时使用批量API#
批量 API 非常适合:
- 内容生成管道——生成数百个产品描述、博客草稿或翻译
- 数据处理——对大型数据集进行分类、提取或摘要
- 评估和测试——对数千个测试用例运行模型评估
- 夜间作业——任何不需要即时结果的工作负载
工作原理#
- 上传包含请求的
.jsonl文件 - 创建批量作业
- 轮询完成状态(通常在 24 小时内)
- 下载结果
from openai import OpenAI
client = OpenAI()
# Upload the batch file
batch_file = client.files.create(
file=open("requests.jsonl", "rb"),
purpose="batch"
)
# Create the batch
batch = client.batches.create(
input_file_id=batch_file.id,
endpoint="/v1/chat/completions",
completion_window="24h"
)
将批量 API 与自动缓存结合使用可以带来巨大的节省。如果您的批量请求共享共同的前缀,您将在输入令牌上获得 50% 的批量折扣和 90% 的缓存折扣——在批量模式下,缓存输入的实际支付价格为 $0.0625/MTok。
使用 Crazyrouter 节省 45%#
Crazyrouter 是一个 API 代理,它以大幅降低的价格为您提供 GPT-5(以及 200 多个其他模型)的访问权限。它与 OpenAI SDK 完全兼容——您只需更改 base_url 和 API key。
Crazyrouter GPT-5 定价#
| 组成部分 | OpenAI 官方 | Crazyrouter (55%) | 您节省 |
|---|---|---|---|
| 输入令牌 | $1.25/MTok | $0.6875/MTok | 45% |
| 输出令牌 | $10.00/MTok | $5.50/MTok | 45% |
Crazyrouter 收取 OpenAI 官方定价的 55%,这意味着您在每个令牌上节省 45%——包括输入和输出,以及推理令牌。
使用 OpenAI Python SDK 进行设置#
切换到 Crazyrouter 只需两行代码:
from openai import OpenAI
client = OpenAI(
api_key="your-crazyrouter-key",
base_url="https://crazyrouter.com/v1"
)
response = client.chat.completions.create(
model="gpt-5",
reasoning_effort="medium",
messages=[
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Explain quantum entanglement in simple terms."}
]
)
print(response.choices[0].message.content)
使用 curl 进行设置#
curl https://crazyrouter.com/v1/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer your-crazyrouter-key" \
-d '{
"model": "gpt-5",
"reasoning_effort": "medium",
"messages": [
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Explain quantum entanglement in simple terms."}
]
}'
为什么选择 Crazyrouter?#
- 即插即用替代品——相同的 OpenAI SDK,相同的 API 格式,相同的响应结构
- 200+ 模型——通过一个 API key 访问 GPT-5、Claude、Gemini、DeepSeek 等更多模型
- 无速率限制意外——Crazyrouter 处理多个上游 key 的负载均衡
- 按需付费——无订阅,无最低消费
真实世界成本情景#
让我们通过三个实际情景来了解 GPT-5 的成本在实践中如何体现——以及推理令牌、缓存和 Crazyrouter 如何影响最终成本。
情景 1:客户支持聊天机器人#
设置: 5,000 令牌系统提示,平均 500 令牌用户消息,800 令牌可见响应,low reasoning effort。
- 推理令牌: ~1x 可见输出 = 800 tokens
- 总输出令牌: 每个请求 1,600 tokens
- 每日请求数: 10,000
| 成本组成部分 | 每日令牌数 | OpenAI 价格 | Crazyrouter 价格 |
|---|---|---|---|
| 输入(首次请求,未缓存) | 5.5M | $6.88 | $3.78 |
| 输入(已缓存,9,999 次请求) | 49.995M × cached | $6.25 | $3.44 |
| 输出(含推理) | 16M | $160.00 | $88.00 |
| 每日总计 | $173.13 | $95.22 | |
| 每月总计 | $5,193.90 | $2,856.60 |
使用 Crazyrouter 每月节省:$2,337.30
请注意,即使使用 low reasoning effort,输出成本仍然占主导地位。由于缓存,5,000 令牌的系统提示在首次请求后几乎是免费的。
情景 2:代码生成管道#
设置: 2,000 令牌系统提示,3,000 令牌代码上下文,2,000 令牌可见输出,high reasoning effort 以获得最大代码质量。
- 推理令牌: ~8x 可见输出 = 16,000 tokens
- 总输出令牌: 每个请求 18,000 tokens
- 每日请求数: 500
| 成本组成部分 | 每日令牌数 | OpenAI 价格 | Crazyrouter 价格 |
|---|---|---|---|
| 输入(大部分已缓存) | 2.5M | $0.63 | $0.35 |
| 输出(含推理) | 9M | $90.00 | $49.50 |
| 每日总计 | $90.63 | $49.85 | |
| 每月总计 | $2,718.90 | $1,495.50 |
使用 Crazyrouter 每月节省:$1,223.40
此情景展示了推理令牌乘数的作用。可见输出只有 2,000 令牌,但您为每个请求支付了 18,000 令牌的输出费用。在 high reasoning effort 下,模型正在进行大量的内部规划和代码审查——这对于质量来说很好,但对您的钱包来说很昂贵。
成本优化提示: 对于复杂的算法任务使用 high reasoning,对于样板代码生成使用 low。一个智能路由层可以根据任务复杂性调整 reasoning_effort,从而在不牺牲关键质量的情况下将成本降低 60% 以上。
情景 3:批量数据处理#
设置: 处理 50,000 个产品描述。每个项目 200 令牌输入,500 令牌输出,minimal reasoning effort。使用批量 API。
- 推理令牌: ~0.5x 可见输出 = 250 tokens
- 总输出令牌: 每个请求 750 tokens
- 批量折扣: 50% 折扣
| 成本组成部分 | 总令牌数 | OpenAI 批量价格 | Crazyrouter 价格 |
|---|---|---|---|
| 输入 | 10M | $6.25 (batch) | $3.44 |
| 输出(含推理) | 37.5M | $187.50 (batch) | $103.13 |
| 总计 | $193.75 | $106.57 |
使用 Crazyrouter 节省:单次批量运行节省 $87.18
对于批量工作负载,将批量 API 的 50% 折扣与 Crazyrouter 的 45% 折扣结合起来,可以带来巨大的节省。同样的工作在 OpenAI 标准费率下将花费 387.50 美元——通过 Crazyrouter,您只需支付 106.57 美元,总共降低了 72%。
关键要点#
-
推理令牌是最大的成本驱动因素。 它们按输出费率($10/MTok)计费,可能是可见输出的 2-10 倍。始终检查 API 响应中的
completion_tokens_details.reasoning_tokens以了解您的实际成本。 -
战略性地使用
reasoning_effort。 并非每个请求都需要深入思考。对于简单任务设置为low或minimal,对于一般用途设置为medium,只有在准确性至关重要时才设置为high。这一个参数可以将输出成本降低 50-80%。 -
自动缓存是免费的。 将静态内容(系统提示、少样本示例)放在提示的前面,动态内容放在后面。缓存输入令牌的 90% 折扣在大规模使用时会迅速累积。
-
批量 API 用于异步工作负载。 如果您不需要实时响应,50% 的所有令牌折扣不容忽视。内容管道、数据处理和评估运行应始终使用批量 API。
-
Crazyrouter 可节省 45% 的所有费用。 相同的 API,相同的 SDK,相同的响应格式——只是更便宜。在大规模使用时,这相当于每月节省数千美元。
立即开始节省 GPT-5 成本#
GPT-5 是一个了不起的模型,但如果您不关注推理令牌,其成本可能会迅速升级。好消息是:通过 reasoning_effort 调整、自动缓存、批量 API 和 Crazyrouter 的 45% 折扣,您有多种杠杆来控制成本。
准备好将您的 GPT-5 API 成本降低 45% 了吗?
👉 开始使用 Crazyrouter — 创建账户,获取您的 API key,并更换您的 base_url。这只需不到一分钟。
无订阅。无最低消费。只有更便宜的令牌。
免责声明:定价信息截至 2026 年 4 月 27 日准确。OpenAI 可能会随时更改定价。Crazyrouter 定价基于当前费率,并可能发生变化。在做出购买决定之前,请务必在 OpenAI 和 Crazyrouter 官方网站上核实当前定价。上述情景中的令牌使用估算为近似值 — 实际推理令牌消耗量因任务复杂性、提示结构和模型行为而异。


