GPT-5 定价解析 — 推理令牌、缓存、批量API以及如何通过Crazyrouter节省成本

title: GPT-5 定价解析 — 推理令牌、缓存、批量API以及如何通过Crazyrouter节省成本 slug: gpt-5-pricing summary: GPT-5 API 定价完整解析 — 每 MTok 1.25 美元/10 美元，推理令牌按输出计费，自动缓存享 10% 折扣，批量 API 享 50% 折扣，以及 Crazyrouter 带来的节省。 tag: Pricing language: en cover_image_url: https://raw.githubusercontent.com/xujfcn/images/main/blog/covers/claude-sonnet-4-6-pricing.jpg meta_title: GPT-5 定价 2026 — 推理令牌、缓存和 Crazyrouter 折扣 meta_description: 完整的 GPT-5 定价指南。推理令牌、自动缓存、批量 API 享 50% 折扣 — 另有 Crazyrouter 折扣。 meta_keywords: GPT-5 pricing, OpenAI API cost, GPT-5 API, reasoning model, Crazyrouter discount#

GPT-5 定价解析 — 推理令牌、缓存、批量API以及如何通过Crazyrouter节省成本#

GPT-5 是 OpenAI 迄今为止最强大的模型——一个统一的 reasoning model，它继承了 o3 和 o4-mini 系列，同时融合了 GPT-4o 的对话流畅性。它拥有 400K 的上下文窗口、128K 的最大输出令牌，以及内置的 chain-of-thought 推理能力，可以处理从多步数学证明到复杂代码生成的一切任务。

但能力越大，成本也越高。GPT-5 的定价结构引入了一个让许多开发者措手不及的概念：推理令牌 (reasoning tokens)。这些不可见的令牌在模型内部思考过程中生成，并按输出费率计费。如果您不了解它们的工作原理，您的 API 账单可能会比预期高出 5-10 倍。

本指南将详细解析 GPT-5 API 定价的方方面面——基础费率、推理令牌机制、自动缓存、批量 API 折扣，以及如何通过使用 Crazyrouter 作为 API 代理来降低 45% 的成本。无论您是构建生产级应用还是首次尝试 GPT-5，这都是您所需的定价参考。

最后更新：2026 年 4 月 27 日。

基本定价#

GPT-5 的定价遵循 OpenAI 标准的按令牌计费模型，但其费率反映了其作为前沿 reasoning model 的地位。

组成部分	每百万令牌价格
输入令牌	$1.25
缓存输入令牌	$0.125 (90% 折扣)
输出令牌	$10.00

关键规格#

上下文窗口: 400,000 tokens
最大输出令牌: 128,000 tokens
知识截止日期: 2026 年初
支持的模态: 文本、图像、音频输入；文本和音频输出

乍一看，输入价格似乎合理——每百万令牌 1.25 美元与其他前沿模型相比具有竞争力。每 MTok 10.00 美元的输出价格是成本增加的地方，尤其是在您考虑推理令牌之后（下文将详细介绍）。

作为比较，以下是 GPT-5 与其他 OpenAI 模型的对比：

模型	输入 ($/MTok)	输出 ($/MTok)	上下文
GPT-5	$1.25	$10.00	400K
o3	$2.00	$8.00	200K
o4-mini	$0.40	$1.60	200K
GPT-4o	$2.50	$10.00	128K
GPT-4.1	$2.00	$8.00	1M

GPT-5 的输入令牌实际上比 GPT-4o 和 GPT-4.1 更便宜，同时其能力与之相当或超越。400K 的上下文窗口是 o3 提供的一倍。从纸面上看，这是一个很有吸引力的价值主张——直到推理令牌出现。

推理令牌：隐藏的成本倍增器#

这是理解 GPT-5 定价最重要的一点。如果理解错误，您的成本将变得不可预测。

什么是推理令牌？#

当 GPT-5 处理一个复杂请求时，它不会直接给出答案。它会先进行思考。模型会生成一个内部的 chain of thought——分解问题、考虑方法、检查工作——然后才产生您在 API 输出中看到的可见响应。

这些内部思考步骤会消耗推理令牌 (reasoning tokens)。您在响应内容中看不到它们（它们默认是隐藏的），但它们绝对会出现在您的账单上。

推理令牌如何计费？#

推理令牌按输出令牌费率计费——每百万令牌 10.00 美元。这是关键细节。即使您从未看到这些令牌，它们的成本也与可见输出相同。

以下是典型的 API 响应示例：

json

{
  "usage": {
    "prompt_tokens": 1200,
    "completion_tokens": 8500,
    "completion_tokens_details": {
      "reasoning_tokens": 6400,
      "accepted_prediction_tokens": 0,
      "rejected_prediction_tokens": 0
    }
  }
}

在此示例中，总 completion tokens 为 8,500——但其中只有 2,100 是可见响应。其余 6,400 是推理令牌。您支付的是 8,500 个输出令牌的费用，而不是 2,100 个。

为什么推理令牌可能是可见输出的 2-10 倍#

推理令牌与可见输出的比例取决于任务的复杂性：

简单问答或文本生成： 推理令牌可能是可见输出的 0.5-1 倍。模型不需要深入思考。
多步数学或逻辑： 推理令牌可能是可见输出的 3-5 倍。模型正在内部逐步进行计算。
复杂代码生成或调试： 推理令牌可能达到可见输出的 5-10 倍。模型在向您展示最终答案之前，正在内部进行规划、编写、审查和修改。

这意味着一个产生 1,000 个可见输出令牌的请求，实际上可能消耗 5,000-10,000 个总输出令牌。以每 MTok 10 美元计算，这对于单个请求来说是 0.01 美元和 0.10 美元之间的差异。

使用 `reasoning_effort` 控制成本#

OpenAI 提供了一个 reasoning_effort 参数，让您可以控制 GPT-5 的思考程度。这是您管理推理令牌成本的主要杠杆。

级别	行为	推理令牌影响
`minimal`	最低限度推理	~0.5x visible output
`low`	轻度推理	~1–2x visible output
`medium`	平衡（许多任务的默认值）	~2–5x visible output
`high`	深度推理，最大准确度	~5–10x visible output

python

from openai import OpenAI

client = OpenAI()

response = client.chat.completions.create(
    model="gpt-5",
    reasoning_effort="low",  # Reduce reasoning for simpler tasks
    messages=[
        {"role": "user", "content": "Summarize this article in 3 bullet points."}
    ]
)

经验法则： 对于直接的任务（摘要、翻译、简单问答），使用 low 或 minimal。将 medium 和 high 保留给准确性至关重要的任务——数学、代码、复杂分析。这一个参数可以在常规请求上将您的成本降低 50-80%。

自动缓存：重复输入享 90% 折扣#

GPT-5 支持自动提示缓存 (automatic prompt caching)——与之前的 OpenAI 模型不同，您无需做任何事情来启用它。它就是开箱即用的。

工作原理#

当您向 GPT-5 发送请求时，OpenAI 会自动缓存提示前缀。如果后续请求共享相同的提示前缀（系统提示、少样本示例或提示开头的任何重复内容），则缓存部分将按缓存输入费率计费：** $0.125/MTok** 而不是$ 1.25/MTok——享受 90% 的折扣。

缓存保留#

缓存的提示会保留长达 24 小时，并具有延长保留期，尽管确切的持续时间取决于使用模式。频繁访问的缓存会保留更长时间。不常使用的缓存可能会更快过期。

缓存何时最有效#

当您拥有以下情况时，缓存最有价值：

长系统提示在所有请求中保持不变（例如，用于客户支持机器人的 5,000 令牌系统提示）
少样本示例预置在每个请求之前
文档上下文多个用户查询相同文档（例如，RAG 管道中检索到的上下文是相同的文档）

实际示例#

假设您的系统提示是 10,000 令牌，并且您每天发出 1,000 个请求：

不使用缓存： 10,000 × 1,000 = 10M 输入令牌 × $1.25/MTok = **$ 12.50/天**
使用缓存： 10,000 × 1,000 = 10M 输入令牌 × $0.125/MTok = **$ 1.25/天**

仅凭系统提示的自动缓存，每天就能节省 11.25 美元——每月 337.50 美元。

最大化缓存命中率的技巧#

将静态内容放在首位。 缓存从提示的开头开始匹配。您的系统提示和少样本示例应放在任何动态用户内容之前。
保持系统提示一致。 即使是单个字符的更改也会使该点之后的所有缓存失效。
批量处理类似请求。 如果多个用户正在查询同一文档，请通过相同的提示结构路由它们。

批量API：异步工作负载享 50% 折扣#

OpenAI 的批量 API (Batch API) 允许您提交大量请求并在 24 小时内收到结果。权衡是：您放弃了实时响应，以换取所有令牌成本的 50% 折扣。

组成部分	标准价格	批量API价格
输入令牌	$1.25/MTok	$0.625/MTok
缓存输入	$0.125/MTok	$0.0625/MTok
输出令牌	$10.00/MTok	$5.00/MTok

何时使用批量API#

批量 API 非常适合：

内容生成管道——生成数百个产品描述、博客草稿或翻译
数据处理——对大型数据集进行分类、提取或摘要
评估和测试——对数千个测试用例运行模型评估
夜间作业——任何不需要即时结果的工作负载

工作原理#

上传包含请求的 .jsonl 文件
创建批量作业
轮询完成状态（通常在 24 小时内）
下载结果

python

from openai import OpenAI

client = OpenAI()

# Upload the batch file
batch_file = client.files.create(
    file=open("requests.jsonl", "rb"),
    purpose="batch"
)

# Create the batch
batch = client.batches.create(
    input_file_id=batch_file.id,
    endpoint="/v1/chat/completions",
    completion_window="24h"
)

将批量 API 与自动缓存结合使用可以带来巨大的节省。如果您的批量请求共享共同的前缀，您将在输入令牌上获得 50% 的批量折扣和 90% 的缓存折扣——在批量模式下，缓存输入的实际支付价格为 $0.0625/MTok。

使用 Crazyrouter 节省 45%#

Crazyrouter 是一个 API 代理，它以大幅降低的价格为您提供 GPT-5（以及 200 多个其他模型）的访问权限。它与 OpenAI SDK 完全兼容——您只需更改 base_url 和 API key。

Crazyrouter GPT-5 定价#

组成部分	OpenAI 官方	Crazyrouter (55%)	您节省
输入令牌	$1.25/MTok	$0.6875/MTok	45%
输出令牌	$10.00/MTok	$5.50/MTok	45%

Crazyrouter 收取 OpenAI 官方定价的 55%，这意味着您在每个令牌上节省 45%——包括输入和输出，以及推理令牌。

使用 OpenAI Python SDK 进行设置#

切换到 Crazyrouter 只需两行代码：

python

from openai import OpenAI

client = OpenAI(
    api_key="your-crazyrouter-key",
    base_url="https://crazyrouter.com/v1"
)

response = client.chat.completions.create(
    model="gpt-5",
    reasoning_effort="medium",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Explain quantum entanglement in simple terms."}
    ]
)

print(response.choices[0].message.content)

使用 curl 进行设置#

bash

curl https://crazyrouter.com/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer your-crazyrouter-key" \
  -d '{
    "model": "gpt-5",
    "reasoning_effort": "medium",
    "messages": [
      {"role": "system", "content": "You are a helpful assistant."},
      {"role": "user", "content": "Explain quantum entanglement in simple terms."}
    ]
  }'

为什么选择 Crazyrouter？#

即插即用替代品——相同的 OpenAI SDK，相同的 API 格式，相同的响应结构
200+ 模型——通过一个 API key 访问 GPT-5、Claude、Gemini、DeepSeek 等更多模型
无速率限制意外——Crazyrouter 处理多个上游 key 的负载均衡
按需付费——无订阅，无最低消费

真实世界成本情景#

让我们通过三个实际情景来了解 GPT-5 的成本在实践中如何体现——以及推理令牌、缓存和 Crazyrouter 如何影响最终成本。

情景 1：客户支持聊天机器人#

设置： 5,000 令牌系统提示，平均 500 令牌用户消息，800 令牌可见响应，low reasoning effort。

推理令牌： ~1x 可见输出 = 800 tokens
总输出令牌： 每个请求 1,600 tokens
每日请求数： 10,000

成本组成部分	每日令牌数	OpenAI 价格	Crazyrouter 价格
输入（首次请求，未缓存）	5.5M	$6.88	$3.78
输入（已缓存，9,999 次请求）	49.995M × cached	$6.25	$3.44
输出（含推理）	16M	$160.00	$88.00
每日总计		$173.13	$95.22
每月总计		$5,193.90	$2,856.60

使用 Crazyrouter 每月节省：$2,337.30

请注意，即使使用 low reasoning effort，输出成本仍然占主导地位。由于缓存，5,000 令牌的系统提示在首次请求后几乎是免费的。

情景 2：代码生成管道#

设置： 2,000 令牌系统提示，3,000 令牌代码上下文，2,000 令牌可见输出，high reasoning effort 以获得最大代码质量。

推理令牌： ~8x 可见输出 = 16,000 tokens
总输出令牌： 每个请求 18,000 tokens
每日请求数： 500

成本组成部分	每日令牌数	OpenAI 价格	Crazyrouter 价格
输入（大部分已缓存）	2.5M	$0.63	$0.35
输出（含推理）	9M	$90.00	$49.50
每日总计		$90.63	$49.85
每月总计		$2,718.90	$1,495.50

使用 Crazyrouter 每月节省：$1,223.40

此情景展示了推理令牌乘数的作用。可见输出只有 2,000 令牌，但您为每个请求支付了 18,000 令牌的输出费用。在 high reasoning effort 下，模型正在进行大量的内部规划和代码审查——这对于质量来说很好，但对您的钱包来说很昂贵。

成本优化提示： 对于复杂的算法任务使用 high reasoning，对于样板代码生成使用 low。一个智能路由层可以根据任务复杂性调整 reasoning_effort，从而在不牺牲关键质量的情况下将成本降低 60% 以上。

情景 3：批量数据处理#

设置： 处理 50,000 个产品描述。每个项目 200 令牌输入，500 令牌输出，minimal reasoning effort。使用批量 API。

推理令牌： ~0.5x 可见输出 = 250 tokens
总输出令牌： 每个请求 750 tokens
批量折扣： 50% 折扣

成本组成部分	总令牌数	OpenAI 批量价格	Crazyrouter 价格
输入	10M	$6.25 (batch)	$3.44
输出（含推理）	37.5M	$187.50 (batch)	$103.13
总计		$193.75	$106.57

使用 Crazyrouter 节省：单次批量运行节省 $87.18

对于批量工作负载，将批量 API 的 50% 折扣与 Crazyrouter 的 45% 折扣结合起来，可以带来巨大的节省。同样的工作在 OpenAI 标准费率下将花费 387.50 美元——通过 Crazyrouter，您只需支付 106.57 美元，总共降低了 72%。

关键要点#

推理令牌是最大的成本驱动因素。 它们按输出费率（$10/MTok）计费，可能是可见输出的 2-10 倍。始终检查 API 响应中的 completion_tokens_details.reasoning_tokens 以了解您的实际成本。
战略性地使用 reasoning_effort。 并非每个请求都需要深入思考。对于简单任务设置为 low 或 minimal，对于一般用途设置为 medium，只有在准确性至关重要时才设置为 high。这一个参数可以将输出成本降低 50-80%。
自动缓存是免费的。 将静态内容（系统提示、少样本示例）放在提示的前面，动态内容放在后面。缓存输入令牌的 90% 折扣在大规模使用时会迅速累积。
批量 API 用于异步工作负载。 如果您不需要实时响应，50% 的所有令牌折扣不容忽视。内容管道、数据处理和评估运行应始终使用批量 API。
Crazyrouter 可节省 45% 的所有费用。 相同的 API，相同的 SDK，相同的响应格式——只是更便宜。在大规模使用时，这相当于每月节省数千美元。

立即开始节省 GPT-5 成本#

GPT-5 是一个了不起的模型，但如果您不关注推理令牌，其成本可能会迅速升级。好消息是：通过 reasoning_effort 调整、自动缓存、批量 API 和 Crazyrouter 的 45% 折扣，您有多种杠杆来控制成本。

准备好将您的 GPT-5 API 成本降低 45% 了吗？

👉 开始使用 Crazyrouter — 创建账户，获取您的 API key，并更换您的 base_url。这只需不到一分钟。

无订阅。无最低消费。只有更便宜的令牌。

免责声明：定价信息截至 2026 年 4 月 27 日准确。OpenAI 可能会随时更改定价。Crazyrouter 定价基于当前费率，并可能发生变化。在做出购买决定之前，请务必在 OpenAI 和 Crazyrouter 官方网站上核实当前定价。上述情景中的令牌使用估算为近似值 — 实际推理令牌消耗量因任务复杂性、提示结构和模型行为而异。

GPT-5 定价解析 — 推理令牌、缓存、批量API以及如何通过Crazyrouter节省成本