Login
Back to Blog

GPT-5 定价解析 — 推理令牌、缓存、批量API以及如何通过Crazyrouter节省成本

C
Crazyrouter Team
April 27, 2026
0 views中文Pricing
Share:


title: GPT-5 定价解析 — 推理令牌、缓存、批量API以及如何通过Crazyrouter节省成本 slug: gpt-5-pricing summary: GPT-5 API 定价完整解析 — 每 MTok 1.25 美元/10 美元,推理令牌按输出计费,自动缓存享 10% 折扣,批量 API 享 50% 折扣,以及 Crazyrouter 带来的节省。 tag: Pricing language: en cover_image_url: https://raw.githubusercontent.com/xujfcn/images/main/blog/covers/claude-sonnet-4-6-pricing.jpg meta_title: GPT-5 定价 2026 — 推理令牌、缓存和 Crazyrouter 折扣 meta_description: 完整的 GPT-5 定价指南。推理令牌、自动缓存、批量 API 享 50% 折扣 — 另有 Crazyrouter 折扣。 meta_keywords: GPT-5 pricing, OpenAI API cost, GPT-5 API, reasoning model, Crazyrouter discount#

GPT-5 定价解析 — 推理令牌、缓存、批量API以及如何通过Crazyrouter节省成本#

GPT-5 是 OpenAI 迄今为止最强大的模型——一个统一的 reasoning model,它继承了 o3 和 o4-mini 系列,同时融合了 GPT-4o 的对话流畅性。它拥有 400K 的上下文窗口、128K 的最大输出令牌,以及内置的 chain-of-thought 推理能力,可以处理从多步数学证明到复杂代码生成的一切任务。

但能力越大,成本也越高。GPT-5 的定价结构引入了一个让许多开发者措手不及的概念:推理令牌 (reasoning tokens)。这些不可见的令牌在模型内部思考过程中生成,并按输出费率计费。如果您不了解它们的工作原理,您的 API 账单可能会比预期高出 5-10 倍。

本指南将详细解析 GPT-5 API 定价的方方面面——基础费率、推理令牌机制、自动缓存、批量 API 折扣,以及如何通过使用 Crazyrouter 作为 API 代理来降低 45% 的成本。无论您是构建生产级应用还是首次尝试 GPT-5,这都是您所需的定价参考。

最后更新:2026 年 4 月 27 日。


基本定价#

GPT-5 的定价遵循 OpenAI 标准的按令牌计费模型,但其费率反映了其作为前沿 reasoning model 的地位。

组成部分每百万令牌价格
输入令牌$1.25
缓存输入令牌$0.125 (90% 折扣)
输出令牌$10.00

关键规格#

  • 上下文窗口: 400,000 tokens
  • 最大输出令牌: 128,000 tokens
  • 知识截止日期: 2026 年初
  • 支持的模态: 文本、图像、音频输入;文本和音频输出

乍一看,输入价格似乎合理——每百万令牌 1.25 美元与其他前沿模型相比具有竞争力。每 MTok 10.00 美元的输出价格是成本增加的地方,尤其是在您考虑推理令牌之后(下文将详细介绍)。

作为比较,以下是 GPT-5 与其他 OpenAI 模型的对比:

模型输入 ($/MTok)输出 ($/MTok)上下文
GPT-5$1.25$10.00400K
o3$2.00$8.00200K
o4-mini$0.40$1.60200K
GPT-4o$2.50$10.00128K
GPT-4.1$2.00$8.001M

GPT-5 的输入令牌实际上比 GPT-4o 和 GPT-4.1 更便宜,同时其能力与之相当或超越。400K 的上下文窗口是 o3 提供的一倍。从纸面上看,这是一个很有吸引力的价值主张——直到推理令牌出现。


推理令牌:隐藏的成本倍增器#

这是理解 GPT-5 定价最重要的一点。如果理解错误,您的成本将变得不可预测。

什么是推理令牌?#

当 GPT-5 处理一个复杂请求时,它不会直接给出答案。它会先进行思考。模型会生成一个内部的 chain of thought——分解问题、考虑方法、检查工作——然后才产生您在 API 输出中看到的可见响应。

这些内部思考步骤会消耗推理令牌 (reasoning tokens)。您在响应内容中看不到它们(它们默认是隐藏的),但它们绝对会出现在您的账单上。

推理令牌如何计费?#

推理令牌按输出令牌费率计费——每百万令牌 10.00 美元。这是关键细节。即使您从未看到这些令牌,它们的成本也与可见输出相同。

以下是典型的 API 响应示例:

json
{
  "usage": {
    "prompt_tokens": 1200,
    "completion_tokens": 8500,
    "completion_tokens_details": {
      "reasoning_tokens": 6400,
      "accepted_prediction_tokens": 0,
      "rejected_prediction_tokens": 0
    }
  }
}

在此示例中,总 completion tokens 为 8,500——但其中只有 2,100 是可见响应。其余 6,400 是推理令牌。您支付的是 8,500 个输出令牌的费用,而不是 2,100 个。

为什么推理令牌可能是可见输出的 2-10 倍#

推理令牌与可见输出的比例取决于任务的复杂性:

  • 简单问答或文本生成: 推理令牌可能是可见输出的 0.5-1 倍。模型不需要深入思考。
  • 多步数学或逻辑: 推理令牌可能是可见输出的 3-5 倍。模型正在内部逐步进行计算。
  • 复杂代码生成或调试: 推理令牌可能达到可见输出的 5-10 倍。模型在向您展示最终答案之前,正在内部进行规划、编写、审查和修改。

这意味着一个产生 1,000 个可见输出令牌的请求,实际上可能消耗 5,000-10,000 个总输出令牌。以每 MTok 10 美元计算,这对于单个请求来说是 0.01 美元和 0.10 美元之间的差异。

使用 reasoning_effort 控制成本#

OpenAI 提供了一个 reasoning_effort 参数,让您可以控制 GPT-5 的思考程度。这是您管理推理令牌成本的主要杠杆。

级别行为推理令牌影响
minimal最低限度推理~0.5x visible output
low轻度推理~1–2x visible output
medium平衡(许多任务的默认值)~2–5x visible output
high深度推理,最大准确度~5–10x visible output
python
from openai import OpenAI

client = OpenAI()

response = client.chat.completions.create(
    model="gpt-5",
    reasoning_effort="low",  # Reduce reasoning for simpler tasks
    messages=[
        {"role": "user", "content": "Summarize this article in 3 bullet points."}
    ]
)

经验法则: 对于直接的任务(摘要、翻译、简单问答),使用 lowminimal。将 mediumhigh 保留给准确性至关重要的任务——数学、代码、复杂分析。这一个参数可以在常规请求上将您的成本降低 50-80%。


自动缓存:重复输入享 90% 折扣#

GPT-5 支持自动提示缓存 (automatic prompt caching)——与之前的 OpenAI 模型不同,您无需做任何事情来启用它。它就是开箱即用的。

工作原理#

当您向 GPT-5 发送请求时,OpenAI 会自动缓存提示前缀。如果后续请求共享相同的提示前缀(系统提示、少样本示例或提示开头的任何重复内容),则缓存部分将按缓存输入费率计费:**0.125/MTok而不是0.125/MTok** 而不是 1.25/MTok——享受 90% 的折扣。

缓存保留#

缓存的提示会保留长达 24 小时,并具有延长保留期,尽管确切的持续时间取决于使用模式。频繁访问的缓存会保留更长时间。不常使用的缓存可能会更快过期。

缓存何时最有效#

当您拥有以下情况时,缓存最有价值:

  • 长系统提示在所有请求中保持不变(例如,用于客户支持机器人的 5,000 令牌系统提示)
  • 少样本示例预置在每个请求之前
  • 文档上下文多个用户查询相同文档(例如,RAG 管道中检索到的上下文是相同的文档)

实际示例#

假设您的系统提示是 10,000 令牌,并且您每天发出 1,000 个请求:

  • 不使用缓存: 10,000 × 1,000 = 10M 输入令牌 × 1.25/MTok=1.25/MTok = **12.50/天**
  • 使用缓存: 10,000 × 1,000 = 10M 输入令牌 × 0.125/MTok=0.125/MTok = **1.25/天**

仅凭系统提示的自动缓存,每天就能节省 11.25 美元——每月 337.50 美元。

最大化缓存命中率的技巧#

  1. 将静态内容放在首位。 缓存从提示的开头开始匹配。您的系统提示和少样本示例应放在任何动态用户内容之前。
  2. 保持系统提示一致。 即使是单个字符的更改也会使该点之后的所有缓存失效。
  3. 批量处理类似请求。 如果多个用户正在查询同一文档,请通过相同的提示结构路由它们。

批量API:异步工作负载享 50% 折扣#

OpenAI 的批量 API (Batch API) 允许您提交大量请求并在 24 小时内收到结果。权衡是:您放弃了实时响应,以换取所有令牌成本的 50% 折扣

组成部分标准价格批量API价格
输入令牌$1.25/MTok$0.625/MTok
缓存输入$0.125/MTok$0.0625/MTok
输出令牌$10.00/MTok$5.00/MTok

何时使用批量API#

批量 API 非常适合:

  • 内容生成管道——生成数百个产品描述、博客草稿或翻译
  • 数据处理——对大型数据集进行分类、提取或摘要
  • 评估和测试——对数千个测试用例运行模型评估
  • 夜间作业——任何不需要即时结果的工作负载

工作原理#

  1. 上传包含请求的 .jsonl 文件
  2. 创建批量作业
  3. 轮询完成状态(通常在 24 小时内)
  4. 下载结果
python
from openai import OpenAI

client = OpenAI()

# Upload the batch file
batch_file = client.files.create(
    file=open("requests.jsonl", "rb"),
    purpose="batch"
)

# Create the batch
batch = client.batches.create(
    input_file_id=batch_file.id,
    endpoint="/v1/chat/completions",
    completion_window="24h"
)

将批量 API 与自动缓存结合使用可以带来巨大的节省。如果您的批量请求共享共同的前缀,您将在输入令牌上获得 50% 的批量折扣和 90% 的缓存折扣——在批量模式下,缓存输入的实际支付价格为 $0.0625/MTok。


使用 Crazyrouter 节省 45%#

Crazyrouter 是一个 API 代理,它以大幅降低的价格为您提供 GPT-5(以及 200 多个其他模型)的访问权限。它与 OpenAI SDK 完全兼容——您只需更改 base_url 和 API key。

Crazyrouter GPT-5 定价#

组成部分OpenAI 官方Crazyrouter (55%)您节省
输入令牌$1.25/MTok$0.6875/MTok45%
输出令牌$10.00/MTok$5.50/MTok45%

Crazyrouter 收取 OpenAI 官方定价的 55%,这意味着您在每个令牌上节省 45%——包括输入和输出,以及推理令牌。

使用 OpenAI Python SDK 进行设置#

切换到 Crazyrouter 只需两行代码:

python
from openai import OpenAI

client = OpenAI(
    api_key="your-crazyrouter-key",
    base_url="https://crazyrouter.com/v1"
)

response = client.chat.completions.create(
    model="gpt-5",
    reasoning_effort="medium",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Explain quantum entanglement in simple terms."}
    ]
)

print(response.choices[0].message.content)

使用 curl 进行设置#

bash
curl https://crazyrouter.com/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer your-crazyrouter-key" \
  -d '{
    "model": "gpt-5",
    "reasoning_effort": "medium",
    "messages": [
      {"role": "system", "content": "You are a helpful assistant."},
      {"role": "user", "content": "Explain quantum entanglement in simple terms."}
    ]
  }'

为什么选择 Crazyrouter?#

  • 即插即用替代品——相同的 OpenAI SDK,相同的 API 格式,相同的响应结构
  • 200+ 模型——通过一个 API key 访问 GPT-5、Claude、Gemini、DeepSeek 等更多模型
  • 无速率限制意外——Crazyrouter 处理多个上游 key 的负载均衡
  • 按需付费——无订阅,无最低消费

真实世界成本情景#

让我们通过三个实际情景来了解 GPT-5 的成本在实践中如何体现——以及推理令牌、缓存和 Crazyrouter 如何影响最终成本。

情景 1:客户支持聊天机器人#

设置: 5,000 令牌系统提示,平均 500 令牌用户消息,800 令牌可见响应,low reasoning effort。

  • 推理令牌: ~1x 可见输出 = 800 tokens
  • 总输出令牌: 每个请求 1,600 tokens
  • 每日请求数: 10,000
成本组成部分每日令牌数OpenAI 价格Crazyrouter 价格
输入(首次请求,未缓存)5.5M$6.88$3.78
输入(已缓存,9,999 次请求)49.995M × cached$6.25$3.44
输出(含推理)16M$160.00$88.00
每日总计$173.13$95.22
每月总计$5,193.90$2,856.60

使用 Crazyrouter 每月节省:$2,337.30

请注意,即使使用 low reasoning effort,输出成本仍然占主导地位。由于缓存,5,000 令牌的系统提示在首次请求后几乎是免费的。

情景 2:代码生成管道#

设置: 2,000 令牌系统提示,3,000 令牌代码上下文,2,000 令牌可见输出,high reasoning effort 以获得最大代码质量。

  • 推理令牌: ~8x 可见输出 = 16,000 tokens
  • 总输出令牌: 每个请求 18,000 tokens
  • 每日请求数: 500
成本组成部分每日令牌数OpenAI 价格Crazyrouter 价格
输入(大部分已缓存)2.5M$0.63$0.35
输出(含推理)9M$90.00$49.50
每日总计$90.63$49.85
每月总计$2,718.90$1,495.50

使用 Crazyrouter 每月节省:$1,223.40

此情景展示了推理令牌乘数的作用。可见输出只有 2,000 令牌,但您为每个请求支付了 18,000 令牌的输出费用。在 high reasoning effort 下,模型正在进行大量的内部规划和代码审查——这对于质量来说很好,但对您的钱包来说很昂贵。

成本优化提示: 对于复杂的算法任务使用 high reasoning,对于样板代码生成使用 low。一个智能路由层可以根据任务复杂性调整 reasoning_effort,从而在不牺牲关键质量的情况下将成本降低 60% 以上。

情景 3:批量数据处理#

设置: 处理 50,000 个产品描述。每个项目 200 令牌输入,500 令牌输出,minimal reasoning effort。使用批量 API。

  • 推理令牌: ~0.5x 可见输出 = 250 tokens
  • 总输出令牌: 每个请求 750 tokens
  • 批量折扣: 50% 折扣
成本组成部分总令牌数OpenAI 批量价格Crazyrouter 价格
输入10M$6.25 (batch)$3.44
输出(含推理)37.5M$187.50 (batch)$103.13
总计$193.75$106.57

使用 Crazyrouter 节省:单次批量运行节省 $87.18

对于批量工作负载,将批量 API 的 50% 折扣与 Crazyrouter 的 45% 折扣结合起来,可以带来巨大的节省。同样的工作在 OpenAI 标准费率下将花费 387.50 美元——通过 Crazyrouter,您只需支付 106.57 美元,总共降低了 72%。


关键要点#

  1. 推理令牌是最大的成本驱动因素。 它们按输出费率($10/MTok)计费,可能是可见输出的 2-10 倍。始终检查 API 响应中的 completion_tokens_details.reasoning_tokens 以了解您的实际成本。

  2. 战略性地使用 reasoning_effort 并非每个请求都需要深入思考。对于简单任务设置为 lowminimal,对于一般用途设置为 medium,只有在准确性至关重要时才设置为 high。这一个参数可以将输出成本降低 50-80%。

  3. 自动缓存是免费的。 将静态内容(系统提示、少样本示例)放在提示的前面,动态内容放在后面。缓存输入令牌的 90% 折扣在大规模使用时会迅速累积。

  4. 批量 API 用于异步工作负载。 如果您不需要实时响应,50% 的所有令牌折扣不容忽视。内容管道、数据处理和评估运行应始终使用批量 API。

  5. Crazyrouter 可节省 45% 的所有费用。 相同的 API,相同的 SDK,相同的响应格式——只是更便宜。在大规模使用时,这相当于每月节省数千美元。


立即开始节省 GPT-5 成本#

GPT-5 是一个了不起的模型,但如果您不关注推理令牌,其成本可能会迅速升级。好消息是:通过 reasoning_effort 调整、自动缓存、批量 API 和 Crazyrouter 的 45% 折扣,您有多种杠杆来控制成本。

准备好将您的 GPT-5 API 成本降低 45% 了吗?

👉 开始使用 Crazyrouter — 创建账户,获取您的 API key,并更换您的 base_url。这只需不到一分钟。

无订阅。无最低消费。只有更便宜的令牌。


免责声明:定价信息截至 2026 年 4 月 27 日准确。OpenAI 可能会随时更改定价。Crazyrouter 定价基于当前费率,并可能发生变化。在做出购买决定之前,请务必在 OpenAI 和 Crazyrouter 官方网站上核实当前定价。上述情景中的令牌使用估算为近似值 — 实际推理令牌消耗量因任务复杂性、提示结构和模型行为而异。

Related Articles