
Grok 4.1 Thinking 定价详解 — Reasoning Tokens、缓存机制及如何通过 Crazyrouter 省钱
title: "Grok 4.1 Thinking 定价详解 — Reasoning Tokens、缓存机制及如何通过 Crazyrouter 省钱" slug: grok-4-1-thinking-pricing-zh summary: "全面解析 Grok 4.1 Thinking API 定价 — reasoning tokens 单独计费、自动缓存、工具调用成本、Batch API 五折优惠,以及 Crazyrouter 折扣。" tag: Pricing language: zh cover_image_url: "https://raw.githubusercontent.com/xujfcn/images/main/blog/covers/claude-sonnet-4-6-pricing.jpg" meta_title: "Grok 4.1 Thinking 定价 2026 — Reasoning Tokens、缓存与 Crazyrouter" meta_description: "完整的 Grok 4.1 Thinking 定价指南。Reasoning tokens 按输出费率计费、缓存机制、工具成本 — 以及 Crazyrouter 折扣。" meta_keywords: "Grok 4.1 thinking pricing, xAI reasoning model, Grok API, reasoning tokens, Crazyrouter discount" last_updated: "2026-04-27"#
Grok 4.1 Thinking 定价详解 — Reasoning Tokens、缓存机制及如何通过 Crazyrouter 省钱#
xAI 的 Grok 4.1 Thinking 是 Grok 4.1 模型系列中增强了推理能力的变体。它在已经很强大的 Grok 4.1 基础模型之上,增加了链式思维推理功能 — 模型在给出最终答案之前会逐步"思考"问题。这使得它在数学、代码生成、逻辑谜题、多步骤规划以及任何需要深思熟虑而非简单模式匹配的任务上表现出色。
但推理是有代价的。Grok 4.1 Thinking 会生成 reasoning tokens — 内部的链式思维 token,按输出 token 费率计费,但不会出现在最终响应中。如果不加注意,一个简单的提示可能会悄悄消耗比预期多 5–10 倍的 token。
本指南将详细拆解 Grok 4.1 Thinking 定价的每个组成部分,解释 reasoning tokens 的工作原理,展示如何通过缓存和 reasoning_effort 参数控制成本,并演示如何通过 Crazyrouter 路由额外节省 10%。
最后更新:2026 年 4 月 27 日。
基础定价#
以下是 xAI 官方的 Grok 4.1 Thinking 定价:
| Component | Price per Million Tokens |
|---|---|
| Input tokens | $0.20 |
| Cached input tokens | $0.05 |
| Output tokens | $0.50 |
| Reasoning tokens | $0.50 (same as output) |
乍一看,这些费率极具竞争力。Input 为 0.50/MTok,大幅低于 GPT-5 和 Claude Opus 4。但真正的成本故事在于 reasoning tokens — 下文详述。
上下文窗口#
Grok 4.1 Thinking 支持 131,072 token 的上下文窗口 — 与基础 Grok 4.1 模型相同。输出限制为 65,536 tokens,其中包括可见的输出 token 和不可见的 reasoning tokens。这意味着大量推理会占用你可用的输出空间。
Reasoning Tokens:隐藏的成本倍增器#
什么是 Reasoning Tokens?#
当你向 Grok 4.1 Thinking 发送提示时,模型不会直接跳到答案。它首先会生成内部的思维链 — 一系列帮助它解决问题的推理步骤。这些中间步骤被称为 reasoning tokens。
Reasoning tokens 的特点:
- 由模型生成,作为其思考过程的一部分
- 按输出 token 费率计费,即 $0.50/MTok
- 不会在 API 响应中返回 — 你在
content字段中看不到它们 - 在
usage对象中报告,位于completion_tokens_details.reasoning_tokens下
如何计费?#
Reasoning tokens 按与输出 token 相同的费率计费:$0.50/MTok。它们计入 usage 响应中的总 completion_tokens。
以下是一个典型的 usage 响应示例:
{
"usage": {
"prompt_tokens": 1200,
"completion_tokens": 8500,
"total_tokens": 9700,
"completion_tokens_details": {
"reasoning_tokens": 7000,
"text_tokens": 1500
}
}
}
在这个例子中,模型生成了 7,000 个 reasoning tokens 和 1,500 个可见输出 token。你需要为所有 8,500 个 completion tokens 按输出费率付费。Reasoning tokens 占了输出成本的 82% — 而你永远看不到它们。
为什么 Reasoning Tokens 成本这么高?#
问题不在于单价 — $0.50/MTok 是合理的。问题在于数量。Reasoning tokens 通常是可见输出 token 的 2 到 10 倍,具体取决于任务复杂度:
| Task Type | Typical Reasoning:Output Ratio | Example |
|---|---|---|
| Simple Q&A | 2:1 | "What's the capital of France?" |
| Code generation | 3–5:1 | "Write a Python function to merge two sorted lists" |
| Math/logic problems | 5–8:1 | "Prove that √2 is irrational" |
| Complex multi-step reasoning | 8–10:1 | "Analyze this codebase and find the bug" |
一个生成 500 个可见输出 token 的提示,可能会悄悄产生 3,000–5,000 个 reasoning tokens。你的实际输出成本不是 2–3/MTok。
使用 reasoning_effort 控制成本#
xAI 提供了 reasoning_effort 参数,让你控制模型的思考程度。这直接影响生成的 reasoning tokens 数量:
| Value | Behavior | Reasoning Token Reduction |
|---|---|---|
high | Full reasoning (default) | Baseline |
medium | Balanced reasoning | ~40–60% fewer reasoning tokens |
low | Minimal reasoning | ~70–80% fewer reasoning tokens |
from openai import OpenAI
client = OpenAI(
api_key="your-api-key",
base_url="https://api.x.ai/v1"
)
response = client.chat.completions.create(
model="grok-4.1-thinking",
reasoning_effort="medium",
messages=[
{"role": "user", "content": "Explain the difference between TCP and UDP."}
]
)
各级别适用场景:
high:数学证明、复杂调试、多步逻辑、竞赛编程medium:一般编码任务、分析、需要细微差别的总结low:简单问答、分类、提取、格式化任务
对简单任务使用 low 可以比默认的 high 设置降低 60–70% 的总成本。这是目前最有效的单一成本优化手段。
缓存:自动享受 75% 输入折扣#
Grok 4.1 Thinking 支持自动提示缓存。当你发送重复或重叠的提示时,xAI 的基础设施会自动缓存公共前缀,并以优惠费率收取缓存 token 的费用:
- 标准 input:$0.20/MTok
- 缓存 input:$0.05/MTok(75% 折扣)
缓存是自动的 — 你不需要启用它或管理缓存键。系统会检测新请求是否与最近的请求共享前缀,并自动应用缓存费率。
缓存最有效的场景#
缓存对以下场景最有效:
- System prompts:如果你在多个请求中使用相同的 system prompt,它会在第一次调用后被缓存
- 多轮对话:之前轮次的对话历史会被缓存
- Few-shot 示例:提示中的静态示例会被缓存
- 文档分析:对同一文档提出多个问题时
缓存示例#
假设你有一个 10,000 token 的 system prompt,并发送 50 个带有不同用户消息的请求:
不使用缓存:
- 50 × 10,000 = 500,000 input tokens × 0.10
使用缓存(第一个请求未缓存,49 个已缓存):
- 1 × 10,000 = 10,000 tokens × 0.002
- 49 × 10,000 = 490,000 tokens × 0.0245
- 总计:$0.0265(节省 73.5%)
对于使用一致 system prompt 的高流量应用,仅缓存一项就能将输入成本降低 70% 以上。
工具调用成本#
Grok 4.1 Thinking 支持与基础 Grok 4.1 模型相同的 tool/function calling 功能。使用工具没有额外附加费 — 你只需支付标准的 input 和 output token 费率。
但是,工具定义确实会消耗 input tokens。请求中的每个工具定义都会增加 prompt token 计数。如果你定义了 20 个带有详细描述的工具,每个请求可能会增加 2,000–5,000 个 token。
工具成本优化建议:
- 只包含与当前请求相关的工具
- 保持工具描述简洁但清晰
- 利用缓存来抵消重复工具定义的成本
- 考虑
reasoning_effort="low"是否足以完成工具路由决策
Batch API:五折优惠#
xAI 提供 Batch API,用于异步处理,价格为标准价格的一半:
| Component | Standard | Batch (50% off) |
|---|---|---|
| Input tokens | $0.20/MTok | $0.10/MTok |
| Cached input | $0.05/MTok | $0.025/MTok |
| Output tokens | $0.50/MTok | $0.25/MTok |
| Reasoning tokens | $0.50/MTok | $0.25/MTok |
Batch 请求在 24 小时窗口内处理。你提交一个 JSONL 格式的请求文件并轮询结果。适用于:
- 批量内容生成
- 大规模数据分析
- 评估和基准测试
- 任何不需要实时响应的工作负载
50% 折扣适用于所有 token 类型,包括 reasoning tokens。对于推理密集型工作负载,Batch API 可以将你的有效成本从约 1.50/MTok。
通过 Crazyrouter 进一步省钱#
Crazyrouter 是一个 OpenAI 兼容的 API 网关,提供 Grok 4.1 Thinking(以及 200+ 其他模型)的访问,价格为官方定价的 90% — 所有 token 成本统一打九折。
Crazyrouter 的 Grok 4.1 Thinking 定价#
| Component | Official | Crazyrouter (10% off) |
|---|---|---|
| Input tokens | $0.20/MTok | $0.18/MTok |
| Cached input | $0.05/MTok | $0.045/MTok |
| Output tokens | $0.50/MTok | $0.45/MTok |
| Reasoning tokens | $0.50/MTok | $0.45/MTok |
为什么选择 Crazyrouter?#
- OpenAI 兼容 API:即插即用 — 只需更改
base_url - 200+ 模型:通过单个 API key 访问 Grok、GPT、Claude、Gemini、DeepSeek 等
- 10% 折扣:每个模型、每个 token、每个请求
- 无速率限制意外:所有模型均有充裕的速率限制
- 统一计费:一个账户、一张账单、所有供应商
集成:OpenAI Python SDK#
from openai import OpenAI
client = OpenAI(
api_key="your-crazyrouter-key",
base_url="https://crazyrouter.com/v1"
)
response = client.chat.completions.create(
model="grok-4.1-thinking",
reasoning_effort="medium",
messages=[
{
"role": "system",
"content": "You are a helpful coding assistant."
},
{
"role": "user",
"content": "Write a Python function to find the longest palindromic substring."
}
]
)
print(response.choices[0].message.content)
# Check reasoning token usage
usage = response.usage
print(f"Input tokens: {usage.prompt_tokens}")
print(f"Output tokens: {usage.completion_tokens}")
if hasattr(usage, 'completion_tokens_details'):
details = usage.completion_tokens_details
print(f"Reasoning tokens: {details.reasoning_tokens}")
print(f"Text tokens: {details.text_tokens}")
集成:cURL#
curl https://crazyrouter.com/v1/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer your-crazyrouter-key" \
-d '{
"model": "grok-4.1-thinking",
"reasoning_effort": "medium",
"messages": [
{
"role": "user",
"content": "Explain how B-trees work and why databases use them."
}
]
}'
就这么简单。更改 base URL,使用你的 Crazyrouter API key,每次调用都能节省 10%。
真实场景成本分析#
让我们通过三个实际场景来看看 reasoning tokens、缓存和 Crazyrouter 如何影响你的账单。
场景 1:简单聊天机器人(低推理)#
用例:回答 FAQ 类问题的客服机器人。
| Parameter | Value |
|---|---|
| Reasoning effort | low |
| Avg input tokens per request | 800 |
| Avg reasoning tokens per request | 300 |
| Avg output tokens per request | 200 |
| Requests per day | 10,000 |
| Caching hit rate | 70% (system prompt cached) |
月度成本计算(30 天):
- Input:10,000 × 800 = 8M tokens/天 → 240M tokens/月
- 未缓存 (30%):72M × 14.40
- 已缓存 (70%):168M × 8.40
- Output + Reasoning:10,000 × 500 = 5M tokens/天 → 150M tokens/月
- 150M × 75.00
总计(官方):88.02/月 — 每月节省 $9.78
场景 2:代码助手(中等推理)#
用例:生成和解释代码的开发者工具。
| Parameter | Value |
|---|---|
| Reasoning effort | medium |
| Avg input tokens per request | 3,000 |
| Avg reasoning tokens per request | 4,000 |
| Avg output tokens per request | 1,200 |
| Requests per day | 2,000 |
| Caching hit rate | 50% |
月度成本计算(30 天):
- Input:2,000 × 3,000 = 6M tokens/天 → 180M tokens/月
- 未缓存 (50%):90M × 18.00
- 已缓存 (50%):90M × 4.50
- Output + Reasoning:2,000 × 5,200 = 10.4M tokens/天 → 312M tokens/月
- 312M × 156.00
总计(官方):160.65/月 — 每月节省 $17.85
注意 reasoning tokens (4,000) 远超可见输出 (1,200)。输出费用是仅看可见 token 时预期的 3.3 倍。
场景 3:研究 Agent(高推理)#
用例:解决复杂多步骤问题并使用工具的自主 agent。
| Parameter | Value |
|---|---|
| Reasoning effort | high |
| Avg input tokens per request | 8,000 |
| Avg reasoning tokens per request | 15,000 |
| Avg output tokens per request | 2,000 |
| Requests per day | 500 |
| Caching hit rate | 40% |
月度成本计算(30 天):
- Input:500 × 8,000 = 4M tokens/天 → 120M tokens/月
- 未缓存 (60%):72M × 14.40
- 已缓存 (40%):48M × 2.40
- Output + Reasoning:500 × 17,000 = 8.5M tokens/天 → 255M tokens/月
- 255M × 127.50
总计(官方):129.87/月 — 每月节省 $14.43
这里,reasoning tokens 是可见输出的 7.5 倍。模型在进行严肃的思考 — 而你为每一步都在付费。如果切换到 medium reasoning effort,你可以将 reasoning tokens 大致减半,每月节省约 $60。
Grok 4.1 Thinking vs. GPT-5 vs. Claude Opus 4 推理模型对比#
Grok 4.1 Thinking 与其他推理模型相比如何?
| Model | Input $/MTok | Output $/MTok | Reasoning Rate | Batch Discount |
|---|---|---|---|---|
| Grok 4.1 Thinking | $0.20 | $0.50 | Same as output ($0.50) | 50% off |
| GPT-5 | $2.00 | $8.00 | Same as output ($8.00) | 50% off |
| Claude Opus 4 | $15.00 | $75.00 | N/A (extended thinking billed at output) | Not available |
价格差距非常显著:
- Grok 4.1 Thinking 的 input 便宜 10 倍,output 便宜 16 倍(相比 GPT-5)
- Grok 4.1 Thinking 的 input 便宜 75 倍,output 便宜 150 倍(相比 Claude Opus 4)
当然,定价不是一切 — 基准测试性能、延迟和输出质量都很重要。但对于成本敏感的推理工作负载,Grok 4.1 Thinking 提供了极具吸引力的性价比。它是目前最实惠的前沿推理模型。
何时选择哪个模型:
- Grok 4.1 Thinking:推理任务的最佳性价比,尤其适合大规模使用。在数学、代码和逻辑方面表现强劲。
- GPT-5:更广泛的通用知识,在创意和细腻任务上更强。对于面向客户的应用值得付出溢价。
- Claude Opus 4:长上下文分析、复杂写作和需要深度理解的任务中表现最佳。高端定价反映了高端能力。
核心要点#
-
基础费率便宜,但 reasoning tokens 会成倍增加你的成本。 2–5/MTok。
-
积极使用
reasoning_effort。 简单任务设为low,大多数工作负载设为medium。只在真正复杂的问题上使用high。 -
缓存是免费的省钱利器。 一致的 system prompts 和多轮对话会自动享受 75% 的输入折扣。
-
Batch API 将一切减半。 如果你能接受异步处理,50% 折扣适用于所有 token 类型,包括 reasoning tokens。
-
Crazyrouter 在此基础上再省 10%。 一个 OpenAI 兼容的即插即用方案,只需更改一行代码。
-
监控 usage 数据中的
reasoning_tokens。 如果你没有追踪这个字段,你就是在盲目承担成本。 -
Grok 4.1 Thinking 是目前最具性价比的推理模型。 比 GPT-5 和 Claude Opus 4 便宜 10–75 倍,是预算敏感型推理工作负载的明确选择。
开始使用 Crazyrouter#
准备好以九折价格使用 Grok 4.1 Thinking 了吗?
- 注册 crazyrouter.com
- 获取 API key,在控制面板中
- 更改 base URL 为
https://crazyrouter.com/v1 - 开始省钱,每个请求都在节省
Crazyrouter 支持来自 xAI、OpenAI、Anthropic、Google、DeepSeek 等的 200+ 模型 — 全部通过单个 OpenAI 兼容 API 访问。一个 key,一张账单,所有模型。
👉 在 crazyrouter.com 获取你的 API key
免责声明:定价信息截至 2026 年 4 月 27 日准确,基于 xAI 公开发布的数据。价格可能随时变更,恕不另行通知。Crazyrouter 是独立的 API 网关,与 xAI 无关联。在做出购买决策前,请务必在 xAI 官方定价页面 验证当前价格。上述场景中的 token 使用量估算为近似值,实际使用量会因提示复杂度、模型行为和其他因素而异。


