
Claude Sonnet 4.5 定价解析 — 缓存、批量 API 以及如何通过 Crazyrouter 节省 45%
title: Claude Sonnet 4.5 定价解析 — 缓存、批量 API 以及如何通过 Crazyrouter 节省 45% slug: claude-sonnet-4-5-pricing summary: 全面解析 Claude Sonnet 4.5 API 定价 — 每 MTok 基础代币 15,5 分钟和 1 小时提示缓存,批量 API 折扣,以及 Crazyrouter 如何将您的费用降低 45%。 tag: Pricing language: en cover_image_url: https://raw.githubusercontent.com/xujfcn/images/main/blog/covers/claude-sonnet-4-6-pricing.jpg meta_title: Claude Sonnet 4.5 定价 2026 — 缓存、批量 API 和 Crazyrouter 折扣 meta_description: 完整的 Claude Sonnet 4.5 定价指南。基础代币、提示缓存(5 分钟和 1 小时)、批量 API、数据驻留 — 此外,通过 Crazyrouter 节省 45%。 meta_keywords: Claude Sonnet 4.5 pricing, Claude API cost, Anthropic pricing 2026, prompt caching, Crazyrouter discount#
Claude Sonnet 4.5 定价解析 — 缓存、批量 API 以及如何通过 Crazyrouter 节省 45%#
Claude Sonnet 4.5 (claude-sonnet-4-5-20250929) 是 Anthropic 的上一代 Sonnet 模型。即使在 Claude Sonnet 4.6 发布之后,Sonnet 4.5 仍然是生产环境中部署最广泛的模型之一 — 为从客户支持聊天机器人到复杂代码生成管道的一切提供支持。它与其继任者共享相同的定价层级,这使得它成为尚未迁移的团队的可靠且易于理解的选择。
但要理解完整的定价情况,远不止是基本的每代币费率。在提示缓存层级、批量 API 折扣、数据驻留乘数以及第三方路由选项之间,运行 Sonnet 4.5 的实际成本可能会因您的使用方式而大相径庭。
本指南将详细分析 Claude Sonnet 4.5 的每个定价维度,通过实际成本场景进行说明,并展示如何使用 Crazyrouter 将您的 API 费用降低高达 45%。
最后更新:2026 年 4 月 27 日。
基础定价#
Claude Sonnet 4.5 遵循 Anthropic 的标准 Sonnet 层级定价:
| 组成部分 | 每百万代币 (MTok) 价格 |
|---|---|
| 输入代币 | $3.00 |
| 输出代币 | $15.00 |
需要注意的几点:
- 输入代币 包括您的系统提示、用户消息、工具定义以及您传入的任何对话历史记录。
- 输出代币 是模型生成的所有内容 — 助手的响应、工具调用以及任何思维链推理。
- 输出代币的成本是输入代币的 5 倍,这意味着优化输出长度对您的费用有巨大的影响。
作为参考,100 万代币大约是 75 万字 — 大约 10 部长篇小说。一个典型的 API 调用,包含适度的系统提示和几轮对话,可能会使用 2,000–5,000 个输入代币和 500–2,000 个输出代币。
快速成本示例: 一个包含 3,000 个输入代币和 1,000 个输出代币的请求成本为:
Input: 3,000 / 1,000,000 × $3.00 = $0.009
Output: 1,000 / 1,000,000 × $15.00 = $0.015
Total: $0.024 per request
每天 10,000 个请求,即 7,200/月 — 这还没有进行任何优化。
提示缓存 — 最大的成本杠杆#
提示缓存是真正节省成本的地方。如果您在多个请求中发送相同的系统提示、工具定义或少样本示例,那么每次您都在为相同的代币支付全价 — 除非您启用缓存。
Anthropic 为 Claude Sonnet 4.5 提供两种缓存层级:

缓存定价细分#
| 操作 | 每 MTok 价格 | 相对于基础输入的乘数 |
|---|---|---|
| 基础输入(无缓存) | $3.00 | 1.0× |
| 5 分钟缓存写入 | $3.75 | 1.25× |
| 1 小时缓存写入 | $6.00 | 2.0× |
| 缓存命中(读取) | $0.30 | 0.1× |
工作原理如下:
- 缓存写入 — 第一个带有可缓存前缀的请求需要支付写入溢价(5 分钟 TTL 为 1.25 倍,1 小时 TTL 为 2.0 倍)。
- 缓存命中 — 匹配缓存前缀的后续请求仅支付 $0.30/MTok — 输入代币享受 90% 的折扣。
- 缓存未命中 — 如果缓存过期或前缀不匹配,您将再次支付完整的写入成本。
您应该选择哪种缓存 TTL?#
- 5 分钟缓存($3.75/MTok 写入): 最适合突发性工作负载 — 处理多个并发用户的聊天机器人、实时编码助手,或任何请求以集群形式出现的场景。
- 1 小时缓存($6.00/MTok 写入): 最适合稳定、持续的工作负载 — 后台处理管道、计划任务,或在一小时内流量保持一致的应用程序。
盈亏平衡计算#
关键问题:您需要多少次缓存命中才能在缓存写入成本上实现盈亏平衡?
对于 5 分钟缓存:
Break-even: cache_write_premium / savings_per_hit
Premium per MTok: $3.75 - $3.00 = $0.75
Savings per hit: $3.00 - $0.30 = $2.70
Break-even = $0.75 / $2.70 ≈ 0.28 hits
在 5 分钟窗口内,您只需 1 次额外的缓存命中 即可实现盈亏平衡。如果您的缓存前缀是 4,000 个代币,并且您在 5 分钟内发出 2 个或更多请求,缓存就能节省费用。
对于 1 小时缓存:
Premium per MTok: $6.00 - $3.00 = $3.00
Savings per hit: $3.00 - $0.30 = $2.70
Break-even = $3.00 / $2.70 ≈ 1.11 hits
您需要在一小时内有 2 次缓存命中 才能实现盈亏平衡。对于任何每小时使用相同前缀发出超过 2 个请求的应用程序,1 小时缓存都是划算的。
缓存代码示例 (Python)#
import anthropic
client = anthropic.Anthropic()
response = client.messages.create(
model="claude-sonnet-4-5-20250929",
max_tokens=1024,
system=[
{
"type": "text",
"text": "You are a senior software engineer assistant. You help with code reviews, debugging, and architecture decisions. Always provide specific, actionable feedback with code examples.",
"cache_control": {"type": "ephemeral"} # 5-minute TTL
}
],
messages=[
{"role": "user", "content": "Review this Python function for potential issues..."}
]
)
# Check cache performance in the response
usage = response.usage
print(f"Input tokens: {usage.input_tokens}")
print(f"Cache creation: {usage.cache_creation_input_tokens}")
print(f"Cache read (hits): {usage.cache_read_input_tokens}")
对于 1 小时缓存,更改缓存控制类型:
"cache_control": {"type": "ephemeral", "ttl": 3600} # 1-hour TTL
缓存最佳实践#
- 将稳定内容放在首位。 系统提示、工具定义和少样本示例应放在消息的开头 — 缓存从前缀的起始处开始匹配。
- Sonnet 模型的最小可缓存长度为 1,024 个代币。较短的前缀将不会被缓存。
- 监控您的缓存命中率。 如果低于 50%,请重新考虑您的缓存策略或切换 TTL 层级。
- 与对话管理结合使用。 对于多轮对话,缓存系统提示 + 工具定义,并在缓存前缀之外追加新的轮次。
批量 API — 异步工作负载享 50% 折扣#
如果您的工作负载不需要实时响应,批量 API 可以将您的成本减半:
| 组成部分 | 标准价格 | 批量 API 价格 | 节省 |
|---|---|---|---|
| 输入代币 | $3.00/MTok | $1.50/MTok | 50% |
| 输出代币 | $15.00/MTok | $7.50/MTok | 50% |
批量 API 异步处理请求,并保证在 24 小时 内完成(尽管大多数批次完成速度要快得多)。它非常适合:
- 数据处理和分类 — 对数千个支持工单或文档进行分类。
- 内容生成 — 批量生成产品描述、摘要或翻译。
- 评估和测试 — 在大型测试集上运行模型评估。
- 嵌入和分析 — 处理对延迟不敏感的大型数据集。
批量 API 示例#
import anthropic
client = anthropic.Anthropic()
# Create a batch
batch = client.batches.create(
requests=[
{
"custom_id": "request-001",
"params": {
"model": "claude-sonnet-4-5-20250929",
"max_tokens": 512,
"messages": [
{"role": "user", "content": "Summarize this article: ..."}
]
}
},
{
"custom_id": "request-002",
"params": {
"model": "claude-sonnet-4-5-20250929",
"max_tokens": 512,
"messages": [
{"role": "user", "content": "Classify this support ticket: ..."}
]
}
}
# ... up to 100,000 requests per batch
]
)
print(f"Batch ID: {batch.id}")
print(f"Status: {batch.processing_status}")
专业提示: 您可以将批量 API 与提示缓存结合使用,以实现更深层次的节省。批量中的缓存输入代币仅需 **0.30 的缓存命中价格优惠 50%)。
数据驻留 — 仅限美国处理#
对于有数据主权要求的组织,Anthropic 提供 美国数据驻留 选项,保证所有处理都在美国境内进行。
| 组成部分 | 标准 | 美国数据驻留 |
|---|---|---|
| 输入代币 | $3.00/MTok | $3.30/MTok |
| 输出代币 | $15.00/MTok | $16.50/MTok |
| 乘数 | 1.0× | 1.1× |
10% 的溢价适用于所有代币类型,包括缓存代币。这主要与受美国数据处理法规约束的医疗保健、金融和政府应用程序相关。
Crazyrouter 定价 — 每个请求节省 45%#
有趣的地方来了。Crazyrouter 以 Anthropic 官方定价的 55% 提供 Claude Sonnet 4.5 — 输入和输出代币均享受 45% 的固定折扣。

| 组成部分 | Anthropic 直购 | Crazyrouter | 您节省 |
|---|---|---|---|
| 输入代币 | $3.00/MTok | $1.65/MTok | 45% |
| 输出代币 | $15.00/MTok | $8.25/MTok | 45% |
Crazyrouter 是一个统一的 API 网关,完全兼容 OpenAI SDK 格式和 Anthropic 的原生 SDK。您只需更改 base URL 即可切换 — 无需重写代码。
兼容 OpenAI 的 SDK (Python)#
from openai import OpenAI
client = OpenAI(
api_key="your-crazyrouter-api-key",
base_url="https://crazyrouter.com/v1"
)
response = client.chat.completions.create(
model="claude-sonnet-4-5-20250929",
messages=[
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Explain quantum computing in simple terms."}
],
max_tokens=1024
)
print(response.choices[0].message.content)
Anthropic 原生 SDK (Python)#
import anthropic
client = anthropic.Anthropic(
api_key="your-crazyrouter-api-key",
base_url="https://crazyrouter.com"
)
response = client.messages.create(
model="claude-sonnet-4-5-20250929",
max_tokens=1024,
messages=[
{"role": "user", "content": "Explain quantum computing in simple terms."}
]
)
print(response.content[0].text)
cURL#
curl -X POST https://crazyrouter.com/v1/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer your-crazyrouter-api-key" \
-d '{
"model": "claude-sonnet-4-5-20250929",
"messages": [
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Explain quantum computing in simple terms."}
],
"max_tokens": 1024
}'
为什么选择 Crazyrouter?#
- 无需代码更改 — 即插即用替代方案。更改 base URL 和 API 密钥,其他一切保持不变。
- 兼容 OpenAI — 适用于任何支持 OpenAI API 格式的工具或框架(LangChain、LlamaIndex、Vercel AI SDK 等)。
- 所有 Claude 模型 — 访问所有代的 Opus、Sonnet 和 Haiku。
- 流式传输支持 — 完整的 SSE 流式传输、函数调用和工具使用。
- 按需付费 — 无最低消费,无承诺。充值即可开始节省。
实际成本比较 — 3 种场景#
让我们用实际数据来分析三种常见用例,并比较 Anthropic 直购定价与 Crazyrouter。
场景 1:客户支持聊天机器人#
一家中型 SaaS 公司每天处理 5,000 次对话,平均每次对话 4 轮。
| 指标 | 值 |
|---|---|
| 每日请求数 | 20,000 |
| 平均每个请求的输入代币数 | 3,500(包含系统提示 + 历史记录) |
| 平均每个请求的输出代币数 | 800 |
| 缓存命中率 | 70%(系统提示已缓存) |
| 可缓存前缀 | 2,000 个代币 |
月成本(Anthropic 直购):
Non-cached input: 20,000 × 30 × 1,500 / 1M × $3.00 = $2,700
Cached input: 20,000 × 30 × 2,000 / 1M × $0.30 = $360
Cache writes: 20,000 × 30 × 0.30 × 2,000 / 1M × $3.75 = $1,350
Output: 20,000 × 30 × 800 / 1M × $15.00 = $7,200
Total: ~$11,610/month
月成本(Crazyrouter 享 45% 折扣):
$11,610 × 0.55 = ~$6,386/month
Savings: $5,224/month ($62,688/year)
场景 2:代码审查管道(批量 API)#
一个开发团队每晚对 500 个拉取请求运行批量代码审查。
| 指标 | 值 |
|---|---|
| 每晚批量请求数 | 500 |
| 平均每个请求的输入代币数 | 8,000(代码 + 上下文) |
| 平均每个请求的输出代币数 | 2,000(详细审查) |
| 频率 | 每晚(30 次/月) |
月成本(Anthropic 批量 API):
Input: 500 × 30 × 8,000 / 1M × $1.50 = $180
Output: 500 × 30 × 2,000 / 1M × $7.50 = $225
Total: $405/month
月成本(Crazyrouter,标准 API 享 45% 折扣):
Input: 500 × 30 × 8,000 / 1M × $1.65 = $198
Output: 500 × 30 × 2,000 / 1M × $8.25 = $247.50
Total: $445.50/month
在这种情况下,Anthropic 的批量 API 略微便宜(445.50)— 但 Crazyrouter 提供实时响应,而不是等待长达 24 小时。如果延迟很重要,Crazyrouter 更胜一筹。
场景 3:高容量内容生成#
一个内容平台每天生成 2,000 篇文章,使用大量系统提示和少样本示例。
| 指标 | 值 |
|---|---|
| 每日请求数 | 2,000 |
| 平均每个请求的输入代币数 | 12,000(系统 + 示例 + 指令) |
| 平均每个请求的输出代币数 | 3,000(完整文章) |
| 缓存命中率 | 90%(稳定系统提示) |
| 可缓存前缀 | 8,000 个代币 |
月成本(Anthropic 直购并使用缓存):
Non-cached input: 2,000 × 30 × 4,000 / 1M × $3.00 = $720
Cached input: 2,000 × 30 × 8,000 / 1M × $0.30 = $144
Cache writes: 2,000 × 30 × 0.10 × 8,000 / 1M × $3.75 = $180
Output: 2,000 × 30 × 3,000 / 1M × $15.00 = $2,700
Total: ~$3,744/month
月成本(Crazyrouter 享 45% 折扣):
$3,744 × 0.55 = ~$2,059/month
Savings: $1,685/month ($20,220/year)
Claude Sonnet 4.5 与 Sonnet 4.6 — 您应该使用哪个?#
以下是直接比较:
| 方面 | Sonnet 4.5 | Sonnet 4.6 |
|---|---|---|
| 模型 ID | claude-sonnet-4-5-20250929 | claude-sonnet-4-6-20250514 |
| 输入价格 | $3.00/MTok | $3.00/MTok |
| 输出价格 | $15.00/MTok | $15.00/MTok |
| 缓存定价 | 相同 | 相同 |
| 上下文窗口 | 200K tokens | 200K tokens |
| 最大输出 | 16,384 tokens | 16,384 tokens |
| 状态 | 上一代 | 当前一代 |
定价是相同的。Sonnet 4.6 是较新的模型,具有改进的推理能力、更好的指令遵循能力和更低的幻觉率。除非您有特定的回归顾虑或生产管道已在 4.5 上进行了广泛验证,否则我们建议升级到 Sonnet 4.6。
迁移只需更改一行代码:
# Before
model = "claude-sonnet-4-5-20250929"
# After
model = "claude-sonnet-4-6-20250514"
这两个模型都可以在 Crazyrouter 上以相同的 45% 折扣获得。
主要结论#
-
基础定价为每 MTok 15(输入/输出)。输出代币贵 5 倍 — 首先优化响应长度。
-
对于任何生产工作负载,提示缓存是必须的。5 分钟缓存仅需 1 次命中即可实现盈亏平衡;1 小时缓存需 2 次命中。在 70% 以上的缓存命中率下,您可以节省 60-80% 的输入代币成本。
-
批量 API 可节省 50%,但会增加延迟(最长 24 小时)。将其用于不需要实时响应的离线处理。
-
数据驻留增加 10% — 仅当您有监管要求时才支付此费用。
-
Crazyrouter 在所有方面节省 45%,无需任何代码更改。对于典型的生产工作负载,这意味着每年节省 60,000+。
-
Sonnet 4.5 和 4.6 定价相同。 升级到 4.6 可获得更好的性能,且无需额外费用。
立即开始节省#
开始使用 Crazyrouter 大约需要 2 分钟:
- 在 crazyrouter.com 注册
- 从仪表板获取您的 API 密钥
- 将您的 base URL 更改为
https://crazyrouter.com/v1 - 就是这样。 现在每个 Claude API 调用成本降低 45%。
无合同。无最低消费。无供应商锁定。只有更便宜的代币。
→ 在 crazyrouter.com 获取您的 API 密钥
免责声明:定价信息截至 2026 年 4 月 27 日是准确的。Anthropic 可能随时更新其定价。请始终在 Anthropic 官方定价页面 和 Crazyrouter 定价页面 上核实当前费率。所提供的成本场景是基于典型使用模式的估算,并可能因您的具体实施而异。Crazyrouter 是一个独立的 API 网关,不隶属于 Anthropic。


