日本語Pricing

Claude Sonnet 4.6の料金解説 — キャッシング、ティア、Crazyrouterで45%節約する方法

Claude Sonnet 4.6 APIの料金体系を徹底解説 — ベーストークン、5分および1時間のプロンプトキャッシング、Batch API割引、データレジデンシー追加料金、そしてCrazyrouterで請求額を45%削減する方法。

Crazyrouter Team

April 27, 2026 / 308 views

Crazyrouter

Check live pricing Open API Playground Open image tool Read the docs

Claude Sonnet 4.6の料金解説 — キャッシング、ティア、Crazyrouterで45%節約する方法#

Claude Sonnet 4.6 Pricing Guide

Claude Sonnet 4.6は、Anthropicの最新ミッドレンジモデルで、2026年2月にリリースされました。予算に優しいHaikuラインとプレミアムなOpusティアの間に位置し、コーディング、チャット、ドキュメント分析、ツール利用といったほとんどのプロダクションワークロードにとってデフォルトの選択肢となります。

しかし、Anthropicの料金は単に「入力 + 出力」だけではありません。2つのTTLティアを持つ階層化されたキャッシングシステム、Batch API割引、そしてデータレジデンシー追加料金があり、これらすべてが重なり合う可能性があります。このガイドでは、各コンポーネントを詳細に解説し、支払っている金額と、それを削減する方法を正確に理解できるようにします。

最終更新日：2026年4月27日

免責事項： この記事の価格は公開日時点のもので正確です。Anthropicはいつでも価格を調整する可能性があります。プロダクションでの決定を行う前に、必ずAnthropic公式料金ページで確認してください。

基本トークン料金#

Claude Sonnet 4.6の料金の基本はシンプルです。

トークンタイプ	1Mトークンあたりの価格
Input (base)	$3.00
Output	$15.00

これは出力対入力の比率が5:1であることを意味します。入力トークンに1ドル費やすごとに、同じ数の出力トークンには5ドル費やすことになります。この比率は重要です。ワークロードが出力ヘビー（コード生成、長文作成など）の場合、出力コストが請求額の大部分を占めることになります。

クイックリファレンス：実際のコストは？#

ワークロード	トークン	コスト
1 short chat turn (500 in / 200 out)	700 total	$0.0045
1 code review (2K in / 1K out)	3K total	$0.021
1 document summary (10K in / 2K out)	12K total	$0.06
1 hour of chatbot traffic (500K in / 200K out)	700K total	$4.50
1 day of heavy API usage (5M in / 2M out)	7M total	$45.00

プロンプトキャッシング：最大のコスト削減レバー#

プロンプトキャッシングは、Anthropicの料金設定が興味深い点であり、真の節約が実現される場所です。

How Claude prompt caching works — write once, read cheap

仕組み#

cache_controlを有効にしてリクエストを送信すると、Anthropicはプロンプトプレフィックスの計算された状態を保存します。同じバイト（同じシステムプロンプト、同じfew-shot例、同じプレアンブル）で始まる後続のリクエストでは、それらのトークンは再処理される代わりにキャッシュから提供されます。

キャッシュ期間には2つのティアがあります。

キャッシュ操作	1Mトークンあたりの価格	基本入力に対する倍率	期間
5-minute cache write	$3.75	1.25x	5 minutes
1-hour cache write	$6.00	2.0x	1 hour
Cache hit (read)	$0.30	0.1x	—

計算：キャッシングはいつ報われるか？#

5分キャッシュ（1.25倍書き込み）：

書き込みコスト：$3.75/M（最初のリクエストで基本入力より25%多く支払う）
読み込みコスト：$0.30/M（後続のすべてのリクエストで90%安く支払う）
損益分岐点：1回のキャッシュ読み込み。 わずか1回のキャッシュヒットで、コストを節約できます。
- 書き込み： $3.75 → 読み込み：$ 0.30 → 2つのリクエストの合計：$4.05
- キャッシュなし： $3.00 × 2 =$ 6.00
- 節約額：$1.95 (32.5%)

1時間キャッシュ（2.0倍書き込み）：

書き込みコスト：$6.00/M（最初のリクエストで2倍支払う）
読み込みコスト：$0.30/M（読み込みは同じ90%割引）
損益分岐点：2回のキャッシュ読み込み。 2回のヒット後には、利益が出ます。
- 書き込み： $6.00 → 2回の読み込み：$ 0.60 → 3つのリクエストの合計：$6.60
- キャッシュなし： $3.00 × 3 =$ 9.00
- 節約額：$2.40 (26.7%)

どのキャッシュティアをいつ使うべきか#

シナリオ	推奨キャッシュ	理由
Real-time chatbot (many requests/minute)	5-minute	リクエスト頻度が高く、キャッシュがウォームな状態を保つ
Batch processing (bursts every few minutes)	5-minute	リクエストが5分間隔で集中する
Long-running agent sessions	1-hour	リクエストが10〜60分にわたって分散する
Scheduled jobs (hourly reports)	1-hour	予測可能な時間ごとのパターン
One-off requests	No cache	再利用の機会なし

キャッシングを有効にする方法#

自動キャッシング（ほとんどのケースで推奨）：

python

import anthropic

client = anthropic.Anthropic()

response = client.messages.create(
    model="claude-sonnet-4-6-20260213",
    max_tokens=1024,
    cache_control={"type": "auto"},  # 自動キャッシュ管理
    system="You are a senior code reviewer. Review the following code for bugs, security issues, and performance problems.",
    messages=[
        {"role": "user", "content": "Review this Python function:\n\ndef process_data(items):\n    results = []\n    for item in items:\n        if item.get('status') == 'active':\n            results.append(transform(item))\n    return results"}
    ]
)
print(response.usage)
# cache_creation_input_tokensとcache_read_input_tokensを探す

明示的なキャッシュブレークポイント（きめ細かな制御）：

python

response = client.messages.create(
    model="claude-sonnet-4-6-20260213",
    max_tokens=1024,
    system=[
        {
            "type": "text",
            "text": "You are a senior code reviewer...",
            "cache_control": {"type": "ephemeral"}  # このブロックをキャッシュする
        }
    ],
    messages=[
        {"role": "user", "content": "Review this code..."}
    ]
)

レスポンスでキャッシュ使用量を確認する#

すべてのレスポンスには、usageオブジェクトにキャッシュメトリクスが含まれています。

json

{
  "usage": {
    "input_tokens": 50,
    "output_tokens": 320,
    "cache_creation_input_tokens": 1200,
    "cache_read_input_tokens": 0
  }
}

cache_creation_input_tokens: キャッシュに書き込まれたトークン（1.25倍または2倍で課金）
cache_read_input_tokens: キャッシュから読み込まれたトークン（0.1倍で課金）
input_tokens: 通常処理されたトークン（基本料金で課金）

リクエストの実際の入力コストは次のとおりです。

code

cost = (input_tokens × $3.00/M)
     + (cache_creation_input_tokens × $3.75/M or $6.00/M)
     + (cache_read_input_tokens × $0.30/M)
     + (output_tokens × $15.00/M)

Batch API割引#

Anthropicは非同期処理用のBatch APIを提供しています。リクエストを一括で送信し、結果は24時間以内に返されます。トレードオフとしてリアルタイム応答はありませんが、すべてのトークンタイプで50%割引が適用されます。

トークンタイプ	標準	Batch API
Input	$3.00/M	$1.50/M
Output	$15.00/M	$7.50/M
5-min cache write	$3.75/M	$1.875/M
1-hour cache write	$6.00/M	$3.00/M
Cache hit	$0.30/M	$0.15/M

Batch割引はキャッシングと併用可能です。一貫したシステムプロンプトで夜間バッチジョブを実行している場合、50%のBatch割引と、繰り返されるプレフィックスに対する0.1倍のキャッシュ読み込み割引の両方を得られます。これは、バッチモードでのキャッシュされた入力トークンに対して$0.15/Mとなり、標準の基本入力よりも95%安くなります。

Batch APIをいつ使うべきか#

大量コンテンツ生成（製品説明、要約）
大規模なデータ抽出または分類
数百のテストプロンプトにわたる評価実行
レイテンシーが問題とならないあらゆるワークロード

データレジデンシー追加料金#

Claude Sonnet 4.5およびそれ以降のモデル（Sonnet 4.6を含む）から、inference_geoパラメータを介して米国のみの推論を指定した場合、Anthropicは1.1倍の乗数を課金します。

トークンタイプ	グローバル（デフォルト）	米国のみ（1.1倍）
Input	$3.00/M	$3.30/M
Output	$15.00/M	$16.50/M
Cache write (5min)	$3.75/M	$4.125/M
Cache hit	$0.30/M	$0.33/M

この追加料金は他のすべてと併用されます。米国のみ + Batch + キャッシングを使用する場合、すべての乗数が適用されます。

ほとんどのユーザーはこれを必要としません。グローバルルーティングがデフォルトであり、追加料金はかかりません。厳格なデータレジデンシー要件がある場合にのみinference_geoを有効にしてください。

Crazyrouterの料金：45%オフ#

Comparing direct Anthropic pricing vs Crazyrouter discounted pricing

Crazyrouterを通じて、Claude Sonnet 4.6は**公式料金の55%**で利用可能です — 基本トークン料金から45%の割引です。

トークンタイプ	Anthropic公式	Crazyrouter (55%)
Input	$3.00/M	$1.65/M
Output	$15.00/M	$8.25/M

CrazyrouterはOpenAI互換およびネイティブのAnthropic APIフォーマットの両方をサポートしているため、お好みのSDKを使用できます。

コード例：Crazyrouter経由でClaude Sonnet 4.6を使用する#

OpenAI互換フォーマット：

python

from openai import OpenAI

client = OpenAI(
    api_key="your-crazyrouter-key",
    base_url="https://crazyrouter.com/v1"
)

response = client.chat.completions.create(
    model="claude-sonnet-4-6",
    messages=[
        {"role": "system", "content": "You are a helpful coding assistant."},
        {"role": "user", "content": "Write a Python function to merge two sorted lists."}
    ]
)
print(response.choices[0].message.content)

Anthropicネイティブフォーマット：

python

import anthropic

client = anthropic.Anthropic(
    api_key="your-crazyrouter-key",
    base_url="https://crazyrouter.com"
)

response = client.messages.create(
    model="claude-sonnet-4-6",
    max_tokens=1024,
    messages=[
        {"role": "user", "content": "Write a Python function to merge two sorted lists."}
    ]
)
print(response.content[0].text)

curl：

bash

curl https://crazyrouter.com/v1/chat/completions \
  -H "Authorization: Bearer your-crazyrouter-key" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "claude-sonnet-4-6",
    "messages": [
      {"role": "system", "content": "You are a helpful coding assistant."},
      {"role": "user", "content": "Write a Python function to merge two sorted lists."}
    ]
  }'

実世界のコスト比較#

Anthropic直接利用とCrazyrouter利用の3つの一般的なワークロードについてコストを比較してみましょう。

シナリオ1：チャットボット — 1日あたり1M入力 + 500K出力トークン#

	Anthropic直接	Crazyrouter
入力コスト	$3.00	$1.65
出力コスト	$7.50	$4.125
1日あたりの合計	$10.50	$5.775
月額（30日）	$315.00	$173.25
月間節約額	—	$141.75 (45%)

シナリオ2：コード生成 — 1日あたり500K入力 + 2M出力トークン#

	Anthropic直接	Crazyrouter
入力コスト	$1.50	$0.825
出力コスト	$30.00	$16.50
1日あたりの合計	$31.50	$17.325
月額（30日）	$945.00	$519.75
月間節約額	—	$425.25 (45%)

シナリオ3：キャッシュヒット率60%のチャットボット — 1日あたり1M入力 + 500K出力#

Anthropic直接利用でキャッシングを使用する場合：

400K cache write tokens (5min)：400K × $3.75/M =$ 1.50
600K cache hit tokens：600K × $0.30/M =$ 0.18
500K output tokens：500K × $15.00/M =$ 7.50
1日あたりの合計：$9.18

Crazyrouterを使用する場合（ネイティブキャッシュなし、ただし基本料金から45%オフ）：

1M input tokens：1M × $1.65/M =$ 1.65
500K output tokens：500K × $8.25/M =$ 4.125
1日あたりの合計：$5.775

Anthropicのキャッシングが60%のヒット率であっても、このワークロードではCrazyrouterの均一な45%割引の方が安くなります。Anthropicのキャッシュ読み込みが$0.30/Mで非常に安くなる、非常に高いキャッシュヒット率（80%以上）では、その差は縮まります。

損益分岐点分析：Anthropic直接利用 + キャッシングはいつ安くなるか？#

どのキャッシュヒット率でAnthropicへの直接アクセスがCrazyrouterを上回るのでしょうか？

純粋な入力ワークロードの場合（簡略化のため出力は無視）：

Crazyrouter cost per 1M input：$1.65
Anthropic with cache：(1 - hit_rate) × $3.75 + hit_rate ×$ 0.30

計算： $1.65 = (1 - x) ×$ 3.75 + x × $0.30

$1.65 =$ 3.75 - $3.45x
$3.45x =$ 2.10
x = 60.9%

キャッシュヒット率が約61%を超えると、5分間のキャッシングを伴うAnthropicへの直接アクセスの方が入力トークンについては安くなります。 ただし、出力トークンにはキャッシング割引がなく、Crazyrouterの45%オフは出力にも適用されることを忘れないでください。出力ヘビーなワークロードの場合、Crazyrouterはどのキャッシュヒット率でも有利です。

料金概要表#

コンポーネント	Anthropic公式	Crazyrouter
基本入力	$3.00/M	$1.65/M
基本出力	$15.00/M	$8.25/M
5分キャッシュ書き込み	$3.75/M (1.25x)	—
1時間キャッシュ書き込み	$6.00/M (2.0x)	—
キャッシュヒット	$0.30/M (0.1x)	—
Batch入力	$1.50/M (50% off)	—
Batch出力	$7.50/M (50% off)	—
米国のみ追加料金	1.1x all prices	—
サポートされるフォーマット	Anthropic API	OpenAI + Anthropic

主要なポイント#

基本料金は入力 $3/M、出力$ 15/Mです。 出力は5倍高価なので、可能な限り短い出力に最適化しましょう。
プロンプトキャッシングは入力トークンを最大90%節約します。 5分キャッシュはわずか1回の再利用で元が取れます。1時間キャッシュは2回の再利用が必要です。
Batch APIはすべてを50%削減します。 キャッシングと組み合わせることで、キャッシュされた入力トークンで最大95%の節約が可能です。
Crazyrouterは基本トークン料金に一律45%の割引を提供し、 キャッシングの複雑さを管理する必要がありません。出力ヘビーなワークロードの場合、これが多くの場合より良い取引となります。
最適な戦略はワークロードによって異なります。 高いキャッシュヒット率 + 入力ヘビー = 直接利用。出力ヘビーまたは予測不能なトラフィック = Crazyrouterが有利。