
Grok 4.1 Thinkingの料金体系を解説 — 推論トークン、キャッシュ、Crazyrouterで節約する方法
title: "Grok 4.1 Thinkingの料金体系を解説 — 推論トークン、キャッシュ、Crazyrouterで節約する方法" slug: grok-4-1-thinking-pricing summary: "Grok 4.1 Thinking APIの料金体系を徹底解説 — 個別に課金される推論トークン、自動キャッシュ、ツールコスト、Batch APIの50%割引、Crazyrouterでの節約術。" tag: Pricing language: ja cover_image_url: "https://raw.githubusercontent.com/xujfcn/images/main/blog/covers/claude-sonnet-4-6-pricing.jpg" meta_title: "Grok 4.1 Thinkingの料金体系 2026 — 推論トークン、キャッシュ、Crazyrouter" meta_description: "Grok 4.1 Thinkingの料金ガイド完全版。出力レートで課金される推論トークン、キャッシュ、ツールコスト — さらにCrazyrouter割引も。" meta_keywords: "Grok 4.1 thinking pricing, xAI reasoning model, Grok API, reasoning tokens, Crazyrouter discount" last_updated: "2026-04-27"#
Grok 4.1 Thinkingの料金体系を解説 — 推論トークン、キャッシュ、Crazyrouterで節約する方法#
xAIのGrok 4.1 Thinkingは、Grok 4.1モデルファミリーの推論強化版です。すでに高性能なGrok 4.1ベースモデルに、思考連鎖(chain-of-thought)推論を拡張したもので、モデルは最終的な回答を生成する前に問題を段階的に「思考」します。これにより、数学、コード生成、論理パズル、多段階計画、およびパターンマッチングよりも意図的な推論が優位なあらゆるタスクにおいて、非常に強力な性能を発揮します。
しかし、推論にはコストがかかります。Grok 4.1 Thinkingは推論トークンを生成します。これは、出力トークンレートで課金される内部的な思考連鎖トークンですが、最終的な応答には表示されません。注意しないと、単純なプロンプトが予想よりも5〜10倍多くのトークンを静かに消費してしまう可能性があります。
このガイドでは、Grok 4.1 Thinkingの料金体系のすべての要素を詳細に解説し、推論トークンがどのように機能するか、キャッシュとreasoning_effortパラメータでコストを管理する方法、そしてCrazyrouterを経由することでさらに10%節約する方法を説明します。
最終更新日:2026年4月27日。
基本料金#
xAIが提供するGrok 4.1 Thinkingの公式料金は以下の通りです。
| コンポーネント | 100万トークンあたりの料金 |
|---|---|
| Input tokens | $0.20 |
| Cached input tokens | $0.05 |
| Output tokens | $0.50 |
| Reasoning tokens | $0.50 (出力と同じ) |
一見すると、これらのレートは非常に競争力があるように見えます。Inputが0.50/MTokというのは、GPT-5やClaude Opus 4を大幅に下回ります。しかし、本当のコストは推論トークンにあります — 詳細については以下で説明します。
コンテキストウィンドウ#
Grok 4.1 Thinkingは、ベースのGrok 4.1モデルと同じ131,072トークンのコンテキストウィンドウをサポートしています。出力制限は65,536トークンで、これには可視の出力トークンと不可視の推論トークンの両方が含まれます。これは、大量の推論が利用可能な出力スペースを消費する可能性があることを意味します。
推論トークン:隠れたコストの乗数#
推論トークンとは?#
Grok 4.1 Thinkingにプロンプトを送信すると、モデルはすぐに回答を出すわけではありません。まず、内部的な思考連鎖を生成します。これは、問題に取り組むのに役立つ一連の推論ステップです。これらの途中段階のステップが推論トークンと呼ばれます。
推論トークンは以下の通りです。
- モデルが思考プロセスの一部として生成する
- 100万トークンあたり$0.50で出力トークンとして課金される
- API応答の
contentフィールドには返されない — ユーザーには見えない usageオブジェクトのcompletion_tokens_details.reasoning_tokensで報告される
どのように課金されるか?#
推論トークンは出力トークンと同じレート、つまり$0.50/MTokで課金されます。これらは、使用量応答の合計completion_tokensに計上されます。
典型的な使用量応答は以下のようになります。
{
"usage": {
"prompt_tokens": 1200,
"completion_tokens": 8500,
"total_tokens": 9700,
"completion_tokens_details": {
"reasoning_tokens": 7000,
"text_tokens": 1500
}
}
}
この例では、モデルは7,000の推論トークンと1,500の可視出力トークンを生成しました。ユーザーは8,500のcompletion tokensすべてに対して出力レートで課金されます。推論トークンは**出力コストの82%**を占めていますが、ユーザーには決して見えません。
なぜ推論トークンはこれほど高価なのか?#
問題はトークンあたりのレートではありません — $0.50/MTokは妥当です。問題は量です。推論トークンは、タスクの複雑さにもよりますが、通常、可視の出力トークンを2倍から10倍上回ります。
| タスクの種類 | 典型的な推論:出力比率 | 例 |
|---|---|---|
| 単純なQ&A | 2:1 | 「フランスの首都はどこですか?」 |
| コード生成 | 3–5:1 | 「2つのソート済みリストをマージするPython関数を書いてください」 |
| 数学/論理問題 | 5–8:1 | 「√2が無理数であることを証明してください」 |
| 複雑な多段階推論 | 8–10:1 | 「このコードベースを分析し、バグを見つけてください」 |
500の可視出力トークンを生成するプロンプトは、静かに3,000〜5,000の推論トークンを生成する可能性があります。推論を考慮すると、実質的な出力コストは2〜3/MTokに近くなります。
reasoning_effortでコストを制御する#
xAIは、モデルがどれだけ思考するかを制御できるreasoning_effortパラメータを提供しています。これは、生成される推論トークンの数に直接影響します。
| 値 | 動作 | 推論トークンの削減 |
|---|---|---|
high | 完全な推論(デフォルト) | ベースライン |
medium | バランスの取れた推論 | 推論トークンが約40〜60%減少 |
low | 最小限の推論 | 推論トークンが約70〜80%減少 |
from openai import OpenAI
client = OpenAI(
api_key="your-api-key",
base_url="https://api.x.ai/v1"
)
response = client.chat.completions.create(
model="grok-4.1-thinking",
reasoning_effort="medium",
messages=[
{"role": "user", "content": "Explain the difference between TCP and UDP."}
]
)
各レベルの使用時期:
high: 数学の証明、複雑なデバッグ、多段階論理、競技プログラミングmedium: 一般的なコーディングタスク、分析、ニュアンスのある要約low: 単純なQ&A、分類、抽出、フォーマットタスク
単純なタスクにlowを使用すると、デフォルトのhigh設定と比較して総コストを60〜70%削減できます。これは、利用可能な最も効果的なコスト最適化です。
キャッシュ:自動で入力が75%割引#
Grok 4.1 Thinkingは自動プロンプトキャッシュをサポートしています。繰り返しまたは重複するプロンプトを送信すると、xAIのインフラストラクチャが共通のプレフィックスを自動的にキャッシュし、キャッシュされたトークンを割引料金で課金します。
- 標準入力: $0.20/MTok
- キャッシュされた入力: $0.05/MTok (75%割引)
キャッシュは自動で行われます — 有効にしたり、キャッシュキーを管理したりする必要はありません。システムは、新しいリクエストが最近のリクエストとプレフィックスを共有していることを検出し、キャッシュされたレートを適用します。
キャッシュが最も役立つ場合#
キャッシュは以下の場合に最も効果的です。
- システムプロンプト: 同じシステムプロンプトを複数のリクエストで使用する場合、最初の呼び出し後にキャッシュされます。
- マルチターン会話: 以前のターンからの会話履歴がキャッシュされます。
- Few-shot examples: プロンプト内の静的な例がキャッシュされます。
- ドキュメント分析: 同じドキュメントについて複数の質問をする場合。
キャッシュの例#
10,000トークンのシステムプロンプトがあり、異なるユーザーメッセージで50回のリクエストを送信するとします。
キャッシュなしの場合:
- 50 × 10,000 = 500,000入力トークン × 0.10
キャッシュありの場合(最初の1回はキャッシュなし、49回はキャッシュあり):
- 1 × 10,000 = 10,000トークン × 0.002
- 49 × 10,000 = 490,000トークン × 0.0245
- 合計: $0.0265 (73.5%の節約)
一貫したシステムプロンプトを使用する大量のアプリケーションでは、キャッシュだけで入力コストを70%以上削減できます。
ツールコスト#
Grok 4.1 Thinkingは、ベースのGrok 4.1モデルと同じツール/関数呼び出し機能をサポートしています。ツール使用に対する追加料金はありません — 標準の入力および出力トークンレートが適用されます。
ただし、ツール定義は入力トークンを消費します。リクエスト内の各ツール定義は、プロンプトトークン数に追加されます。詳細な説明を含む20個のツールを定義すると、各リクエストに2,000〜5,000トークンが追加される可能性があります。
ツールのコスト最適化のヒント:
- 現在のリクエストに関連するツールのみを含める
- ツール説明は簡潔かつ明確にする
- 繰り返されるツール定義のコストを相殺するためにキャッシュを使用する
- ツールルーティングの決定に
reasoning_effort="low"で十分かどうかを検討する
Batch API:50%オフ#
xAIは、標準価格の半額で非同期処理を行うBatch APIを提供しています。
| コンポーネント | 標準 | バッチ (50%オフ) |
|---|---|---|
| Input tokens | $0.20/MTok | $0.10/MTok |
| Cached input | $0.05/MTok | $0.025/MTok |
| Output tokens | $0.50/MTok | $0.25/MTok |
| Reasoning tokens | $0.50/MTok | $0.25/MTok |
バッチリクエストは24時間以内に処理されます。JSONL形式のリクエストファイルを送信し、結果をポーリングします。これは以下に最適です。
- 大量コンテンツ生成
- 大規模データ分析
- 評価とベンチマーク
- リアルタイム応答を必要としないあらゆるワークロード
50%割引は、推論トークンを含むすべてのトークンタイプに適用されます。推論が重いワークロードの場合、Batch APIを使用すると、実質的なコストを約1.50/MTokに削減できます。
Crazyrouterでさらに節約#
Crazyrouterは、OpenAI互換のAPIゲートウェイで、Grok 4.1 Thinking(および200以上の他のモデル)に**公式料金の90%**でアクセスできます。これは、すべてのトークンコストに対して一律10%の割引です。
CrazyrouterでのGrok 4.1 Thinking料金#
| コンポーネント | 公式 | Crazyrouter (10%オフ) |
|---|---|---|
| Input tokens | $0.20/MTok | $0.18/MTok |
| Cached input | $0.05/MTok | $0.045/MTok |
| Output tokens | $0.50/MTok | $0.45/MTok |
| Reasoning tokens | $0.50/MTok | $0.45/MTok |
Crazyrouterを選ぶ理由#
- OpenAI互換API:
base_urlを変更するだけで、ドロップインで置き換え可能 - 200以上のモデル: Grok、GPT、Claude、Gemini、DeepSeekなど、単一のAPIキーでアクセス可能
- 10%割引: すべてのモデル、すべてのトークン、すべてのリクエストで適用
- レート制限の心配なし: すべてのモデルで寛大なレート制限
- 一元請求: 1つのアカウント、1つの請求書、すべてのプロバイダー
統合:OpenAI Python SDK#
from openai import OpenAI
client = OpenAI(
api_key="your-crazyrouter-key",
base_url="https://crazyrouter.com/v1"
)
response = client.chat.completions.create(
model="grok-4.1-thinking",
reasoning_effort="medium",
messages=[
{
"role": "system",
"content": "You are a helpful coding assistant."
},
{
"role": "user",
"content": "Write a Python function to find the longest palindromic substring."
}
]
)
print(response.choices[0].message.content)
# Check reasoning token usage
usage = response.usage
print(f"Input tokens: {usage.prompt_tokens}")
print(f"Output tokens: {usage.completion_tokens}")
if hasattr(usage, 'completion_tokens_details'):
details = usage.completion_tokens_details
print(f"Reasoning tokens: {details.reasoning_tokens}")
print(f"Text tokens: {details.text_tokens}")
統合:cURL#
curl https://crazyrouter.com/v1/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer your-crazyrouter-key" \
-d '{
"model": "grok-4.1-thinking",
"reasoning_effort": "medium",
"messages": [
{
"role": "user",
"content": "Explain how B-trees work and why databases use them."
}
]
}'
これだけです。ベースURLを変更し、CrazyrouterのAPIキーを使用するだけで、すべての呼び出しで10%節約できます。
実世界のコストシナリオ#
推論トークン、キャッシュ、Crazyrouterが請求額にどのように影響するかを、3つの現実的なシナリオで見てみましょう。
シナリオ1:シンプルなチャットボット(低推論)#
ユースケース: FAQ形式の質問に答えるカスタマーサポートボット。
| パラメータ | 値 |
|---|---|
| Reasoning effort | low |
| リクエストあたりの平均入力トークン数 | 800 |
| リクエストあたりの平均推論トークン数 | 300 |
| リクエストあたりの平均出力トークン数 | 200 |
| 1日あたりのリクエスト数 | 10,000 |
| キャッシュヒット率 | 70% (システムプロンプトがキャッシュされる) |
月間コスト計算 (30日間):
- 入力: 300,000 × 0.3 × 0.05 = 10.50 = $28.50/MTok-adjusted
- 実際: 10,000 × 800 = 8Mトークン/日 → 240Mトークン/月
- 未キャッシュ (30%): 72M × 14.40
- キャッシュ済み (70%): 168M × 8.40
- 出力 + 推論: 10,000 × 500 = 5Mトークン/日 → 150Mトークン/月
- 150M × 75.00
合計 (公式): 88.02/月 — 月あたり$9.78節約
シナリオ2:コードアシスタント(中推論)#
ユースケース: コードを生成し説明する開発者ツール。
| パラメータ | 値 |
|---|---|
| Reasoning effort | medium |
| リクエストあたりの平均入力トークン数 | 3,000 |
| リクエストあたりの平均推論トークン数 | 4,000 |
| リクエストあたりの平均出力トークン数 | 1,200 |
| 1日あたりのリクエスト数 | 2,000 |
| キャッシュヒット率 | 50% |
月間コスト計算 (30日間):
- 入力: 2,000 × 3,000 = 6Mトークン/日 → 180Mトークン/月
- 未キャッシュ (50%): 90M × 18.00
- キャッシュ済み (50%): 90M × 4.50
- 出力 + 推論: 2,000 × 5,200 = 10.4Mトークン/日 → 312Mトークン/月
- 312M × 156.00
合計 (公式): 160.65/月 — 月あたり$17.85節約
推論トークン(4,000)が可視出力(1,200)をいかに圧倒しているかに注目してください。出力行は、可視トークンのみから予想される値の3.3倍です。
シナリオ3:リサーチエージェント(高推論)#
ユースケース: ツール使用を伴う複雑な多段階問題を解決する自律エージェント。
| パラメータ | 値 |
|---|---|
| Reasoning effort | high |
| リクエストあたりの平均入力トークン数 | 8,000 |
| リクエストあたりの平均推論トークン数 | 15,000 |
| リクエストあたりの平均出力トークン数 | 2,000 |
| 1日あたりのリクエスト数 | 500 |
| キャッシュヒット率 | 40% |
月間コスト計算 (30日間):
- 入力: 500 × 8,000 = 4Mトークン/日 → 120Mトークン/月
- 未キャッシュ (60%): 72M × 14.40
- キャッシュ済み (40%): 48M × 2.40
- 出力 + 推論: 500 × 17,000 = 8.5Mトークン/日 → 255Mトークン/月
- 255M × 127.50
合計 (公式): 129.87/月 — 月あたり$14.43節約
ここでは、推論トークンが可視出力の7.5倍です。モデルは真剣に思考しており、そのすべてのステップに対して料金を支払っています。medium推論エフォートに切り替えると、推論トークンを約半分に削減し、月あたり約$60節約できます。
Grok 4.1 Thinking vs. GPT-5 vs. Claude Opus 4 推論#
Grok 4.1 Thinkingは他の推論モデルとどのように比較されるでしょうか?
| モデル | Input $/MTok | Output $/MTok | Reasoning Rate | Batch Discount |
|---|---|---|---|---|
| Grok 4.1 Thinking | $0.20 | $0.50 | 出力と同じ ($0.50) | 50%オフ |
| GPT-5 | $2.00 | $8.00 | 出力と同じ ($8.00) | 50%オフ |
| Claude Opus 4 | $15.00 | $75.00 | 該当なし (拡張思考は出力として課金) | 利用不可 |
価格差は劇的です。
- Grok 4.1 Thinkingは、GPT-5と比較して入力で10倍、出力で16倍安い
- Grok 4.1 Thinkingは、Claude Opus 4と比較して入力で75倍、出力で150倍安い
もちろん、価格がすべてではありません — ベンチマーク性能、レイテンシ、出力品質も重要です。しかし、コストに敏感な推論ワークロードにとって、Grok 4.1 Thinkingは並外れた価値提案を提供します。これは、現在利用可能な最も手頃なフロンティア推論モデルです。
それぞれの選択時期:
- Grok 4.1 Thinking: 推論タスク、特に大規模な場合に最高の価値を提供します。数学、コード、論理に強いです。
- GPT-5: より広範な一般知識を持ち、創造的でニュアンスのあるタスクに優れています。顧客向けアプリケーションにはプレミアムを支払う価値があります。
- Claude Opus 4: 長いコンテキスト分析、複雑な文章作成、深い理解を必要とするタスクにおいてクラス最高です。プレミアム価格はプレミアムな能力を反映しています。
主なポイント#
-
基本料金は安いが、推論トークンがコストを増大させる。 2〜5/MTokになる可能性があります。
-
reasoning_effortを積極的に使用する。 単純なタスクにはlowを、ほとんどのワークロードにはmediumを設定します。本当に複雑な問題のためにhighを予約しておきましょう。 -
キャッシュは無料のお金です。 一貫したシステムプロンプトとマルチターン会話は、自動的に75%の入力割引の恩恵を受けます。
-
Batch APIはすべてを半額にする。 非同期処理を許容できる場合、50%割引は推論を含むすべてのトークンタイプに適用されます。
-
Crazyrouterはさらに10%節約します。 コードの1行を変更するだけで済むOpenAI互換のドロップインです。
-
使用状況データで
reasoning_tokensを監視する。 このフィールドを追跡していないと、コストについて盲目になります。 -
Grok 4.1 Thinkingは、利用可能な最も費用対効果の高い推論モデルです。 GPT-5やClaude Opus 4よりも10〜75倍安価であり、予算を重視する推論ワークロードにとって明確な選択肢です。
Crazyrouterを始める#
Grok 4.1 Thinkingを10%オフで使い始める準備はできましたか?
- crazyrouter.comでサインアップ
- ダッシュボードからAPIキーを取得
- ベースURLを
https://crazyrouter.com/v1に変更 - すべてのリクエストで節約を開始
Crazyrouterは、xAI、OpenAI、Anthropic、Google、DeepSeekなど、200以上のモデルをすべて単一のOpenAI互換APIを通じてサポートしています。1つのキー、1つの請求書、すべてのモデル。
免責事項:料金情報は2026年4月27日現在の正確なものであり、xAIの公開データに基づいています。料金は予告なく変更される場合があります。Crazyrouterは独立したAPIゲートウェイであり、xAIとは提携していません。購入を決定する前に、必ず公式のxAI料金ページで現在の料金を確認してください。上記のシナリオにおけるトークン使用量の見積もりは概算であり、実際の使用量はプロンプトの複雑さ、モデルの動作、その他の要因によって異なります。


