Login
Back to Blog
Grok 4.1 Thinkingの料金体系を解説 — 推論トークン、キャッシュ、Crazyrouterで節約する方法

Grok 4.1 Thinkingの料金体系を解説 — 推論トークン、キャッシュ、Crazyrouterで節約する方法

C
Crazyrouter Team
April 27, 2026
1 views日本語Pricing
Share:


title: "Grok 4.1 Thinkingの料金体系を解説 — 推論トークン、キャッシュ、Crazyrouterで節約する方法" slug: grok-4-1-thinking-pricing summary: "Grok 4.1 Thinking APIの料金体系を徹底解説 — 個別に課金される推論トークン、自動キャッシュ、ツールコスト、Batch APIの50%割引、Crazyrouterでの節約術。" tag: Pricing language: ja cover_image_url: "https://raw.githubusercontent.com/xujfcn/images/main/blog/covers/claude-sonnet-4-6-pricing.jpg" meta_title: "Grok 4.1 Thinkingの料金体系 2026 — 推論トークン、キャッシュ、Crazyrouter" meta_description: "Grok 4.1 Thinkingの料金ガイド完全版。出力レートで課金される推論トークン、キャッシュ、ツールコスト — さらにCrazyrouter割引も。" meta_keywords: "Grok 4.1 thinking pricing, xAI reasoning model, Grok API, reasoning tokens, Crazyrouter discount" last_updated: "2026-04-27"#

Grok 4.1 Thinkingの料金体系を解説 — 推論トークン、キャッシュ、Crazyrouterで節約する方法#

xAIのGrok 4.1 Thinkingは、Grok 4.1モデルファミリーの推論強化版です。すでに高性能なGrok 4.1ベースモデルに、思考連鎖(chain-of-thought)推論を拡張したもので、モデルは最終的な回答を生成する前に問題を段階的に「思考」します。これにより、数学、コード生成、論理パズル、多段階計画、およびパターンマッチングよりも意図的な推論が優位なあらゆるタスクにおいて、非常に強力な性能を発揮します。

しかし、推論にはコストがかかります。Grok 4.1 Thinkingは推論トークンを生成します。これは、出力トークンレートで課金される内部的な思考連鎖トークンですが、最終的な応答には表示されません。注意しないと、単純なプロンプトが予想よりも5〜10倍多くのトークンを静かに消費してしまう可能性があります。

このガイドでは、Grok 4.1 Thinkingの料金体系のすべての要素を詳細に解説し、推論トークンがどのように機能するか、キャッシュとreasoning_effortパラメータでコストを管理する方法、そしてCrazyrouterを経由することでさらに10%節約する方法を説明します。

最終更新日:2026年4月27日。


基本料金#

xAIが提供するGrok 4.1 Thinkingの公式料金は以下の通りです。

コンポーネント100万トークンあたりの料金
Input tokens$0.20
Cached input tokens$0.05
Output tokens$0.50
Reasoning tokens$0.50 (出力と同じ)

一見すると、これらのレートは非常に競争力があるように見えます。Inputが0.20/MTokというのは、ほとんどのフロンティアモデルよりも安く、Output0.20/MTokというのは、ほとんどのフロンティアモデルよりも安く、Outputが0.50/MTokというのは、GPT-5やClaude Opus 4を大幅に下回ります。しかし、本当のコストは推論トークンにあります — 詳細については以下で説明します。

コンテキストウィンドウ#

Grok 4.1 Thinkingは、ベースのGrok 4.1モデルと同じ131,072トークンのコンテキストウィンドウをサポートしています。出力制限は65,536トークンで、これには可視の出力トークンと不可視の推論トークンの両方が含まれます。これは、大量の推論が利用可能な出力スペースを消費する可能性があることを意味します。


推論トークン:隠れたコストの乗数#

推論トークンとは?#

Grok 4.1 Thinkingにプロンプトを送信すると、モデルはすぐに回答を出すわけではありません。まず、内部的な思考連鎖を生成します。これは、問題に取り組むのに役立つ一連の推論ステップです。これらの途中段階のステップが推論トークンと呼ばれます。

推論トークンは以下の通りです。

  • モデルが思考プロセスの一部として生成する
  • 100万トークンあたり$0.50で出力トークンとして課金される
  • API応答のcontentフィールドには返されない — ユーザーには見えない
  • usageオブジェクトのcompletion_tokens_details.reasoning_tokens報告される

どのように課金されるか?#

推論トークンは出力トークンと同じレート、つまり$0.50/MTokで課金されます。これらは、使用量応答の合計completion_tokensに計上されます。

典型的な使用量応答は以下のようになります。

json
{
  "usage": {
    "prompt_tokens": 1200,
    "completion_tokens": 8500,
    "total_tokens": 9700,
    "completion_tokens_details": {
      "reasoning_tokens": 7000,
      "text_tokens": 1500
    }
  }
}

この例では、モデルは7,000の推論トークンと1,500の可視出力トークンを生成しました。ユーザーは8,500のcompletion tokensすべてに対して出力レートで課金されます。推論トークンは**出力コストの82%**を占めていますが、ユーザーには決して見えません。

なぜ推論トークンはこれほど高価なのか?#

問題はトークンあたりのレートではありません — $0.50/MTokは妥当です。問題はです。推論トークンは、タスクの複雑さにもよりますが、通常、可視の出力トークンを2倍から10倍上回ります。

タスクの種類典型的な推論:出力比率
単純なQ&A2:1「フランスの首都はどこですか?」
コード生成3–5:1「2つのソート済みリストをマージするPython関数を書いてください」
数学/論理問題5–8:1「√2が無理数であることを証明してください」
複雑な多段階推論8–10:1「このコードベースを分析し、バグを見つけてください」

500の可視出力トークンを生成するプロンプトは、静かに3,000〜5,000の推論トークンを生成する可能性があります。推論を考慮すると、実質的な出力コストは0.50/MTokではなく、0.50/MTokではなく、2〜3/MTokに近くなります。

reasoning_effortでコストを制御する#

xAIは、モデルがどれだけ思考するかを制御できるreasoning_effortパラメータを提供しています。これは、生成される推論トークンの数に直接影響します。

動作推論トークンの削減
high完全な推論(デフォルト)ベースライン
mediumバランスの取れた推論推論トークンが約40〜60%減少
low最小限の推論推論トークンが約70〜80%減少
python
from openai import OpenAI

client = OpenAI(
    api_key="your-api-key",
    base_url="https://api.x.ai/v1"
)

response = client.chat.completions.create(
    model="grok-4.1-thinking",
    reasoning_effort="medium",
    messages=[
        {"role": "user", "content": "Explain the difference between TCP and UDP."}
    ]
)

各レベルの使用時期:

  • high: 数学の証明、複雑なデバッグ、多段階論理、競技プログラミング
  • medium: 一般的なコーディングタスク、分析、ニュアンスのある要約
  • low: 単純なQ&A、分類、抽出、フォーマットタスク

単純なタスクにlowを使用すると、デフォルトのhigh設定と比較して総コストを60〜70%削減できます。これは、利用可能な最も効果的なコスト最適化です。


キャッシュ:自動で入力が75%割引#

Grok 4.1 Thinkingは自動プロンプトキャッシュをサポートしています。繰り返しまたは重複するプロンプトを送信すると、xAIのインフラストラクチャが共通のプレフィックスを自動的にキャッシュし、キャッシュされたトークンを割引料金で課金します。

  • 標準入力: $0.20/MTok
  • キャッシュされた入力: $0.05/MTok (75%割引)

キャッシュは自動で行われます — 有効にしたり、キャッシュキーを管理したりする必要はありません。システムは、新しいリクエストが最近のリクエストとプレフィックスを共有していることを検出し、キャッシュされたレートを適用します。

キャッシュが最も役立つ場合#

キャッシュは以下の場合に最も効果的です。

  • システムプロンプト: 同じシステムプロンプトを複数のリクエストで使用する場合、最初の呼び出し後にキャッシュされます。
  • マルチターン会話: 以前のターンからの会話履歴がキャッシュされます。
  • Few-shot examples: プロンプト内の静的な例がキャッシュされます。
  • ドキュメント分析: 同じドキュメントについて複数の質問をする場合。

キャッシュの例#

10,000トークンのシステムプロンプトがあり、異なるユーザーメッセージで50回のリクエストを送信するとします。

キャッシュなしの場合:

  • 50 × 10,000 = 500,000入力トークン × 0.20/MTok=0.20/MTok = 0.10

キャッシュありの場合(最初の1回はキャッシュなし、49回はキャッシュあり):

  • 1 × 10,000 = 10,000トークン × 0.20/MTok=0.20/MTok = 0.002
  • 49 × 10,000 = 490,000トークン × 0.05/MTok=0.05/MTok = 0.0245
  • 合計: $0.0265 (73.5%の節約)

一貫したシステムプロンプトを使用する大量のアプリケーションでは、キャッシュだけで入力コストを70%以上削減できます。


ツールコスト#

Grok 4.1 Thinkingは、ベースのGrok 4.1モデルと同じツール/関数呼び出し機能をサポートしています。ツール使用に対する追加料金はありません — 標準の入力および出力トークンレートが適用されます。

ただし、ツール定義は入力トークンを消費します。リクエスト内の各ツール定義は、プロンプトトークン数に追加されます。詳細な説明を含む20個のツールを定義すると、各リクエストに2,000〜5,000トークンが追加される可能性があります。

ツールのコスト最適化のヒント:

  • 現在のリクエストに関連するツールのみを含める
  • ツール説明は簡潔かつ明確にする
  • 繰り返されるツール定義のコストを相殺するためにキャッシュを使用する
  • ツールルーティングの決定にreasoning_effort="low"で十分かどうかを検討する

Batch API:50%オフ#

xAIは、標準価格の半額で非同期処理を行うBatch APIを提供しています。

コンポーネント標準バッチ (50%オフ)
Input tokens$0.20/MTok$0.10/MTok
Cached input$0.05/MTok$0.025/MTok
Output tokens$0.50/MTok$0.25/MTok
Reasoning tokens$0.50/MTok$0.25/MTok

バッチリクエストは24時間以内に処理されます。JSONL形式のリクエストファイルを送信し、結果をポーリングします。これは以下に最適です。

  • 大量コンテンツ生成
  • 大規模データ分析
  • 評価とベンチマーク
  • リアルタイム応答を必要としないあらゆるワークロード

50%割引は、推論トークンを含むすべてのトークンタイプに適用されます。推論が重いワークロードの場合、Batch APIを使用すると、実質的なコストを約3/MTokから約3/MTokから約1.50/MTokに削減できます。


Crazyrouterでさらに節約#

Crazyrouterは、OpenAI互換のAPIゲートウェイで、Grok 4.1 Thinking(および200以上の他のモデル)に**公式料金の90%**でアクセスできます。これは、すべてのトークンコストに対して一律10%の割引です。

CrazyrouterでのGrok 4.1 Thinking料金#

コンポーネント公式Crazyrouter (10%オフ)
Input tokens$0.20/MTok$0.18/MTok
Cached input$0.05/MTok$0.045/MTok
Output tokens$0.50/MTok$0.45/MTok
Reasoning tokens$0.50/MTok$0.45/MTok

Crazyrouterを選ぶ理由#

  • OpenAI互換API: base_urlを変更するだけで、ドロップインで置き換え可能
  • 200以上のモデル: Grok、GPT、Claude、Gemini、DeepSeekなど、単一のAPIキーでアクセス可能
  • 10%割引: すべてのモデル、すべてのトークン、すべてのリクエストで適用
  • レート制限の心配なし: すべてのモデルで寛大なレート制限
  • 一元請求: 1つのアカウント、1つの請求書、すべてのプロバイダー

統合:OpenAI Python SDK#

python
from openai import OpenAI

client = OpenAI(
    api_key="your-crazyrouter-key",
    base_url="https://crazyrouter.com/v1"
)

response = client.chat.completions.create(
    model="grok-4.1-thinking",
    reasoning_effort="medium",
    messages=[
        {
            "role": "system",
            "content": "You are a helpful coding assistant."
        },
        {
            "role": "user",
            "content": "Write a Python function to find the longest palindromic substring."
        }
    ]
)

print(response.choices[0].message.content)

# Check reasoning token usage
usage = response.usage
print(f"Input tokens: {usage.prompt_tokens}")
print(f"Output tokens: {usage.completion_tokens}")
if hasattr(usage, 'completion_tokens_details'):
    details = usage.completion_tokens_details
    print(f"Reasoning tokens: {details.reasoning_tokens}")
    print(f"Text tokens: {details.text_tokens}")

統合:cURL#

bash
curl https://crazyrouter.com/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer your-crazyrouter-key" \
  -d '{
    "model": "grok-4.1-thinking",
    "reasoning_effort": "medium",
    "messages": [
      {
        "role": "user",
        "content": "Explain how B-trees work and why databases use them."
      }
    ]
  }'

これだけです。ベースURLを変更し、CrazyrouterのAPIキーを使用するだけで、すべての呼び出しで10%節約できます。


実世界のコストシナリオ#

推論トークン、キャッシュ、Crazyrouterが請求額にどのように影響するかを、3つの現実的なシナリオで見てみましょう。

シナリオ1:シンプルなチャットボット(低推論)#

ユースケース: FAQ形式の質問に答えるカスタマーサポートボット。

パラメータ
Reasoning effortlow
リクエストあたりの平均入力トークン数800
リクエストあたりの平均推論トークン数300
リクエストあたりの平均出力トークン数200
1日あたりのリクエスト数10,000
キャッシュヒット率70% (システムプロンプトがキャッシュされる)

月間コスト計算 (30日間):

  • 入力: 300,000 × 0.3 × 0.20+300,000×0.7×0.20 + 300,000 × 0.7 × 0.05 = 18.00+18.00 + 10.50 = $28.50/MTok-adjusted
  • 実際: 10,000 × 800 = 8Mトークン/日 → 240Mトークン/月
    • 未キャッシュ (30%): 72M × 0.20/MTok=0.20/MTok = 14.40
    • キャッシュ済み (70%): 168M × 0.05/MTok=0.05/MTok = 8.40
  • 出力 + 推論: 10,000 × 500 = 5Mトークン/日 → 150Mトークン/月
    • 150M × 0.50/MTok=0.50/MTok = 75.00

合計 (公式): 97.80/合計(Crazyrouter):97.80/月 **合計 (Crazyrouter)**: 88.02/月 — 月あたり$9.78節約

シナリオ2:コードアシスタント(中推論)#

ユースケース: コードを生成し説明する開発者ツール。

パラメータ
Reasoning effortmedium
リクエストあたりの平均入力トークン数3,000
リクエストあたりの平均推論トークン数4,000
リクエストあたりの平均出力トークン数1,200
1日あたりのリクエスト数2,000
キャッシュヒット率50%

月間コスト計算 (30日間):

  • 入力: 2,000 × 3,000 = 6Mトークン/日 → 180Mトークン/月
    • 未キャッシュ (50%): 90M × 0.20/MTok=0.20/MTok = 18.00
    • キャッシュ済み (50%): 90M × 0.05/MTok=0.05/MTok = 4.50
  • 出力 + 推論: 2,000 × 5,200 = 10.4Mトークン/日 → 312Mトークン/月
    • 312M × 0.50/MTok=0.50/MTok = 156.00

合計 (公式): 178.50/合計(Crazyrouter):178.50/月 **合計 (Crazyrouter)**: 160.65/月 — 月あたり$17.85節約

推論トークン(4,000)が可視出力(1,200)をいかに圧倒しているかに注目してください。出力行は、可視トークンのみから予想される値の3.3倍です。

シナリオ3:リサーチエージェント(高推論)#

ユースケース: ツール使用を伴う複雑な多段階問題を解決する自律エージェント。

パラメータ
Reasoning efforthigh
リクエストあたりの平均入力トークン数8,000
リクエストあたりの平均推論トークン数15,000
リクエストあたりの平均出力トークン数2,000
1日あたりのリクエスト数500
キャッシュヒット率40%

月間コスト計算 (30日間):

  • 入力: 500 × 8,000 = 4Mトークン/日 → 120Mトークン/月
    • 未キャッシュ (60%): 72M × 0.20/MTok=0.20/MTok = 14.40
    • キャッシュ済み (40%): 48M × 0.05/MTok=0.05/MTok = 2.40
  • 出力 + 推論: 500 × 17,000 = 8.5Mトークン/日 → 255Mトークン/月
    • 255M × 0.50/MTok=0.50/MTok = 127.50

合計 (公式): 144.30/合計(Crazyrouter):144.30/月 **合計 (Crazyrouter)**: 129.87/月 — 月あたり$14.43節約

ここでは、推論トークンが可視出力の7.5倍です。モデルは真剣に思考しており、そのすべてのステップに対して料金を支払っています。medium推論エフォートに切り替えると、推論トークンを約半分に削減し、月あたり約$60節約できます。


Grok 4.1 Thinking vs. GPT-5 vs. Claude Opus 4 推論#

Grok 4.1 Thinkingは他の推論モデルとどのように比較されるでしょうか?

モデルInput $/MTokOutput $/MTokReasoning RateBatch Discount
Grok 4.1 Thinking$0.20$0.50出力と同じ ($0.50)50%オフ
GPT-5$2.00$8.00出力と同じ ($8.00)50%オフ
Claude Opus 4$15.00$75.00該当なし (拡張思考は出力として課金)利用不可

価格差は劇的です。

  • Grok 4.1 Thinkingは、GPT-5と比較して入力で10倍、出力で16倍安い
  • Grok 4.1 Thinkingは、Claude Opus 4と比較して入力で75倍、出力で150倍安い

もちろん、価格がすべてではありません — ベンチマーク性能、レイテンシ、出力品質も重要です。しかし、コストに敏感な推論ワークロードにとって、Grok 4.1 Thinkingは並外れた価値提案を提供します。これは、現在利用可能な最も手頃なフロンティア推論モデルです。

それぞれの選択時期:

  • Grok 4.1 Thinking: 推論タスク、特に大規模な場合に最高の価値を提供します。数学、コード、論理に強いです。
  • GPT-5: より広範な一般知識を持ち、創造的でニュアンスのあるタスクに優れています。顧客向けアプリケーションにはプレミアムを支払う価値があります。
  • Claude Opus 4: 長いコンテキスト分析、複雑な文章作成、深い理解を必要とするタスクにおいてクラス最高です。プレミアム価格はプレミアムな能力を反映しています。

主なポイント#

  1. 基本料金は安いが、推論トークンがコストを増大させる。 0.50/MTokの出力レートは、推論トークンを考慮すると実質的に0.50/MTokの出力レートは、推論トークンを考慮すると実質的に2〜5/MTokになる可能性があります。

  2. reasoning_effortを積極的に使用する。 単純なタスクにはlowを、ほとんどのワークロードにはmediumを設定します。本当に複雑な問題のためにhighを予約しておきましょう。

  3. キャッシュは無料のお金です。 一貫したシステムプロンプトとマルチターン会話は、自動的に75%の入力割引の恩恵を受けます。

  4. Batch APIはすべてを半額にする。 非同期処理を許容できる場合、50%割引は推論を含むすべてのトークンタイプに適用されます。

  5. Crazyrouterはさらに10%節約します。 コードの1行を変更するだけで済むOpenAI互換のドロップインです。

  6. 使用状況データでreasoning_tokensを監視する。 このフィールドを追跡していないと、コストについて盲目になります。

  7. Grok 4.1 Thinkingは、利用可能な最も費用対効果の高い推論モデルです。 GPT-5やClaude Opus 4よりも10〜75倍安価であり、予算を重視する推論ワークロードにとって明確な選択肢です。


Crazyrouterを始める#

Grok 4.1 Thinkingを10%オフで使い始める準備はできましたか?

  1. crazyrouter.comサインアップ
  2. ダッシュボードからAPIキーを取得
  3. ベースURLをhttps://crazyrouter.com/v1変更
  4. すべてのリクエストで節約を開始

Crazyrouterは、xAI、OpenAI、Anthropic、Google、DeepSeekなど、200以上のモデルをすべて単一のOpenAI互換APIを通じてサポートしています。1つのキー、1つの請求書、すべてのモデル。

👉 crazyrouter.comでAPIキーを取得


免責事項:料金情報は2026年4月27日現在の正確なものであり、xAIの公開データに基づいています。料金は予告なく変更される場合があります。Crazyrouterは独立したAPIゲートウェイであり、xAIとは提携していません。購入を決定する前に、必ず公式のxAI料金ページで現在の料金を確認してください。上記のシナリオにおけるトークン使用量の見積もりは概算であり、実際の使用量はプロンプトの複雑さ、モデルの動作、その他の要因によって異なります。

Related Articles