Login
Back to Blog
GPT-5の料金を解説 — 推論トークン、キャッシュ、Batch API、そしてCrazyrouterで節約する方法

GPT-5の料金を解説 — 推論トークン、キャッシュ、Batch API、そしてCrazyrouterで節約する方法

C
Crazyrouter Team
April 27, 2026
0 views日本語Pricing
Share:


title: GPT-5の料金を解説 — 推論トークン、キャッシュ、Batch API、そしてCrazyrouterで節約する方法 slug: gpt-5-pricing summary: GPT-5 APIの料金を徹底解説 — MTokあたり1.25/1.25/10、推論トークンは出力として課金、自動キャッシュは10%割引、Batch APIは50%オフ、そしてCrazyrouterでの節約術。 tag: Pricing language: en cover_image_url: https://raw.githubusercontent.com/xujfcn/images/main/blog/covers/claude-sonnet-4-6-pricing.jpg meta_title: GPT-5の料金 2026 — 推論トークン、キャッシュ、Crazyrouter割引 meta_description: GPT-5の料金に関する完全ガイド。推論トークン、自動キャッシュ、Batch API 50%オフ — さらにCrazyrouter割引。 meta_keywords: GPT-5 pricing, OpenAI API cost, GPT-5 API, reasoning model, Crazyrouter discount#

GPT-5の料金を解説 — 推論トークン、キャッシュ、Batch API、そしてCrazyrouterで節約する方法#

GPT-5は、OpenAIがこれまでに発表した中で最も強力なモデルです。o3およびo4-miniシリーズの後継であり、GPT-4oの会話の流暢さを取り入れた統合推論モデルです。400Kのコンテキストウィンドウ、128Kの最大出力トークン、そして多段階の数学的証明から複雑なコード生成まであらゆるものに対応できる組み込みの思考連鎖推論を備えています。

しかし、そのパワーには代償が伴います。GPT-5の料金体系は、多くの開発者を驚かせる概念を導入しています。それは推論トークンです。これらの目に見えないトークンは、モデルの内部思考プロセス中に生成され、出力レートで課金されます。その仕組みを理解していなければ、APIの請求額が予想の5~10倍に膨れ上がる可能性があります。

このガイドでは、GPT-5 APIの料金に関するあらゆる側面を解説します。基本料金、推論トークンのメカニズム、自動キャッシュ、Batch APIの割引、そしてAPIプロキシとしてCrazyrouterを使用することでコストを45%削減する方法についてです。本番環境のアプリを構築している場合でも、初めてGPT-5を試している場合でも、これはあなたが必要とする料金リファレンスです。

最終更新日: 2026年4月27日


基本料金#

GPT-5の料金はOpenAIの標準的なトークンごとのモデルに従いますが、フロンティア推論モデルとしての位置付けを反映したレートが設定されています。

コンポーネント100万トークンあたりの料金
Input tokens$1.25
Cached input tokens$0.125 (90%割引)
Output tokens$10.00

主要スペック#

  • Context window: 400,000 tokens
  • Max output tokens: 128,000 tokens
  • Knowledge cutoff: 2026年初頭
  • Supported modalities: テキスト、画像、音声入力。テキスト、音声出力。

一見すると、入力料金はリーズナブルに見えます。100万トークンあたり1.25は、他のフロンティアモデルと比較しても競争力があります。出力料金の1.25は、他のフロンティアモデルと比較しても競争力があります。出力料金の10.00/MTokは、特に推論トークンを考慮に入れると(詳細は後述)、コストがかさむ部分です。

比較のために、GPT-5が他のOpenAIモデルとどのように比較されるかを以下に示します。

モデル入力 ($/MTok)出力 ($/MTok)コンテキスト
GPT-5$1.25$10.00400K
o3$2.00$8.00200K
o4-mini$0.40$1.60200K
GPT-4o$2.50$10.00128K
GPT-4.1$2.00$8.001M

GPT-5は、GPT-4oやGPT-4.1よりも入力トークンが安く、その能力と同等かそれ以上です。400Kのコンテキストウィンドウは、o3が提供していたものの2倍です。書面上では強力な価値提案ですが、推論トークンが登場するまでは、という話です。


推論トークン:隠れたコスト乗数#

これは、GPT-5の料金について理解すべき最も重要な概念です。これを誤解すると、コストが予測不能になります。

推論トークンとは?#

GPT-5が複雑なリクエストを処理する際、すぐに答えを出すわけではありません。まず考えます。モデルは、問題を分解し、アプローチを検討し、作業を確認するなどの内部的な思考連鎖を生成し、その後、API出力に表示される目に見える応答を生成します。

これらの内部的な思考ステップは推論トークンを消費します。これらは応答コンテンツには表示されませんが(デフォルトでは非表示)、請求書には確実に計上されます。

推論トークンはどのように課金されますか?#

推論トークンは出力トークンレートである100万トークンあたり$10.00で課金されます。これが重要な詳細です。これらのトークンが目に見えなくても、目に見える出力と同じコストがかかります。

典型的なAPI応答は次のようになります。

json
{
  "usage": {
    "prompt_tokens": 1200,
    "completion_tokens": 8500,
    "completion_tokens_details": {
      "reasoning_tokens": 6400,
      "accepted_prediction_tokens": 0,
      "rejected_prediction_tokens": 0
    }
  }
}

この例では、合計completion tokensは8,500ですが、そのうち目に見える応答は2,100に過ぎません。残りの6,400は推論トークンです。あなたは2,100ではなく、8,500の出力トークンに対して料金を支払っています。

推論トークンが目に見える出力の2~10倍になる理由#

推論トークンと目に見える出力の比率は、タスクの複雑さによって異なります。

  • 単純なQ&Aまたはテキスト生成: 推論トークンは目に見える出力の0.5~1倍程度かもしれません。モデルは深く考える必要がありません。
  • 多段階の数学または論理: 推論トークンは目に見える出力の3~5倍になることがあります。モデルは内部でステップを処理しています。
  • 複雑なコード生成またはデバッグ: 推論トークンは目に見える出力の5~10倍に達することがあります。モデルは最終的な答えを表示する前に、内部で計画、記述、レビュー、修正を行っています。

これは、1,000の目に見える出力トークンを生成するリクエストが、実際には合計で5,000~10,000の出力トークンを消費する可能性があることを意味します。10/MTokでは、1つのリクエストで10/MTokでは、1つのリクエストで0.01と$0.10の差が生じます。

reasoning_effortでコストを制御する#

OpenAIは、GPT-5がどれだけ思考するかを制御できるreasoning_effortパラメーターを提供しています。これは、推論トークンのコストを管理するための主要な手段です。

レベル動作推論トークンへの影響
minimal最小限の推論目に見える出力の約0.5倍
low軽い推論目に見える出力の約1~2倍
mediumバランスの取れた(多くのタスクでデフォルト)目に見える出力の約2~5倍
high深い推論、最高の精度目に見える出力の約5~10倍
python
from openai import OpenAI

client = OpenAI()

response = client.chat.completions.create(
    model="gpt-5",
    reasoning_effort="low",  # より単純なタスクでは推論を減らす
    messages=[
        {"role": "user", "content": "Summarize this article in 3 bullet points."}
    ]
)

経験則: 単純なタスク(要約、翻訳、簡単なQ&A)にはlowまたはminimalを使用してください。精度が重要なタスク(数学、コード、複雑な分析)にはmediumhighを予約してください。この単一のパラメーターで、日常的なリクエストのコストを50~80%削減できます。


自動キャッシュ:繰り返し入力の90%オフ#

GPT-5は自動プロンプトキャッシュをサポートしています。以前のOpenAIモデルとは異なり、これを有効にするために何もする必要はありません。ただ機能します。

仕組み#

GPT-5にリクエストを送信すると、OpenAIはプロンプトのプレフィックスを自動的にキャッシュします。後続のリクエストが同じプレフィックス(システムプロンプト、few-shot examples、またはプロンプトの先頭にある繰り返しのコンテンツ)を共有する場合、キャッシュされた部分はキャッシュされた入力レートで課金されます。つまり、1.25/MTokではなく1.25/MTokではなく**0.125/MTok**となり、90%の割引が適用されます。

キャッシュの保持期間#

キャッシュされたプロンプトは、拡張保持期間で最大24時間保持されますが、正確な期間は使用パターンによって異なります。頻繁にアクセスされるキャッシュは長く保持されます。あまり使用されないキャッシュは、より早く期限切れになる可能性があります。

キャッシュが最も節約になる場合#

キャッシュは、次のような場合に最も価値があります。

  • リクエスト間で同じままの長いシステムプロンプト(例:顧客サポートボット用の5,000トークンのシステムプロンプト)
  • すべてのリクエストの前に付加されるfew-shot examples
  • 複数のユーザーがクエリするドキュメントコンテキスト(例:取得されたコンテキストが同じドキュメントであるRAGパイプライン)

実践例#

システムプロンプトが10,000トークンで、1日あたり1,000件のリクエストを行うと仮定します。

  • キャッシュなし: 10,000 × 1,000 = 10M input tokens × 1.25/MTok=1.25/MTok = **12.50/日**
  • キャッシュあり: 10,000 × 1,000 = 10M input tokens × 0.125/MTok=0.125/MTok = **1.25/日**

これは、システムプロンプトの自動キャッシュだけで、1日あたり11.251ヶ月あたり11.25、1ヶ月あたり337.50の節約になります。

キャッシュヒットを最大化するためのヒント#

  1. 静的コンテンツを最初に配置する。 キャッシュはプロンプトの最初から一致します。システムプロンプトとfew-shot examplesは、動的なユーザーコンテンツの前に来るべきです。
  2. システムプロンプトを一貫させる。 1文字の変更でも、その後のすべてのキャッシュが無効になります。
  3. 類似のリクエストをバッチ処理する。 複数のユーザーが同じドキュメントをクエリしている場合、それらを同じプロンプト構造でルーティングします。

Batch API:非同期ワークロードで50%オフ#

OpenAIのBatch APIを使用すると、大量のリクエストを送信し、24時間以内に結果を受け取ることができます。その代償として、リアルタイム応答を諦める代わりに、すべてのトークンコストが50%割引になります。

コンポーネント標準料金Batch API料金
Input tokens$1.25/MTok$0.625/MTok
Cached input$0.125/MTok$0.0625/MTok
Output tokens$10.00/MTok$5.00/MTok

Batch APIを使用すべき時#

Batch APIは以下の用途に最適です。

  • コンテンツ生成パイプライン — 数百の製品説明、ブログの下書き、または翻訳の生成
  • データ処理 — 大規模なデータセットの分類、抽出、または要約
  • 評価とテスト — 数千のテストケースにわたるモデル評価の実行
  • 夜間ジョブ — 結果が即座に必要ないあらゆるワークロード

仕組み#

  1. リクエストを含む.jsonlファイルをアップロードします
  2. バッチジョブを作成します
  3. 完了をポーリングします(通常24時間以内)
  4. 結果をダウンロードします
python
from openai import OpenAI

client = OpenAI()

# Upload the batch file
batch_file = client.files.create(
    file=open("requests.jsonl", "rb"),
    purpose="batch"
)

# Create the batch
batch = client.batches.create(
    input_file_id=batch_file.id,
    endpoint="/v1/chat/completions",
    completion_window="24h"
)

Batch APIと自動キャッシュを組み合わせることで、劇的な節約が可能です。バッチリクエストが共通のプレフィックスを共有している場合、入力トークンに対して90%のキャッシュ割引に加えて50%のバッチ割引が適用され、バッチモードではキャッシュされた入力に対して実質$0.0625/MTokを支払うことになります。


Crazyrouterで45%節約#

Crazyrouterは、GPT-5(および200以上の他のモデル)に大幅に割引された価格でアクセスできるAPIプロキシです。OpenAI SDKと完全に互換性があり、base_urlとAPIキーを変更するだけで使用できます。

Crazyrouter GPT-5料金#

コンポーネントOpenAI公式Crazyrouter (55%)節約額
Input tokens$1.25/MTok$0.6875/MTok45%
Output tokens$10.00/MTok$5.50/MTok45%

CrazyrouterはOpenAIの公式料金の55%を請求するため、推論トークンを含むすべてのトークン(入力と出力)で45%節約できます。

OpenAI Python SDKでのセットアップ#

Crazyrouterへの切り替えは、たった2行のコードで完了します。

python
from openai import OpenAI

client = OpenAI(
    api_key="your-crazyrouter-key",
    base_url="https://crazyrouter.com/v1"
)

response = client.chat.completions.create(
    model="gpt-5",
    reasoning_effort="medium",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Explain quantum entanglement in simple terms."}
    ]
)

print(response.choices[0].message.content)

curlでのセットアップ#

bash
curl https://crazyrouter.com/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer your-crazyrouter-key" \
  -d '{
    "model": "gpt-5",
    "reasoning_effort": "medium",
    "messages": [
      {"role": "system", "content": "You are a helpful assistant."},
      {"role": "user", "content": "Explain quantum entanglement in simple terms."}
    ]
  }'

Crazyrouterを選ぶ理由#

  • ドロップイン置換 — 同じOpenAI SDK、同じAPI形式、同じ応答構造
  • 200以上のモデル — 単一のAPIキーからGPT-5、Claude、Gemini、DeepSeekなどにアクセス
  • レート制限の心配なし — Crazyrouterは複数のアップストリームキーにわたる負荷分散を処理
  • 従量課金制 — サブスクリプションなし、最低料金なし

実世界のコストシナリオ#

GPT-5のコストが実際にどのように発生するか、そして推論トークン、キャッシュ、Crazyrouterが最終的な収益にどのように影響するかを、3つの現実的なシナリオで見ていきましょう。

シナリオ1:カスタマーサポートチャットボット#

設定: 5,000トークンのシステムプロンプト、平均500トークンのユーザーメッセージ、800トークンの目に見える応答、lowの推論努力。

  • Reasoning tokens: 目に見える出力の約1倍 = 800トークン
  • Total output tokens: リクエストあたり1,600トークン
  • Requests per day: 10,000件
コストコンポーネント1日あたりのトークン数OpenAI料金Crazyrouter料金
入力 (初回リクエスト、未キャッシュ)5.5M$6.88$3.78
入力 (キャッシュ済み、9,999リクエスト)49.995M × キャッシュ済み$6.25$3.44
出力 (推論を含む)16M$160.00$88.00
1日あたりの合計$173.13$95.22
1ヶ月あたりの合計$5,193.90$2,856.60

Crazyrouterによる月間節約額: $2,337.30

lowの推論努力でも出力コストが支配的であることに注目してください。5,000トークンのシステムプロンプトは、キャッシュのおかげで最初のリクエスト以降はほとんど無料になります。

シナリオ2:コード生成パイプライン#

設定: 2,000トークンのシステムプロンプト、3,000トークンのコードコンテキスト、2,000トークンの目に見える出力、最高のコード品質のためのhighの推論努力。

  • Reasoning tokens: 目に見える出力の約8倍 = 16,000トークン
  • Total output tokens: リクエストあたり18,000トークン
  • Requests per day: 500件
コストコンポーネント1日あたりのトークン数OpenAI料金Crazyrouter料金
入力 (ほとんどキャッシュ済み)2.5M$0.63$0.35
出力 (推論を含む)9M$90.00$49.50
1日あたりの合計$90.63$49.85
1ヶ月あたりの合計$2,718.90$1,495.50

Crazyrouterによる月間節約額: $1,223.40

このシナリオは、推論トークン乗数の動作を示しています。目に見える出力はわずか2,000トークンですが、リクエストあたり18,000トークンの出力に対して料金を支払っています。highの推論努力では、モデルは広範な内部計画とコードレビューを行っています。これは品質には優れていますが、財布には高価です。

コスト最適化のヒント: 複雑なアルゴリズムタスクにはhigh推論を、定型的なコード生成にはlowを使用してください。タスクの複雑さに基づいてreasoning_effortを調整するスマートなルーティングレイヤーは、重要な部分で品質を犠牲にすることなく、コストを60%以上削減できます。

シナリオ3:バッチデータ処理#

設定: 50,000件の製品説明を処理。アイテムあたり200トークンの入力、500トークンの出力、minimalの推論努力。Batch APIを使用。

  • Reasoning tokens: 目に見える出力の約0.5倍 = 250トークン
  • Total output tokens: リクエストあたり750トークン
  • Batch discount: 50%オフ
コストコンポーネント合計トークン数OpenAI Batch料金Crazyrouter料金
入力10M$6.25 (バッチ)$3.44
出力 (推論を含む)37.5M$187.50 (バッチ)$103.13
合計$193.75$106.57

Crazyrouterによる節約額: 1回のバッチ実行で$87.18

バッチワークロードの場合、Batch APIの50%割引とCrazyrouterの45%割引を組み合わせることで、莫大な節約が実現します。同じジョブをOpenAIの標準料金で行うと387.50かかりますが、Crazyrouter経由ではわずか387.50かかりますが、Crazyrouter経由ではわずか106.57で済み、合計で72%の削減になります。


主要なポイント#

  1. 推論トークンが最大のコスト要因です。 出力レート($10/MTok)で課金され、目に見える出力の2~10倍になることがあります。実際のコストを理解するために、API応答のcompletion_tokens_details.reasoning_tokensを常に確認してください。

  2. reasoning_effortを戦略的に使用してください。 すべてのリクエストが深い思考を必要とするわけではありません。単純なタスクにはlowまたはminimalを設定し、一般的な使用にはmediumを、精度が重要な場合にのみhighを設定してください。この単一のパラメーターで出力コストを50~80%削減できます。

  3. 自動キャッシュは無料の節約です。 静的コンテンツ(システムプロンプト、few-shot examples)を最初に、動的コンテンツを最後に配置するようにプロンプトを構成してください。キャッシュされた入力トークンに対する90%割引は、大規模になるとすぐに積み重なります。

  4. 非同期ワークロードにはBatch APIを使用してください。 リアルタイム応答が必要ない場合、すべてのトークンに対する50%割引は見逃せません。コンテンツパイプライン、データ処理、評価実行には常にバッチを使用すべきです。

  5. Crazyrouterはすべてを45%節約します。 同じAPI、同じSDK、同じ応答形式 — ただ安価なだけです。大規模になると、これは月あたり数千ドルの節約につながります。


今すぐGPT-5の節約を始めましょう#

GPT-5は驚くべきモデルですが、推論トークンに注意を払わないとコストが急速にエスカレートする可能性があります。朗報として、reasoning_effortの調整、自動キャッシュ、Batch API、そしてCrazyrouterの45%割引の間で、コストを管理するための複数の手段があります。

GPT-5 APIのコストを45%削減する準備はできていますか?

👉 Crazyrouterを始める — アカウントを作成し、APIキーを取得し、base_urlを交換するだけです。1分もかかりません。

サブスクリプションなし。最低料金なし。ただ安価なトークンを。


免責事項: 料金情報は2026年4月27日時点のものです。OpenAIはいつでも料金を変更する可能性があります。Crazyrouterの料金は現在のレートに基づいており、変更される可能性があります。購入を決定する前に、常にOpenAIおよびCrazyrouterの公式ウェブサイトで現在の料金を確認してください。上記のシナリオにおけるトークン使用量の見積もりは概算であり、実際の推論トークン消費量はタスクの複雑さ、プロンプト構造、およびモデルの動作によって異なります。

Related Articles