
Gemini 2.5 Flash-Liteの料金を解説 — 大規模ワークロード向け最安値のGeminiモデル
title: Gemini 2.5 Flash-Liteの料金を解説 — 大規模ワークロード向け最安値のGeminiモデル slug: gemini-2-5-flash-lite-pricing summary: Gemini 2.5 Flash-Lite APIの料金を徹底解説 — わずか0.40/MTok、コンテキストキャッシュ、無料枠、Crazyrouterによる節約。 tag: 料金 language: en cover_image_url: https://raw.githubusercontent.com/xujfcn/images/main/blog/covers/claude-sonnet-4-6-pricing.jpg meta_title: Gemini 2.5 Flash-Lite 料金 2026 — 最安値のGemini & Crazyrouter meta_description: Gemini 2.5 Flash-Liteの料金ガイド。入力はわずか$0.10/MTok — 最安値のGeminiモデル。キャッシュ、無料枠 — さらにCrazyrouter割引。 meta_keywords: Gemini 2.5 Flash-Lite pricing, cheapest AI API, Google budget model, Crazyrouter discount#
Gemini 2.5 Flash-Liteの料金を解説 — 大規模ワークロード向け最安値のGeminiモデル#
大規模なAIワークロードを実行しており、わずかなコストも重要である場合、GoogleのGemini 2.5 Flash-Liteは注目に値します。100万入力トークンあたりわずか0.40という価格で、Geminiラインナップ全体で最も安価なモデルであり、今日の市場で最も手頃な価格のプロダクショングレードAPIの1つです。
このガイドでは、Gemini 2.5 Flash-Liteの料金のあらゆる側面を詳しく説明します。基本料金、コンテキストキャッシュ割引、無料枠、GPT-5-nanoやGrok 4.1 Fastとの比較、そしてCrazyrouterを経由することでさらに10%節約する方法について解説します。
最終更新日:2026年4月27日
基本料金 — 実際に支払う金額#
Gemini 2.5 Flash-Liteは、シンプルなトークンごとの料金モデルを採用しています。隠れた手数料、最低利用料金、段階的な料金体系はありません。使用した分だけ支払います。
料金表の全容は以下のとおりです。
| トークンタイプ | 100万トークンあたりの料金 (MTok) |
|---|---|
| 入力 — テキスト | $0.10 |
| 入力 — 画像 | $0.10 |
| 入力 — 動画 | $0.10 |
| 入力 — 音声 | $0.30 |
| 出力 — テキスト | $0.40 |
いくつか注意点があります。
- テキスト、画像、動画の入力はすべて$0.10/MTokと同じ価格です。これは珍しいことです。ほとんどのプロバイダーはマルチモーダル入力に対してプレミアム料金を請求します。Flash-Liteはそれらをすべて同じように扱います。これにより、ビジョンおよび動画分析パイプラインにとって非常に費用対効果が高くなります。
- 音声入力は$0.30/MTokですが、テキスト料金の3倍とはいえ、依然として非常に競争力があります。大量の音声を処理する場合は、これをコストモデルに含める価値があります。
- 出力トークンは、入力モダリティに関係なく$0.40/MTokです。この4:1の出力対入力比率は、ほとんどのバジェット層モデルで標準的です。
これらの数値を具体的に見てみましょう。10億入力トークン(テキスト)の処理にかかる費用はわずか**$100**です。このような価格設定により、バッチ分類、ドキュメント抽出、大規模な要約が大規模に経済的に実行可能になります。
トークンが実際のコンテンツにどのように対応するか#
実用的な見積もりとして:
- 英語約750語 ≈ 1,000トークン
- 標準的な500語のAPIリクエスト + 200語の応答 ≈ 入力トークン約670個 + 出力トークン約270個
- Flash-Liteの料金では、この1回のリクエストにかかる費用は約**$0.000175** — 1セントの200分の1未満
コンテキストキャッシュ — 繰り返しプロンプトのコストを削減#
同じシステムプロンプト、few-shotの例、または参照ドキュメントを複数のリクエストで送信する場合、コンテキストキャッシュはコストを劇的に削減できます。キャッシュされたトークンは、標準入力料金のわずかな割合で課金されます。
| キャッシュタイプ | MTokあたりの料金 |
|---|---|
| キャッシュされた入力 — テキスト/画像/動画 | $0.025 |
| キャッシュされた入力 — 音声 | $0.075 |
| キャッシュストレージ | 1時間あたりMTokあたり$1.00 |
これは、標準入力料金と比較して、キャッシュされた入力トークンに対して75%の割引です。プロンプトの80%以上が静的(システム指示、RAGコンテキスト、ドキュメント参照など)であるワークロードの場合、キャッシュにより実質的な入力コストをほぼゼロに削減できます。
コンテキストキャッシュが有効なケース#
コンテキストキャッシュは、次のようなシナリオで威力を発揮します。
- 長いシステムプロンプトを持つチャットボット — システムプロンプトが4,000トークンで、1日あたり10,000件の会話を処理する場合、キャッシュにより入力だけで1日あたり約$3.00節約できます。
- ドキュメントQ&A — 50ページのドキュメントを一度アップロードしてキャッシュし、その後、キャッシュされた料金で数百のクエリを実行します。
- 共有コンテキストでのバッチ処理 — すべてのリクエストに同じfew-shotの例と分類定義が含まれる分類タスク。
キャッシュストレージのコスト#
1時間あたり0.01かかります。これはアクティブなワークロードではごくわずかですが、完了したらクリーンアップする価値があります。
プロのヒント: キャッシュストレージは1時間ごとに課金されます。ワークロードがバースト的に実行される場合(例:夜間バッチジョブ)、ジョブの開始時にキャッシュを作成し、完了時に削除します。アクティブにリクエストを処理していない限り、キャッシュを24時間年中無休で実行したままにしないでください。
無料枠 — 支払う前に試す#
GoogleはGemini 2.5 Flash-Liteの無料枠を提供しており、金銭的なコミットメントなしで簡単にプロトタイプを作成し、テストすることができます。無料枠には以下が含まれます。
- モデルの全機能へのレート制限付きアクセス
- 開発、テスト、小規模な実験に十分なクォータ
- 利用開始にクレジットカードは不要
無料枠は次のような場合に最適です。
- 有料ワークロードにコミットする前にモデルの品質を評価する
- プロトタイプや概念実証アプリケーションを構築する
- 特定のユースケースに対してベンチマークを実行する
- AI機能を探索する学生や愛好家
無料枠にアクセスするには、Google AI Studioアカウントを作成し、APIキーを生成するだけです。請求設定なしで、すぐにリクエストを行うことができます。
無料枠のリクエストはレート制限が低く、ピーク時にはレイテンシが高くなる可能性があることに注意してください。プロダクションワークロードの場合、保証されたスループットと優先アクセスを得るために、有料枠にアップグレードすることをお勧めします。
Crazyrouter — すべてのリクエストでさらに10%節約#
ここからが面白いところです。Crazyrouterは、Gemini 2.5 Flash-Liteを**Googleの公式料金の90%**で提供しています。これは、すべてのトークンに対して一律10%の割引です。
| トークンタイプ | Google公式 | Crazyrouter料金 | 節約額 |
|---|---|---|---|
| 入力 (テキスト/画像/動画) | $0.10/MTok | $0.09/MTok | 10% |
| 入力 (音声) | $0.30/MTok | $0.27/MTok | 10% |
| 出力 | $0.40/MTok | $0.36/MTok | 10% |
大量に利用する場合、この10%はすぐに大きな金額になります。月間100億トークンを処理する場合、ベースURLを変更するだけで月間$100以上を節約できます。
Crazyrouter経由でGemini 2.5 Flash-Liteを使用する方法#
CrazyrouterはOpenAI SDK形式と完全に互換性があります。新しいライブラリは必要ありません。既存のコードをCrazyrouterのエンドポイントに向けるだけです。
Python (OpenAI SDK)#
from openai import OpenAI
client = OpenAI(
api_key="your-crazyrouter-api-key",
base_url="https://crazyrouter.com/v1"
)
response = client.chat.completions.create(
model="gemini-2.5-flash-lite",
messages=[
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Explain quantum computing in simple terms."}
],
max_tokens=500
)
print(response.choices[0].message.content)
cURL#
curl https://crazyrouter.com/v1/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer your-crazyrouter-api-key" \
-d '{
"model": "gemini-2.5-flash-lite",
"messages": [
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Explain quantum computing in simple terms."}
],
"max_tokens": 500
}'
これだけです。base_urlを交換し、CrazyrouterのAPIキーを使用するだけで、Gemini 2.5 Flash-Liteを10%割引で実行できます。SDKの変更も、移行の煩わしさもありません。
Crazyrouterは、OpenAI、Anthropic、Google、xAIなど200以上のモデルにわたる統合APIも提供しているため、統合を書き直すことなくモデルを切り替えることができます。
3つの大規模シナリオ — 実際のコスト内訳#
Gemini 2.5 Flash-Liteがプロダクションシナリオで実際にどれくらいのコストがかかるかを見てみましょう。
シナリオ1:カスタマーサポートチャットボット(1日あたり1万件の会話)#
- 平均会話:入力トークン2,000個、出力トークン500個
- 1日あたりのボリューム:入力トークン20M + 出力トークン5M
- 月間コスト(Google): (600M × 0.40) / 1M = $120/月
- 月間コスト(Crazyrouter): 108/月**
- 節約額: 144/年
1日あたり1万件の会話を処理するチャットボットの場合、月額わずか100ドル強です。これは、マルチモーダル入力を処理し、首尾一貫した文脈に沿った応答を提供するモデルとしては驚くほど安価です。
シナリオ2:ドキュメント分類パイプライン(月間100万件のドキュメント)#
- 平均ドキュメント:入力トークン3,000個、出力トークン100個(分類ラベル + 信頼度)
- 月間ボリューム:入力トークン3B + 出力トークン100M
- 月間コスト(Google): (3,000M × 0.40) / 1M = $340/月
- 月間コスト(Crazyrouter): 306/月**
- 節約額: 408/年
100万件のドキュメントを月額0.000306です。これに勝るものはありません。
シナリオ3:動画コンテンツモデレーション(1日あたり10万本の動画)#
- 平均動画分析:入力トークン5,000個(動画フレーム)、出力トークン200個
- 1日あたりのボリューム:入力トークン500M + 出力トークン20M
- 月間ボリューム:入力15B + 出力600M
- 月間コスト(Google): (15,000M × 0.40) / 1M = $1,740/月
- 月間コスト(Crazyrouter): 1,566/月**
- 節約額: 2,088/年
1日あたり10万本の動画という大規模なスケールでも、Flash-Liteはコストを月額0.10/MTok)であるため、マルチモーダル料金が予算を圧迫することもありません。
Gemini 2.5 Flash-Lite vs. GPT-5-nano vs. Grok 4.1 Fast#
Flash-Liteは他のバジェット層モデルとどのように比較されるでしょうか?ヘッドツーヘッドの比較を以下に示します。
| 機能 | Gemini 2.5 Flash-Lite | GPT-5-nano | Grok 4.1 Fast |
|---|---|---|---|
| 入力料金 | $0.10/MTok | $0.15/MTok | $0.12/MTok |
| 出力料金 | $0.40/MTok | $0.60/MTok | $0.50/MTok |
| マルチモーダル入力 | テキスト、画像、動画、音声 | テキスト、画像 | テキスト、画像 |
| コンテキストウィンドウ | 1Mトークン | 128Kトークン | 256Kトークン |
| コンテキストキャッシュ | ✅ あり ($0.025/MTok) | ✅ あり | ❌ なし |
| 無料枠 | ✅ あり | ✅ 制限あり | ✅ あり |
| 音声入力 | ✅ ネイティブ | ❌ なし | ❌ なし |
| 動画入力 | ✅ ネイティブ | ❌ なし | ❌ なし |
結論#
Gemini 2.5 Flash-Liteは、あらゆる面で価格競争に勝利しています。 0.40という価格で、GPT-5-nanoよりも入力で33%安く、出力で33%安いです。Grok 4.1 Fastと比較すると、入力で17%安く、出力で20%安いです。
しかし、価格だけが要因ではありません。
- コンテキストウィンドウ: Flash-Liteの1Mトークンのコンテキストウィンドウは、競合を圧倒しています。長いドキュメント、コードベース全体、または長時間の会話を扱う場合、これは大きな利点です。
- マルチモーダル対応の幅広さ: Flash-Liteは、テキスト、画像、動画、音声をすべて同じ入力価格(音声を除く)でネイティブに処理します。GPT-5-nanoとGrok 4.1 Fastはテキストと画像に限定されています。
- キャッシュ: Flash-LiteとGPT-5-nanoの両方がコンテキストキャッシュをサポートしていますが、Flash-Liteのキャッシュ料金($0.025/MTok)は非常に競争力があります。Grok 4.1 Fastはキャッシュを提供していません。
GPT-5-nanoまたはGrok 4.1 Fastが勝る可能性のある点: ワークロードが純粋にテキストベースであり、特定の指示追従特性やツール使用パターンが特定のモデルでよりうまく処理される必要がある場合、品質のベンチマークは価格よりも重要になります。常に実際のユースケースでテストしてください。
主なポイント#
-
Gemini 2.5 Flash-Liteは最安値のGeminiモデルであり、入力0.40/MTokで、大量かつコスト重視のワークロードに最適です。
-
コンテキストキャッシュにより、繰り返しプロンプトや共有コンテキストの入力コストを75%削減し、チャットボット、RAGパイプライン、バッチ処理をさらに安価にします。
-
マルチモーダル入力(テキスト、画像、動画)はすべて同じ$0.10/MTokで価格設定されており、ビジョンや動画分析に追加料金はかかりません。
-
1Mトークンのコンテキストウィンドウは、バジェット層モデルの中で最大であり、競合他社では対応できないユースケースを可能にします。
-
Crazyrouterは、コード変更なしで、すべてのトークンでさらに10%節約できます。ベースURLを交換するだけです。
-
無料枠により、プロダクションボリュームにコミットする前に、リスクなしでモデルを評価できます。
今すぐGemini 2.5 Flash-Liteを始めましょう#
最安値のGeminiモデルを使い始める準備はできましたか?
- 無料で試す — Google AI Studioにサインアップして、無料枠で実験を開始してください。
- Crazyrouterで10%節約 — crazyrouter.comでアカウントを作成し、APIキーを取得して、OpenAI SDKを
https://crazyrouter.com/v1に向けます。単一の統合APIを通じて、Gemini 2.5 Flash-Liteと200以上の他のモデルにアクセスできます。 - コストを見積もる — 上記の料金表を使用して予想される費用をモデル化し、繰り返しプロンプトを含むワークロードの場合はコンテキストキャッシュを考慮に入れることを忘れないでください。
チャットボットの構築、ドキュメントパイプラインの実行、大規模なコンテンツモデレーションなど、Gemini 2.5 Flash-Liteは、大規模なワークロードを経済的に実行可能にする価格帯で、プロダクショングレードのAIを提供します。
👉 CrazyrouterでGemini 2.5 Flash-Liteを使い始める →
免責事項:料金情報は2026年4月27日時点のものであり、変更される可能性があります。購入を決定する前に、必ず公式のGoogle AI料金ページおよびCrazyrouter料金ページで現在の料金を確認してください。Crazyrouterは独立したAPIゲートウェイであり、Googleとは提携していません。この記事のコスト見積もりは、記載されているトークンあたりの料金に基づいた概算であり、実際のトークン数、キャッシュ動作、使用パターンによって異なる場合があります。


