日本語Comparison

Gemini 2.5 Flash Lite vs Qwen3 VL Flash Vision API ベンチマーク 2026：実運用目線の画像理解モデル比較

gemini-2.5-flash-lite と qwen3-vl-flash を Vision API ワークロードで比較する実運用向けベンチマーク。実際の画像認識精度、latency、tail latency、成功画像あたりのコスト、usage signals、failure modes、production routing を整理します。

Crazyrouter Team

June 22, 2026 / 0 views

Gemini 2.5 Flash Lite vs Qwen3 VL Flash Vision API ベンチマーク 2026：実運用目線の画像理解モデル比較

Crazyrouter

Check live pricing Read the docs Open image tool Create account

Gemini 2.5 Flash Lite vs Qwen3 VL Flash Vision API ベンチマーク 2026：実運用目線の画像理解モデル比較#

本番環境で vision model を選ぶとき、「画像に対応しているか」だけでは不十分です。実際の開発者が必要としているのは、ユーザーの画像アップロード、スクリーンショット、UI デバッグ、ロゴ検出、文書プレビュー、サポートチケット、そして OpenAI-compatible API 経由で視覚情報を扱う agent workflow で安定して動くルートです。

この記事では gemini-2.5-flash-lite と qwen3-vl-flash を Crazyrouter OpenAI-compatible Base URL 経由で比較します。

text

https://cn.crazyrouter.com/v1

リクエスト形式は chat/completions で、messages[].content[] にテキストと image_url を入れています。各モデルは Python logo と GitHub logo の 2 つの安定した公開画像でテストし、各画像につき 3 回実行しました。

テスト時刻：2026-06-21T13:36:32Z。これは model card の転載ではなく、実際の API 測定結果です。

Gemini 2.5 Flash Lite vs Qwen3 VL Flash latency chart

先に結論#

リアルタイムのユーザー画像アップロードでは、今回より高速だった gemini-2.5-flash-lite を優先候補にできます。
大量のタグ付け、ロゴ認識、軽量分類では、成功画像あたりの推定コストが低い qwen3-vl-flash が有利です。
複雑なスクリーンショット、文書、OCR、グラフ理解では、より強いモデルでの二段階評価を追加してください。

ユーザー視点の scorecard#

判断軸	`gemini-2.5-flash-lite`	`qwen3-vl-flash`	なぜ重要か
HTTP success	6/6	6/6	通信成功を示すだけで、モデルが画像を見た証明にはならない。
正しい画像認識	6/6	6/6	image_url routing の最重要 smoke-test 指標。
No-image failure claims	0	0	リクエストは通ったが画像が渡っていない経路を検出できる。
Average latency	2.618s	3.819s	ユーザーが通常どれくらい待つかに直結する。
Median latency	2.627s	3.493s	平均よりも典型的な体験を表しやすい。
Slowest request	4.195s	5.975s	tail latency は「固まった」と感じる原因になる。
Input price / 1M tokens	$0.055	$0.05	image tagging、OCR pre-filtering、batch classification で重要。
Output price / 1M tokens	$0.22	$0.4	長めの画像説明を出す場合に効く。
Estimated cost / 10k test-style calls	$0.5466	$0.0915	raw token price より実践的。観測された usage を含めている。
Usage / image signal	image tokens が 0 または欠落。HTTP status だけでなく vision smoke test が必要	usage metadata に image tokens の明示的なシグナルあり	usage metadata は HTTP 200 でも壊れた vision path を示すことがある。

Gemini 2.5 Flash Lite vs Qwen3 VL Flash decision matrix

この benchmark で判断できること#

これは意図的に vision API smoke test として設計しています。判断できるのは次のような点です。

OpenAI-compatible API 経由で image_url が動くか
モデルがテキスト prompt だけでなく、実際に画像を見ているか
小さなユーザー向け image request でどちらが速いか
大量の簡単な画像分類でどちらが安いか
usage metadata が画像処理と矛盾していないか

一方で、これは OCR、chart reasoning、手書き文字、医療画像、密な文書抽出、multi-image reasoning の完全評価ではありません。そのような workflow では、このテストを最初の routing check として使い、別途 domain-specific evaluation を追加してください。

Raw benchmark data#

指標	`gemini-2.5-flash-lite`	`qwen3-vl-flash`
HTTP success	6/6	6/6
Correct recognition	6/6	6/6
No-image replies	0	0
Average latency	2.618s	3.819s
Median latency	2.627s	3.493s
Fastest request	1.302s	2.529s
Slowest request	4.195s	5.975s
Avg prompt tokens observed	970.5	111.0
Avg completion tokens observed	5.8	9.0

出力例#

タスク	モデル	出力例	レイテンシ	Prompt tokens
`logo_python`	`gemini-2.5-flash-lite`	The Python programming language logo.	2.616s	1109
`logo_python`	`qwen3-vl-flash`	Python programming language logo.	3.217s	111
`logo_github`	`gemini-2.5-flash-lite`	The GitHub logo.	2.638s	1109
`logo_github`	`qwen3-vl-flash`	GitHub logo: cat head with ears and whiskers.	4.243s	111

Production routing guidance#

1. Real-time image uploads#

チャットアプリ、カスタマーサポート、ユーザー画像アップロードでは latency と reliability が最重要です。安いモデルでも、ユーザーが再試行したり、毎回 fallback が発生したりするなら、結果的に安くありません。

2. Bulk logo、icon、screenshot tagging#

大量分類では、成功画像あたりのコストが重要です。タスクが単純で、回答形式を検証できるなら低コストルートを使い、empty answer、no-image claim、low-confidence classification のときだけ fallback します。

3. OCR と document workflows#

この benchmark は OCR quality を証明するものではありません。請求書、表、フォーム、レシート、テキスト量の多いスクリーンショットでは、実データで別の評価が必要です。ロゴを認識できるモデルが layout extraction に強いとは限りません。

4. Visual context を持つ agent workflows#

Agent は入力の安定性を必要とします。HTTP 200 でも image content が落ちるルートでは、agent が自信を持って間違った判断をする可能性があります。Agent 用途では answer correctness、usage signals、疑わしい image path で fail closed する設計が必要です。

5. Gateway media behavior#

image_url support には複数の意味があります。クライアントから URL を受け取れるだけなのか、gateway が media を取得して変換するのか、upstream provider に元の URL を渡すのか。これは bandwidth、privacy、SSRF controls、latency、billing に影響します。Media behavior は model routing の一部として扱うべきです。

HTTP 200 だけでは足りない理由#

有効な HTTP response は、API が何かを返したことを示すだけです。画像がモデルに届いた証明にはなりません。Vision API monitoring では、小さな deterministic test image を送り、答えが決まっている質問をして、テキスト回答と usage metadata の両方を確認してください。

特に usage 上で image tokens が見えない場合や、モデルが「画像が提供されていない」と答える場合は注意が必要です。それはモデル品質の問題ではなく、adapter、media-fetch、payload conversion、routing の問題かもしれません。

API example#

python

from openai import OpenAI

client = OpenAI(
    api_key="YOUR_API_KEY",
    base_url="https://cn.crazyrouter.com/v1"
)

response = client.chat.completions.create(
    model="gemini-2.5-flash-lite",
    messages=[{
        "role": "user",
        "content": [
            {"type": "text", "text": "Identify the main logo or object in this image."},
            {
                "type": "image_url",
                "image_url": {
                    "url": "https://raw.githubusercontent.com/github/explore/main/topics/python/python.png",
                    "detail": "low"
                }
            }
        ]
    }],
    max_tokens=40,
    temperature=0,
)

print(response.choices[0].message.content)

コード内の API endpoint に UTM パラメータは付けません。人がクリックするリンクには UTM を付けられます。例：Crazyrouter Pricing。

Final takeaway#

最適な Vision API route は workflow によって変わります。リアルタイム対話では正しい認識と低 latency。大量分類では cost per successful image。Agent や document workflow では reliability、usage signals、fallback design が重要です。

つまり、vision model は名前だけで選ぶべきではありません。タスク、failure mode、media path、latency、そして有用な結果あたりのコストで選ぶべきです。