top of page

Qwen vs Claude — 自社ホスト LLM をどこまで実務に投入できるか(PoC と人手運用テストの両方を見た結論)

  • ccf代表
  • 13 時間前
  • 読了時間: 8分

背景

OPSNOTE(当社開発中の手順書 SaaS)の AI 機能は標準で Anthropic Claude API を使う。一方で「顧客データを外部 API へ送れない」テナント要件が発生する可能性を考慮し、自社 Azure サブスクリプション内で完結する LLM 経路を SKU として用意したい。Azure Japan East の T4 GPU 上で Qwen2.5:14B-Q4 を動かし、Claude Haiku 4.5 / Sonnet 4.6 と横並びで評価した。

評価は 2 段階で実施した。

  1. 機械計測 PoC(性能・コスト・5 シナリオ × 単発比較)

  2. 人手運用テスト(実テナント上で 21 件の業務シナリオを実施・本番経路で tool calling 含む)

結論を先に書くと、機械計測 PoC では Haiku 比 106% で「採用可」、人手運用テストでは 42% で「不合格」という逆転が起きた。ここではその差がどこから来たかをまとめる。



1.機械計測 PoC(先行)

検証構成

  • インフラ: ACA Serverless GPU Consumption-GPU-NC8as-T4 / Japan East

  • ランタイム: Ollama + LiteLLM(Anthropic 互換プロキシ)

  • モデル: qwen2.5:14b-instruct-q4_K_M

  • 比較対象: Claude Haiku 4.5 / Sonnet 4.6

  • シナリオ: タイトル/概要・ステップ列挙・レビュー要約・本文校正・判断ポイント分岐の 5 種 × 2 試行

  • 評価者: Claude Opus 4.7(5 段階主観評価)


結果サマリ

モデル

総平均(5点満点)

Haiku比

Qwen2.5:14B-Q4

4.25

106%

Haiku 4.5

4.00

100%

Sonnet 4.6

4.80

120%

PoC 受入基準「Haiku 比 70% 以上」は大幅クリア。この時点では採用可と見えていた


応答性能(Warm steady)

シナリオ

Qwen latency

Haiku latency

Sonnet latency

Qwen tok/s

Haiku tok/s

S1 タイトル/概要(~100 tok)

5.3s

2.9s

3.9s

20

59

S2 ステップ列挙(768 tok)

63.0s

6.4s

14.0s

14

121

S3 レビュー要約

5.3s

3.2s

7.1s

19

79

S4 本文校正

14.1s

2.3s

8.3s

20

156

S5 判断ポイント

24.9s

4.3s

8.7s

20

121

T4 × 14B-Q4 の生成速度は warm 中央値で 約 20 tok/s に収束。Haiku の 1/3〜1/10。長文タスクは 1 分級になる。


Cold start・VRAM

指標

Cold latency 中央値(9 試行)

147.6 秒

Cold latency 範囲

87.7s 〜 153.2s(二峰性)

Cold 直後 VRAM

9475 MiB / 16384 MiB(~58% 使用)

二峰性は Azure Files キャッシュヒットの有無に起因と推定。14B-Q4 は T4 16 GB に収まることが確定。Cold 待ち 90〜150 秒は同期 UI 用途では非現実的で、Warm 常駐(min=1)が前提。


コスト(社内利用想定 2,200 req/月)

モデル

月額

内訳

Qwen(ピーク warm 平日 9–18h)

約 $307

GPU $0.3816/h × 198h、req 数に非連動

Qwen(全 cold / min=0)

約 $217

営業日あたり ~35 回の cold 待ち発生

Qwen(24/7 常時 warm)

約 $1,115

ノーコールド SLA が必要な場合

Haiku 4.5

約 $5

API 従量

Sonnet 4.6

約 $16

API 従量


Qwen が Haiku より安くなる損益分岐

Qwen 運用

月次固定

Haiku との分岐点

24/7 常時 warm

$1,115

約 490K req/月

ピーク warm

$307

約 135K req/月

全 cold

$217

約 95K req/月

社内利用規模ではどのパターンでも API 型が桁違いに安い。



2.人手運用テスト(後発・実テナントで実施)

機械計測 PoC は単発の比較プロンプトで Claude を評価者にしている。実テナントの本番経路(mTLS + LiteLLM + 実 tool calling + 21 件の業務シナリオ)でやり直したのが人手運用テスト。ここで PoC とまったく異なる結果が出た


計画と実施範囲

カテゴリ

計画件数

実施件数

状態

S1: 手順書生成

5

5

完了

S2: レビュー応答

3

0

未実施

S3: チャット対話(10 ターン)

10

0

未実施

S4: Lint 評価

3

0

未実施

UX 体感

3

0

未実施

合計

21

5

S1 で打ち切り

S1 5 件で不合格レンジ(< 50%)が確定し、致命的誤情報リスクも観測されたため打ち切り。S2-S4 + UX は未実施のままモデル選定の見直しに進んだ。


S1 結果(5 件 × 20 点 = 100 点満点)

題材

Qwen

Haiku

Qwen 達成率

S1-1

定型運用:VM 計画再起動

12

20

60%

S1-2

定型運用:DB 論理バックアップ

11

19

58%

S1-3

障害対応:CI 切り分け

8

20

40%

S1-4

ユーザ対応:VPN トラブル

8

20

40%

S1-5

緊急対応:SSL 証明書差替え

3

20

15%

合計


42

99

42.4%

判定基準(≥70% 合格 / ≥50% 条件付 / <50% 不合格)に対し 42.4% で不合格


何が起きたか — 実用上の問題

PoC では見えなかった、あるいは評価対象外だった事象が運用テストで次々と出た。


(1) Tool calling が全件で機能しない

OPSNOTE では generate_procedure_items tool で AI が手順書項目を自動追加する。Haiku は全件で正しく invoke して 15〜23 項目を自動追加。一方 Qwen は同じ tool 仕様に対し JSON をテキストとしてそのまま emit するだけで、tool_use ブロックとして受信されず、項目追加処理が走らない。LiteLLM ↔ Ollama 間の tool calling プロトコル不整合に起因する。ユーザは出力 JSON を読んで手動で項目化する必要があり、UX が大幅劣化


※補足

Tool callingでは、OPSNOTE内部のMCP機能を利用し、AIが応答した結果をJSONで受けて、OPSNOTEに”自動的に登録”する仕組み。


(2) Schema 安定性の欠如

S1-1〜S1-3 では正規 schema(英語キー:majorCategory / purpose / command / expectedResult 等)で出力していた Qwen が、S1-4 で突然独自の日本語キー schema を捏造フェーズ / 担当者 / 目的 / 確認方法 / 想定結果)。仮に tool calling が動いても schema mismatch でサーバ側保存処理が失敗するレベル。S1-5 では大項目を全件「SSL証明書更新」に統一して階層逆転。同じ仕様に対する出力安定性が保てない。


(3) 致命的誤情報(本番障害級)

S1-5 で Qwen が出力したコマンド:

cp /etc/letsencrypt/live/api.example.com/fullchain.pem /etc/nginx/sites-available/default

これは Nginx 設定ファイル default を SSL 証明書 PEM で上書きする破壊的コマンド。実行すれば本番 Nginx 設定が破壊され、構文エラーで起動できず、HTTPS どころか HTTP も含む全サービスが落ちる。Let's Encrypt 証明書は /etc/letsencrypt/live/<domain>/fullchain.pem のまま参照する流儀を完全に逆転させた捏造で、「実行すると本番が壊れる」レベル。ハルシネーションペナルティ -5 を適用、S1-5 最終スコア 3 点。


(4) 網羅性が 1/3〜1/4 に縮む

Qwen 項目数

Haiku 項目数

S1-1(VM 再起動)

7

15

S1-2(DB バックアップ)

6

20

S1-3(CI 切り分け)

7

20+

S1-4(VPN トラブル)

5

20+

S1-5(SSL 差替え)

7

17+

Qwen は重要な検証ステップ(整合性確認・データ検証・構文チェック・ロールバック設計など)を構造的に欠落させる。


(5) 題材タイプ別の極端なばらつき

題材タイプ

Qwen 達成率

定型運用(コマンド主体)

58–60%

障害対応(仮説検証・切り分け)

40%

緊急対応(致命的誤りあり)

15%

「コマンド主体の定型運用」では borderline、「論理性が問われる障害対応」では大幅未達、「緊急対応」では危険レベル。Haiku は全題材で 95–100%。

応答性能(運用テスト実測・per-item 効率)

PoC 単発計測より、実プロンプト・実 tool 構成・本番経路 mTLS での所要時間がより本番に近い。

Qwen 所要

Haiku 所要

Qwen per-item

Haiku per-item

S1-1

72s / 7 項目

42s / 15 項目

10.3 s/item

2.8 s/item

S1-2

120s / 6 項目

66s / 20 項目

20.0 s/item

3.5 s/item

S1-3

77s / 7 項目

47s / 20+ 項目

11.0 s/item

2.4 s/item

S1-4

55s / 5 項目

57s / 20+ 項目

11.0 s/item

2.85 s/item

S1-5

67s / 7 項目

60s / 17+ 項目

9.6 s/item

3.3 s/item

合計

391s

272s

約 11 s/item

約 3 s/item

  • 総時間で Qwen は Haiku の 1.44 倍遅い

  • per-item 効率では Haiku が 3.7 倍速い

  • S1-4 で Qwen が Haiku より総時間で速く見える瞬間があるが、これは出力を minimal に切り上げているだけ(5 項目 vs 20+ 項目)。品質と引き換え

実利用では 「最初のトークンが返り始めるまでの体感」も Qwen は Haiku の 3〜5 倍長い。S2 のような長文生成では 1 分級の沈黙になる。



3.なぜ PoC と運用テストで結果が逆転したか

観点

PoC(106%)

運用テスト(42%)

評価者

Claude Opus 4.7(単独・主観)

一般ユーザ 1 名(実業務基準)

評価対象

出力テキストの 5 段階採点

実テナント上の業務適合性・tool calling・schema 整合性

Tool calling

評価対象外

全件失敗が直接スコアに影響

Schema 安定性

評価対象外

S1-4 で規約違反、S1-5 で階層逆転を観測

ハルシネーション

5 段階の中で吸収

-5 点ペナルティで顕在化(S1-5 致命的誤情報)

題材の難度

短文中心の合成プロンプト

障害対応・緊急対応を含む実業務題材

評価者バイアス

Claude ファミリ親和性あり

実利用者視点

PoC のスコアは 「短文・定型・ファミリ親和性込みの主観評価」で、実運用の判定材料としては明らかに楽観的だった。運用テストは実テナント本番経路での業務適合性を見ているため、tool calling・schema 安定性・ハルシネーションリスクが正面から効く。



4.結論

Qwen2.5:14B-Q4 on T4 の現状

  • 品質: 実テナント本番経路で Haiku 比 42%。受入基準 70% に対し大幅未達

  • ハルシネーション: S1-5 で本番障害級の致命的誤情報を 1 件観測

  • Tool calling: 全件で invoke 失敗(LiteLLM ↔ Ollama protocol 不整合)

  • Schema 安定性: 同一仕様に対し独自 schema を捏造する事象あり

  • 応答性能: 総時間 1.44 倍遅・per-item 3.7 倍遅・長文 1 分級

  • コスト: 社内利用規模では Claude API の 40〜60 倍


残課題と方針

  • 運用テストは S1 で打ち切り、S2-S4 + UX は未実施。S2-S4 も同傾向と予想される

  • Tool calling 非互換が修正されても S1 達成率は 60–65% 程度の見込みで、仮閾値 70% に届かない

  • S1-5 のような致命的誤情報は tool calling 修正では解決しない根本品質課題

  • Qwen2.5:14B-Q4 は今回 SKU 採用見送り。代替モデル(Qwen3 等)での再評価

  • 機械計測スクリプト・運用テスト計画は再利用可能な資産として残置


持ち帰り

  1. 「PoC で 70% を超えた」だけで採用判定してはいけない。tool calling・schema 安定性・致命的誤情報は単発比較ラン + 主観採点では捕まらない

  2. 評価者にモデル本人を使うとファミリ親和性バイアスが入る。実利用者の人手評価が必要

  3. 自社ホスト LLM の真価は性能ではなくデータ主権。コスト・性能で勝てる土俵ではない

  4. 業務題材の難度別に分けて評価する。定型運用・障害対応・緊急対応で挙動が大きく違う


留意事項

  • 運用テストは一般ユーザ 1 名による主観評価。複数名独立スコアリングで補強する想定

  • S2-S4(レビュー応答 / 10 ターンチャット / Lint)は 未実施。本記事の数値は S1 5 件のみに基づく

  • 致命的誤情報は 5 件中 1 件で観測。発生率の本格的な統計は別途必要




最新記事

すべて表示
AIが恐ろしい

こんにちは!最近はなぜかブログモチベが高いです。 本題ですが、ここ1、2年で私の働き方は大きく変わりました。 と言っても会社の制度が変わったり、業務時間が変わったりしたわけではありません。 そう、AIによって業務の効率が大幅に改善したのです。 分からないことが業務で生じたとき、必ず私はcopilot君(MicrosoftのAI)に 「こういう状態のときにこうなるのはなぜ?」と聞きます。 すると割と

 
 
 

コメント


bottom of page