top of page


Qwen vs Claude — 自社ホスト LLM をどこまで実務に投入できるか(PoC と人手運用テストの両方を見た結論)
背景 OPSNOTE(当社開発中の手順書 SaaS)の AI 機能は標準で Anthropic Claude API を使う。一方で「顧客データを外部 API へ送れない」テナント要件が発生する可能性を考慮し、自社 Azure サブスクリプション内で完結する LLM 経路を SKU として用意したい。Azure Japan East の T4 GPU 上で Qwen2.5:14B-Q4 を動かし、Claude Haiku 4.5 / Sonnet 4.6 と横並びで評価した。 評価は 2 段階で実施した。 機械計測 PoC(性能・コスト・5 シナリオ × 単発比較) 人手運用テスト(実テナント上で 21 件の業務シナリオを実施・本番経路で tool calling 含む) 結論を先に書くと、機械計測 PoC では Haiku 比 106% で「採用可」、人手運用テストでは 42% で「不合格」という逆転が起きた。ここではその差がどこから来たかをまとめる。 1.機械計測 PoC(先行) 検証構成 インフラ: ACA Serverless GPU..
ccf代表
14 時間前読了時間: 8分
bottom of page
