top of page
AI 開発のトークンコストを 20% 削減した話 ― ローカル圧縮プロキシ「Headroom」導入の実測レポート
AI コーディングエージェントの API コストを、開発体験を変えずに削減する。 背景:AI コーディング常用で見えてきた「文脈コスト」 社内では日常的に AI コーディングエージェント(Claude Code)を開発に組み込んでいる。 生産性は確実に上がる一方で、エージェントが ツール実行結果・ビルドログ・会話履歴 を 繰り返し LLM へ送り込む構造上、入力トークンが膨らみやすい。 実装そのものより「文脈の運搬コスト」が積み上がっていく――これが今回の最適化の出発点である。 Headroom とは Headroom は、LLM へリクエストを送る前にコンテキストを圧縮するローカルプロキシ。 エージェントと API エンドポイントの間に挟むだけで、ツール出力やログといった 「冗長だが意味は保てる」テキストを縮めてから上流へ渡す。 動作位置:http://127.0.0.1:8787 でローカル待受。/v1/messages を Anthropic、/v1/chat/completions 系を OpenAI へ中継。 圧縮エンジン:ONNX..
ccf代表
3 日前読了時間: 4分


UGREENのRAID内にコンテナ領域を移行する
はじめに 前回の記事では、UGREEN DXP6800 Pro に eGPU(RTX 2000 Ada)を載せて、Docker から --gpus all で叩ける状態まで持っていった話を書きました。今回はその続編、というか「続きを動かそうとしたら、また別のところで派手に詰まった」記録です。 結論から書くと、最終的にはこんな構成で安定運用に入れました。 UGREEN DXP6800 Pro UGOS Pro Kernel: 6.12.74+deb12-amd64 NVIDIA Driver: 535.261.03 GPU: NVIDIA RTX 2000 Ada Generation (VRAM 16GB) Docker Compose: Ollama + Open-WebUI モデル領域: 14.5TB HDD (RAID6) の上に手動 LV + ext4 SSD 領域: コンテナ実行ベースとして温存 ただ、ここに辿り着くまでに「Open-WebUI からモデルが見えない」という一見シンプルな症状を入口に、Docker のネットワーク、SSD
ccf代表
5月14日読了時間: 11分


UGREEN DXP6800 Pro に eGPU + RTX 2000 Ada を載せて、Docker から Ollama を動かすまでの全記録
はじめに 正直に言うと、最初は「NASにeGPUを繋いでDockerからGPUを使う」って、もう少し簡単に終わると思ってたんです。 でも実際にやってみたら、ブートが飛んだり、ドライバーのバージョンが噛み合わなかったり、/boot が256MBしかなくて initrd の更新で詰んだり……正直、何度か「もう諦めて素直にWindowsマシンに刺すか」と心が折れかけました。 それでも最終的には、UGREEN DXP6800 Pro 上で eGPU 接続の RTX 2000 Ada を Docker から --gpus all で叩ける状態まで持っていけたので、ハマりどころを含めて記録として残しておきます。同じ構成で詰まっている方の参考になれば嬉しいです。 最終的に到達したのはこんな環境です。 UGREEN DXP6800 Pro UGOS Pro Kernel: 6.12.74+deb12-amd64 (Debian backports) NVIDIA Driver: 535.261.03 GPU: NVIDIA RTX 2000 Ada Genera
ccf代表
5月1日読了時間: 9分


Qwen vs Claude — 自社ホスト LLM をどこまで実務に投入できるか(PoC と人手運用テストの両方を見た結論)
背景 OPSNOTE(当社開発中の手順書 SaaS)の AI 機能は標準で Anthropic Claude API を使う。一方で「顧客データを外部 API へ送れない」テナント要件が発生する可能性を考慮し、自社 Azure サブスクリプション内で完結する LLM 経路を SKU として用意したい。Azure Japan East の T4 GPU 上で Qwen2.5:14B-Q4 を動かし、Claude Haiku 4.5 / Sonnet 4.6 と横並びで評価した。 評価は 2 段階で実施した。 機械計測 PoC(性能・コスト・5 シナリオ × 単発比較) 人手運用テスト(実テナント上で 21 件の業務シナリオを実施・本番経路で tool calling 含む) 結論を先に書くと、機械計測 PoC では Haiku 比 106% で「採用可」、人手運用テストでは 42% で「不合格」という逆転が起きた。ここではその差がどこから来たかをまとめる。 1.機械計測 PoC(先行) 検証構成 インフラ: ACA Serverless GPU..
ccf代表
4月27日読了時間: 8分
AIが恐ろしい
こんにちは!最近はなぜかブログモチベが高いです。 本題ですが、ここ1、2年で私の働き方は大きく変わりました。 と言っても会社の制度が変わったり、業務時間が変わったりしたわけではありません。 そう、AIによって業務の効率が大幅に改善したのです。 分からないことが業務で生じたとき、必ず私はcopilot君(MicrosoftのAI)に 「こういう状態のときにこうなるのはなぜ?」と聞きます。 すると割と高精度な回答が返ってきて、言われたとおりに検証してみると解決するんです。 エラーが出ることもありますが、都度そのエラー内容をcopilotに問い合わせれば 修正してくれます。そうして結果的には問題が解決してしまうんです。 でもふと思います。 「あれ、これってエンジニアとして成長してるって言えるのかな。」 他人からみればちゃんと成長しているようには見えるかもしれないです。 しかし、自分自身からするとあまり成長が実感できません。 だってAIが出した回答を元に解決しているのですから。。。 入社したての頃は世間的にみても「AIって意味の分からない回答してくるよね
エンジニアY.K
4月16日読了時間: 2分
bottom of page
