top of page
Headroom
AI 開発のトークンコストを 20% 削減した話 ― ローカル圧縮プロキシ「Headroom」導入の実測レポート
AI コーディングエージェントの API コストを、開発体験を変えずに削減する。 背景:AI コーディング常用で見えてきた「文脈コスト」 社内では日常的に AI コーディングエージェント(Claude Code)を開発に組み込んでいる。 生産性は確実に上がる一方で、エージェントが ツール実行結果・ビルドログ・会話履歴 を 繰り返し LLM へ送り込む構造上、入力トークンが膨らみやすい。 実装そのものより「文脈の運搬コスト」が積み上がっていく――これが今回の最適化の出発点である。 Headroom とは Headroom は、LLM へリクエストを送る前にコンテキストを圧縮するローカルプロキシ。 エージェントと API エンドポイントの間に挟むだけで、ツール出力やログといった 「冗長だが意味は保てる」テキストを縮めてから上流へ渡す。 動作位置:http://127.0.0.1:8787 でローカル待受。/v1/messages を Anthropic、/v1/chat/completions 系を OpenAI へ中継。 圧縮エンジン:ONNX..
ccf代表
3 日前読了時間: 4分
bottom of page
