コスト監査

マルチモデルパイプライン全体にわたるAI推論コストを監査し、トークン使用量を最適化します。これは機能を削減することではなく、無駄を排除し、モデルを適切なサイズに設定し、コストを予測可能に保つことです。

使用する場合

AI APIのコストが使用量の増加を上回るペースで増加している
各タスクに適切なモデルティアを使用しているかどうか不確実である
モデルにコミットする前にコスト品質のトレードオフを比較したい
本番トラフィックに向けて準備中であり、コストベースラインが必要である
フリートモードまたは並列エージェントを実行していて、コスト超過を避けたい

モデルコストティア

利用可能な最も高機能なモデルではなく、必要な最も高機能なモデルを使用してください。

ティア	モデル	最適な用途
プレミアム	`claude-opus-4.7`, `claude-opus-4.6`, `claude-opus-4.5`	アーキテクチャの決定、複雑なマルチファイル推論、セキュリティ監査
標準	`claude-sonnet-4.6`, `claude-sonnet-4.5`, `gpt-5.2`	ほとんどのコーディングタスク、コードレビュー、テスト生成、ドキュメント作成
高速/低コスト	`claude-haiku-4.5`, `gpt-5-mini`, `gpt-4.1`	ファイル編集、ボイラープレート、分類、トリアージ、簡単なサマリー

ワークフロー

1. 高コスト呼び出しサイトを特定する

以下をスキャンしてください:

呼び出し全体にわたって繰り返されるシステムプロンプトの長さ
単純な変換に使用されるプレミアムモデル
関連セクションのみが必要なときに渡されるファイル全体
静的指示に対するコンテキストキャッシングの欠落
すべてのエージェントがプレミアムティアで実行されているフリートモード

2. ベースラインを測定する

メトリック	測定方法
タスクあたりの総トークン数	コンテキスト変更前後を比較
モデルの組み合わせ	ワークフローあたりで呼び出されるモデルを集計
プロンプトサイズの分布	呼び出しタイプあたりの平均/最大トークン数をログに記録

3. 削減パターンを適用する

モデルのダウングレード

このタスクはプレミアム推論が必要ですか？そうでなければ、1つティアを下げてください。
分類、ルーティング、簡単な編集 → 高速/低コストティアを使用
プレミアムを実際に必要とするタスク用に予約

コンテキストの削減

以前のターンの関連性が低い場合、完全な履歴の代わりにサマリーを渡す
view_rangeでファイル範囲をスライスして、全ファイル読み込みの代わりにする
システムプロンプトから冗長なボイラープレートを削除

プロンプトの重複排除

すべての呼び出しで繰り返される指示 → システムプロンプト/共有プレフィックスに移動
変わることのない静的コンテキスト → キャッシング候補(プラットフォームがサポートしている場合)

タスクバッチ処理

独立した小さなタスク → N個の個別呼び出しではなく1つの呼び出しにバッチ処理
ファンアウトエージェント → フリート全体のプレミアムではなく、タスクごとに適切なティアを割り当て

4. 削減額を推定する

各変更について:

変更: doc-summaryのclaude-opus-4.7をclaude-haikuに置き換え
変更前: ~4,000トークン × $0.015/1K = $0.06/呼び出し
変更後: ~4,000トークン × $0.00025/1K = $0.001/呼び出し
節約額: ~$0.059/呼び出し、~$590/10K呼び出し

推定には公開されている概算価格を使用してください。実際の価格は異なります。プロバイダダッシュボードで確認してください。

5. 優先順位を付ける

優先度	基準
高	高速モデルで十分に処理できるタスクで使用されるプレミアムモデル
高	コンテキストウィンドウ > 50Kトークン(短いもので十分な場合)
中	すべての呼び出しで渡される重複コンテキスト
中	モデルティアがミスマッチしているフリートエージェント
低	マイナーなプロンプトサイズの変動

6. レポート形式

## コスト監査レポート

### 要約
推定無駄: 現在のスケール時に~$X/日
トップ3の機会: [リスト]

### 調査結果

#### [高] ボイラープレート生成用のプレミアムモデル
場所: [ファイルまたはワークフロー名]
問題: テンプレートとスタブを含むすべてのコード生成に`claude-opus-4.7`が使用されています。
推奨事項: ボイラープレート用に`claude-haiku-4.5`を使用します。複雑なタスク用にopusを予約してください。
推定節約額: ボイラープレートタスクでのコスト削減は約80%です。

#### [中] PR レビューのすべてのコンテキストが毎回渡される
...

一般的な無駄パターン

パターン	修正方法
すべての呼び出しで完全な会話履歴を渡す	古いコンテキストをまとめ、最近のターンを保持
1つの関数のみが関連するときにファイル全体を読み込む	対象を絞った読み込みに`view_range`を使用
フリート内のすべての並列エージェントでプレミアムモデルを使用	タスクタイプごとにティアを割り当て
すべてのプロンプトで同じ指示を繰り返す	共有システムプロンプトに移動
静的参照ドキュメントにキャッシングを使用しない	APIクライアントがプロンプトキャッシングをサポートしているか確認

参照情報

multi-model-strategy — どのモデルティアをいつ使用するか
team-planner — チーム内のエージェントごとにモデルを割り当て
orchestration/templates/orchestrator-template.md — オーケストレーションコンテキストでのモデル選択ガイダンス

ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

cost-audit

SKILL.md 本文