汎用LLM・AI開発⭐ リポ 30品質スコア 79/100
cost-audit
AI推論にかかるコストが予期せず増加している場合、コスト対品質の比率でモデルを比較する場合、または複数のモデルを組み合わせたパイプライン全体でトークン使用量を最適化する場合に使用します。実行可能なコスト削減計画を生成します。
description の原文を見る
Use when AI inference costs are growing unexpectedly, when comparing model choices by cost/quality ratio, or when optimizing token usage across a multi-model pipeline — produces an actionable cost reduction plan
SKILL.md 本文
コスト監査
マルチモデルパイプライン全体にわたるAI推論コストを監査し、トークン使用量を最適化します。これは機能を削減することではなく、無駄を排除し、モデルを適切なサイズに設定し、コストを予測可能に保つことです。
使用する場合
- AI APIのコストが使用量の増加を上回るペースで増加している
- 各タスクに適切なモデルティアを使用しているかどうか不確実である
- モデルにコミットする前にコスト品質のトレードオフを比較したい
- 本番トラフィックに向けて準備中であり、コストベースラインが必要である
- フリートモードまたは並列エージェントを実行していて、コスト超過を避けたい
モデルコストティア
利用可能な最も高機能なモデルではなく、必要な最も高機能なモデルを使用してください。
| ティア | モデル | 最適な用途 |
|---|---|---|
| プレミアム | claude-opus-4.7, claude-opus-4.6, claude-opus-4.5 | アーキテクチャの決定、複雑なマルチファイル推論、セキュリティ監査 |
| 標準 | claude-sonnet-4.6, claude-sonnet-4.5, gpt-5.2 | ほとんどのコーディングタスク、コードレビュー、テスト生成、ドキュメント作成 |
| 高速/低コスト | claude-haiku-4.5, gpt-5-mini, gpt-4.1 | ファイル編集、ボイラープレート、分類、トリアージ、簡単なサマリー |
ワークフロー
1. 高コスト呼び出しサイトを特定する
以下をスキャンしてください:
- 呼び出し全体にわたって繰り返されるシステムプロンプトの長さ
- 単純な変換に使用されるプレミアムモデル
- 関連セクションのみが必要なときに渡されるファイル全体
- 静的指示に対するコンテキストキャッシングの欠落
- すべてのエージェントがプレミアムティアで実行されているフリートモード
2. ベースラインを測定する
| メトリック | 測定方法 |
|---|---|
| タスクあたりの総トークン数 | コンテキスト変更前後を比較 |
| モデルの組み合わせ | ワークフローあたりで呼び出されるモデルを集計 |
| プロンプトサイズの分布 | 呼び出しタイプあたりの平均/最大トークン数をログに記録 |
3. 削減パターンを適用する
モデルのダウングレード
- このタスクはプレミアム推論が必要ですか?そうでなければ、1つティアを下げてください。
- 分類、ルーティング、簡単な編集 → 高速/低コストティアを使用
- プレミアムを実際に必要とするタスク用に予約
コンテキストの削減
- 以前のターンの関連性が低い場合、完全な履歴の代わりにサマリーを渡す
view_rangeでファイル範囲をスライスして、全ファイル読み込みの代わりにする- システムプロンプトから冗長なボイラープレートを削除
プロンプトの重複排除
- すべての呼び出しで繰り返される指示 → システムプロンプト/共有プレフィックスに移動
- 変わることのない静的コンテキスト → キャッシング候補(プラットフォームがサポートしている場合)
タスクバッチ処理
- 独立した小さなタスク → N個の個別呼び出しではなく1つの呼び出しにバッチ処理
- ファンアウトエージェント → フリート全体のプレミアムではなく、タスクごとに適切なティアを割り当て
4. 削減額を推定する
各変更について:
変更: doc-summaryのclaude-opus-4.7をclaude-haikuに置き換え
変更前: ~4,000トークン × $0.015/1K = $0.06/呼び出し
変更後: ~4,000トークン × $0.00025/1K = $0.001/呼び出し
節約額: ~$0.059/呼び出し、~$590/10K呼び出し
推定には公開されている概算価格を使用してください。実際の価格は異なります。プロバイダダッシュボードで確認してください。
5. 優先順位を付ける
| 優先度 | 基準 |
|---|---|
| 高 | 高速モデルで十分に処理できるタスクで使用されるプレミアムモデル |
| 高 | コンテキストウィンドウ > 50Kトークン(短いもので十分な場合) |
| 中 | すべての呼び出しで渡される重複コンテキスト |
| 中 | モデルティアがミスマッチしているフリートエージェント |
| 低 | マイナーなプロンプトサイズの変動 |
6. レポート形式
## コスト監査レポート
### 要約
推定無駄: 現在のスケール時に~$X/日
トップ3の機会: [リスト]
### 調査結果
#### [高] ボイラープレート生成用のプレミアムモデル
場所: [ファイルまたはワークフロー名]
問題: テンプレートとスタブを含むすべてのコード生成に`claude-opus-4.7`が使用されています。
推奨事項: ボイラープレート用に`claude-haiku-4.5`を使用します。複雑なタスク用にopusを予約してください。
推定節約額: ボイラープレートタスクでのコスト削減は約80%です。
#### [中] PR レビューのすべてのコンテキストが毎回渡される
...
一般的な無駄パターン
| パターン | 修正方法 |
|---|---|
| すべての呼び出しで完全な会話履歴を渡す | 古いコンテキストをまとめ、最近のターンを保持 |
| 1つの関数のみが関連するときにファイル全体を読み込む | 対象を絞った読み込みにview_rangeを使用 |
| フリート内のすべての並列エージェントでプレミアムモデルを使用 | タスクタイプごとにティアを割り当て |
| すべてのプロンプトで同じ指示を繰り返す | 共有システムプロンプトに移動 |
| 静的参照ドキュメントにキャッシングを使用しない | APIクライアントがプロンプトキャッシングをサポートしているか確認 |
参照情報
- multi-model-strategy — どのモデルティアをいつ使用するか
- team-planner — チーム内のエージェントごとにモデルを割り当て
orchestration/templates/orchestrator-template.md— オーケストレーションコンテキストでのモデル選択ガイダンス
ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- drvoss
- ライセンス
- MIT
- 最終更新
- 2026/5/12
Source: https://github.com/drvoss/everything-copilot-cli / ライセンス: MIT