Agent Skills by ALSEL
汎用LLM・AI開発⭐ リポ 30品質スコア 79/100

cost-audit

AI推論にかかるコストが予期せず増加している場合、コスト対品質の比率でモデルを比較する場合、または複数のモデルを組み合わせたパイプライン全体でトークン使用量を最適化する場合に使用します。実行可能なコスト削減計画を生成します。

description の原文を見る

Use when AI inference costs are growing unexpectedly, when comparing model choices by cost/quality ratio, or when optimizing token usage across a multi-model pipeline — produces an actionable cost reduction plan

SKILL.md 本文

コスト監査

マルチモデルパイプライン全体にわたるAI推論コストを監査し、トークン使用量を最適化します。これは機能を削減することではなく、無駄を排除し、モデルを適切なサイズに設定し、コストを予測可能に保つことです。

使用する場合

  • AI APIのコストが使用量の増加を上回るペースで増加している
  • 各タスクに適切なモデルティアを使用しているかどうか不確実である
  • モデルにコミットする前にコスト品質のトレードオフを比較したい
  • 本番トラフィックに向けて準備中であり、コストベースラインが必要である
  • フリートモードまたは並列エージェントを実行していて、コスト超過を避けたい

モデルコストティア

利用可能な最も高機能なモデルではなく、必要な最も高機能なモデルを使用してください。

ティアモデル最適な用途
プレミアムclaude-opus-4.7, claude-opus-4.6, claude-opus-4.5アーキテクチャの決定、複雑なマルチファイル推論、セキュリティ監査
標準claude-sonnet-4.6, claude-sonnet-4.5, gpt-5.2ほとんどのコーディングタスク、コードレビュー、テスト生成、ドキュメント作成
高速/低コストclaude-haiku-4.5, gpt-5-mini, gpt-4.1ファイル編集、ボイラープレート、分類、トリアージ、簡単なサマリー

ワークフロー

1. 高コスト呼び出しサイトを特定する

以下をスキャンしてください:

  • 呼び出し全体にわたって繰り返されるシステムプロンプトの長さ
  • 単純な変換に使用されるプレミアムモデル
  • 関連セクションのみが必要なときに渡されるファイル全体
  • 静的指示に対するコンテキストキャッシングの欠落
  • すべてのエージェントがプレミアムティアで実行されているフリートモード

2. ベースラインを測定する

メトリック測定方法
タスクあたりの総トークン数コンテキスト変更前後を比較
モデルの組み合わせワークフローあたりで呼び出されるモデルを集計
プロンプトサイズの分布呼び出しタイプあたりの平均/最大トークン数をログに記録

3. 削減パターンを適用する

モデルのダウングレード

  • このタスクはプレミアム推論が必要ですか?そうでなければ、1つティアを下げてください。
  • 分類、ルーティング、簡単な編集 → 高速/低コストティアを使用
  • プレミアムを実際に必要とするタスク用に予約

コンテキストの削減

  • 以前のターンの関連性が低い場合、完全な履歴の代わりにサマリーを渡す
  • view_rangeでファイル範囲をスライスして、全ファイル読み込みの代わりにする
  • システムプロンプトから冗長なボイラープレートを削除

プロンプトの重複排除

  • すべての呼び出しで繰り返される指示 → システムプロンプト/共有プレフィックスに移動
  • 変わることのない静的コンテキスト → キャッシング候補(プラットフォームがサポートしている場合)

タスクバッチ処理

  • 独立した小さなタスク → N個の個別呼び出しではなく1つの呼び出しにバッチ処理
  • ファンアウトエージェント → フリート全体のプレミアムではなく、タスクごとに適切なティアを割り当て

4. 削減額を推定する

各変更について:

変更: doc-summaryのclaude-opus-4.7をclaude-haikuに置き換え
変更前: ~4,000トークン × $0.015/1K = $0.06/呼び出し
変更後: ~4,000トークン × $0.00025/1K = $0.001/呼び出し
節約額: ~$0.059/呼び出し、~$590/10K呼び出し

推定には公開されている概算価格を使用してください。実際の価格は異なります。プロバイダダッシュボードで確認してください。

5. 優先順位を付ける

優先度基準
高速モデルで十分に処理できるタスクで使用されるプレミアムモデル
コンテキストウィンドウ > 50Kトークン(短いもので十分な場合)
すべての呼び出しで渡される重複コンテキスト
モデルティアがミスマッチしているフリートエージェント
マイナーなプロンプトサイズの変動

6. レポート形式

## コスト監査レポート

### 要約
推定無駄: 現在のスケール時に~$X/日
トップ3の機会: [リスト]

### 調査結果

#### [高] ボイラープレート生成用のプレミアムモデル
場所: [ファイルまたはワークフロー名]
問題: テンプレートとスタブを含むすべてのコード生成に`claude-opus-4.7`が使用されています。
推奨事項: ボイラープレート用に`claude-haiku-4.5`を使用します。複雑なタスク用にopusを予約してください。
推定節約額: ボイラープレートタスクでのコスト削減は約80%です。

#### [中] PR レビューのすべてのコンテキストが毎回渡される
...

一般的な無駄パターン

パターン修正方法
すべての呼び出しで完全な会話履歴を渡す古いコンテキストをまとめ、最近のターンを保持
1つの関数のみが関連するときにファイル全体を読み込む対象を絞った読み込みにview_rangeを使用
フリート内のすべての並列エージェントでプレミアムモデルを使用タスクタイプごとにティアを割り当て
すべてのプロンプトで同じ指示を繰り返す共有システムプロンプトに移動
静的参照ドキュメントにキャッシングを使用しないAPIクライアントがプロンプトキャッシングをサポートしているか確認

参照情報

  • multi-model-strategy — どのモデルティアをいつ使用するか
  • team-planner — チーム内のエージェントごとにモデルを割り当て
  • orchestration/templates/orchestrator-template.md — オーケストレーションコンテキストでのモデル選択ガイダンス

ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

詳細情報

作者
drvoss
リポジトリ
drvoss/everything-copilot-cli
ライセンス
MIT
最終更新
2026/5/12

Source: https://github.com/drvoss/everything-copilot-cli / ライセンス: MIT

本サイトは GitHub 上で公開されているオープンソースの SKILL.md ファイルをクロール・インデックス化したものです。 各スキルの著作権は原作者に帰属します。掲載に問題がある場合は info@alsel.co.jp または /takedown フォームよりご連絡ください。
原作者: drvoss · drvoss/everything-copilot-cli · ライセンス: MIT