cost-audit
AI推論にかかるコストが予期せず増加している場合、コスト対品質の比率でモデルを比較する場合、または複数のモデルを組み合わせたパイプライン全体でトークン使用量を最適化する場合に使用します。実行可能なコスト削減計画を生成します。
description の原文を見る
Use when AI inference costs are growing unexpectedly, when comparing model choices by cost/quality ratio, or when optimizing token usage across a multi-model pipeline — produces an actionable cost reduction plan
SKILL.md 本文
コスト監査
マルチモデルパイプライン全体にわたるAI推論コストを監査し、トークン使用量を最適化します。これは機能を削減することではなく、無駄を排除し、モデルを適切なサイズに設定し、コストを予測可能に保つことです。
使用する場合
- AI APIのコストが使用量の増加を上回るペースで増加している
- 各タスクに適切なモデルティアを使用しているかどうか不確実である
- モデルにコミットする前にコスト品質のトレードオフを比較したい
- 本番トラフィックに向けて準備中であり、コストベースラインが必要である
- フリートモードまたは並列エージェントを実行していて、コスト超過を避けたい
モデルコストティア
利用可能な最も高機能なモデルではなく、必要な最も高機能なモデルを使用してください。
| ティア | モデル | 最適な用途 |
|---|---|---|
| プレミアム | claude-opus-4.7, claude-opus-4.6, claude-opus-4.5 | アーキテクチャの決定、複雑なマルチファイル推論、セキュリティ監査 |
| 標準 | claude-sonnet-4.6, claude-sonnet-4.5, gpt-5.2 | ほとんどのコーディングタスク、コードレビュー、テスト生成、ドキュメント作成 |
| 高速/低コスト | claude-haiku-4.5, gpt-5-mini, gpt-4.1 | ファイル編集、ボイラープレート、分類、トリアージ、簡単なサマリー |
ワークフロー
1. 高コスト呼び出しサイトを特定する
以下をスキャンしてください:
- 呼び出し全体にわたって繰り返されるシステムプロンプトの長さ
- 単純な変換に使用されるプレミアムモデル
- 関連セクションのみが必要なときに渡されるファイル全体
- 静的指示に対するコンテキストキャッシングの欠落
- すべてのエージェントがプレミアムティアで実行されているフリートモード
2. ベースラインを測定する
| メトリック | 測定方法 |
|---|---|
| タスクあたりの総トークン数 | コンテキスト変更前後を比較 |
| モデルの組み合わせ | ワークフローあたりで呼び出されるモデルを集計 |
| プロンプトサイズの分布 | 呼び出しタイプあたりの平均/最大トークン数をログに記録 |
3. 削減パターンを適用する
モデルのダウングレード
- このタスクはプレミアム推論が必要ですか?そうでなければ、1つティアを下げてください。
- 分類、ルーティング、簡単な編集 → 高速/低コストティアを使用
- プレミアムを実際に必要とするタスク用に予約
コンテキストの削減
- 以前のターンの関連性が低い場合、完全な履歴の代わりにサマリーを渡す
view_rangeでファイル範囲をスライスして、全ファイル読み込みの代わりにする- システムプロンプトから冗長なボイラープレートを削除
プロンプトの重複排除
- すべての呼び出しで繰り返される指示 → システムプロンプト/共有プレフィックスに移動
- 変わることのない静的コンテキスト → キャッシング候補(プラットフォームがサポートしている場合)
タスクバッチ処理
- 独立した小さなタスク → N個の個別呼び出しではなく1つの呼び出しにバッチ処理
- ファンアウトエージェント → フリート全体のプレミアムではなく、タスクごとに適切なティアを割り当て
4. 削減額を推定する
各変更について:
変更: doc-summaryのclaude-opus-4.7をclaude-haikuに置き換え
変更前: ~4,000トークン × $0.015/1K = $0.06/呼び出し
変更後: ~4,000トークン × $0.00025/1K = $0.001/呼び出し
節約額: ~$0.059/呼び出し、~$590/10K呼び出し
推定には公開されている概算価格を使用してください。実際の価格は異なります。プロバイダダッシュボードで確認してください。
5. 優先順位を付ける
| 優先度 | 基準 |
|---|---|
| 高 | 高速モデルで十分に処理できるタスクで使用されるプレミアムモデル |
| 高 | コンテキストウィンドウ > 50Kトークン(短いもので十分な場合) |
| 中 | すべての呼び出しで渡される重複コンテキスト |
| 中 | モデルティアがミスマッチしているフリートエージェント |
| 低 | マイナーなプロンプトサイズの変動 |
6. レポート形式
## コスト監査レポート
### 要約
推定無駄: 現在のスケール時に~$X/日
トップ3の機会: [リスト]
### 調査結果
#### [高] ボイラープレート生成用のプレミアムモデル
場所: [ファイルまたはワークフロー名]
問題: テンプレートとスタブを含むすべてのコード生成に`claude-opus-4.7`が使用されています。
推奨事項: ボイラープレート用に`claude-haiku-4.5`を使用します。複雑なタスク用にopusを予約してください。
推定節約額: ボイラープレートタスクでのコスト削減は約80%です。
#### [中] PR レビューのすべてのコンテキストが毎回渡される
...
一般的な無駄パターン
| パターン | 修正方法 |
|---|---|
| すべての呼び出しで完全な会話履歴を渡す | 古いコンテキストをまとめ、最近のターンを保持 |
| 1つの関数のみが関連するときにファイル全体を読み込む | 対象を絞った読み込みにview_rangeを使用 |
| フリート内のすべての並列エージェントでプレミアムモデルを使用 | タスクタイプごとにティアを割り当て |
| すべてのプロンプトで同じ指示を繰り返す | 共有システムプロンプトに移動 |
| 静的参照ドキュメントにキャッシングを使用しない | APIクライアントがプロンプトキャッシングをサポートしているか確認 |
参照情報
multi-model-strategy— どのモデルティアをいつ使用するかteam-planner— チーム内のエージェントごとにモデルを割り当てorchestration/templates/orchestrator-template.md— オーケストレーションコンテキストでのモデル選択ガイダンス
ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- drvoss
- ライセンス
- MIT
- 最終更新
- 2026/5/12
Source: https://github.com/drvoss/everything-copilot-cli / ライセンス: MIT
関連スキル
agent-browser
AI エージェント向けのブラウザ自動化 CLI です。ウェブサイトとの対話が必要な場合に使用します。ページ遷移、フォーム入力、ボタンクリック、スクリーンショット取得、データ抽出、ウェブアプリのテスト、ブラウザ操作の自動化など、あらゆるブラウザタスクに対応できます。「ウェブサイトを開く」「フォームに記入する」「ボタンをクリックする」「スクリーンショットを取得する」「ページからデータを抽出する」「このウェブアプリをテストする」「サイトにログインする」「ブラウザ操作を自動化する」といった要求や、プログラマティックなウェブ操作が必要なタスクで起動します。
anyskill
AnySkill — あなたのプライベート・スキルクラウド。GitHubを基盤としたリポジトリからエージェントスキルを管理、同期、動的にロードできます。自然言語でクラウドスキルを検索し、オンデマンドでプロンプトを自動ロード、カスタムスキルのアップロードと共有、スキルバンドルの一括インストールが可能です。OpenClaw、Antigravity、Claude Code、Cursorに対応しています。
engram
AIエージェント向けの永続的なメモリシステムです。バグ修正、意思決定、発見、設定変更の後はmem_saveを使用してください。ユーザーが「覚えている」「記憶している」と言及した場合、または以前のセッションと重複する作業を開始する際はmem_searchを使用します。セッション終了前にmem_session_summaryを使用して、コンテキストを保持してください。
skyvern
AI駆動のブラウザ自動化により、任意のウェブサイトを自動化できます。フォーム入力、データ抽出、ファイルダウンロード、ログイン、複数ステップのワークフロー実行など、ユーザーがウェブサイトと連携する必要があるときに使用します。Skyvernは、LLMとコンピュータビジョンを活用して、未知のサイトも自動操作可能です。Python SDK、TypeScript SDK、REST API、MCPサーバー、またはCLIを通じて統合できます。
pinchbench
PinchBenchベンチマークを実行して、OpenClawエージェントの実世界タスクにおけるパフォーマンスを評価できます。モデルの機能テスト、モデル間の比較、ベンチマーク結果のリーダーボード提出、またはOpenClawのセットアップがカレンダー、メール、リサーチ、コーディング、複数ステップのワークフローにどの程度対応しているかを確認する際に使用します。
openui
OpenUIとOpenUI Langを使用してジェネレーティブUIアプリを構築できます。これらはLLM生成インターフェースのためのトークン効率的なオープン標準です。OpenUI、@openuidev、ジェネレーティブUI、LLMからのストリーミングUI、AI向けコンポーネントライブラリ、またはjson-render/A2UIの置き換えについて述べる際に使用します。スキャフォルディング、defineComponent、システムプロンプト、Renderer、およびOpenUI Lang出力のデバッグに対応しています。