model-hierarchy
タスクの複雑さに基づいて適切なモデルにルーティングすることで、AIエージェント運用のコスト最適化ができます。以下の場合に使用します:(1) タスク実行に最適なモデルを選択する場合、(2) サブエージェントを生成する場合、(3) コスト効率性を検討する場合、(4) 現在のモデルがタスクに対して過剰である場合。トリガー:「model routing」「cost optimization」「which model」「too expensive」「spawn agent」
description の原文を見る
Cost-optimize AI agent operations by routing tasks to appropriate models based on complexity. Use this skill when: (1) deciding which model to use for a task, (2) spawning sub-agents, (3) considering cost efficiency, (4) the current model feels like overkill for the task. Triggers: "model routing", "cost optimization", "which model", "too expensive", "spawn agent".
SKILL.md 本文
モデル階層
複雑度に基づいてタスクを処理できる最も安いモデルにルーティングします。ほとんどのエージェント作業は定常的なものです。
基本原則
エージェントタスクの80%は定常業務です。 ファイル読み取り、ステータス確認、フォーマット処理、シンプルなQ&A。これらは高価なモデルを必要としません。実際に深い推論が必要な問題のためにプレミアムモデルを予約します。
モデル階層
Tier 1: 低コスト ($0.10-0.50/M tokens)
| モデル | 入力 | 出力 | 最適用途 |
|---|---|---|---|
| DeepSeek V3 | $0.14 | $0.28 | 一般的な定常業務 |
| GPT-4o-mini | $0.15 | $0.60 | 迅速な応答 |
| Claude Haiku | $0.25 | $1.25 | 高速なツール使用 |
| Gemini Flash | $0.075 | $0.30 | 大量処理 |
| GLM 5 (Zhipu) | (OpenRouter Z.AI) | (OpenRouter Z.AI) | 定常業務 + 中程度のテキスト; 200Kコンテキスト; テキストのみ — 画像/ビジョンには使用しない |
| Kimi K2.5 (Moonshot) | $0.45 | $2.25 | 定常業務 + 中程度; 262Kコンテキスト; マルチモーダル(テキスト + 画像 + 動画) |
テキストのみモデル(例:GLM 5): 画像入力またはビジョンが必要なタスクには使用しないでください — 写真分析、スクリーンショット、画像生成ツール、または文書/チャートビジョンはできません。ビジョン対応モデル(例:Kimi K2.5、GPT-4o、Gemini、Claude(ビジョン対応)、GLM-4.5V/4.6V)にルーティングしてください。
ビジョン対応 Tier 1/2(例:Kimi K2.5): 画像を含む可能性がある定常業務または中程度のタスク — スクリーンショット、写真分析、ドキュメント、画像生成のオーケストレーション — にプレミアムビジョンモデルに移行することなく使用します。
Tier 2: 中程度 ($1-5/M tokens)
| モデル | 入力 | 出力 | 最適用途 |
|---|---|---|---|
| Claude Sonnet | $3.00 | $15.00 | バランスの取れたパフォーマンス |
| GPT-4o | $2.50 | $10.00 | マルチモーダルタスク |
| Gemini Pro | $1.25 | $5.00 | 長いコンテキスト |
Tier 3: プレミアム ($10-75/M tokens)
| モデル | 入力 | 出力 | 最適用途 |
|---|---|---|---|
| Claude Opus | $15.00 | $75.00 | 複雑な推論 |
| GPT-4.5 | $75.00 | $150.00 | フロンティアタスク |
| o1 | $15.00 | $60.00 | 多段階推論 |
| o3-mini | $1.10 | $4.40 | 予算内での推論 |
価格は2026年2月時点です。現在のレートはプロバイダーのドキュメントをご確認ください。
タスク分類
タスク実行前に分類してください:
定常 → Tier 1を使用
画像/ビジョンが必要 → テキストのみモデル(GLM 5など)に割り当てないでください。Tier 1/2または3のビジョン対応モデルを使用してください(例:Kimi K2.5、GPT-4o、Gemini、Claude、GLM-4.5V)。
特徴:
- 単一ステップ操作
- 明確で曖昧でない指示
- 判断は不要
- 決定論的な出力
例:
- ファイル読み取り/書き込み操作
- ステータス確認とヘルスモニタリング
- シンプルな検索(時間、天気、定義)
- テキストのフォーマットと再構成
- リスト操作(フィルタ、ソート、変換)
- 既知のパラメータを使用したAPIコール
- ハートビートおよびクロンタスク
- URL取得と基本的なパース
中程度 → Tier 2を使用
特徴:
- 多段階だが明確に定義されている
- 若干の統合が必要
- 標準パターンが適用される
- 品質は重要だが重大ではない
例:
- コード生成(標準パターン)
- 要約と統合
- ドラフト作成(メール、ドキュメント、メッセージ)
- データ分析と変換
- マルチファイル操作
- ツールのオーケストレーション
- コードレビュー(セキュリティ以外)
- 検索および調査タスク
複雑 → Tier 3を使用
特徴:
- 新しい問題解決が必要
- 複数の有効なアプローチ
- ニュアンスのある判断が必要
- 高リスクまたは不可逆的
- 以前の試行が失敗した
例:
- 多段階デバッギング
- アーキテクチャとデザイン決定
- セキュリティに関連するコードレビュー
- より安価なモデルが既に失敗したタスク
- 解釈が必要な曖昧な要件
- 長いコンテキスト推論(>50Kトークン)
- オリジナリティが求められるクリエイティブワーク
- 敵対的またはエッジケース対応
決定アルゴリズム
function selectModel(task):
# Rule 1: Vision override (Tier 1/2 includes text-only models)
if task.requiresImageInput or task.requiresVision:
return VISION_CAPABLE_MODEL # e.g. Kimi K2.5, GPT-4o, Gemini, Claude; do not use GLM 5 or other text-only
# Rule 2: Escalation override
if task.previousAttemptFailed:
return nextTierUp(task.previousModel)
# Rule 3: Explicit complexity signals
if task.hasSignal("debug", "architect", "design", "security"):
return TIER_3
if task.hasSignal("write", "code", "summarize", "analyze"):
return TIER_2
# Rule 4: Default classification
complexity = classifyTask(task)
if complexity == ROUTINE:
return TIER_1
elif complexity == MODERATE:
return TIER_2
else:
return TIER_3
動作ルール
メインセッション用
- インタラクティブ作業ではデフォルトで Tier 2 を使用
- 定常作業時はダウングレードを提案: 「このタスクは定常業務です - より安いモデルやサブエージェントで対応できます。」
- 詰まった時はアップグレードをリクエスト: 「これはより強い推論能力が必要です。[プレミアムモデル]に切り替えます。」
サブエージェント用
- タスクが明らかに中程度以上でない限り、デフォルトで Tier 1 を使用
- 似たタスクをバッチ処理 してオーバーヘッドを償却
- 失敗をレポート して親に通知してエスカレーション
自動タスク用
- ハートビート/モニタリング → 常に Tier 1
- スケジュール済みレポート → 複雑度に基づいて Tier 1 または 2
- アラート応答 → Tier 2で開始し、必要に応じてエスカレート
コミュニケーションパターン
モデル変更を提案する際は、明確な言葉を使用します:
ダウングレード提案:
「これはファイル作業のようです。DeepSeek でサブエージェントを起動させませんか?同じ結果で、コストは数分の1です。」
アップグレードリクエスト:
「ここで把握できる範囲に達しています。これは Opus レベルの推論が必要です。アップグレードします。」
階層構造の説明:
「重い分析は Sonnet で実行し、サブエージェントが DeepSeek でデータを取得しています。品質が重要な部分を損なわずにコストを抑えます。」
コスト影響
1日平均100Kトークン使用と仮定:
| 戦略 | 月額コスト | 注記 |
|---|---|---|
| Pure Opus | ~$225 | 最大の機能、最大の支出 |
| Pure Sonnet | ~$45 | ほとんどの作業に良いデフォルト |
| Pure DeepSeek | ~$8 | 安いが難しい問題では限定的 |
| 階層 (80/15/5) | ~$19 | 全てのいいとこ取り |
80/15/5の分割:
- 定常業務の80% を Tier 1 で実行 (~$6)
- 中程度の業務の15% を Tier 2 で実行 (~$7)
- 複雑な業務の5% を Tier 3 で実行 (~$6)
結果:純粋なプレミアム比で10倍のコスト削減、複雑なタスクでの同等の品質。
統合例
OpenClaw
# config.yml - デフォルトモデルを設定
model: anthropic/claude-sonnet-4
# セッション内でモデルを切り替え
/model opus # 複雑なタスク用にアップグレード
/model deepseek # 定常業務用にダウングレード
# 安いモデルでサブエージェントを起動
sessions_spawn:
task: "Fetch and parse these 50 URLs"
model: deepseek
OpenRouter (ビジョン対応またはテキストのみの Tier 1):
# ビジョン対応 Tier 1 — Kimi K2.5 (マルチモーダル)
model: openrouter/moonshotai/kimi-k2.5
# ハートビート、クロン、画像を含むタスク: K2.5がテキストとビジョンを処理します。
# Tier 1 テキストのみ — GLM 5 (ビジョンなし)
# model: openrouter/z-ai/glm-5 # OpenRouter Z.AIの正確なID TBD
# テキストのみの定常業務のみ; 画像タスクには Kimi K2.5 または別のビジョン対応モデルを使用してください。
Claude Code
# CLAUDE.md またはプロジェクト指示内
バックグラウンドエージェントを起動する場合、以下に claude-3-haiku を使用:
- ファイル操作
- シンプルな検索
- ステータス確認
以下には claude-sonnet-4 を予約:
- コード生成
- 分析タスク
一般的なエージェントシステム
def get_model_for_task(task_description: str) -> str:
routine_signals = ['read', 'fetch', 'check', 'list', 'format', 'status']
complex_signals = ['debug', 'architect', 'design', 'security', 'why']
desc_lower = task_description.lower()
if any(signal in desc_lower for signal in complex_signals):
return "claude-opus-4"
elif any(signal in desc_lower for signal in routine_signals):
return "deepseek-v3"
else:
return "claude-sonnet-4"
アンチパターン
しないこと:
- ハートビートを Opus で実行
- ファイル I/O にプレミアムモデルを使用
- タスクが明らかに定常的な場合は高価なモデルを保持
- デフォルトではプレミアムモデルでサブエージェントを起動
- 画像/ビジョンタスク用に GLM 5(またはその他のテキストのみの Tier 1/2 モデル)を使用 — 例:写真分析、スクリーンショット理解、画像生成スキル、または画像入力を取る任意のツール
すること:
- ミッドティアから開始し、タスクに基づいて調整
- 最も安い実行可能なモデルでヘルパーを起動
- 詰まったときは明示的にエスカレート
- タスクタイプ別のコストを追跡してさらに最適化
このスキルを拡張する
ユースケースに合わせてカスタマイズするには:
- 階層定義を調整 プロバイダー/予算に基づいて
- ドメイン固有のシグナルを追加 分類ルールへ
- 実際の複雑性を追跡 予測された複雑性と比較してヒューリスティクスを改善
- 予算アラートを設定 ランウェイプレミアム使用をキャッチするために
ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- zscole
- ライセンス
- MIT
- 最終更新
- 2026/2/16
Source: https://github.com/zscole/model-hierarchy-skill / ライセンス: MIT