cost-aware-llm-pipeline
タスクの複雑度に応じて最適なモデルへ自動ルーティングし、API利用コストを最小化するLLMパイプライン最適化スキル。予算トラッキング、リトライロジック、プロンプトキャッシュを組み合わせ、コスト効率の高いLLM活用を実現します。
description の原文を見る
LLM API 使用成本优化模式 —— 基于任务复杂度的模型路由、预算跟踪、重试逻辑和提示缓存。
SKILL.md 本文
コスト対応型 LLM パイプライン
品質を維持しながら LLM API のコストを制御するパターン。モデルルーティング、予算追跡、リトライロジック、プロンプトキャッシングを組み合わせて、構成可能なパイプラインを作成します。
いつ活用するか
- LLM API(Claude、GPT など)を呼び出すアプリケーションを構築するとき
- 異なる複雑度を持つ大量のアイテムを処理するとき
- API 支出を予算内に抑える必要があるとき
- 品質を犠牲にせずに複雑なタスクのコストを最適化する必要があるとき
コア概念
1. タスク複雑度に基づくモデルルーティング
単純なタスクには安価なモデルを自動的に選択し、複雑なタスク用に高価なモデルを確保します。
MODEL_SONNET = "claude-sonnet-4-6"
MODEL_HAIKU = "claude-haiku-4-5-20251001"
_SONNET_TEXT_THRESHOLD = 10_000 # chars
_SONNET_ITEM_THRESHOLD = 30 # items
def select_model(
text_length: int,
item_count: int,
force_model: str | None = None,
) -> str:
"""Select model based on task complexity."""
if force_model is not None:
return force_model
if text_length >= _SONNET_TEXT_THRESHOLD or item_count >= _SONNET_ITEM_THRESHOLD:
return MODEL_SONNET # Complex task
return MODEL_HAIKU # Simple task (3-4x cheaper)
2. イミュータブルなコスト追跡
イミュータブルなデータクラスを使用して累積支出を追跡します。各 API 呼び出しは新しいトラッカーを返します —— 状態は決して変わりません。
from dataclasses import dataclass
@dataclass(frozen=True, slots=True)
class CostRecord:
model: str
input_tokens: int
output_tokens: int
cost_usd: float
@dataclass(frozen=True, slots=True)
class CostTracker:
budget_limit: float = 1.00
records: tuple[CostRecord, ...] = ()
def add(self, record: CostRecord) -> "CostTracker":
"""Return new tracker with added record (never mutates self)."""
return CostTracker(
budget_limit=self.budget_limit,
records=(*self.records, record),
)
@property
def total_cost(self) -> float:
return sum(r.cost_usd for r in self.records)
@property
def over_budget(self) -> bool:
return self.total_cost > self.budget_limit
3. 狭い範囲のリトライロジック
一時的なエラーのときのみリトライします。認証エラーや不正なリクエストエラーの場合は速やかに失敗します。
from anthropic import (
APIConnectionError,
InternalServerError,
RateLimitError,
)
_RETRYABLE_ERRORS = (APIConnectionError, RateLimitError, InternalServerError)
_MAX_RETRIES = 3
def call_with_retry(func, *, max_retries: int = _MAX_RETRIES):
"""Retry only on transient errors, fail fast on others."""
for attempt in range(max_retries):
try:
return func()
except _RETRYABLE_ERRORS:
if attempt == max_retries - 1:
raise
time.sleep(2 ** attempt) # Exponential backoff
# AuthenticationError, BadRequestError etc. → raise immediately
4. プロンプトキャッシング
長いシステムプロンプトをキャッシュして、毎回のリクエストで再送信することを避けます。
messages = [
{
"role": "user",
"content": [
{
"type": "text",
"text": system_prompt,
"cache_control": {"type": "ephemeral"}, # Cache this
},
{
"type": "text",
"text": user_input, # Variable part
},
],
}
]
構成
4つのテクニックすべてをパイプライン関数に組み合わせます:
def process(text: str, config: Config, tracker: CostTracker) -> tuple[Result, CostTracker]:
# 1. Route model
model = select_model(len(text), estimated_items, config.force_model)
# 2. Check budget
if tracker.over_budget:
raise BudgetExceededError(tracker.total_cost, tracker.budget_limit)
# 3. Call with retry + caching
response = call_with_retry(lambda: client.messages.create(
model=model,
messages=build_cached_messages(system_prompt, text),
))
# 4. Track cost (immutable)
record = CostRecord(model=model, input_tokens=..., output_tokens=..., cost_usd=...)
tracker = tracker.add(record)
return parse_result(response), tracker
価格参考(2025-2026)
| モデル | 入力(USD/百万トークン) | 出力(USD/百万トークン) | 相対コスト |
|---|---|---|---|
| Haiku 4.5 | $0.80 | $4.00 | 1x |
| Sonnet 4.6 | $3.00 | $15.00 | ~4x |
| Opus 4.5 | $15.00 | $75.00 | ~19x |
ベストプラクティス
- 最も安価なモデルから開始し、複雑度閾値に達したときのみ高価なモデルにルーティングします
- バッチ処理前に明確な予算制限を設定 —— オーバースペンドするのではなく早期に失敗します
- モデル選択の決定をログに記録して、実際のデータに基づいて閾値を調整できるようにします
- 1024トークンを超えるシステムプロンプトにはプロンプトキャッシングを使用 —— コストを削減し、レイテンシも低下させます
- 認証エラーや検証エラーではリトライしない —— 一時的な障害(ネットワーク、レート制限、サーバーエラー)のみリトライします
避けるべきアンチパターン
- 複雑度に関係なくすべてのリクエストに最も高価なモデルを使用する
- すべてのエラーに対してリトライする(永続的な障害で予算を浪費)
- コスト追跡の状態を変更する(デバッグと監査を困難にする)
- コードベース全体にモデル名をハードコーディングする(定数または設定を使用する)
- 繰り返されるシステムプロンプトに対してプロンプトキャッシングを無視する
適用シーン
- Claude、OpenAI、またはそれに類する LLM API を呼び出すあらゆるアプリケーション
- コストが急速に累積するバッチ処理パイプライン
- インテリジェントなルーティングが必要なマルチモデルアーキテクチャ
- 予算ガードレールが必要な本番システム
ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- affaan-m
- ライセンス
- MIT
- 最終更新
- 不明
Source: https://github.com/affaan-m/everything-claude-code / ライセンス: MIT
関連スキル
agent-browser
AI エージェント向けのブラウザ自動化 CLI です。ウェブサイトとの対話が必要な場合に使用します。ページ遷移、フォーム入力、ボタンクリック、スクリーンショット取得、データ抽出、ウェブアプリのテスト、ブラウザ操作の自動化など、あらゆるブラウザタスクに対応できます。「ウェブサイトを開く」「フォームに記入する」「ボタンをクリックする」「スクリーンショットを取得する」「ページからデータを抽出する」「このウェブアプリをテストする」「サイトにログインする」「ブラウザ操作を自動化する」といった要求や、プログラマティックなウェブ操作が必要なタスクで起動します。
anyskill
AnySkill — あなたのプライベート・スキルクラウド。GitHubを基盤としたリポジトリからエージェントスキルを管理、同期、動的にロードできます。自然言語でクラウドスキルを検索し、オンデマンドでプロンプトを自動ロード、カスタムスキルのアップロードと共有、スキルバンドルの一括インストールが可能です。OpenClaw、Antigravity、Claude Code、Cursorに対応しています。
engram
AIエージェント向けの永続的なメモリシステムです。バグ修正、意思決定、発見、設定変更の後はmem_saveを使用してください。ユーザーが「覚えている」「記憶している」と言及した場合、または以前のセッションと重複する作業を開始する際はmem_searchを使用します。セッション終了前にmem_session_summaryを使用して、コンテキストを保持してください。
skyvern
AI駆動のブラウザ自動化により、任意のウェブサイトを自動化できます。フォーム入力、データ抽出、ファイルダウンロード、ログイン、複数ステップのワークフロー実行など、ユーザーがウェブサイトと連携する必要があるときに使用します。Skyvernは、LLMとコンピュータビジョンを活用して、未知のサイトも自動操作可能です。Python SDK、TypeScript SDK、REST API、MCPサーバー、またはCLIを通じて統合できます。
pinchbench
PinchBenchベンチマークを実行して、OpenClawエージェントの実世界タスクにおけるパフォーマンスを評価できます。モデルの機能テスト、モデル間の比較、ベンチマーク結果のリーダーボード提出、またはOpenClawのセットアップがカレンダー、メール、リサーチ、コーディング、複数ステップのワークフローにどの程度対応しているかを確認する際に使用します。
openui
OpenUIとOpenUI Langを使用してジェネレーティブUIアプリを構築できます。これらはLLM生成インターフェースのためのトークン効率的なオープン標準です。OpenUI、@openuidev、ジェネレーティブUI、LLMからのストリーミングUI、AI向けコンポーネントライブラリ、またはjson-render/A2UIの置き換えについて述べる際に使用します。スキャフォルディング、defineComponent、システムプロンプト、Renderer、およびOpenUI Lang出力のデバッグに対応しています。