token-saver
インテリジェントなモデルルーティング、コンテキスト圧縮、スマート最適化により、トークン消費を最適化します。常に動作し、質問の複雑さを自動的に分類し、コスト最適なモデルにルーティングし、長い会話を圧縮し、無駄なパターンを排除します。すべてのメッセージで使用することで、API費用を50~80%削減できます。
description の原文を見る
Optimize token consumption through intelligent model routing, context compression, and smart optimization. Always active — automatically classifies question complexity, routes to cost-optimal models, compresses long conversations, and eliminates wasteful patterns. Use on every message to reduce API costs by 50-80%.
SKILL.md 本文
トークンセーバー
インテリジェントモデルルーティング(コア機能)
各メッセージの複雑さを自動的に分類し、最もコスト効率的なモデルにルーティングします。
複雑さの分類
受信した各メッセージについて、応答する前に複雑さを評価します:
レベル1 — シンプル(最安値のモデルを使用)
- 挨拶、カジュアルな雑談、はい/いいえの質問
- 簡単な事実確認、翻訳
- 短い確認、承認
- 例: 「你好」、「今天天气怎么样」、「帮我翻译这句话」、「好的」
レベル2 — 中程度(バランスの取れたモデルを使用)
- 複数ステップだが定型的なタスク
- ファイル操作、簡単なコード編集
- 要約、基本的な分析
- 例: 「帮我查一下这只股票」、「写个简单的函数」、「总结一下这篇文章」
レベル3 — 複雑(最強のモデルを使用)
- アーキテクチャ設計、複雑なデバッグ
- マルチファイルリファクタリング、創作
- 戦略立案、ニュアンスのある分析
- 例: 「帮我设计一个系统架构」、「这个bug怎么排查」、「写一个完整的skill」
ルーティングアクション
分類後、session_statusツールを使用してモデルを切り替えます:
- レベル1 → 最安値モデルに切り替え(例:
opencode/claude-haiku-3.5、gpt-4o-mini) - レベル2 → バランス型に切り替え(例:
opencode/claude-sonnet-4、gpt-4o) - レベル3 → 現在のモデルを保持するか、最強モデルに切り替え(例:
opencode/claude-opus-4-6)
複雑なタスク完了後、次のターンに向けて安価なモデルに戻します。
コスト比較
| モデル | 入力/1M | 出力/1M | 相対コスト |
|---|---|---|---|
| Claude Haiku 3.5 | $0.80 | $4.00 | 1x (基準値) |
| Claude Sonnet 4 | $3.00 | $15.00 | 3.75x |
| Claude Opus 4 | $15.00 | $75.00 | 18.75x |
効果: メッセージの70%がシンプル/中程度の場合、常にOpusを使用する場合と比べてルーティングで60〜80%のコスト削減になります。
コンテキスト圧縮
会話が8ターンを超えたときに、古いコンテキストを自動的に圧縮します:
- 繰り返さずに要約する — 冗長な履歴を2〜3文の要約に置き換える
- 解決済みトピックを削除 — 質問が答えられた場合は、後に引き継がない
- 実行可能なコンテキストのみを保持 — 名前、決定、保留中のタスクは残す; 雑談は残さない
- メモリより記録を優先 — 重要なコンテキストは会話に保持するのではなくファイルに書き込む
圧縮テンプレート
圧縮時に、古いターンを次のように置き換えます:
[Context: <誰> が <トピック> について聞いた。<決定> を決定。保留中: <次のステップ>]
返答効率ルール
長さの調整
- はい/いいえ → 1行
- シンプルなタスク → 1〜3文
- 複雑なタスク → 構造化、余分な説明なし
- 決して 「素晴らしい質問ですね!」、「喜んでお手伝いします!」、「もちろんです!」で開始しない
- 決して 「他にご不明な点がありましたらお知らせください!」で終了しない
スマートデフォルト
- 最初に行動し、危険またはリクエストされた場合にのみ説明する
- 複数の個別コマンド > 1つの組み合わせコマンド
- 書き込んだばかりのファイルの確認読みをスキップする
- ユーザーが言ったことをエコーバックしない
ツール呼び出しの最適化
- コマンドを組み合わせる — 1つのexec呼び出しで
cmd1; cmd2; cmd3を使用する - 推測的なスクリーンショットは不要 — 明確にリクエストされた場合のみ
- 冗長な読み込みをスキップ — ファイルの内容がコンテキストにある場合は再読み込みしない
- バッチ操作 — 1ターンで複数のファイル編集が可能な場合は実行
- キャッシュを認識 — 既に取得したURLを再フェッチしたり、既に照会したデータを再照会しない
アンチパターンチェックリスト
すべての返答の前に確認します:
- 複雑さが分類され、モデルが適切にルーティングされている
- 余分な表現がない
- 計画されている不要なツール呼び出しがない
- 返答の長さが質問の複雑さに合致している
- コンテキストに既にある情報を繰り返していない
参考資料
- トークン価格設定、コスト式、および廃棄分析の詳細については:
references/token-pricing.mdを参照してください
推定効果
| 最適化 | コスト削減 |
|---|---|
| インテリジェントモデルルーティング | シンプル/中程度タスクで60〜80% |
| コンテキスト圧縮(8ターン以上) | 入力削減40〜60% |
| 余分な表現の排除 | 返答あたり約20〜50トークン |
| ツール呼び出しの削減 | 回避ごとに約500〜2000トークン |
| 簡潔なフォーマット | 出力削減約30% |
| 統合コマンド | ツールオーバーヘッド削減約40% |
推定総削減額: 月間APIコストの50〜80%
ライセンス: CC0-1.0(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- SiruGao
- リポジトリ
- SiruGao/token-saver
- ライセンス
- CC0-1.0
- 最終更新
- 2026/3/7
Source: https://github.com/SiruGao/token-saver / ライセンス: CC0-1.0
関連スキル
agent-browser
AI エージェント向けのブラウザ自動化 CLI です。ウェブサイトとの対話が必要な場合に使用します。ページ遷移、フォーム入力、ボタンクリック、スクリーンショット取得、データ抽出、ウェブアプリのテスト、ブラウザ操作の自動化など、あらゆるブラウザタスクに対応できます。「ウェブサイトを開く」「フォームに記入する」「ボタンをクリックする」「スクリーンショットを取得する」「ページからデータを抽出する」「このウェブアプリをテストする」「サイトにログインする」「ブラウザ操作を自動化する」といった要求や、プログラマティックなウェブ操作が必要なタスクで起動します。
anyskill
AnySkill — あなたのプライベート・スキルクラウド。GitHubを基盤としたリポジトリからエージェントスキルを管理、同期、動的にロードできます。自然言語でクラウドスキルを検索し、オンデマンドでプロンプトを自動ロード、カスタムスキルのアップロードと共有、スキルバンドルの一括インストールが可能です。OpenClaw、Antigravity、Claude Code、Cursorに対応しています。
engram
AIエージェント向けの永続的なメモリシステムです。バグ修正、意思決定、発見、設定変更の後はmem_saveを使用してください。ユーザーが「覚えている」「記憶している」と言及した場合、または以前のセッションと重複する作業を開始する際はmem_searchを使用します。セッション終了前にmem_session_summaryを使用して、コンテキストを保持してください。
skyvern
AI駆動のブラウザ自動化により、任意のウェブサイトを自動化できます。フォーム入力、データ抽出、ファイルダウンロード、ログイン、複数ステップのワークフロー実行など、ユーザーがウェブサイトと連携する必要があるときに使用します。Skyvernは、LLMとコンピュータビジョンを活用して、未知のサイトも自動操作可能です。Python SDK、TypeScript SDK、REST API、MCPサーバー、またはCLIを通じて統合できます。
pinchbench
PinchBenchベンチマークを実行して、OpenClawエージェントの実世界タスクにおけるパフォーマンスを評価できます。モデルの機能テスト、モデル間の比較、ベンチマーク結果のリーダーボード提出、またはOpenClawのセットアップがカレンダー、メール、リサーチ、コーディング、複数ステップのワークフローにどの程度対応しているかを確認する際に使用します。
openui
OpenUIとOpenUI Langを使用してジェネレーティブUIアプリを構築できます。これらはLLM生成インターフェースのためのトークン効率的なオープン標準です。OpenUI、@openuidev、ジェネレーティブUI、LLMからのストリーミングUI、AI向けコンポーネントライブラリ、またはjson-render/A2UIの置き換えについて述べる際に使用します。スキャフォルディング、defineComponent、システムプロンプト、Renderer、およびOpenUI Lang出力のデバッグに対応しています。