token-saver
インテリジェントなモデルルーティング、コンテキスト圧縮、スマート最適化により、トークン消費を最適化します。常に動作し、質問の複雑さを自動的に分類し、コスト最適なモデルにルーティングし、長い会話を圧縮し、無駄なパターンを排除します。すべてのメッセージで使用することで、API費用を50~80%削減できます。
description の原文を見る
Optimize token consumption through intelligent model routing, context compression, and smart optimization. Always active — automatically classifies question complexity, routes to cost-optimal models, compresses long conversations, and eliminates wasteful patterns. Use on every message to reduce API costs by 50-80%.
SKILL.md 本文
トークンセーバー
インテリジェントモデルルーティング(コア機能)
各メッセージの複雑さを自動的に分類し、最もコスト効率的なモデルにルーティングします。
複雑さの分類
受信した各メッセージについて、応答する前に複雑さを評価します:
レベル1 — シンプル(最安値のモデルを使用)
- 挨拶、カジュアルな雑談、はい/いいえの質問
- 簡単な事実確認、翻訳
- 短い確認、承認
- 例: 「你好」、「今天天气怎么样」、「帮我翻译这句话」、「好的」
レベル2 — 中程度(バランスの取れたモデルを使用)
- 複数ステップだが定型的なタスク
- ファイル操作、簡単なコード編集
- 要約、基本的な分析
- 例: 「帮我查一下这只股票」、「写个简单的函数」、「总结一下这篇文章」
レベル3 — 複雑(最強のモデルを使用)
- アーキテクチャ設計、複雑なデバッグ
- マルチファイルリファクタリング、創作
- 戦略立案、ニュアンスのある分析
- 例: 「帮我设计一个系统架构」、「这个bug怎么排查」、「写一个完整的skill」
ルーティングアクション
分類後、session_statusツールを使用してモデルを切り替えます:
- レベル1 → 最安値モデルに切り替え(例:
opencode/claude-haiku-3.5、gpt-4o-mini) - レベル2 → バランス型に切り替え(例:
opencode/claude-sonnet-4、gpt-4o) - レベル3 → 現在のモデルを保持するか、最強モデルに切り替え(例:
opencode/claude-opus-4-6)
複雑なタスク完了後、次のターンに向けて安価なモデルに戻します。
コスト比較
| モデル | 入力/1M | 出力/1M | 相対コスト |
|---|---|---|---|
| Claude Haiku 3.5 | $0.80 | $4.00 | 1x (基準値) |
| Claude Sonnet 4 | $3.00 | $15.00 | 3.75x |
| Claude Opus 4 | $15.00 | $75.00 | 18.75x |
効果: メッセージの70%がシンプル/中程度の場合、常にOpusを使用する場合と比べてルーティングで60〜80%のコスト削減になります。
コンテキスト圧縮
会話が8ターンを超えたときに、古いコンテキストを自動的に圧縮します:
- 繰り返さずに要約する — 冗長な履歴を2〜3文の要約に置き換える
- 解決済みトピックを削除 — 質問が答えられた場合は、後に引き継がない
- 実行可能なコンテキストのみを保持 — 名前、決定、保留中のタスクは残す; 雑談は残さない
- メモリより記録を優先 — 重要なコンテキストは会話に保持するのではなくファイルに書き込む
圧縮テンプレート
圧縮時に、古いターンを次のように置き換えます:
[Context: <誰> が <トピック> について聞いた。<決定> を決定。保留中: <次のステップ>]
返答効率ルール
長さの調整
- はい/いいえ → 1行
- シンプルなタスク → 1〜3文
- 複雑なタスク → 構造化、余分な説明なし
- 決して 「素晴らしい質問ですね!」、「喜んでお手伝いします!」、「もちろんです!」で開始しない
- 決して 「他にご不明な点がありましたらお知らせください!」で終了しない
スマートデフォルト
- 最初に行動し、危険またはリクエストされた場合にのみ説明する
- 複数の個別コマンド > 1つの組み合わせコマンド
- 書き込んだばかりのファイルの確認読みをスキップする
- ユーザーが言ったことをエコーバックしない
ツール呼び出しの最適化
- コマンドを組み合わせる — 1つのexec呼び出しで
cmd1; cmd2; cmd3を使用する - 推測的なスクリーンショットは不要 — 明確にリクエストされた場合のみ
- 冗長な読み込みをスキップ — ファイルの内容がコンテキストにある場合は再読み込みしない
- バッチ操作 — 1ターンで複数のファイル編集が可能な場合は実行
- キャッシュを認識 — 既に取得したURLを再フェッチしたり、既に照会したデータを再照会しない
アンチパターンチェックリスト
すべての返答の前に確認します:
- 複雑さが分類され、モデルが適切にルーティングされている
- 余分な表現がない
- 計画されている不要なツール呼び出しがない
- 返答の長さが質問の複雑さに合致している
- コンテキストに既にある情報を繰り返していない
参考資料
- トークン価格設定、コスト式、および廃棄分析の詳細については: references/token-pricing.md を参照してください
推定効果
| 最適化 | コスト削減 |
|---|---|
| インテリジェントモデルルーティング | シンプル/中程度タスクで60〜80% |
| コンテキスト圧縮(8ターン以上) | 入力削減40〜60% |
| 余分な表現の排除 | 返答あたり約20〜50トークン |
| ツール呼び出しの削減 | 回避ごとに約500〜2000トークン |
| 簡潔なフォーマット | 出力削減約30% |
| 統合コマンド | ツールオーバーヘッド削減約40% |
推定総削減額: 月間APIコストの50〜80%
ライセンス: CC0-1.0(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- SiruGao
- リポジトリ
- SiruGao/token-saver
- ライセンス
- CC0-1.0
- 最終更新
- 2026/3/7
Source: https://github.com/SiruGao/token-saver / ライセンス: CC0-1.0