トークンセーバー

インテリジェントモデルルーティング(コア機能)

各メッセージの複雑さを自動的に分類し、最もコスト効率的なモデルにルーティングします。

複雑さの分類

受信した各メッセージについて、応答する前に複雑さを評価します:

レベル1 — シンプル(最安値のモデルを使用)

挨拶、カジュアルな雑談、はい/いいえの質問
簡単な事実確認、翻訳
短い確認、承認
例: 「你好」、「今天天气怎么样」、「帮我翻译这句话」、「好的」

レベル2 — 中程度(バランスの取れたモデルを使用)

複数ステップだが定型的なタスク
ファイル操作、簡単なコード編集
要約、基本的な分析
例: 「帮我查一下这只股票」、「写个简单的函数」、「总结一下这篇文章」

レベル3 — 複雑(最強のモデルを使用)

アーキテクチャ設計、複雑なデバッグ
マルチファイルリファクタリング、創作
戦略立案、ニュアンスのある分析
例: 「帮我设计一个系统架构」、「这个bug怎么排查」、「写一个完整的skill」

ルーティングアクション

分類後、session_statusツールを使用してモデルを切り替えます:

レベル1 → 最安値モデルに切り替え(例: opencode/claude-haiku-3.5、gpt-4o-mini)
レベル2 → バランス型に切り替え(例: opencode/claude-sonnet-4、gpt-4o)
レベル3 → 現在のモデルを保持するか、最強モデルに切り替え(例: opencode/claude-opus-4-6)

複雑なタスク完了後、次のターンに向けて安価なモデルに戻します。

コスト比較

モデル	入力/1M	出力/1M	相対コスト
Claude Haiku 3.5	$0.80	$4.00	1x (基準値)
Claude Sonnet 4	$3.00	$15.00	3.75x
Claude Opus 4	$15.00	$75.00	18.75x

効果: メッセージの70%がシンプル/中程度の場合、常にOpusを使用する場合と比べてルーティングで60〜80%のコスト削減になります。

コンテキスト圧縮

会話が8ターンを超えたときに、古いコンテキストを自動的に圧縮します:

繰り返さずに要約する — 冗長な履歴を2〜3文の要約に置き換える
解決済みトピックを削除 — 質問が答えられた場合は、後に引き継がない
実行可能なコンテキストのみを保持 — 名前、決定、保留中のタスクは残す; 雑談は残さない
メモリより記録を優先 — 重要なコンテキストは会話に保持するのではなくファイルに書き込む

圧縮テンプレート

圧縮時に、古いターンを次のように置き換えます:

[Context: <誰> が <トピック> について聞いた。<決定> を決定。保留中: <次のステップ>]

返答効率ルール

長さの調整

はい/いいえ → 1行
シンプルなタスク → 1〜3文
複雑なタスク → 構造化、余分な説明なし
決して 「素晴らしい質問ですね!」、「喜んでお手伝いします!」、「もちろんです!」で開始しない
決して 「他にご不明な点がありましたらお知らせください!」で終了しない

スマートデフォルト

最初に行動し、危険またはリクエストされた場合にのみ説明する
複数の個別コマンド > 1つの組み合わせコマンド
書き込んだばかりのファイルの確認読みをスキップする
ユーザーが言ったことをエコーバックしない

ツール呼び出しの最適化

コマンドを組み合わせる — 1つのexec呼び出しでcmd1; cmd2; cmd3を使用する
推測的なスクリーンショットは不要 — 明確にリクエストされた場合のみ
冗長な読み込みをスキップ — ファイルの内容がコンテキストにある場合は再読み込みしない
バッチ操作 — 1ターンで複数のファイル編集が可能な場合は実行
キャッシュを認識 — 既に取得したURLを再フェッチしたり、既に照会したデータを再照会しない

アンチパターンチェックリスト

すべての返答の前に確認します:

複雑さが分類され、モデルが適切にルーティングされている
余分な表現がない
計画されている不要なツール呼び出しがない
返答の長さが質問の複雑さに合致している
コンテキストに既にある情報を繰り返していない

参考資料

トークン価格設定、コスト式、および廃棄分析の詳細については: references/token-pricing.md を参照してください

推定効果

最適化	コスト削減
インテリジェントモデルルーティング	シンプル/中程度タスクで60〜80%
コンテキスト圧縮(8ターン以上)	入力削減40〜60%
余分な表現の排除	返答あたり約20〜50トークン
ツール呼び出しの削減	回避ごとに約500〜2000トークン
簡潔なフォーマット	出力削減約30%
統合コマンド	ツールオーバーヘッド削減約40%

推定総削減額: 月間APIコストの50〜80%

ライセンス: CC0-1.0(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

token-saver

SKILL.md 本文