agent-context-manager
AI エージェント向けの高度なコンテキスト管理 — コンテキストウィンドウ、圧縮、動的 RAG に対応します。「コンテキストウィンドウ」「エージェントコンテキスト」「トークンリミット」「コンテキスト管理」「コンテキストオーバーフロー」「コンテキスト過多」「エージェントコンテキスト」「コンテキストスタッフィング」「コンテキスト圧縮」といったキーワードで起動します。
description の原文を見る
Gestion avancée du contexte pour agents IA — fenêtre de contexte, compression, RAG dynamique. Se déclenche avec "context window", "contexte agent", "token limit", "context management", "context overflow", "trop de contexte", "agent context", "context stuffing", "context compression".
SKILL.md 本文
エージェント コンテキスト マネージャー
このスキルの使用場面
エージェントがコンテキストウィンドウの上限に達した場合、トークンに関連するコストを最適化する必要がある場合、または長い会話、大容量ドキュメント、マルチターンの永続セッションを処理するエージェントアーキテクチャを設計する場合にこのスキルを使用します。
ワークフロー
-
トークン予算の分析 — ターゲットモデルのコンテキストウィンドウ割り当てをマッピングします(例:GPT-4o で 128k トークン、Claude 3.5 で 200k)。システムプロンプト(固定)、ツール説明(固定)、会話履歴(動的)、注入される RAG コンテキスト(動的)、期待される応答(予約済み)を含めます。レイヤーごとに最大予算を計算し、アラート閾値を定義します(例:80% でアラート、90% で圧縮必須)。
-
コンテキスト戦略 — ユースケースに適した戦略を選択します:固定割り当て(レイヤーごとの事前定義の割合)、動的割り当て(リクエストの性質に応じた調整)、優先度ベース(計算された セグメント重要度に基づく優先付け)、適応型(使用パターンの学習)。選択した戦略とそのパラメータをエージェント設定に文書化します。
-
コンテキスト圧縮 — 圧縮を実装して、より重要度が低い部分を削減します:軽量 LLM による古い履歴の要約(例:
gpt-4o-mini)、主要情報の抽出(エンティティ、決定、確立された事実)、構造化した箇条書きへの蒸留。達成した圧縮率と重要情報の保持率を測定します。 -
スライディングウィンドウ — スライディングウィンドウを使用して会話履歴を管理します:最新の N 件のやりとりを原文のまま保持し、より古いやりとりを段階的な要約に置き換えます(段階的要約)。推奨形式:
[前回のやりとりの要約:...]+ 最新のやりとりの完全なテキスト。閾値超過のたびに要約を再計算します。 -
動的 RAG — コンテキストを一括ではなく必要に応じて注入します:ユーザーリクエストを分析して情報ニーズを特定し、関連性スコアの最小値で上位 k チャンクのみを取得し、生成直前に注入します。チャンク選択の関連性を最大化するため、リランカー(Cohere Rerank、クロスエンコーダ)を使用します。
-
コンテキスト優先順位付け — コンテキストの各セグメントのスコアリングシステムを実装します:新規性スコア(最近のやりとり > 古いやりとり)、現在のリクエストへの意味的関連性スコア、宣言された重要度スコア(重要としてマークされた情報)。設定可能な重みでスコアを組み合わせます。制約がある場合、最も低いスコアのセグメントを削除します。
-
マルチソースアセンブリ — 最適な順序を守ってコンテキストの最終アセンブリをオーケストレーションします:システムプロンプト → ツール指示 → 長期メモリ → 関連する RAG コンテキスト → 最新の履歴 → 現在のリクエスト。各ソースはテンプレートと明示的な区切り文字を備えています。送信前に合計を検証し、必要に応じて圧縮をトリガーします。
-
トークンのカウントと監視 —
tiktoken(OpenAI)またはanthropic.count_tokens()(Anthropic)による正確なカウントを各アセンブリに統合します。リアルタイムでログを記録します:レイヤーごとに使用されたトークン、コンテキストウィンドウの消費率、推定コスト、トリガーされた圧縮イベント。これらのメトリクスを監視ダッシュボードで公開します。 -
オーバーフロー管理 — グレースフルデグラデーションの動作を定義します:優先度の低いセグメントの自動圧縮、ユーザーへの通知(「応答を最適化するため、前回のやりとりを要約しています」)、最後の手段として警告付きの切り詰め。API がコンテキストエラーを返すことのないようにアプリケーション側で処理します。
-
パフォーマンス最適化 — レイテンシーとコストを削減します:ターン間で安定したコンテキストをキャッシュし(システムプロンプト、ツール説明、不変の長期メモリ)、可用性がある場合は Anthropic/OpenAI のネイティブプロンプトキャッシングを使用し、RAG 埋め込みを事前計算し、各ターン後にバックグラウンドで圧縮要約を実行します。
ルール
- 明示的なトークン予算 :本番環境のすべてのエージェントはレイヤーごとに文書化されたトークン予算を持つ必要があります。サイレントなオーバーフローは設計エラーであり、許容可能な動作ではありません。
- 検証付きの圧縮 :圧縮後、重要な情報(システム命令、セキュリティ制約、本質的なユーザーコンテキスト)が自動チェックリストを通じて保持されていることを確認します。
- トレードオフの透明性 :コンテキスト圧縮が発生し、応答の一貫性に影響を与える可能性がある場合、ユーザーに通知します。存在しない完璧なメモリを偽ってはいけません。
- モデルに戦略を適応させる :コンテキスト戦略はモデルによって大きく異なります(利用可能なウィンドウ、トークンあたりのコスト、圧縮品質)。モデルを変更するたびに再キャリブレーションします。
- オーバーフローケースをテストする :エージェントのテストスイートに、ニアオーバーフロー と オーバーフローシナリオ用の特定のテストを含めます。これらのケースは本番環境で診断が最も困難なことがよくあります。
ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- khalilbenaz
- ライセンス
- MIT
- 最終更新
- 2026/4/5
Source: https://github.com/khalilbenaz/claude-skills-collection / ライセンス: MIT