token-budget
LLMベースのアプリケーションにおけるトークン予算の計画、実装、監視ができます。コンテキスト予算(コンテキストウィンドウへのコンテンツ収納)、コスト予算(ユーザー・サービス・月単位での支出追跡)、クォータ・レート予算(LLM呼び出しのレート制限)の3つの領域をカバーしています。トークン予算、トークン制限、LLMコスト、コンテキストウィンドウ管理、トークン使用量追跡、API予算、LLMのレート制限、トークン使用量監視について言及がある場合、またはLLMに送信するコンテキスト量を制御したい場合に活用できます。LangChain4j/Quarkus向けのChatModelListener、トークンカウンター、または使用量トラッカーを構築する際にも対応します。
description の原文を見る
Plan, implement, and monitor token budgets for LLM-based applications. Covers three areas — context budgets (fitting content into context windows), cost budgets (tracking spend per user/service/month), and quota/rate budgets (rate limiting LLM calls). Use this skill whenever the user mentions token budgets, token limits, LLM costs, context window management, token tracking, API budgets, rate limiting for LLMs, token usage monitoring, or wants to control how much context is sent to an LLM. Also trigger when the user is building a ChatModelListener, token counter, or usage tracker for LangChain4j/Quarkus.
SKILL.md 本文
Token Budget Skill
目的
LLMベースのアプリケーションにおけるトークン予算の計画、実装、監視を支援します。トークン予算には3つの種類があり、組み合わせて使用することが多くあります。
- Context Budget(品質) — コンテキストウィンドウにどの程度のコンテンツが収まるか?
- Cost Budget(コスト) — トークンにどれだけの費用をかけているか?
- Quota Budget(レート) — トークンをどのくらいの速度で消費しているか?
それぞれの種類が異なる懸念に対処していますが、インフラストラクチャを共有しています(トークンカウント、追跡、設定)。このスキルはユーザーをインタビューして彼らのニーズを理解し、その後適切なQuarkus/LangChain4jコードを生成します。
インタビュー
コードを生成する前に、スコープを理解するためにこれらの質問をしてください。コンテキストから既に答えられている質問はスキップしてください。
質問
- どのユースケースですか? Context / Cost / Quota / 複合?
- ローカルLLM(Ollama、LM Studio)→ 通常、Contextのみが関連
- クラウドAPI(OpenAI、Anthr
...
詳細情報
- 作者
- mgoericke
- ライセンス
- 不明
- 最終更新
- 2026/4/10
Source: https://github.com/mgoericke/javamark-claude-plugins / ライセンス: 未指定