Agent Skills by ALSEL
汎用LLM・AI開発⭐ リポ 2品質スコア 59/100

vocabtrim-speculative-decoding

高頻度トークンに絞られたドラフタ語彙によって、推測デコーディングを高速化します。未使用の語彙エントリを削除することで、再学習なしにメモリ制約環境で16%の高速化を実現できます。

description の原文を見る

Accelerate speculative decoding by pruning drafter vocabulary to high-frequency tokens. Achieves 16% speedup in memory-bound settings by eliminating unused vocabulary entries without retraining.

SKILL.md 本文

注意: このスキルのライセンスは ライセンス未確認 です。本サイトでは本文プレビューのみを表示しています。利用前に GitHub の原本でライセンス条件をご確認ください。

VocabTrim: メモリ効率的な推測デコーディング用語彙削減

推測デコーディングは、小規模なドラフタモデルを使用して推論ステップごとに複数のトークンを提案し、ターゲット検証モデルがそれらを受け入れるか拒否するかの判定を行います。ドラフタが高速な場合、このアプローチは推論を2~3倍高速化できます。しかし、ドラフタの言語モデリングヘッド(すべての語彙トークンにわたるロジットを出力する最終層)がメモリボトルネックになります。128Kの語彙トークンを持つLlama-3の場合、毎ステップで128K個すべてのトークンにわたるロジット計算は、ドラフタが頻繁に出現するトークンのごく一部からのみサンプリングしているにもかかわらず、メモリと計算を浪費します。

VocabTrimは、ドラフタが推論中に実際にサンプリングする高頻度トークンのみを含むようにドラフタの語彙を再構築することでこの問題を解決します。ドラフタは「予測しやすい」トークン(一般的な単語、句読点)に偏り、レアトークンをめったにサンプリングしないという観点から出発しています。語彙を最頻出の25~50Kトークンに削減することで、受け入れ率への影響がほぼ無視できる範囲で、LMヘッド計算の60~75%を排除できます。

コアコンセプト

VocabTrimは単純な原則に基づいています:**ドラフタの完全な語彙を、それが頻繁に生成

...

詳細情報

作者
ADu2021
リポジトリ
ADu2021/skillXiv
ライセンス
不明
最終更新
2026/3/26

Source: https://github.com/ADu2021/skillXiv / ライセンス: 未指定

本サイトは GitHub 上で公開されているオープンソースの SKILL.md ファイルをクロール・インデックス化したものです。 各スキルの著作権は原作者に帰属します。掲載に問題がある場合は info@alsel.co.jp または /takedown フォームよりご連絡ください。
原作者: ADu2021 · ADu2021/skillXiv · ライセンス: ライセンス未確認