vocabtrim-speculative-decoding
高頻度トークンに絞られたドラフタ語彙によって、推測デコーディングを高速化します。未使用の語彙エントリを削除することで、再学習なしにメモリ制約環境で16%の高速化を実現できます。
description の原文を見る
Accelerate speculative decoding by pruning drafter vocabulary to high-frequency tokens. Achieves 16% speedup in memory-bound settings by eliminating unused vocabulary entries without retraining.
SKILL.md 本文
VocabTrim: メモリ効率的な推測デコーディング用語彙削減
推測デコーディングは、小規模なドラフタモデルを使用して推論ステップごとに複数のトークンを提案し、ターゲット検証モデルがそれらを受け入れるか拒否するかの判定を行います。ドラフタが高速な場合、このアプローチは推論を2~3倍高速化できます。しかし、ドラフタの言語モデリングヘッド(すべての語彙トークンにわたるロジットを出力する最終層)がメモリボトルネックになります。128Kの語彙トークンを持つLlama-3の場合、毎ステップで128K個すべてのトークンにわたるロジット計算は、ドラフタが頻繁に出現するトークンのごく一部からのみサンプリングしているにもかかわらず、メモリと計算を浪費します。
VocabTrimは、ドラフタが推論中に実際にサンプリングする高頻度トークンのみを含むようにドラフタの語彙を再構築することでこの問題を解決します。ドラフタは「予測しやすい」トークン(一般的な単語、句読点)に偏り、レアトークンをめったにサンプリングしないという観点から出発しています。語彙を最頻出の25~50Kトークンに削減することで、受け入れ率への影響がほぼ無視できる範囲で、LMヘッド計算の60~75%を排除できます。
コアコンセプト
VocabTrimは単純な原則に基づいています:**ドラフタの完全な語彙を、それが頻繁に生成
...
詳細情報
- 作者
- ADu2021
- リポジトリ
- ADu2021/skillXiv
- ライセンス
- 不明
- 最終更新
- 2026/3/26
Source: https://github.com/ADu2021/skillXiv / ライセンス: 未指定