VocabTrim: メモリ効率的な推測デコーディング用語彙削減

推測デコーディングは、小規模なドラフタモデルを使用して推論ステップごとに複数のトークンを提案し、ターゲット検証モデルがそれらを受け入れるか拒否するかの判定を行います。ドラフタが高速な場合、このアプローチは推論を2～3倍高速化できます。しかし、ドラフタの言語モデリングヘッド（すべての語彙トークンにわたるロジットを出力する最終層）がメモリボトルネックになります。128Kの語彙トークンを持つLlama-3の場合、毎ステップで128K個すべてのトークンにわたるロジット計算は、ドラフタが頻繁に出現するトークンのごく一部からのみサンプリングしているにもかかわらず、メモリと計算を浪費します。

VocabTrimは、ドラフタが推論中に実際にサンプリングする高頻度トークンのみを含むようにドラフタの語彙を再構築することでこの問題を解決します。ドラフタは「予測しやすい」トークン（一般的な単語、句読点）に偏り、レアトークンをめったにサンプリングしないという観点から出発しています。語彙を最頻出の25～50Kトークンに削減することで、受け入れ率への影響がほぼ無視できる範囲で、LMヘッド計算の60～75%を排除できます。

コアコンセプト

VocabTrimは単純な原則に基づいています：**ドラフタの完全な語彙を、それが頻繁に生成

...

vocabtrim-speculative-decoding

SKILL.md 本文

VocabTrim: メモリ効率的な推測デコーディング用語彙削減

コアコンセプト

詳細情報