janus-moe-disaggregation
MoE推論のスケーラビリティを実現するため、アテンション層とエキスパート層を独立したGPUサブクラスタに分散配置します。適応的な二段階通信、アクティベーション負荷分散スケジューリング、アクティベーション認識エキスパート管理を活用することで、最先端システムと比べてGPuあたりのスループットを3.9倍向上させます。
description の原文を見る
Enable scalable MoE inference by disaggregating attention and expert layers onto independent GPU sub-clusters. Use adaptive two-phase communication, activation load-balanced scheduling, and activation-aware expert management. Achieve 3.9× higher per-GPU throughput than state-of-the-art systems.
SKILL.md 本文
スキル概要
Janusは、アテンション層とMoE層を独立したGPUサブクラスタに分離する分散アーキテクチャによってMoE推論のスケーリングに対応します。本システムは、クラスタ間転送を最小化する適応的2段階通信、リクエストを高度に分散するアクティベーション負荷分散スケジューリング、レプリケーションを動的に調整するアクティベーション対応エキスパート管理を組み合わせています。その結果、レイテンシSLOを維持しながらGPU単位で3.9倍高いスループットを実現します。
使用場面
- アテンション層とエキスパート層を独立してスケーリング可能な大規模スパース混合エキスパートモデルのデプロイ
- アテンション層とMoE層が異なるパフォーマンス特性を持つシナリオ
- 分散アーキテクチャを正当化するに足りるGPUクラスタを備えるプロジェクト
- 効率的なMoE推論システムの研究
使用しない場面
- 分散のオーバーヘッドがメリットを上回る小規模モデル
- 分散によってボトルネックが生じるシングルGPUまたは密結合システム
- 通信オーバーヘッドが問題になるレイテンシ重視のアプリケーション
- 分散を妨げるハードウェア制約が固定されているシナリオ
コア技術
4つの重要なコンポーネントが分散MoE推論を実現します。
1. 分散アーキテクチャ MoEモデル全体を
...
詳細情報
- 作者
- ADu2021
- リポジトリ
- ADu2021/skillXiv
- ライセンス
- 不明
- 最終更新
- 2026/3/26
Source: https://github.com/ADu2021/skillXiv / ライセンス: 未指定