汎用DevOps・インフラ⭐ リポ 2品質スコア 59/100

janus-moe-disaggregation

MoE推論のスケーラビリティを実現するため、アテンション層とエキスパート層を独立したGPUサブクラスタに分散配置します。適応的な二段階通信、アクティベーション負荷分散スケジューリング、アクティベーション認識エキスパート管理を活用することで、最先端システムと比べてGPuあたりのスループットを3.9倍向上させます。

description の原文を見る

Enable scalable MoE inference by disaggregating attention and expert layers onto independent GPU sub-clusters. Use adaptive two-phase communication, activation load-balanced scheduling, and activation-aware expert management. Achieve 3.9× higher per-GPU throughput than state-of-the-art systems.

SKILL.md 本文

注意: このスキルのライセンスは ライセンス未確認 です。本サイトでは本文プレビューのみを表示しています。利用前に GitHub の原本でライセンス条件をご確認ください。

スキル概要

Janusは、アテンション層とMoE層を独立したGPUサブクラスタに分離する分散アーキテクチャによってMoE推論のスケーリングに対応します。本システムは、クラスタ間転送を最小化する適応的2段階通信、リクエストを高度に分散するアクティベーション負荷分散スケジューリング、レプリケーションを動的に調整するアクティベーション対応エキスパート管理を組み合わせています。その結果、レイテンシSLOを維持しながらGPU単位で3.9倍高いスループットを実現します。

使用場面

アテンション層とエキスパート層を独立してスケーリング可能な大規模スパース混合エキスパートモデルのデプロイ
アテンション層とMoE層が異なるパフォーマンス特性を持つシナリオ
分散アーキテクチャを正当化するに足りるGPUクラスタを備えるプロジェクト
効率的なMoE推論システムの研究

使用しない場面

分散のオーバーヘッドがメリットを上回る小規模モデル
分散によってボトルネックが生じるシングルGPUまたは密結合システム
通信オーバーヘッドが問題になるレイテンシ重視のアプリケーション
分散を妨げるハードウェア制約が固定されているシナリオ

コア技術

4つの重要なコンポーネントが分散MoE推論を実現します。

1. 分散アーキテクチャ MoEモデル全体を

...

全文を GitHub の原本で見る →リポジトリ

詳細情報

作者: ADu2021
リポジトリ: ADu2021/skillXiv
ライセンス: 不明
最終更新: 2026/3/26

GitHubで原本を見る →フィードバックを送る

Source: https://github.com/ADu2021/skillXiv / ライセンス: 未指定