janus-moe-disaggregation
MoE推論のスケーラビリティを実現するため、アテンション層とエキスパート層を独立したGPUサブクラスタに分散配置します。適応的な二段階通信、アクティベーション負荷分散スケジューリング、アクティベーション認識エキスパート管理を活用することで、最先端システムと比べてGPuあたりのスループットを3.9倍向上させます。
description の原文を見る
Enable scalable MoE inference by disaggregating attention and expert layers onto independent GPU sub-clusters. Use adaptive two-phase communication, activation load-balanced scheduling, and activation-aware expert management. Achieve 3.9× higher per-GPU throughput than state-of-the-art systems.
SKILL.md 本文
スキル概要
Janusは、アテンション層とMoE層を独立したGPUサブクラスタに分離する分散アーキテクチャによってMoE推論のスケーリングに対応します。本システムは、クラスタ間転送を最小化する適応的2段階通信、リクエストを高度に分散するアクティベーション負荷分散スケジューリング、レプリケーションを動的に調整するアクティベーション対応エキスパート管理を組み合わせています。その結果、レイテンシSLOを維持しながらGPU単位で3.9倍高いスループットを実現します。
使用場面
- アテンション層とエキスパート層を独立してスケーリング可能な大規模スパース混合エキスパートモデルのデプロイ
- アテンション層とMoE層が異なるパフォーマンス特性を持つシナリオ
- 分散アーキテクチャを正当化するに足りるGPUクラスタを備えるプロジェクト
- 効率的なMoE推論システムの研究
使用しない場面
- 分散のオーバーヘッドがメリットを上回る小規模モデル
- 分散によってボトルネックが生じるシングルGPUまたは密結合システム
- 通信オーバーヘッドが問題になるレイテンシ重視のアプリケーション
- 分散を妨げるハードウェア制約が固定されているシナリオ
コア技術
4つの重要なコンポーネントが分散MoE推論を実現します。
1. 分散アーキテクチャ MoEモデル全体をモノリシックな単位として展開するのではなく、アテンション層とMoE層を別々に管理します。これにより、異なるパフォーマンス特性に基づいて、モジュール固有のリソーススケーリングをきめ細かく実行できます。
2. 適応的2段階通信 アテンション層とMoE層のインスタンス間での頻繁なデータ転送に伴うオーバーヘッドを最小化します。
- ノード内集約をNVLink経由で実行し、アクティベーションを統合します
- ノード間大量転送により、クラスタ間の小規模メッセージ数を削減します 適応的ルーティングはアクティベーション特性に基づいてフェーズを切り替えます。
3. アクティベーション負荷分散スケジューリング 軽量GPUカーネルスケジューラが、エキスパートアクティベーションリクエストをMoEインスタンス全体に分散し、GPU単位で同時にアクティブなエキスパート数を最小化します。これにより、インスタンス単位の負荷とレイテンシが削減され、オーバーヘッドはほぼ無視できます。
4. アクティベーション対応エキスパート管理 アクティベーションパターンに基づいてエキスパートレプリケーション数と配置を動的に調整します。頻繁に共同でアクティベートされるエキスパートをGPU全体に分散し、インスタンス単位の負荷を削減してスループットを向上させます。
実装ノート
アテンション層とMoE層のクラスタを分離するシステムを設計してください。適応的2段階通信を実装します。NVLink経由のノード内通信と大量転送によるノード間通信です。アクティベーション負荷分散スケジューラを構築し、リクエストをインテリジェントに分散してください。エキスパート共同アクティベーションパターンを追跡し、レプリケーションを動的に調整します。特定のワークロード特性に対して監視と最適化を行ってください。
参考文献
- オリジナル論文: Janus (2025年12月)
- Mixture-of-Expertsシステムと推論
- 分散GPUシステムと通信最適化
ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- ADu2021
- リポジトリ
- ADu2021/skillXiv
- ライセンス
- MIT
- 最終更新
- 2026/3/26
Source: https://github.com/ADu2021/skillXiv / ライセンス: MIT
関連スキル
superpowers-streamer-cli
SuperPowers デスクトップストリーマーの npm パッケージをインストール、ログイン、実行、トラブルシューティングできます。ユーザーが npm から `superpowers-ai` をセットアップしたい場合、メールまたは電話でサインインもしくはアカウント作成を行いたい場合、ストリーマーを起動したい場合、表示されたコントロールリンクを開きたい場合、後で停止したい場合、またはソースコードへのアクセスなしに npm やランタイムの一般的な問題から復旧したい場合に使用します。
catc-client-ops
Catalyst Centerのクライアント操作・監視機能 - 有線・無線クライアントのリスト表示・フィルタリング、MACアドレスによる詳細なクライアント検索、クライアント数分析、時間軸での分析、SSIDおよび周波数帯によるフィルタリング、無線トラブルシューティング機能を提供します。MACアドレスやIPアドレスでのクライアント検索、サイト別やSSID別のクライアント数集計、無線周波数帯の分布分析、Wi-Fi信号の問題調査が必要な場合に活用できます。
ci-cd-and-automation
CI/CDパイプラインの設定を自動化します。ビルドおよびデプロイメントパイプラインの構築または変更時に使用できます。品質ゲートの自動化、CI内のテストランナー設定、またはデプロイメント戦略の確立が必要な場合に活用します。
shipping-and-launch
本番環境へのリリース準備を行います。本番環境へのデプロイ準備が必要な場合、リリース前チェックリストが必要な場合、監視機能の設定を行う場合、段階的なロールアウトを計画する場合、またはロールバック戦略が必要な場合に使用します。
linear-release-setup
Linear Releaseに向けたCI/CD設定を生成します。リリース追跡の設定、LinearのCIパイプライン構築、またはLinearリリースとのデプロイメント連携を実施する際に利用できます。GitHub Actions、GitLab CI、CircleCIなど複数のプラットフォームに対応しています。
tracking-application-response-times
API エンドポイント、データベースクエリ、サービスコール全体にわたるアプリケーションのレスポンスタイムを追跡・最適化できます。パフォーマンス監視やボトルネック特定の際に活用してください。「レスポンスタイムを追跡する」「API パフォーマンスを監視する」「遅延を分析する」といった表現で呼び出せます。