Agent Skills by ALSEL
汎用DevOps・インフラ⭐ リポ 2品質スコア 59/100

janus-moe-disaggregation

MoE推論のスケーラビリティを実現するため、アテンション層とエキスパート層を独立したGPUサブクラスタに分散配置します。適応的な二段階通信、アクティベーション負荷分散スケジューリング、アクティベーション認識エキスパート管理を活用することで、最先端システムと比べてGPuあたりのスループットを3.9倍向上させます。

description の原文を見る

Enable scalable MoE inference by disaggregating attention and expert layers onto independent GPU sub-clusters. Use adaptive two-phase communication, activation load-balanced scheduling, and activation-aware expert management. Achieve 3.9× higher per-GPU throughput than state-of-the-art systems.

SKILL.md 本文

注意: このスキルのライセンスは ライセンス未確認 です。本サイトでは本文プレビューのみを表示しています。利用前に GitHub の原本でライセンス条件をご確認ください。

スキル概要

Janusは、アテンション層とMoE層を独立したGPUサブクラスタに分離する分散アーキテクチャによってMoE推論のスケーリングに対応します。本システムは、クラスタ間転送を最小化する適応的2段階通信、リクエストを高度に分散するアクティベーション負荷分散スケジューリング、レプリケーションを動的に調整するアクティベーション対応エキスパート管理を組み合わせています。その結果、レイテンシSLOを維持しながらGPU単位で3.9倍高いスループットを実現します。

使用場面

  • アテンション層とエキスパート層を独立してスケーリング可能な大規模スパース混合エキスパートモデルのデプロイ
  • アテンション層とMoE層が異なるパフォーマンス特性を持つシナリオ
  • 分散アーキテクチャを正当化するに足りるGPUクラスタを備えるプロジェクト
  • 効率的なMoE推論システムの研究

使用しない場面

  • 分散のオーバーヘッドがメリットを上回る小規模モデル
  • 分散によってボトルネックが生じるシングルGPUまたは密結合システム
  • 通信オーバーヘッドが問題になるレイテンシ重視のアプリケーション
  • 分散を妨げるハードウェア制約が固定されているシナリオ

コア技術

4つの重要なコンポーネントが分散MoE推論を実現します。

1. 分散アーキテクチャ MoEモデル全体を

...

詳細情報

作者
ADu2021
リポジトリ
ADu2021/skillXiv
ライセンス
不明
最終更新
2026/3/26

Source: https://github.com/ADu2021/skillXiv / ライセンス: 未指定

本サイトは GitHub 上で公開されているオープンソースの SKILL.md ファイルをクロール・インデックス化したものです。 各スキルの著作権は原作者に帰属します。掲載に問題がある場合は info@alsel.co.jp または /takedown フォームよりご連絡ください。
原作者: ADu2021 · ADu2021/skillXiv · ライセンス: ライセンス未確認