vllm-omni-hardware
vLLM-OmniをNVIDIA CUDA、AMD ROCm、Huawei NPU、Intel XPUなど、複数のハードウェアバックエンドに対応させて設定できます。ハードウェアバックエンドの選択、GPU関連の問題解決、デバイス配置の設定、特定のアクセラレーターへの最適化が必要な場合に利用してください。
description の原文を見る
Configure vLLM-Omni for different hardware backends including NVIDIA CUDA, AMD ROCm, Huawei NPU, and Intel XPU. Use when selecting a hardware backend, troubleshooting GPU issues, configuring device placement, or optimizing for specific accelerators.
SKILL.md 本文
vLLM-Omni ハードウェア設定
概要
vLLM-Omni は4つのハードウェアバックエンドに対応しています:NVIDIA CUDA(デフォルト)、AMD ROCm、Huawei NPU(Ascend)、Intel XPU。各バックエンドには固有のインストール手順と設定オプションがあります。
サポートされているバックエンド
| バックエンド | アクセラレータ | インストール方法 | 成熟度 |
|---|---|---|---|
| CUDA | NVIDIA A100/H100/L40/RTX | uv pip install vllm==$VLLM_VERSION | 本番環境対応 |
| ROCm | AMD MI300X/MI250X | uv pip install vllm==$VLLM_VERSION --extra-index-url ... | 本番環境対応 |
| NPU | Huawei Ascend 910B | CANN を使用したソースビルド | サポート対象 |
| XPU | Intel Data Center GPU Max | oneAPI を使用したソースビルド | 実験的 |
バックエンド選択ワークフロー
ステップ1:ハードウェアを特定する
# NVIDIA GPU
nvidia-smi
# AMD GPU
rocm-smi
# Huawei NPU
npu-smi info
# Intel XPU
xpu-smi discovery
ステップ2:バックエンド向けにインストール
CUDA(NVIDIA):
uv pip install vllm==$VLLM_VERSION --torch-backend=auto
ROCm(AMD):
uv pip install vllm==$VLLM_VERSION --extra-index-url https://wheels.vllm.ai/rocm/$VLLM_VERSION/rocm700
NPU(Huawei):
# CANN ツールキットが事前インストールされていることが必要です
git clone https://github.com/vllm-project/vllm-omni.git
cd vllm-omni
pip install -e ".[npu]"
XPU(Intel):
# oneAPI ツールキットが事前インストールされていることが必要です
git clone https://github.com/vllm-project/vllm-omni.git
cd vllm-omni
pip install -e ".[xpu]"
ステップ3:バックエンドを確認
import torch
# CUDA
print(f"CUDA available: {torch.cuda.is_available()}")
print(f"GPU count: {torch.cuda.device_count()}")
# ROCm (HIP 経由で CUDA と同じ API)
print(f"ROCm/HIP available: {torch.cuda.is_available()}")
# XPU
print(f"XPU available: {torch.xpu.is_available()}")
デバイス選択
vLLM-Omni が使用するデバイスを制御します:
# CUDA: 特定の GPU を選択
CUDA_VISIBLE_DEVICES=0,1 vllm serve <model> --omni
# ROCm: 特定の GPU を選択
HIP_VISIBLE_DEVICES=0,1 vllm serve <model> --omni
# NPU: 特定のデバイスを選択
ASCEND_RT_VISIBLE_DEVICES=0,1 vllm serve <model> --omni
バックエンド別モデルサポート
すべてのモデルがすべてのバックエンドでサポートされているわけではありません。サポートマトリックスを確認してください:
| モデル | CUDA | ROCm | NPU | XPU |
|---|---|---|---|---|
| Qwen3-Omni | Yes | Yes | Yes | No |
| Qwen2.5-Omni | Yes | Yes | Yes | No |
| Qwen-Image | Yes | Yes | Yes | No |
| Z-Image | Yes | Yes | Yes | No |
| BAGEL | Yes | Yes | No | No |
| Wan2.2 | Yes | Yes | Yes | No |
| FLUX | Yes | Yes | Yes | No |
| Qwen3-TTS | Yes | Yes | Yes | No |
| Stable-Diffusion-3 | Yes | Yes | No | No |
| Stable-Audio | Yes | No | No | No |
トラブルシューティング
CUDA メモリ不足: --gpu-memory-utilization を削減するか、複数の GPU にまたがるテンソル並列化を使用してください。
ROCm カーネルコンパイルが遅い: 最初の実行時に GPU 向けのカーネルをコンパイルします。以降の実行はキャッシュされたカーネルを再利用します。永続的なカーネルキャッシュについては MIOPEN_USER_DB_PATH を設定してください。
NPU オペレータがサポートされていない: NPU ではいくつかの操作が CPU にフォールバックします。フォールバック警告についてはログを確認し、CANN を最新バージョンにアップデートしてください。
NPU LaserAttention がサポートされていないエラー: Ascend NPU と mindiesd を使用している場合、拡散注意バックエンド(--diffusion-attn-backend FLASH_ATTN)として FLASH_ATTN を選択すると、ASCEND_CUSTOM_OPP_PATH を設定するために mindiesd が自動的にインポートされます。内部環境変数 MINDIE_SD_FA_TYPE は自動的に ascend_laser_attention に設定されます。#2674 で修正済みです。
参考資料
- CUDA 固有の最適化については、references/cuda.md を参照してください
- ROCm セットアップの詳細については、references/rocm.md を参照してください
- NPU 設定については、references/npu.md を参照してください
- XPU セットアップについては、references/xpu.md を参照してください
ライセンス: Apache-2.0(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- hsliuustc0106
- ライセンス
- Apache-2.0
- 最終更新
- 2026/5/11
Source: https://github.com/hsliuustc0106/vllm-omni-skills / ライセンス: Apache-2.0