vLLM-Omni ハードウェア設定

概要

vLLM-Omni は4つのハードウェアバックエンドに対応しています：NVIDIA CUDA（デフォルト）、AMD ROCm、Huawei NPU（Ascend）、Intel XPU。各バックエンドには固有のインストール手順と設定オプションがあります。

サポートされているバックエンド

バックエンド	アクセラレータ	インストール方法	成熟度
CUDA	NVIDIA A100/H100/L40/RTX	`uv pip install vllm==$VLLM_VERSION`	本番環境対応
ROCm	AMD MI300X/MI250X	`uv pip install vllm==$VLLM_VERSION --extra-index-url ...`	本番環境対応
NPU	Huawei Ascend 910B	CANN を使用したソースビルド	サポート対象
XPU	Intel Data Center GPU Max	oneAPI を使用したソースビルド	実験的

バックエンド選択ワークフロー

ステップ1：ハードウェアを特定する

# NVIDIA GPU
nvidia-smi

# AMD GPU
rocm-smi

# Huawei NPU
npu-smi info

# Intel XPU
xpu-smi discovery

ステップ2：バックエンド向けにインストール

CUDA（NVIDIA）:

uv pip install vllm==$VLLM_VERSION --torch-backend=auto

ROCm（AMD）:

uv pip install vllm==$VLLM_VERSION --extra-index-url https://wheels.vllm.ai/rocm/$VLLM_VERSION/rocm700

NPU（Huawei）:

# CANN ツールキットが事前インストールされていることが必要です
git clone https://github.com/vllm-project/vllm-omni.git
cd vllm-omni
pip install -e ".[npu]"

XPU（Intel）:

# oneAPI ツールキットが事前インストールされていることが必要です
git clone https://github.com/vllm-project/vllm-omni.git
cd vllm-omni
pip install -e ".[xpu]"

ステップ3：バックエンドを確認

import torch

# CUDA
print(f"CUDA available: {torch.cuda.is_available()}")
print(f"GPU count: {torch.cuda.device_count()}")

# ROCm (HIP 経由で CUDA と同じ API)
print(f"ROCm/HIP available: {torch.cuda.is_available()}")

# XPU
print(f"XPU available: {torch.xpu.is_available()}")

デバイス選択

vLLM-Omni が使用するデバイスを制御します：

# CUDA: 特定の GPU を選択
CUDA_VISIBLE_DEVICES=0,1 vllm serve <model> --omni

# ROCm: 特定の GPU を選択
HIP_VISIBLE_DEVICES=0,1 vllm serve <model> --omni

# NPU: 特定のデバイスを選択
ASCEND_RT_VISIBLE_DEVICES=0,1 vllm serve <model> --omni

バックエンド別モデルサポート

すべてのモデルがすべてのバックエンドでサポートされているわけではありません。サポートマトリックスを確認してください：

モデル	CUDA	ROCm	NPU	XPU
Qwen3-Omni	Yes	Yes	Yes	No
Qwen2.5-Omni	Yes	Yes	Yes	No
Qwen-Image	Yes	Yes	Yes	No
Z-Image	Yes	Yes	Yes	No
BAGEL	Yes	Yes	No	No
Wan2.2	Yes	Yes	Yes	No
FLUX	Yes	Yes	Yes	No
Qwen3-TTS	Yes	Yes	Yes	No
Stable-Diffusion-3	Yes	Yes	No	No
Stable-Audio	Yes	No	No	No

トラブルシューティング

CUDA メモリ不足: --gpu-memory-utilization を削減するか、複数の GPU にまたがるテンソル並列化を使用してください。

ROCm カーネルコンパイルが遅い: 最初の実行時に GPU 向けのカーネルをコンパイルします。以降の実行はキャッシュされたカーネルを再利用します。永続的なカーネルキャッシュについては MIOPEN_USER_DB_PATH を設定してください。

NPU オペレータがサポートされていない: NPU ではいくつかの操作が CPU にフォールバックします。フォールバック警告についてはログを確認し、CANN を最新バージョンにアップデートしてください。

NPU LaserAttention がサポートされていないエラー: Ascend NPU と mindiesd を使用している場合、拡散注意バックエンド（--diffusion-attn-backend FLASH_ATTN）として FLASH_ATTN を選択すると、ASCEND_CUSTOM_OPP_PATH を設定するために mindiesd が自動的にインポートされます。内部環境変数 MINDIE_SD_FA_TYPE は自動的に ascend_laser_attention に設定されます。#2674 で修正済みです。

参考資料

CUDA 固有の最適化については、references/cuda.md を参照してください
ROCm セットアップの詳細については、references/rocm.md を参照してください
NPU 設定については、references/npu.md を参照してください
XPU セットアップについては、references/xpu.md を参照してください

ライセンス: Apache-2.0(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

vllm-omni-hardware

SKILL.md 本文