Agent Skills by ALSEL
汎用LLM・AI開発⭐ リポ 62品質スコア 82/100

vllm-omni-hardware

vLLM-OmniをNVIDIA CUDA、AMD ROCm、Huawei NPU、Intel XPUなど、複数のハードウェアバックエンドに対応させて設定できます。ハードウェアバックエンドの選択、GPU関連の問題解決、デバイス配置の設定、特定のアクセラレーターへの最適化が必要な場合に利用してください。

description の原文を見る

Configure vLLM-Omni for different hardware backends including NVIDIA CUDA, AMD ROCm, Huawei NPU, and Intel XPU. Use when selecting a hardware backend, troubleshooting GPU issues, configuring device placement, or optimizing for specific accelerators.

SKILL.md 本文

vLLM-Omni ハードウェア設定

概要

vLLM-Omni は4つのハードウェアバックエンドに対応しています:NVIDIA CUDA(デフォルト)、AMD ROCm、Huawei NPU(Ascend)、Intel XPU。各バックエンドには固有のインストール手順と設定オプションがあります。

サポートされているバックエンド

バックエンドアクセラレータインストール方法成熟度
CUDANVIDIA A100/H100/L40/RTXuv pip install vllm==$VLLM_VERSION本番環境対応
ROCmAMD MI300X/MI250Xuv pip install vllm==$VLLM_VERSION --extra-index-url ...本番環境対応
NPUHuawei Ascend 910BCANN を使用したソースビルドサポート対象
XPUIntel Data Center GPU MaxoneAPI を使用したソースビルド実験的

バックエンド選択ワークフロー

ステップ1:ハードウェアを特定する

# NVIDIA GPU
nvidia-smi

# AMD GPU
rocm-smi

# Huawei NPU
npu-smi info

# Intel XPU
xpu-smi discovery

ステップ2:バックエンド向けにインストール

CUDA(NVIDIA):

uv pip install vllm==$VLLM_VERSION --torch-backend=auto

ROCm(AMD):

uv pip install vllm==$VLLM_VERSION --extra-index-url https://wheels.vllm.ai/rocm/$VLLM_VERSION/rocm700

NPU(Huawei):

# CANN ツールキットが事前インストールされていることが必要です
git clone https://github.com/vllm-project/vllm-omni.git
cd vllm-omni
pip install -e ".[npu]"

XPU(Intel):

# oneAPI ツールキットが事前インストールされていることが必要です
git clone https://github.com/vllm-project/vllm-omni.git
cd vllm-omni
pip install -e ".[xpu]"

ステップ3:バックエンドを確認

import torch

# CUDA
print(f"CUDA available: {torch.cuda.is_available()}")
print(f"GPU count: {torch.cuda.device_count()}")

# ROCm (HIP 経由で CUDA と同じ API)
print(f"ROCm/HIP available: {torch.cuda.is_available()}")

# XPU
print(f"XPU available: {torch.xpu.is_available()}")

デバイス選択

vLLM-Omni が使用するデバイスを制御します:

# CUDA: 特定の GPU を選択
CUDA_VISIBLE_DEVICES=0,1 vllm serve <model> --omni

# ROCm: 特定の GPU を選択
HIP_VISIBLE_DEVICES=0,1 vllm serve <model> --omni

# NPU: 特定のデバイスを選択
ASCEND_RT_VISIBLE_DEVICES=0,1 vllm serve <model> --omni

バックエンド別モデルサポート

すべてのモデルがすべてのバックエンドでサポートされているわけではありません。サポートマトリックスを確認してください:

モデルCUDAROCmNPUXPU
Qwen3-OmniYesYesYesNo
Qwen2.5-OmniYesYesYesNo
Qwen-ImageYesYesYesNo
Z-ImageYesYesYesNo
BAGELYesYesNoNo
Wan2.2YesYesYesNo
FLUXYesYesYesNo
Qwen3-TTSYesYesYesNo
Stable-Diffusion-3YesYesNoNo
Stable-AudioYesNoNoNo

トラブルシューティング

CUDA メモリ不足: --gpu-memory-utilization を削減するか、複数の GPU にまたがるテンソル並列化を使用してください。

ROCm カーネルコンパイルが遅い: 最初の実行時に GPU 向けのカーネルをコンパイルします。以降の実行はキャッシュされたカーネルを再利用します。永続的なカーネルキャッシュについては MIOPEN_USER_DB_PATH を設定してください。

NPU オペレータがサポートされていない: NPU ではいくつかの操作が CPU にフォールバックします。フォールバック警告についてはログを確認し、CANN を最新バージョンにアップデートしてください。

NPU LaserAttention がサポートされていないエラー: Ascend NPU と mindiesd を使用している場合、拡散注意バックエンド(--diffusion-attn-backend FLASH_ATTN)として FLASH_ATTN を選択すると、ASCEND_CUSTOM_OPP_PATH を設定するために mindiesd が自動的にインポートされます。内部環境変数 MINDIE_SD_FA_TYPE は自動的に ascend_laser_attention に設定されます。#2674 で修正済みです。

参考資料

ライセンス: Apache-2.0(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

詳細情報

作者
hsliuustc0106
リポジトリ
hsliuustc0106/vllm-omni-skills
ライセンス
Apache-2.0
最終更新
2026/5/11

Source: https://github.com/hsliuustc0106/vllm-omni-skills / ライセンス: Apache-2.0

本サイトは GitHub 上で公開されているオープンソースの SKILL.md ファイルをクロール・インデックス化したものです。 各スキルの著作権は原作者に帰属します。掲載に問題がある場合は info@alsel.co.jp または /takedown フォームよりご連絡ください。
原作者: hsliuustc0106 · hsliuustc0106/vllm-omni-skills · ライセンス: Apache-2.0