tensorrt-llm
NVIDIA TensorRT を使用してLLM推論を最適化し、最大スループットと最低レイテンシを実現するスキル。PyTorchと比較して10〜100倍の高速推論が必要な場合や、NVIDIA GPU(A100/H100)への本番デプロイ、FP8/INT4量子化・インフライトバッチング・マルチGPUスケーリングを用いたモデルサービングに活用できます。
description の原文を見る
Optimizes LLM inference with NVIDIA TensorRT for maximum throughput and lowest latency. Use for production deployment on NVIDIA GPUs (A100/H100), when you need 10-100x faster inference than PyTorch, or for serving models with quantization (FP8/INT4), in-flight batching, and multi-GPU scaling.
SKILL.md 本文
TensorRT-LLM
NVIDIAの NVIDIA GPUで最先端のパフォーマンスを発揮するLLM推論最適化オープンソースライブラリ。
TensorRT-LLMを使用する場合
TensorRT-LLMを使用してください:
- NVIDIA GPU(A100、H100、GB200)にデプロイする場合
- 最大スループット(Llama 3で24,000+トークン/秒)が必要な場合
- リアルタイムアプリケーション向けの低レイテンシが必要な場合
- 量子化モデル(FP8、INT4、FP4)を使用する場合
- 複数のGPUやノードにスケールする場合
代わりにvLLMを使用してください:
- より簡単なセットアップとPythonファーストAPIが必要な場合
- TensorRTコンパイルなしでPagedAttentionが必要な場合
- AMD GPUまたはNVIDIA以外のハードウェアを使用する場合
代わりにllama.cppを使用してください:
- CPUまたはApple Siliconにデプロイする場合
- NVIDIA GPUなしのエッジデプロイメントが必要な場合
- より簡単なGGUF量子化形式を使用したい場合
クイックスタート
インストール
# Docker(推奨)
docker pull nvidia/tensorrt_llm:latest
# pip install
pip install tensorrt_llm==1.2.0rc3
# CUDA 13.0.0、TensorRT 10.13.2、Python 3.10-3.12が必要
基本的な推論
from tensorrt_llm import LLM, SamplingParams
# モデルを初期化
llm = LLM(model="meta-llama/Meta-Llama-3-8B")
# サンプリングを設定
sampling_params = SamplingParams(
max_tokens=100,
temperature=0.7,
top_p=0.9
)
# 生成
prompts = ["Explain quantum computing"]
outputs = llm.generate(prompts, sampling_params)
for output in outputs:
print(output.text)
trtllm-serveでサービング
# サーバーを起動(モデルの自動ダウンロードとコンパイル)
trtllm-serve meta-llama/Meta-Llama-3-8B \
--tp_size 4 \ # テンソル並列化(4GPU)
--max_batch_size 256 \
--max_num_tokens 4096
# クライアントリクエスト
curl -X POST http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "meta-llama/Meta-Llama-3-8B",
"messages": [{"role": "user", "content": "Hello!"}],
"temperature": 0.7,
"max_tokens": 100
}'
主な機能
パフォーマンス最適化
- In-flight batching: 生成中の動的バッチング
- Paged KV cache: 効率的なメモリ管理
- Flash Attention: 最適化されたAttentionカーネル
- 量子化: FP8、INT4、FP4で2~4倍高速化
- CUDAグラフ: カーネル起動オーバーヘッド削減
並列化
- テンソル並列化(TP): GPUをまたいでモデルを分割
- パイプライン並列化(PP): レイヤー単位での分散
- エキスパート並列化: Mixture-of-Expertsモデル向け
- マルチノード: シングルマシンを超えてスケール
高度な機能
- スペキュラティブデコーディング: ドラフトモデルによる高速生成
- LoRAサービング: 効率的なマルチアダプタデプロイメント
- 分散サービング: Prefillと生成の分離
よくあるパターン
量子化モデル(FP8)
from tensorrt_llm import LLM
# FP8量子化モデルをロード(2倍高速、50%メモリ削減)
llm = LLM(
model="meta-llama/Meta-Llama-3-70B",
dtype="fp8",
max_num_tokens=8192
)
# 推論は前と同じ
outputs = llm.generate(["Summarize this article..."])
マルチGPUデプロイメント
# 8GPUをまたぐテンソル並列化
llm = LLM(
model="meta-llama/Meta-Llama-3-405B",
tensor_parallel_size=8,
dtype="fp8"
)
バッチ推論
# 100個のプロンプトを効率的に処理
prompts = [f"Question {i}: ..." for i in range(100)]
outputs = llm.generate(
prompts,
sampling_params=SamplingParams(max_tokens=200)
)
# 最大スループットのための自動in-flight batching
パフォーマンスベンチマーク
Meta Llama 3-8B(H100 GPU):
- スループット: 24,000トークン/秒
- レイテンシ: トークンあたり約10ms
- PyTorchとの比較: 100倍高速
Llama 3-70B(8× A100 80GB):
- FP8量子化: FP16より2倍高速
- メモリ: FP8で50%削減
サポート対象モデル
- LLaMAファミリー: Llama 2、Llama 3、CodeLlama
- GPTファミリー: GPT-2、GPT-J、GPT-NeoX
- Qwen: Qwen、Qwen2、QwQ
- DeepSeek: DeepSeek-V2、DeepSeek-V3
- Mixtral: Mixtral-8x7B、Mixtral-8x22B
- Vision: LLaVA、Phi-3-vision
- 100+モデル HuggingFaceで利用可能
リファレンス
Optimization Guide- 量子化、バッチング、KVキャッシュチューニングMulti-GPU Setup- テンソル/パイプライン並列化、マルチノードServing Guide- 本番環境デプロイメント、モニタリング、オートスケーリング
リソース
ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- davila7
- ライセンス
- MIT
- 最終更新
- 不明
Source: https://github.com/davila7/claude-code-templates / ライセンス: MIT
関連スキル
agent-browser
AI エージェント向けのブラウザ自動化 CLI です。ウェブサイトとの対話が必要な場合に使用します。ページ遷移、フォーム入力、ボタンクリック、スクリーンショット取得、データ抽出、ウェブアプリのテスト、ブラウザ操作の自動化など、あらゆるブラウザタスクに対応できます。「ウェブサイトを開く」「フォームに記入する」「ボタンをクリックする」「スクリーンショットを取得する」「ページからデータを抽出する」「このウェブアプリをテストする」「サイトにログインする」「ブラウザ操作を自動化する」といった要求や、プログラマティックなウェブ操作が必要なタスクで起動します。
anyskill
AnySkill — あなたのプライベート・スキルクラウド。GitHubを基盤としたリポジトリからエージェントスキルを管理、同期、動的にロードできます。自然言語でクラウドスキルを検索し、オンデマンドでプロンプトを自動ロード、カスタムスキルのアップロードと共有、スキルバンドルの一括インストールが可能です。OpenClaw、Antigravity、Claude Code、Cursorに対応しています。
engram
AIエージェント向けの永続的なメモリシステムです。バグ修正、意思決定、発見、設定変更の後はmem_saveを使用してください。ユーザーが「覚えている」「記憶している」と言及した場合、または以前のセッションと重複する作業を開始する際はmem_searchを使用します。セッション終了前にmem_session_summaryを使用して、コンテキストを保持してください。
skyvern
AI駆動のブラウザ自動化により、任意のウェブサイトを自動化できます。フォーム入力、データ抽出、ファイルダウンロード、ログイン、複数ステップのワークフロー実行など、ユーザーがウェブサイトと連携する必要があるときに使用します。Skyvernは、LLMとコンピュータビジョンを活用して、未知のサイトも自動操作可能です。Python SDK、TypeScript SDK、REST API、MCPサーバー、またはCLIを通じて統合できます。
pinchbench
PinchBenchベンチマークを実行して、OpenClawエージェントの実世界タスクにおけるパフォーマンスを評価できます。モデルの機能テスト、モデル間の比較、ベンチマーク結果のリーダーボード提出、またはOpenClawのセットアップがカレンダー、メール、リサーチ、コーディング、複数ステップのワークフローにどの程度対応しているかを確認する際に使用します。
openui
OpenUIとOpenUI Langを使用してジェネレーティブUIアプリを構築できます。これらはLLM生成インターフェースのためのトークン効率的なオープン標準です。OpenUI、@openuidev、ジェネレーティブUI、LLMからのストリーミングUI、AI向けコンポーネントライブラリ、またはjson-render/A2UIの置き換えについて述べる際に使用します。スキャフォルディング、defineComponent、システムプロンプト、Renderer、およびOpenUI Lang出力のデバッグに対応しています。