Anthropic ClaudeLLM・AI開発⭐ リポ 0品質スコア 50/100

tensorrt-llm

Name: tensorrt-llm
Author: davila7

NVIDIA TensorRT を使用してLLM推論を最適化し、最大スループットと最低レイテンシを実現するスキル。PyTorchと比較して10〜100倍の高速推論が必要な場合や、NVIDIA GPU（A100/H100）への本番デプロイ、FP8/INT4量子化・インフライトバッチング・マルチGPUスケーリングを用いたモデルサービングに活用できます。

description の原文を見る

Optimizes LLM inference with NVIDIA TensorRT for maximum throughput and lowest latency. Use for production deployment on NVIDIA GPUs (A100/H100), when you need 10-100x faster inference than PyTorch, or for serving models with quantization (FP8/INT4), in-flight batching, and multi-GPU scaling.

SKILL.md 本文

TensorRT-LLM

NVIDIAの NVIDIA GPUで最先端のパフォーマンスを発揮するLLM推論最適化オープンソースライブラリ。

TensorRT-LLMを使用する場合

TensorRT-LLMを使用してください:

NVIDIA GPU（A100、H100、GB200）にデプロイする場合
最大スループット（Llama 3で24,000+トークン/秒）が必要な場合
リアルタイムアプリケーション向けの低レイテンシが必要な場合
量子化モデル（FP8、INT4、FP4）を使用する場合
複数のGPUやノードにスケールする場合

代わりにvLLMを使用してください:

より簡単なセットアップとPythonファーストAPIが必要な場合
TensorRTコンパイルなしでPagedAttentionが必要な場合
AMD GPUまたはNVIDIA以外のハードウェアを使用する場合

代わりにllama.cppを使用してください:

CPUまたはApple Siliconにデプロイする場合
NVIDIA GPUなしのエッジデプロイメントが必要な場合
より簡単なGGUF量子化形式を使用したい場合

クイックスタート

インストール

# Docker（推奨）
docker pull nvidia/tensorrt_llm:latest

# pip install
pip install tensorrt_llm==1.2.0rc3

# CUDA 13.0.0、TensorRT 10.13.2、Python 3.10-3.12が必要

基本的な推論

from tensorrt_llm import LLM, SamplingParams

# モデルを初期化
llm = LLM(model="meta-llama/Meta-Llama-3-8B")

# サンプリングを設定
sampling_params = SamplingParams(
    max_tokens=100,
    temperature=0.7,
    top_p=0.9
)

# 生成
prompts = ["Explain quantum computing"]
outputs = llm.generate(prompts, sampling_params)

for output in outputs:
    print(output.text)

trtllm-serveでサービング

# サーバーを起動（モデルの自動ダウンロードとコンパイル）
trtllm-serve meta-llama/Meta-Llama-3-8B \
    --tp_size 4 \              # テンソル並列化（4GPU）
    --max_batch_size 256 \
    --max_num_tokens 4096

# クライアントリクエスト
curl -X POST http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "meta-llama/Meta-Llama-3-8B",
    "messages": [{"role": "user", "content": "Hello!"}],
    "temperature": 0.7,
    "max_tokens": 100
  }'

主な機能

パフォーマンス最適化

In-flight batching: 生成中の動的バッチング
Paged KV cache: 効率的なメモリ管理
Flash Attention: 最適化されたAttentionカーネル
量子化: FP8、INT4、FP4で2～4倍高速化
CUDAグラフ: カーネル起動オーバーヘッド削減

並列化

テンソル並列化（TP）: GPUをまたいでモデルを分割
パイプライン並列化（PP）: レイヤー単位での分散
エキスパート並列化: Mixture-of-Expertsモデル向け
マルチノード: シングルマシンを超えてスケール

高度な機能

スペキュラティブデコーディング: ドラフトモデルによる高速生成
LoRAサービング: 効率的なマルチアダプタデプロイメント
分散サービング: Prefillと生成の分離

よくあるパターン

量子化モデル（FP8）

from tensorrt_llm import LLM

# FP8量子化モデルをロード（2倍高速、50%メモリ削減）
llm = LLM(
    model="meta-llama/Meta-Llama-3-70B",
    dtype="fp8",
    max_num_tokens=8192
)

# 推論は前と同じ
outputs = llm.generate(["Summarize this article..."])

マルチGPUデプロイメント

# 8GPUをまたぐテンソル並列化
llm = LLM(
    model="meta-llama/Meta-Llama-3-405B",
    tensor_parallel_size=8,
    dtype="fp8"
)

バッチ推論

# 100個のプロンプトを効率的に処理
prompts = [f"Question {i}: ..." for i in range(100)]

outputs = llm.generate(
    prompts,
    sampling_params=SamplingParams(max_tokens=200)
)

# 最大スループットのための自動in-flight batching

パフォーマンスベンチマーク

Meta Llama 3-8B（H100 GPU）:

スループット: 24,000トークン/秒
レイテンシ: トークンあたり約10ms
PyTorchとの比較: 100倍高速

Llama 3-70B（8× A100 80GB）:

FP8量子化: FP16より2倍高速
メモリ: FP8で50%削減

サポート対象モデル

LLaMAファミリー: Llama 2、Llama 3、CodeLlama
GPTファミリー: GPT-2、GPT-J、GPT-NeoX
Qwen: Qwen、Qwen2、QwQ
DeepSeek: DeepSeek-V2、DeepSeek-V3
Mixtral: Mixtral-8x7B、Mixtral-8x22B
Vision: LLaVA、Phi-3-vision
100+モデル HuggingFaceで利用可能

リファレンス

Optimization Guide - 量子化、バッチング、KVキャッシュチューニング
Multi-GPU Setup - テンソル/パイプライン並列化、マルチノード
Serving Guide - 本番環境デプロイメント、モニタリング、オートスケーリング

リソース

ドキュメント: https://nvidia.github.io/TensorRT-LLM/
GitHub: https://github.com/NVIDIA/TensorRT-LLM
モデル: https://huggingface.co/models?library=tensorrt_llm

ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

詳細情報

作者: davila7
リポジトリ: davila7/claude-code-templates
ライセンス: MIT
最終更新: 不明

GitHubで原本を見る →フィードバックを送る

Source: https://github.com/davila7/claude-code-templates / ライセンス: MIT