Agent Skills by ALSEL
Anthropic ClaudeLLM・AI開発⭐ リポ 0品質スコア 50/100

tensorrt-llm

NVIDIA TensorRT を使用してLLM推論を最適化し、最大スループットと最低レイテンシを実現するスキル。PyTorchと比較して10〜100倍の高速推論が必要な場合や、NVIDIA GPU(A100/H100)への本番デプロイ、FP8/INT4量子化・インフライトバッチング・マルチGPUスケーリングを用いたモデルサービングに活用できます。

description の原文を見る

Optimizes LLM inference with NVIDIA TensorRT for maximum throughput and lowest latency. Use for production deployment on NVIDIA GPUs (A100/H100), when you need 10-100x faster inference than PyTorch, or for serving models with quantization (FP8/INT4), in-flight batching, and multi-GPU scaling.

SKILL.md 本文

TensorRT-LLM

NVIDIAの NVIDIA GPUで最先端のパフォーマンスを発揮するLLM推論最適化オープンソースライブラリ。

TensorRT-LLMを使用する場合

TensorRT-LLMを使用してください:

  • NVIDIA GPU(A100、H100、GB200)にデプロイする場合
  • 最大スループット(Llama 3で24,000+トークン/秒)が必要な場合
  • リアルタイムアプリケーション向けの低レイテンシが必要な場合
  • 量子化モデル(FP8、INT4、FP4)を使用する場合
  • 複数のGPUやノードにスケールする場合

代わりにvLLMを使用してください:

  • より簡単なセットアップとPythonファーストAPIが必要な場合
  • TensorRTコンパイルなしでPagedAttentionが必要な場合
  • AMD GPUまたはNVIDIA以外のハードウェアを使用する場合

代わりにllama.cppを使用してください:

  • CPUまたはApple Siliconにデプロイする場合
  • NVIDIA GPUなしのエッジデプロイメントが必要な場合
  • より簡単なGGUF量子化形式を使用したい場合

クイックスタート

インストール

# Docker(推奨)
docker pull nvidia/tensorrt_llm:latest

# pip install
pip install tensorrt_llm==1.2.0rc3

# CUDA 13.0.0、TensorRT 10.13.2、Python 3.10-3.12が必要

基本的な推論

from tensorrt_llm import LLM, SamplingParams

# モデルを初期化
llm = LLM(model="meta-llama/Meta-Llama-3-8B")

# サンプリングを設定
sampling_params = SamplingParams(
    max_tokens=100,
    temperature=0.7,
    top_p=0.9
)

# 生成
prompts = ["Explain quantum computing"]
outputs = llm.generate(prompts, sampling_params)

for output in outputs:
    print(output.text)

trtllm-serveでサービング

# サーバーを起動(モデルの自動ダウンロードとコンパイル)
trtllm-serve meta-llama/Meta-Llama-3-8B \
    --tp_size 4 \              # テンソル並列化(4GPU)
    --max_batch_size 256 \
    --max_num_tokens 4096

# クライアントリクエスト
curl -X POST http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "meta-llama/Meta-Llama-3-8B",
    "messages": [{"role": "user", "content": "Hello!"}],
    "temperature": 0.7,
    "max_tokens": 100
  }'

主な機能

パフォーマンス最適化

  • In-flight batching: 生成中の動的バッチング
  • Paged KV cache: 効率的なメモリ管理
  • Flash Attention: 最適化されたAttentionカーネル
  • 量子化: FP8、INT4、FP4で2~4倍高速化
  • CUDAグラフ: カーネル起動オーバーヘッド削減

並列化

  • テンソル並列化(TP): GPUをまたいでモデルを分割
  • パイプライン並列化(PP): レイヤー単位での分散
  • エキスパート並列化: Mixture-of-Expertsモデル向け
  • マルチノード: シングルマシンを超えてスケール

高度な機能

  • スペキュラティブデコーディング: ドラフトモデルによる高速生成
  • LoRAサービング: 効率的なマルチアダプタデプロイメント
  • 分散サービング: Prefillと生成の分離

よくあるパターン

量子化モデル(FP8)

from tensorrt_llm import LLM

# FP8量子化モデルをロード(2倍高速、50%メモリ削減)
llm = LLM(
    model="meta-llama/Meta-Llama-3-70B",
    dtype="fp8",
    max_num_tokens=8192
)

# 推論は前と同じ
outputs = llm.generate(["Summarize this article..."])

マルチGPUデプロイメント

# 8GPUをまたぐテンソル並列化
llm = LLM(
    model="meta-llama/Meta-Llama-3-405B",
    tensor_parallel_size=8,
    dtype="fp8"
)

バッチ推論

# 100個のプロンプトを効率的に処理
prompts = [f"Question {i}: ..." for i in range(100)]

outputs = llm.generate(
    prompts,
    sampling_params=SamplingParams(max_tokens=200)
)

# 最大スループットのための自動in-flight batching

パフォーマンスベンチマーク

Meta Llama 3-8B(H100 GPU):

  • スループット: 24,000トークン/秒
  • レイテンシ: トークンあたり約10ms
  • PyTorchとの比較: 100倍高速

Llama 3-70B(8× A100 80GB):

  • FP8量子化: FP16より2倍高速
  • メモリ: FP8で50%削減

サポート対象モデル

  • LLaMAファミリー: Llama 2、Llama 3、CodeLlama
  • GPTファミリー: GPT-2、GPT-J、GPT-NeoX
  • Qwen: Qwen、Qwen2、QwQ
  • DeepSeek: DeepSeek-V2、DeepSeek-V3
  • Mixtral: Mixtral-8x7B、Mixtral-8x22B
  • Vision: LLaVA、Phi-3-vision
  • 100+モデル HuggingFaceで利用可能

リファレンス

  • Optimization Guide - 量子化、バッチング、KVキャッシュチューニング
  • Multi-GPU Setup - テンソル/パイプライン並列化、マルチノード
  • Serving Guide - 本番環境デプロイメント、モニタリング、オートスケーリング

リソース

ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

詳細情報

作者
davila7
リポジトリ
davila7/claude-code-templates
ライセンス
MIT
最終更新
不明

Source: https://github.com/davila7/claude-code-templates / ライセンス: MIT

関連スキル

OpenAILLM・AI開発⭐ リポ 6,054

agent-browser

AI エージェント向けのブラウザ自動化 CLI です。ウェブサイトとの対話が必要な場合に使用します。ページ遷移、フォーム入力、ボタンクリック、スクリーンショット取得、データ抽出、ウェブアプリのテスト、ブラウザ操作の自動化など、あらゆるブラウザタスクに対応できます。「ウェブサイトを開く」「フォームに記入する」「ボタンをクリックする」「スクリーンショットを取得する」「ページからデータを抽出する」「このウェブアプリをテストする」「サイトにログインする」「ブラウザ操作を自動化する」といった要求や、プログラマティックなウェブ操作が必要なタスクで起動します。

by JimmyLv
汎用LLM・AI開発⭐ リポ 1,982

anyskill

AnySkill — あなたのプライベート・スキルクラウド。GitHubを基盤としたリポジトリからエージェントスキルを管理、同期、動的にロードできます。自然言語でクラウドスキルを検索し、オンデマンドでプロンプトを自動ロード、カスタムスキルのアップロードと共有、スキルバンドルの一括インストールが可能です。OpenClaw、Antigravity、Claude Code、Cursorに対応しています。

by LeoYeAI
汎用LLM・AI開発⭐ リポ 1,982

engram

AIエージェント向けの永続的なメモリシステムです。バグ修正、意思決定、発見、設定変更の後はmem_saveを使用してください。ユーザーが「覚えている」「記憶している」と言及した場合、または以前のセッションと重複する作業を開始する際はmem_searchを使用します。セッション終了前にmem_session_summaryを使用して、コンテキストを保持してください。

by LeoYeAI
汎用LLM・AI開発⭐ リポ 21,584

skyvern

AI駆動のブラウザ自動化により、任意のウェブサイトを自動化できます。フォーム入力、データ抽出、ファイルダウンロード、ログイン、複数ステップのワークフロー実行など、ユーザーがウェブサイトと連携する必要があるときに使用します。Skyvernは、LLMとコンピュータビジョンを活用して、未知のサイトも自動操作可能です。Python SDK、TypeScript SDK、REST API、MCPサーバー、またはCLIを通じて統合できます。

by Skyvern-AI
汎用LLM・AI開発⭐ リポ 1,149

pinchbench

PinchBenchベンチマークを実行して、OpenClawエージェントの実世界タスクにおけるパフォーマンスを評価できます。モデルの機能テスト、モデル間の比較、ベンチマーク結果のリーダーボード提出、またはOpenClawのセットアップがカレンダー、メール、リサーチ、コーディング、複数ステップのワークフローにどの程度対応しているかを確認する際に使用します。

by pinchbench
汎用LLM・AI開発⭐ リポ 4,693

openui

OpenUIとOpenUI Langを使用してジェネレーティブUIアプリを構築できます。これらはLLM生成インターフェースのためのトークン効率的なオープン標準です。OpenUI、@openuidev、ジェネレーティブUI、LLMからのストリーミングUI、AI向けコンポーネントライブラリ、またはjson-render/A2UIの置き換えについて述べる際に使用します。スキャフォルディング、defineComponent、システムプロンプト、Renderer、およびOpenUI Lang出力のデバッグに対応しています。

by thesysdev
本サイトは GitHub 上で公開されているオープンソースの SKILL.md ファイルをクロール・インデックス化したものです。 各スキルの著作権は原作者に帰属します。掲載に問題がある場合は info@alsel.co.jp または /takedown フォームよりご連絡ください。
原作者: davila7 · davila7/claude-code-templates · ライセンス: MIT