transformers
事前学習済みTransformerモデルを使って自然言語処理・画像認識・音声・マルチモーダルタスクに取り組む際に使用するスキルです。テキスト生成、分類、質問応答、翻訳、要約、画像分類、物体検出、音声認識、カスタムデータセットでのファインチューニングなど幅広いタスクに対応します。
description の原文を見る
This skill should be used when working with pre-trained transformer models for natural language processing, computer vision, audio, or multimodal tasks. Use for text generation, classification, question answering, translation, summarization, image classification, object detection, speech recognition, and fine-tuning models on custom datasets.
SKILL.md 本文
Transformers
概要
Hugging Face Transformers ライブラリは、NLP、コンピュータビジョン、音声、マルチモーダルドメイン全体にわたる数千の事前学習モデルへのアクセスを提供します。このスキルを使用して、モデルを読み込み、推論を実行し、カスタムデータで微調整できます。
インストール
transformers とコア依存関係をインストールします:
uv pip install torch transformers datasets evaluate accelerate
ビジョンタスクの場合、以下を追加します:
uv pip install timm pillow
音声タスクの場合、以下を追加します:
uv pip install librosa soundfile
認証
Hugging Face Hub の多くのモデルには認証が必要です。アクセスを設定します:
from huggingface_hub import login
login() # Follow prompts to enter token
または環境変数を設定します:
export HUGGINGFACE_TOKEN="your_token_here"
トークンは以下から取得できます: https://huggingface.co/settings/tokens
クイックスタート
Pipeline API を使用して、手動設定なしで高速推論を実行します:
from transformers import pipeline
# Text generation
generator = pipeline("text-generation", model="gpt2")
result = generator("The future of AI is", max_length=50)
# Text classification
classifier = pipeline("text-classification")
result = classifier("This movie was excellent!")
# Question answering
qa = pipeline("question-answering")
result = qa(question="What is AI?", context="AI is artificial intelligence...")
コア機能
1. クイック推論用の Pipeline
多くのタスク全体で単純で最適化された推論に使用します。テキスト生成、分類、NER、質問応答、要約、翻訳、画像分類、物体検出、音声分類など多くのタスクに対応しています。
使用時期: クイックプロトタイピング、単純な推論タスク、カスタム前処理が不要な場合。
包括的なタスクカバレッジと最適化については references/pipelines.md を参照してください。
2. モデルの読み込みと管理
設定、デバイス配置、精度に対する細かい制御で事前学習モデルを読み込みます。
使用時期: カスタムモデル初期化、高度なデバイス管理、モデル検査。
読み込みパターンとベストプラクティスについては references/models.md を参照してください。
3. テキスト生成
様々なデコード戦略 (欲張り、ビームサーチ、サンプリング) と制御パラメータ (温度、top-k、top-p) を使用して LLM でテキストを生成します。
使用時期: クリエイティブなテキスト生成、コード生成、対話型 AI、テキスト補完。
生成戦略とパラメータについては references/generation.md を参照してください。
4. トレーニングと微調整
自動混合精度、分散トレーニング、ログ記録を備えた Trainer API を使用して、カスタムデータセットで事前学習モデルを微調整します。
使用時期: タスク固有のモデル適応、ドメイン適応、モデルパフォーマンスの向上。
トレーニングワークフローとベストプラクティスについては references/training.md を参照してください。
5. トークン化
テキストをモデル入力用のトークンとトークン ID に変換し、パディング、切り詰め、特殊トークン処理を行います。
使用時期: カスタム前処理パイプライン、モデル入力の理解、バッチ処理。
トークン化の詳細については references/tokenizers.md を参照してください。
一般的なパターン
パターン 1: シンプルな推論
単純なタスクの場合、Pipeline を使用します:
pipe = pipeline("task-name", model="model-id")
output = pipe(input_data)
パターン 2: カスタムモデルの使用
高度な制御の場合、モデルとトークナイザーを個別に読み込みます:
from transformers import AutoModelForCausalLM, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("model-id")
model = AutoModelForCausalLM.from_pretrained("model-id", device_map="auto")
inputs = tokenizer("text", return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=100)
result = tokenizer.decode(outputs[0])
パターン 3: 微調整
タスク適応の場合、Trainer を使用します:
from transformers import Trainer, TrainingArguments
training_args = TrainingArguments(
output_dir="./results",
num_train_epochs=3,
per_device_train_batch_size=8,
)
trainer = Trainer(
model=model,
args=training_args,
train_dataset=train_dataset,
)
trainer.train()
リファレンスドキュメント
特定のコンポーネントに関する詳細情報については以下を参照してください:
- Pipelines:
references/pipelines.md- すべてのサポートされているタスクと最適化 - Models:
references/models.md- 読み込み、保存、設定 - Generation:
references/generation.md- テキスト生成戦略とパラメータ - Training:
references/training.md- Trainer API による微調整 - Tokenizers:
references/tokenizers.md- トークン化と前処理
ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- davila7
- ライセンス
- MIT
- 最終更新
- 不明
Source: https://github.com/davila7/claude-code-templates / ライセンス: MIT
関連スキル
listenhub
あらゆることを説明できます。アイデアをポッドキャスト、解説動画、または音声ナレーションに変換します。 ユーザーが「ポッドキャストを作りたい」「解説動画を作成したい」「これを読み上げてほしい」「画像を生成したい」、または知識を音声・映像形式で共有したいときに使用します。トピックの説明、YouTubeリンク、記事URL、プレーンテキスト、画像プロンプトに対応しています。
best-youtube-video-editor
ClawHub上の「best-youtube-video-editor」スキルは、YouTube クリエイターのコンテンツ制作を革新します。タイムラインや複雑なソフトウェアを必要とせず、会話形式のAI駆動型ビデオ編集が可能です。無音部分のカット、チャプターマーカーの追加、字幕の挿入、ペーシングの調整、エクスポートの最適化——すべてが自然言語の指示で実現します。初回使用時には NemoVideo API を通じて認証情報を自動設定するため、有効化後数秒で編集を開始できます。YouTuber、教育関係者、ポッドキャスター、ブランドチャネル向けに開発され、品質を損なわず高速な納期対応が必要な方に最適です。mp4、mov、avi、webm、mkv 形式に対応しています。
video
ユーザーがAIツールやプログラマティックフレームワークを使用してビデオコンテンツを作成、生成、または制作したい場合に使用します。また、ユーザーが「ビデオ制作」「AIビデオ」「Remotion」「Hyperframes」「HeyGen」「Synthesia」「Veo」「Runway」「Kling」「Pika」「ビデオ生成」「AIアバター」「トーキングヘッドビデオ」「プログラマティックビデオ」「ビデオテンプレート」「解説ビデオ」「プロダクトデモビデオ」「ビデオパイプライン」または「ビデオを作ってほしい」と言及している場合にも使用します。ビデオ作成、生成、制作のワークフロー全般に対応できます。ビデオコンテンツの戦略や投稿内容については「social-content」を、有料ビデオ広告クリエイティブについては「ad-creative」をご参照ください。
clipify
ビデオから最も面白い瞬間を検出し、スタンドアロンクリップとしてカットできます。オプションで16:9から9:16へのリフォーマット(フェイスパンまたはスプリットスクリーン)に対応し、Opus風の単語ごとのキャプションを焼き込みます。ユーザーが「clipify」「このビデオからクリップをカットして」「これからショーツを作って」「面白い瞬間を見つけて」「9:16にリフレーミングして」「縦型クリップ」と言及したり、ビデオファイルパスを貼り付けてSNS対応のクリップを求める場合に使用します。
speech
ユーザーが音声生成、ナレーション、アクセシビリティ対応の読み上げ、音声プロンプト、またはOpenAI Audio APIによるバッチ音声生成をリクエストした場合に使用します。組み込みボイスを備えたバンドルCLI(`scripts/text_to_speech.py`)を実行でき、ライブ呼び出しには`OPENAI_API_KEY`が必要です。カスタムボイスの作成には対応していません。
depth-estimation
Depth Anything v2を使用したリアルタイム深度マップのプライバシー変換(CoreML + PyTorch対応) このスキルは、Depth Anything v2モデルを活用して、画像やビデオから取得した深度情報をリアルタイムで処理し、プライバシーを保護しながら変換します。CoreMLとPyTorchの両方に対応しており、エッジデバイスでの高速処理とクラウド環境での柔軟な運用が可能です。顔認識データのぼかしや背景の匿名化など、プライバシー関連の処理を効率的に実行できます。