transloadit-media-processing
Transloaditを使用して動画・音声・画像・ドキュメントなどのメディアファイルを処理します。動画のHLS/MP4エンコード、サムネイル生成、画像のリサイズや透かし追加、音声抽出、クリップの結合、字幕追加、ドキュメントのOCR処理など、あらゆるメディア変換パイプラインの実行が必要な場面で活用できます。大規模なファイル変換に対応した86種類以上の処理ロボットを網羅しています。
description の原文を見る
Process media files (video, audio, images, documents) using Transloadit. Use when asked to encode video to HLS/MP4, generate thumbnails, resize or watermark images, extract audio, concatenate clips, add subtitles, OCR documents, or run any media processing pipeline. Covers 86+ processing robots for file transformation at scale.
SKILL.md 本文
Transloadit メディア処理
Transloadit のクラウドインフラストラクチャを使用してメディアファイルを処理、変換、エンコードします。 ビデオ、オーディオ、画像、ドキュメントに対応した 86 以上の専門的な処理ロボットをサポートしています。
このスキルを使用する場合
以下が必要な場合にこのスキルを使用してください:
- ビデオを HLS、MP4、WebM などの形式にエンコードする
- ビデオからサムネイルやアニメーション GIF を生成する
- 画像をリサイズ、クロップ、ウォーターマーク、または最適化する
- 画像形式間の変換 (JPEG、PNG、WebP、AVIF、HEIF)
- オーディオを抽出またはトランスコード (MP3、AAC、FLAC、WAV)
- ビデオまたはオーディオクリップを連結する
- ビデオにサブタイトルまたはテキストオーバーレイを追加する
- ドキュメント OCR (PDF、スキャン済み画像)
- 音声テキスト変換またはテキスト音声変換を実行する
- AI ベースのコンテンツモデレーションまたはオブジェクト検出を適用する
- 複数のステップで操作をチェーンしたメディアパイプラインを構築する
セットアップ
オプション A: MCP サーバー (Copilot 推奨)
Transloadit MCP サーバーを IDE 設定に追加します。これにより、エージェントは Transloadit ツール (create_template、create_assembly、list_assembly_notifications など) に直接アクセスできます。
VS Code / GitHub Copilot (.vscode/mcp.json またはユーザー設定):
{
"servers": {
"transloadit": {
"command": "npx",
"args": ["-y", "@transloadit/mcp-server", "stdio"],
"env": {
"TRANSLOADIT_KEY": "YOUR_AUTH_KEY",
"TRANSLOADIT_SECRET": "YOUR_AUTH_SECRET"
}
}
}
}
API 認証情報は https://transloadit.com/c/-/api-credentials で取得してください。
オプション B: CLI
コマンドを直接実行する場合:
npx -y @transloadit/node assemblies create \
--steps '{"encoded": {"robot": "/video/encode", "use": ":original", "preset": "hls-1080p"}}' \
--wait \
--input ./my-video.mp4
コアワークフロー
ビデオを HLS にエンコード (適応型ストリーミング)
{
"steps": {
"encoded": {
"robot": "/video/encode",
"use": ":original",
"preset": "hls-1080p"
}
}
}
ビデオからサムネイルを生成
{
"steps": {
"thumbnails": {
"robot": "/video/thumbs",
"use": ":original",
"count": 8,
"width": 320,
"height": 240
}
}
}
画像をリサイズしてウォーターマークを追加
{
"steps": {
"resized": {
"robot": "/image/resize",
"use": ":original",
"width": 1200,
"height": 800,
"resize_strategy": "fit"
},
"watermarked": {
"robot": "/image/resize",
"use": "resized",
"watermark_url": "https://example.com/logo.png",
"watermark_position": "bottom-right",
"watermark_size": "15%"
}
}
}
ドキュメントを OCR
{
"steps": {
"recognized": {
"robot": "/document/ocr",
"use": ":original",
"provider": "aws",
"format": "text"
}
}
}
オーディオクリップを連結
{
"steps": {
"imported": {
"robot": "/http/import",
"url": ["https://example.com/clip1.mp3", "https://example.com/clip2.mp3"]
},
"concatenated": {
"robot": "/audio/concat",
"use": "imported",
"preset": "mp3"
}
}
}
マルチステップパイプライン
ステップは "use" フィールドを使用してチェーンできます。各ステップは前のステップの出力を参照します:
{
"steps": {
"resized": {
"robot": "/image/resize",
"use": ":original",
"width": 1920
},
"optimized": {
"robot": "/image/optimize",
"use": "resized"
},
"exported": {
"robot": "/s3/store",
"use": "optimized",
"bucket": "my-bucket",
"path": "processed/${file.name}"
}
}
}
主要な概念
- Assembly: 単一の処理ジョブ。
create_assembly(MCP) またはassemblies create(CLI) で作成します。 - Template: Transloadit に保存されたステップの再利用可能なセット。
create_template(MCP) またはtemplates create(CLI) で作成します。 - Robot: 処理ユニット (例:
/video/encode、/image/resize)。完全なリストは https://transloadit.com/docs/transcoding/ を参照してください。 - Steps: パイプラインを定義する JSON オブジェクト。各キーはステップ名で、各値がロボットを設定します。
:original: アップロードされた入力ファイルを参照します。
ヒント
- CLI で
--waitを使用すると、処理が完了するまでブロックします。 - すべてのパラメーターを指定する代わりに、
preset値 (例:"hls-1080p"、"mp3"、"webp") を使用して共通のフォーマットターゲットを指定します。 "use": "step_name"をチェーンして、中間ダウンロードなしでマルチステップパイプラインを構築します。- バッチ処理の場合、
/http/importを使用して URL、S3、GCS、Azure、FTP、または Dropbox からファイルをプルします。 - テンプレートには、assembly 作成時に渡される動的値の
${variables}を含めることができます。
ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- github
- ライセンス
- MIT
- 最終更新
- 不明
Source: https://github.com/github/awesome-copilot / ライセンス: MIT
関連スキル
listenhub
あらゆることを説明できます。アイデアをポッドキャスト、解説動画、または音声ナレーションに変換します。 ユーザーが「ポッドキャストを作りたい」「解説動画を作成したい」「これを読み上げてほしい」「画像を生成したい」、または知識を音声・映像形式で共有したいときに使用します。トピックの説明、YouTubeリンク、記事URL、プレーンテキスト、画像プロンプトに対応しています。
best-youtube-video-editor
ClawHub上の「best-youtube-video-editor」スキルは、YouTube クリエイターのコンテンツ制作を革新します。タイムラインや複雑なソフトウェアを必要とせず、会話形式のAI駆動型ビデオ編集が可能です。無音部分のカット、チャプターマーカーの追加、字幕の挿入、ペーシングの調整、エクスポートの最適化——すべてが自然言語の指示で実現します。初回使用時には NemoVideo API を通じて認証情報を自動設定するため、有効化後数秒で編集を開始できます。YouTuber、教育関係者、ポッドキャスター、ブランドチャネル向けに開発され、品質を損なわず高速な納期対応が必要な方に最適です。mp4、mov、avi、webm、mkv 形式に対応しています。
video
ユーザーがAIツールやプログラマティックフレームワークを使用してビデオコンテンツを作成、生成、または制作したい場合に使用します。また、ユーザーが「ビデオ制作」「AIビデオ」「Remotion」「Hyperframes」「HeyGen」「Synthesia」「Veo」「Runway」「Kling」「Pika」「ビデオ生成」「AIアバター」「トーキングヘッドビデオ」「プログラマティックビデオ」「ビデオテンプレート」「解説ビデオ」「プロダクトデモビデオ」「ビデオパイプライン」または「ビデオを作ってほしい」と言及している場合にも使用します。ビデオ作成、生成、制作のワークフロー全般に対応できます。ビデオコンテンツの戦略や投稿内容については「social-content」を、有料ビデオ広告クリエイティブについては「ad-creative」をご参照ください。
clipify
ビデオから最も面白い瞬間を検出し、スタンドアロンクリップとしてカットできます。オプションで16:9から9:16へのリフォーマット(フェイスパンまたはスプリットスクリーン)に対応し、Opus風の単語ごとのキャプションを焼き込みます。ユーザーが「clipify」「このビデオからクリップをカットして」「これからショーツを作って」「面白い瞬間を見つけて」「9:16にリフレーミングして」「縦型クリップ」と言及したり、ビデオファイルパスを貼り付けてSNS対応のクリップを求める場合に使用します。
speech
ユーザーが音声生成、ナレーション、アクセシビリティ対応の読み上げ、音声プロンプト、またはOpenAI Audio APIによるバッチ音声生成をリクエストした場合に使用します。組み込みボイスを備えたバンドルCLI(`scripts/text_to_speech.py`)を実行でき、ライブ呼び出しには`OPENAI_API_KEY`が必要です。カスタムボイスの作成には対応していません。
depth-estimation
Depth Anything v2を使用したリアルタイム深度マップのプライバシー変換(CoreML + PyTorch対応) このスキルは、Depth Anything v2モデルを活用して、画像やビデオから取得した深度情報をリアルタイムで処理し、プライバシーを保護しながら変換します。CoreMLとPyTorchの両方に対応しており、エッジデバイスでの高速処理とクラウド環境での柔軟な運用が可能です。顔認識データのぼかしや背景の匿名化など、プライバシー関連の処理を効率的に実行できます。