Agent Skills by ALSEL
Anthropic Claude音声・動画・メディア⭐ リポ 0品質スコア 50/100

transloadit-media-processing

Transloaditを使用して動画・音声・画像・ドキュメントなどのメディアファイルを処理します。動画のHLS/MP4エンコード、サムネイル生成、画像のリサイズや透かし追加、音声抽出、クリップの結合、字幕追加、ドキュメントのOCR処理など、あらゆるメディア変換パイプラインの実行が必要な場面で活用できます。大規模なファイル変換に対応した86種類以上の処理ロボットを網羅しています。

description の原文を見る

Process media files (video, audio, images, documents) using Transloadit. Use when asked to encode video to HLS/MP4, generate thumbnails, resize or watermark images, extract audio, concatenate clips, add subtitles, OCR documents, or run any media processing pipeline. Covers 86+ processing robots for file transformation at scale.

SKILL.md 本文

Transloadit メディア処理

Transloadit のクラウドインフラストラクチャを使用してメディアファイルを処理、変換、エンコードします。 ビデオ、オーディオ、画像、ドキュメントに対応した 86 以上の専門的な処理ロボットをサポートしています。

このスキルを使用する場合

以下が必要な場合にこのスキルを使用してください:

  • ビデオを HLS、MP4、WebM などの形式にエンコードする
  • ビデオからサムネイルやアニメーション GIF を生成する
  • 画像をリサイズ、クロップ、ウォーターマーク、または最適化する
  • 画像形式間の変換 (JPEG、PNG、WebP、AVIF、HEIF)
  • オーディオを抽出またはトランスコード (MP3、AAC、FLAC、WAV)
  • ビデオまたはオーディオクリップを連結する
  • ビデオにサブタイトルまたはテキストオーバーレイを追加する
  • ドキュメント OCR (PDF、スキャン済み画像)
  • 音声テキスト変換またはテキスト音声変換を実行する
  • AI ベースのコンテンツモデレーションまたはオブジェクト検出を適用する
  • 複数のステップで操作をチェーンしたメディアパイプラインを構築する

セットアップ

オプション A: MCP サーバー (Copilot 推奨)

Transloadit MCP サーバーを IDE 設定に追加します。これにより、エージェントは Transloadit ツール (create_templatecreate_assemblylist_assembly_notifications など) に直接アクセスできます。

VS Code / GitHub Copilot (.vscode/mcp.json またはユーザー設定):

{
  "servers": {
    "transloadit": {
      "command": "npx",
      "args": ["-y", "@transloadit/mcp-server", "stdio"],
      "env": {
        "TRANSLOADIT_KEY": "YOUR_AUTH_KEY",
        "TRANSLOADIT_SECRET": "YOUR_AUTH_SECRET"
      }
    }
  }
}

API 認証情報は https://transloadit.com/c/-/api-credentials で取得してください。

オプション B: CLI

コマンドを直接実行する場合:

npx -y @transloadit/node assemblies create \
  --steps '{"encoded": {"robot": "/video/encode", "use": ":original", "preset": "hls-1080p"}}' \
  --wait \
  --input ./my-video.mp4

コアワークフロー

ビデオを HLS にエンコード (適応型ストリーミング)

{
  "steps": {
    "encoded": {
      "robot": "/video/encode",
      "use": ":original",
      "preset": "hls-1080p"
    }
  }
}

ビデオからサムネイルを生成

{
  "steps": {
    "thumbnails": {
      "robot": "/video/thumbs",
      "use": ":original",
      "count": 8,
      "width": 320,
      "height": 240
    }
  }
}

画像をリサイズしてウォーターマークを追加

{
  "steps": {
    "resized": {
      "robot": "/image/resize",
      "use": ":original",
      "width": 1200,
      "height": 800,
      "resize_strategy": "fit"
    },
    "watermarked": {
      "robot": "/image/resize",
      "use": "resized",
      "watermark_url": "https://example.com/logo.png",
      "watermark_position": "bottom-right",
      "watermark_size": "15%"
    }
  }
}

ドキュメントを OCR

{
  "steps": {
    "recognized": {
      "robot": "/document/ocr",
      "use": ":original",
      "provider": "aws",
      "format": "text"
    }
  }
}

オーディオクリップを連結

{
  "steps": {
    "imported": {
      "robot": "/http/import",
      "url": ["https://example.com/clip1.mp3", "https://example.com/clip2.mp3"]
    },
    "concatenated": {
      "robot": "/audio/concat",
      "use": "imported",
      "preset": "mp3"
    }
  }
}

マルチステップパイプライン

ステップは "use" フィールドを使用してチェーンできます。各ステップは前のステップの出力を参照します:

{
  "steps": {
    "resized": {
      "robot": "/image/resize",
      "use": ":original",
      "width": 1920
    },
    "optimized": {
      "robot": "/image/optimize",
      "use": "resized"
    },
    "exported": {
      "robot": "/s3/store",
      "use": "optimized",
      "bucket": "my-bucket",
      "path": "processed/${file.name}"
    }
  }
}

主要な概念

  • Assembly: 単一の処理ジョブ。create_assembly (MCP) または assemblies create (CLI) で作成します。
  • Template: Transloadit に保存されたステップの再利用可能なセット。create_template (MCP) または templates create (CLI) で作成します。
  • Robot: 処理ユニット (例: /video/encode/image/resize)。完全なリストは https://transloadit.com/docs/transcoding/ を参照してください。
  • Steps: パイプラインを定義する JSON オブジェクト。各キーはステップ名で、各値がロボットを設定します。
  • :original: アップロードされた入力ファイルを参照します。

ヒント

  • CLI で --wait を使用すると、処理が完了するまでブロックします。
  • すべてのパラメーターを指定する代わりに、preset 値 (例: "hls-1080p""mp3""webp") を使用して共通のフォーマットターゲットを指定します。
  • "use": "step_name" をチェーンして、中間ダウンロードなしでマルチステップパイプラインを構築します。
  • バッチ処理の場合、/http/import を使用して URL、S3、GCS、Azure、FTP、または Dropbox からファイルをプルします。
  • テンプレートには、assembly 作成時に渡される動的値の ${variables} を含めることができます。

ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

詳細情報

作者
github
リポジトリ
github/awesome-copilot
ライセンス
MIT
最終更新
不明

Source: https://github.com/github/awesome-copilot / ライセンス: MIT

関連スキル

汎用音声・動画・メディア⭐ リポ 1,982

listenhub

あらゆることを説明できます。アイデアをポッドキャスト、解説動画、または音声ナレーションに変換します。 ユーザーが「ポッドキャストを作りたい」「解説動画を作成したい」「これを読み上げてほしい」「画像を生成したい」、または知識を音声・映像形式で共有したいときに使用します。トピックの説明、YouTubeリンク、記事URL、プレーンテキスト、画像プロンプトに対応しています。

by LeoYeAI
汎用音声・動画・メディア⭐ リポ 1,982

best-youtube-video-editor

ClawHub上の「best-youtube-video-editor」スキルは、YouTube クリエイターのコンテンツ制作を革新します。タイムラインや複雑なソフトウェアを必要とせず、会話形式のAI駆動型ビデオ編集が可能です。無音部分のカット、チャプターマーカーの追加、字幕の挿入、ペーシングの調整、エクスポートの最適化——すべてが自然言語の指示で実現します。初回使用時には NemoVideo API を通じて認証情報を自動設定するため、有効化後数秒で編集を開始できます。YouTuber、教育関係者、ポッドキャスター、ブランドチャネル向けに開発され、品質を損なわず高速な納期対応が必要な方に最適です。mp4、mov、avi、webm、mkv 形式に対応しています。

by LeoYeAI
汎用音声・動画・メディア⭐ リポ 27,990

video

ユーザーがAIツールやプログラマティックフレームワークを使用してビデオコンテンツを作成、生成、または制作したい場合に使用します。また、ユーザーが「ビデオ制作」「AIビデオ」「Remotion」「Hyperframes」「HeyGen」「Synthesia」「Veo」「Runway」「Kling」「Pika」「ビデオ生成」「AIアバター」「トーキングヘッドビデオ」「プログラマティックビデオ」「ビデオテンプレート」「解説ビデオ」「プロダクトデモビデオ」「ビデオパイプライン」または「ビデオを作ってほしい」と言及している場合にも使用します。ビデオ作成、生成、制作のワークフロー全般に対応できます。ビデオコンテンツの戦略や投稿内容については「social-content」を、有料ビデオ広告クリエイティブについては「ad-creative」をご参照ください。

by coreyhaines31
汎用音声・動画・メディア⭐ リポ 317

clipify

ビデオから最も面白い瞬間を検出し、スタンドアロンクリップとしてカットできます。オプションで16:9から9:16へのリフォーマット(フェイスパンまたはスプリットスクリーン)に対応し、Opus風の単語ごとのキャプションを焼き込みます。ユーザーが「clipify」「このビデオからクリップをカットして」「これからショーツを作って」「面白い瞬間を見つけて」「9:16にリフレーミングして」「縦型クリップ」と言及したり、ビデオファイルパスを貼り付けてSNS対応のクリップを求める場合に使用します。

by louisedesadeleer
OpenAI音声・動画・メディア⭐ リポ 18,898

speech

ユーザーが音声生成、ナレーション、アクセシビリティ対応の読み上げ、音声プロンプト、またはOpenAI Audio APIによるバッチ音声生成をリクエストした場合に使用します。組み込みボイスを備えたバンドルCLI(`scripts/text_to_speech.py`)を実行でき、ライブ呼び出しには`OPENAI_API_KEY`が必要です。カスタムボイスの作成には対応していません。

by openai
汎用音声・動画・メディア⭐ リポ 2,743

depth-estimation

Depth Anything v2を使用したリアルタイム深度マップのプライバシー変換(CoreML + PyTorch対応) このスキルは、Depth Anything v2モデルを活用して、画像やビデオから取得した深度情報をリアルタイムで処理し、プライバシーを保護しながら変換します。CoreMLとPyTorchの両方に対応しており、エッジデバイスでの高速処理とクラウド環境での柔軟な運用が可能です。顔認識データのぼかしや背景の匿名化など、プライバシー関連の処理を効率的に実行できます。

by SharpAI
本サイトは GitHub 上で公開されているオープンソースの SKILL.md ファイルをクロール・インデックス化したものです。 各スキルの著作権は原作者に帰属します。掲載に問題がある場合は info@alsel.co.jp または /takedown フォームよりご連絡ください。
原作者: github · github/awesome-copilot · ライセンス: MIT