Agent Skills by ALSEL
汎用音声・動画・メディア⭐ リポ 34品質スコア 70/100

runwayml

Runway APIを使用して、AI動画、画像、音声を生成できます。画像から動画への変換、テキストから動画への生成、動画から動画への変換、キャラクターパフォーマンス、テキストから画像への生成、テキストから音声への変換、効果音、音声処理など、Runwayを使用したコンテンツ生成が必要な場合に使用します。

description の原文を見る

Generate AI videos, images, and audio with Runway API. Use when generating video from images, text-to-video, video-to-video, character performance, text-to-image, text-to-speech, sound effects, or voice processing with Runway.

SKILL.md 本文

Runway API

Runway の API を使用して AI ビデオ、画像、音声を生成します。高品質なテキスト-ビデオおよび画像-ビデオ生成向けの Runway 最新 Gen-4.5 モデル、Gen-4 バリアント、ならびに Google (Veo、Gemini) および ElevenLabs の第三者モデルに対応しています。

推奨: gen4.5 を使用してください - 最新かつ最も高性能なビデオ生成モデルです。

セットアップ: インストールガイド を参照してください。API キーは RUNWAYML_API_SECRET 環境変数に設定します。

クイックスタート

Python

from runwayml import RunwayML

client = RunwayML()

# Image-to-video with latest Gen-4.5 model
task = client.image_to_video.create(
    model="gen4.5",
    prompt_image="https://example.com/image.jpg",
    prompt_text="A timelapse on a sunny day with clouds flying by",
    ratio="1280:720",
    duration=10
).wait_for_task_output()

print(f"Video URL: {task.output[0]}")

# Text-to-video (no image required)
task = client.image_to_video.create(
    model="gen4.5",
    prompt_text="A serene mountain landscape at sunset with clouds drifting",
    ratio="1280:720",
    duration=10
).wait_for_task_output()

Node.js

import RunwayML from "@runwayml/sdk";

const client = new RunwayML();

// Image-to-video with latest Gen-4.5 model
const task = await client.imageToVideo
  .create({
    model: "gen4.5",
    promptImage: "https://example.com/image.jpg",
    promptText: "A timelapse on a sunny day with clouds flying by",
    ratio: "1280:720",
    duration: 10,
  })
  .waitForTaskOutput();

console.log(`Video URL: ${task.output[0]}`);

// Text-to-video (no image required)
const textTask = await client.imageToVideo
  .create({
    model: "gen4.5",
    promptText: "A serene mountain landscape at sunset",
    ratio: "1280:720",
    duration: 10,
  })
  .waitForTaskOutput();

cURL

# Image-to-video
curl -X POST "https://api.dev.runwayml.com/v1/image_to_video" \
  -H "Authorization: Bearer $RUNWAYML_API_SECRET" \
  -H "X-Runway-Version: 2024-11-06" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gen4.5",
    "promptImage": "https://example.com/image.jpg",
    "promptText": "A timelapse on a sunny day",
    "ratio": "1280:720",
    "duration": 10
  }'

# Text-to-video (no image required)
curl -X POST "https://api.dev.runwayml.com/v1/image_to_video" \
  -H "Authorization: Bearer $RUNWAYML_API_SECRET" \
  -H "X-Runway-Version: 2024-11-06" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gen4.5",
    "promptText": "A serene mountain landscape at sunset",
    "ratio": "1280:720",
    "duration": 10
  }'

# Poll for result (use returned task id)
curl "https://api.dev.runwayml.com/v1/tasks/{task_id}" \
  -H "Authorization: Bearer $RUNWAYML_API_SECRET" \
  -H "X-Runway-Version: 2024-11-06"

利用可能なモデル一覧

ビデオ生成

モデル入力価格ユースケース
gen4.5テキストまたは画像12 credits/秒最新かつ推奨 - 最高品質のテキスト/画像からビデオ (音声なし)
gen4_turbo画像5 credits/秒高速な画像-ビデオ生成 (音声なし)、反復処理
gen4_alephビデオ + テキスト/画像15 credits/秒ビデオ-ビデオ変換 (音声なし)
act_two画像またはビデオ5 credits/秒キャラクタージェスチャー/動き (音声なし)
veo3テキストまたは画像40 credits/秒Google Veo 高品質ビデオ 音声付き
veo3.1テキストまたは画像40 credits/秒Google Veo 3.1 キーフレーム付き & 音声付き
veo3.1_fastテキストまたは画像15 credits/秒Google Veo 3.1 高速/低価格 & 音声付き

画像生成

モデル入力価格ユースケース
gen4_imageテキスト + リファレンス (オプション)5 credits/720p、8 credits/1080pスタイル転送による高品質生成
gen4_image_turboテキスト + リファレンス (必須)2 credits/画像 (任意解像度)高速な反復処理
gemini_2.5_flashテキスト + リファレンス5 credits/画像Google Gemini 画像生成

音声生成 (ElevenLabs)

モデル入力 → 出力価格
eleven_multilingual_v2テキスト → 音声1 credit/50 文字
eleven_text_to_sound_v2テキスト → 効果音1 credit/6 秒
eleven_voice_isolation音声 → クリーン音声1 credit/6 秒
eleven_voice_dubbing音声 → ダビング済み音声1 credit/2 秒
eleven_multilingual_sts_v2音声 → 音声1 credit/2 秒

1 credit = $0.01。dev.runwayml.com でクレジットを取得してください。


ビデオ生成

Gen-4.5 (テキスト-ビデオおよび画像-ビデオ)

テキストのみと画像-ビデオ生成の両方に対応した最新の高性能 Runway モデル

テキスト-ビデオ

テキスト説明のみからビデオを生成します:

task = client.image_to_video.create(
    model="gen4.5",
    prompt_text="A serene mountain lake at sunrise with mist rising from the water",
    ratio="1280:720",
    duration=10,
    seed=12345  # Optional: reproducibility
).wait_for_task_output()

テキスト-ビデオのアスペクト比: ランドスケープ 1280:720 (16:9) | ポートレート 720:1280 (9:16)

画像-ビデオ

既存の画像に動きをつけます:

task = client.image_to_video.create(
    model="gen4.5",
    prompt_image="https://example.com/image.jpg",
    prompt_text="Camera slowly pushes in, leaves rustling in the breeze",
    ratio="1584:672",
    duration=10,
    seed=12345
).wait_for_task_output()

画像-ビデオのアスペクト比:

  • ワイドスクリーン: 1280:720 (16:9)、1584:672 (21:9 超ワイド)
  • スタンダード: 1104:832 (4:3)
  • ポートレート: 720:1280 (9:16)、832:1104 (3:4)

期間: 2~10 秒 | 価格: 12 credits/秒 (5 秒で最低 60 credits)

Gen-4 Turbo (画像-ビデオ)

task = client.image_to_video.create(
    model="gen4_turbo",
    prompt_image="https://example.com/image.jpg",
    prompt_text="Camera slowly pushes in, leaves rustling",
    ratio="1280:720",
    duration=5,
    seed=12345           # Optional: reproducibility
).wait_for_task_output()

アスペクト比: ランドスケープ 1280:7201584:6721104:832 | ポートレート 720:1280832:1104 | スクエア 960:960

Aleph (ビデオ-ビデオ)

既存のビデオをテキスト/画像ガイダンスで変換します:

task = client.video_to_video.create(
    model="gen4_aleph",
    video_uri="https://example.com/source.mp4",
    prompt_text="Transform to anime style",
    references=[{"uri": "https://example.com/style_ref.jpg"}]  # Optional style reference
).wait_for_task_output()

アスペクト比: Gen-4 オプションに 848:480 (ランドスケープ) と 480:848 (ポートレート) を追加します。

Act-Two (キャラクタージェスチャー)

参照パフォーマンスからキャラクタージェスチャーを生成します。オブジェクトは type の識別子が必要です:

task = client.character_performance.create(
    model="act_two",
    character={"type": "image", "uri": "https://example.com/character.jpg"},  # or type: "video"
    reference={"type": "video", "uri": "https://example.com/performance.mp4"}
).wait_for_task_output()

キャラクタータイプ: image (キャラクタースタティック環境でジェスチャー) または video (キャラクター独自の動きを含めてジェスチャー)

Veo (Google)

テキスト-ビデオと画像-ビデオ向けの Google の Veo モデル。Veo モデルには音声生成が含まれています - 音声付きビデオが必要な場合に最適です。

# Text-to-video with audio (no image required)
task = client.image_to_video.create(
    model="veo3.1",  # or "veo3", "veo3.1_fast"
    prompt_text="A cinematic shot of a rocket launching at sunset with roaring engines"
).wait_for_task_output()

# Image-to-video with audio
task = client.image_to_video.create(
    model="veo3.1",
    prompt_image="https://example.com/starting_frame.jpg",
    prompt_text="Smooth camera movement through the scene with ambient nature sounds"
).wait_for_task_output()

注: Gen-4.5 および Gen-4 モデルはサイレントビデオを生成します。音声が必要な場合は Veo を使用するか、ElevenLabs モデルで別途音声を追加してください (音声生成セクションを参照)。


画像生成

Gen-4 画像 (リファレンス付き)

プロンプトの @mention 構文でリファレンス画像を使用します:

# gen4_image - reference_images はオプション
task = client.text_to_image.create(
    model="gen4_image",
    ratio="1920:1080",
    prompt_text="A beautiful mountain landscape at sunset"
).wait_for_task_output()

# リファレンス付き
task = client.text_to_image.create(
    model="gen4_image",
    ratio="1920:1080",
    prompt_text="@EiffelTower painted in the style of @StarryNight",
    reference_images=[
        {"uri": "https://example.com/eiffel.jpg", "tag": "EiffelTower"},
        {"uri": "https://example.com/starry.jpg", "tag": "StarryNight"}
    ]
).wait_for_task_output()

注: gen4_image_turboreference_images が必須です (最低 1 つ)。テキストのみの生成には gen4_image を使用してください。

タグなしのリファレンスは一般的なスタイルとして適用されます:

reference_images=[
    {"uri": "https://example.com/subject.jpg", "tag": "subject"},
    {"uri": "https://example.com/style.jpg"}  # No tag = style reference
]

音声生成

ElevenLabs モデルでテキスト-音声、効果音、音声処理を行います。

音声プリセット: MayaArjunSereneBernardBillyMarkClintMabelChadLeslieEleanorEliasElliotNoahRachelJamesKatieTomWandaBenjamin

テキスト-音声

task = client.text_to_speech.create(
    model="eleven_multilingual_v2",
    prompt_text="Hello, welcome to RunwayML!",
    voice={"type": "runway-preset", "preset_id": "Maya"}
).wait_for_task_output()

効果音

task = client.sound_effect.create(
    model="eleven_text_to_sound_v2",
    prompt_text="Thunder rumbling in the distance, rain on a window"
).wait_for_task_output()

音声分離

task = client.voice_isolation.create(
    model="eleven_voice_isolation",
    audio_uri="https://example.com/noisy_audio.mp3"
).wait_for_task_output()

音声ダビング

task = client.voice_dubbing.create(
    model="eleven_voice_dubbing",
    audio_uri="https://example.com/speech.mp3",
    target_lang="es"  # Spanish
).wait_for_task_output()

サポート言語: enhiptzhesfrdejaarrukoiditnltrplsvfilmsroukelcsdafibghrskta

音声-音声

音声を別の声に変換します。type 識別子が必須です:

task = client.speech_to_speech.create(
    model="eleven_multilingual_sts_v2",
    media={"type": "audio", "uri": "https://example.com/original.mp3"},  # or type: "video"
    voice={"type": "runway-preset", "preset_id": "Maya"}
).wait_for_task_output()

入力要件

サイズ制限

タイプURL 制限Data URI 制限一時アップロード
画像16MB5MB (エンコード前 3.3MB)200MB
ビデオ32MB16MB200MB
音声32MB16MB200MB

サポート形式

画像: JPEG、PNG、WebP (GIF 不可)

ビデオ: MP4 (H.264/H.265/AV1)、MOV (ProRes)、MKV、WebM

音声: MP3、WAV、FLAC、M4A、AAC

Base64 Data URI

import base64

with open("image.jpg", "rb") as f:
    data_uri = f"data:image/jpeg;base64,{base64.b64encode(f.read()).decode()}"

task = client.image_to_video.create(
    model="gen4_turbo",
    prompt_image=data_uri,
    prompt_text="Gentle movement"
).wait_for_task_output()

タスク管理

すべての操作は非同期です。wait_for_task_output() を使用してください (自動ポーリング、10 分タイムアウト)。

ステータス: PENDINGRUNNINGSUCCEEDED / FAILED / CANCELED

THROTTLED = レート制限中。PENDING として扱います。

タスクのキャンセル/削除

# 実行中のタスクをキャンセルするか完了済みタスクを削除
client.tasks.delete(task.id)

手動ポーリングとバッチ処理については タスク管理 を参照してください。


プロンプティングのコツ

Gen-4 はシンプルさが効果的です。 シンプルに始めて、反復します。

  • 単一シーン (5~10 秒クリップ) を説明します。
  • 明確な物理的説明を使用し、概念的な言語は避けます
  • サブジェクトは汎用的に参照します: 「そのサブジェクト」、「彼女」
  • 否定的な表現を避けます - 「ぼかしなし」は予測不可能な結果をもたらします

カメラの動きと高度なテクニックについては プロンプティングガイド を参照してください。


エラーハンドリング

from runwayml import RunwayML, APIError, RateLimitError

client = RunwayML()

try:
    task = client.image_to_video.create(...).wait_for_task_output()
    if task.status == "FAILED":
        print(f"Generation failed: {task.failure}")
except RateLimitError:
    print("Rate limited - SDK retries automatically")
except APIError as e:
    print(f"API error {e.status_code}: {e.message}")
コード意味アクション
400無効な入力リクエストパラメータを修正してください
401無効な API キーRUNWAYML_API_SECRET を確認してください
429レート制限SDK が自動的にバックオフ付きで再試行します
503サービス利用不可SDK が自動的に再試行します

パラメータクイックリファレンス

ビデオ (gen4.5)

パラメータタイプオプション
modelstring"gen4.5""gen4_turbo""veo3""veo3.1"
durationnumber210 (秒)
ratiostringテキスト-ビデオ: "1280:720" (16:9)、"720:1280" (9:16)<br>画像-ビデオ追加: "1584:672" (21:9)、"1104:832" (4:3)、"832:1104" (3:4)
prompt_textstring動きとシーンの説明 (必須)
prompt_imagestringURL または base64 (テキスト-ビデオではオプション、画像-ビデオでは必須)
seednumberオプション、再現性のため

画像 (gen4_image)

パラメータタイプオプション
modelstring"gen4_image""gen4_image_turbo"
ratiostring"1920:1080""1280:720" など
prompt_textstring画像の説明
reference_imagesarray[{"uri": "..."、"tag": "..."}]

参考資料

  • インストールガイド - SDK セットアップ
  • プロンプティングガイド - 高度なプロンプティング
  • タスク管理 - ポーリング、バッチ処理

公式ドキュメント

ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

詳細情報

作者
diegosouzapw
リポジトリ
diegosouzapw/awesome-omni-skill
ライセンス
MIT
最終更新
2026/3/2

Source: https://github.com/diegosouzapw/awesome-omni-skill / ライセンス: MIT

関連スキル

汎用音声・動画・メディア⭐ リポ 1,982

listenhub

あらゆることを説明できます。アイデアをポッドキャスト、解説動画、または音声ナレーションに変換します。 ユーザーが「ポッドキャストを作りたい」「解説動画を作成したい」「これを読み上げてほしい」「画像を生成したい」、または知識を音声・映像形式で共有したいときに使用します。トピックの説明、YouTubeリンク、記事URL、プレーンテキスト、画像プロンプトに対応しています。

by LeoYeAI
汎用音声・動画・メディア⭐ リポ 1,982

best-youtube-video-editor

ClawHub上の「best-youtube-video-editor」スキルは、YouTube クリエイターのコンテンツ制作を革新します。タイムラインや複雑なソフトウェアを必要とせず、会話形式のAI駆動型ビデオ編集が可能です。無音部分のカット、チャプターマーカーの追加、字幕の挿入、ペーシングの調整、エクスポートの最適化——すべてが自然言語の指示で実現します。初回使用時には NemoVideo API を通じて認証情報を自動設定するため、有効化後数秒で編集を開始できます。YouTuber、教育関係者、ポッドキャスター、ブランドチャネル向けに開発され、品質を損なわず高速な納期対応が必要な方に最適です。mp4、mov、avi、webm、mkv 形式に対応しています。

by LeoYeAI
汎用音声・動画・メディア⭐ リポ 27,990

video

ユーザーがAIツールやプログラマティックフレームワークを使用してビデオコンテンツを作成、生成、または制作したい場合に使用します。また、ユーザーが「ビデオ制作」「AIビデオ」「Remotion」「Hyperframes」「HeyGen」「Synthesia」「Veo」「Runway」「Kling」「Pika」「ビデオ生成」「AIアバター」「トーキングヘッドビデオ」「プログラマティックビデオ」「ビデオテンプレート」「解説ビデオ」「プロダクトデモビデオ」「ビデオパイプライン」または「ビデオを作ってほしい」と言及している場合にも使用します。ビデオ作成、生成、制作のワークフロー全般に対応できます。ビデオコンテンツの戦略や投稿内容については「social-content」を、有料ビデオ広告クリエイティブについては「ad-creative」をご参照ください。

by coreyhaines31
汎用音声・動画・メディア⭐ リポ 317

clipify

ビデオから最も面白い瞬間を検出し、スタンドアロンクリップとしてカットできます。オプションで16:9から9:16へのリフォーマット(フェイスパンまたはスプリットスクリーン)に対応し、Opus風の単語ごとのキャプションを焼き込みます。ユーザーが「clipify」「このビデオからクリップをカットして」「これからショーツを作って」「面白い瞬間を見つけて」「9:16にリフレーミングして」「縦型クリップ」と言及したり、ビデオファイルパスを貼り付けてSNS対応のクリップを求める場合に使用します。

by louisedesadeleer
OpenAI音声・動画・メディア⭐ リポ 18,898

speech

ユーザーが音声生成、ナレーション、アクセシビリティ対応の読み上げ、音声プロンプト、またはOpenAI Audio APIによるバッチ音声生成をリクエストした場合に使用します。組み込みボイスを備えたバンドルCLI(`scripts/text_to_speech.py`)を実行でき、ライブ呼び出しには`OPENAI_API_KEY`が必要です。カスタムボイスの作成には対応していません。

by openai
汎用音声・動画・メディア⭐ リポ 2,743

depth-estimation

Depth Anything v2を使用したリアルタイム深度マップのプライバシー変換(CoreML + PyTorch対応) このスキルは、Depth Anything v2モデルを活用して、画像やビデオから取得した深度情報をリアルタイムで処理し、プライバシーを保護しながら変換します。CoreMLとPyTorchの両方に対応しており、エッジデバイスでの高速処理とクラウド環境での柔軟な運用が可能です。顔認識データのぼかしや背景の匿名化など、プライバシー関連の処理を効率的に実行できます。

by SharpAI
本サイトは GitHub 上で公開されているオープンソースの SKILL.md ファイルをクロール・インデックス化したものです。 各スキルの著作権は原作者に帰属します。掲載に問題がある場合は info@alsel.co.jp または /takedown フォームよりご連絡ください。
原作者: diegosouzapw · diegosouzapw/awesome-omni-skill · ライセンス: MIT