runwayml
Runway APIを使用して、AI動画、画像、音声を生成できます。画像から動画への変換、テキストから動画への生成、動画から動画への変換、キャラクターパフォーマンス、テキストから画像への生成、テキストから音声への変換、効果音、音声処理など、Runwayを使用したコンテンツ生成が必要な場合に使用します。
description の原文を見る
Generate AI videos, images, and audio with Runway API. Use when generating video from images, text-to-video, video-to-video, character performance, text-to-image, text-to-speech, sound effects, or voice processing with Runway.
SKILL.md 本文
Runway API
Runway の API を使用して AI ビデオ、画像、音声を生成します。高品質なテキスト-ビデオおよび画像-ビデオ生成向けの Runway 最新 Gen-4.5 モデル、Gen-4 バリアント、ならびに Google (Veo、Gemini) および ElevenLabs の第三者モデルに対応しています。
推奨:
gen4.5を使用してください - 最新かつ最も高性能なビデオ生成モデルです。
セットアップ:
インストールガイドを参照してください。API キーはRUNWAYML_API_SECRET環境変数に設定します。
クイックスタート
Python
from runwayml import RunwayML
client = RunwayML()
# Image-to-video with latest Gen-4.5 model
task = client.image_to_video.create(
model="gen4.5",
prompt_image="https://example.com/image.jpg",
prompt_text="A timelapse on a sunny day with clouds flying by",
ratio="1280:720",
duration=10
).wait_for_task_output()
print(f"Video URL: {task.output[0]}")
# Text-to-video (no image required)
task = client.image_to_video.create(
model="gen4.5",
prompt_text="A serene mountain landscape at sunset with clouds drifting",
ratio="1280:720",
duration=10
).wait_for_task_output()
Node.js
import RunwayML from "@runwayml/sdk";
const client = new RunwayML();
// Image-to-video with latest Gen-4.5 model
const task = await client.imageToVideo
.create({
model: "gen4.5",
promptImage: "https://example.com/image.jpg",
promptText: "A timelapse on a sunny day with clouds flying by",
ratio: "1280:720",
duration: 10,
})
.waitForTaskOutput();
console.log(`Video URL: ${task.output[0]}`);
// Text-to-video (no image required)
const textTask = await client.imageToVideo
.create({
model: "gen4.5",
promptText: "A serene mountain landscape at sunset",
ratio: "1280:720",
duration: 10,
})
.waitForTaskOutput();
cURL
# Image-to-video
curl -X POST "https://api.dev.runwayml.com/v1/image_to_video" \
-H "Authorization: Bearer $RUNWAYML_API_SECRET" \
-H "X-Runway-Version: 2024-11-06" \
-H "Content-Type: application/json" \
-d '{
"model": "gen4.5",
"promptImage": "https://example.com/image.jpg",
"promptText": "A timelapse on a sunny day",
"ratio": "1280:720",
"duration": 10
}'
# Text-to-video (no image required)
curl -X POST "https://api.dev.runwayml.com/v1/image_to_video" \
-H "Authorization: Bearer $RUNWAYML_API_SECRET" \
-H "X-Runway-Version: 2024-11-06" \
-H "Content-Type: application/json" \
-d '{
"model": "gen4.5",
"promptText": "A serene mountain landscape at sunset",
"ratio": "1280:720",
"duration": 10
}'
# Poll for result (use returned task id)
curl "https://api.dev.runwayml.com/v1/tasks/{task_id}" \
-H "Authorization: Bearer $RUNWAYML_API_SECRET" \
-H "X-Runway-Version: 2024-11-06"
利用可能なモデル一覧
ビデオ生成
| モデル | 入力 | 価格 | ユースケース |
|---|---|---|---|
gen4.5 ⭐ | テキストまたは画像 | 12 credits/秒 | 最新かつ推奨 - 最高品質のテキスト/画像からビデオ (音声なし) |
gen4_turbo | 画像 | 5 credits/秒 | 高速な画像-ビデオ生成 (音声なし)、反復処理 |
gen4_aleph | ビデオ + テキスト/画像 | 15 credits/秒 | ビデオ-ビデオ変換 (音声なし) |
act_two | 画像またはビデオ | 5 credits/秒 | キャラクタージェスチャー/動き (音声なし) |
veo3 | テキストまたは画像 | 40 credits/秒 | Google Veo 高品質ビデオ 音声付き |
veo3.1 | テキストまたは画像 | 40 credits/秒 | Google Veo 3.1 キーフレーム付き & 音声付き |
veo3.1_fast | テキストまたは画像 | 15 credits/秒 | Google Veo 3.1 高速/低価格 & 音声付き |
画像生成
| モデル | 入力 | 価格 | ユースケース |
|---|---|---|---|
gen4_image | テキスト + リファレンス (オプション) | 5 credits/720p、8 credits/1080p | スタイル転送による高品質生成 |
gen4_image_turbo | テキスト + リファレンス (必須) | 2 credits/画像 (任意解像度) | 高速な反復処理 |
gemini_2.5_flash | テキスト + リファレンス | 5 credits/画像 | Google Gemini 画像生成 |
音声生成 (ElevenLabs)
| モデル | 入力 → 出力 | 価格 |
|---|---|---|
eleven_multilingual_v2 | テキスト → 音声 | 1 credit/50 文字 |
eleven_text_to_sound_v2 | テキスト → 効果音 | 1 credit/6 秒 |
eleven_voice_isolation | 音声 → クリーン音声 | 1 credit/6 秒 |
eleven_voice_dubbing | 音声 → ダビング済み音声 | 1 credit/2 秒 |
eleven_multilingual_sts_v2 | 音声 → 音声 | 1 credit/2 秒 |
1 credit = $0.01。dev.runwayml.com でクレジットを取得してください。
ビデオ生成
Gen-4.5 (テキスト-ビデオおよび画像-ビデオ)
テキストのみと画像-ビデオ生成の両方に対応した最新の高性能 Runway モデル。
テキスト-ビデオ
テキスト説明のみからビデオを生成します:
task = client.image_to_video.create(
model="gen4.5",
prompt_text="A serene mountain lake at sunrise with mist rising from the water",
ratio="1280:720",
duration=10,
seed=12345 # Optional: reproducibility
).wait_for_task_output()
テキスト-ビデオのアスペクト比: ランドスケープ 1280:720 (16:9) | ポートレート 720:1280 (9:16)
画像-ビデオ
既存の画像に動きをつけます:
task = client.image_to_video.create(
model="gen4.5",
prompt_image="https://example.com/image.jpg",
prompt_text="Camera slowly pushes in, leaves rustling in the breeze",
ratio="1584:672",
duration=10,
seed=12345
).wait_for_task_output()
画像-ビデオのアスペクト比:
- ワイドスクリーン:
1280:720(16:9)、1584:672(21:9 超ワイド) - スタンダード:
1104:832(4:3) - ポートレート:
720:1280(9:16)、832:1104(3:4)
期間: 2~10 秒 | 価格: 12 credits/秒 (5 秒で最低 60 credits)
Gen-4 Turbo (画像-ビデオ)
task = client.image_to_video.create(
model="gen4_turbo",
prompt_image="https://example.com/image.jpg",
prompt_text="Camera slowly pushes in, leaves rustling",
ratio="1280:720",
duration=5,
seed=12345 # Optional: reproducibility
).wait_for_task_output()
アスペクト比: ランドスケープ 1280:720、1584:672、1104:832 | ポートレート 720:1280、832:1104 | スクエア 960:960
Aleph (ビデオ-ビデオ)
既存のビデオをテキスト/画像ガイダンスで変換します:
task = client.video_to_video.create(
model="gen4_aleph",
video_uri="https://example.com/source.mp4",
prompt_text="Transform to anime style",
references=[{"uri": "https://example.com/style_ref.jpg"}] # Optional style reference
).wait_for_task_output()
アスペクト比: Gen-4 オプションに 848:480 (ランドスケープ) と 480:848 (ポートレート) を追加します。
Act-Two (キャラクタージェスチャー)
参照パフォーマンスからキャラクタージェスチャーを生成します。オブジェクトは type の識別子が必要です:
task = client.character_performance.create(
model="act_two",
character={"type": "image", "uri": "https://example.com/character.jpg"}, # or type: "video"
reference={"type": "video", "uri": "https://example.com/performance.mp4"}
).wait_for_task_output()
キャラクタータイプ: image (キャラクタースタティック環境でジェスチャー) または video (キャラクター独自の動きを含めてジェスチャー)
Veo (Google)
テキスト-ビデオと画像-ビデオ向けの Google の Veo モデル。Veo モデルには音声生成が含まれています - 音声付きビデオが必要な場合に最適です。
# Text-to-video with audio (no image required)
task = client.image_to_video.create(
model="veo3.1", # or "veo3", "veo3.1_fast"
prompt_text="A cinematic shot of a rocket launching at sunset with roaring engines"
).wait_for_task_output()
# Image-to-video with audio
task = client.image_to_video.create(
model="veo3.1",
prompt_image="https://example.com/starting_frame.jpg",
prompt_text="Smooth camera movement through the scene with ambient nature sounds"
).wait_for_task_output()
注: Gen-4.5 および Gen-4 モデルはサイレントビデオを生成します。音声が必要な場合は Veo を使用するか、ElevenLabs モデルで別途音声を追加してください (音声生成セクションを参照)。
画像生成
Gen-4 画像 (リファレンス付き)
プロンプトの @mention 構文でリファレンス画像を使用します:
# gen4_image - reference_images はオプション
task = client.text_to_image.create(
model="gen4_image",
ratio="1920:1080",
prompt_text="A beautiful mountain landscape at sunset"
).wait_for_task_output()
# リファレンス付き
task = client.text_to_image.create(
model="gen4_image",
ratio="1920:1080",
prompt_text="@EiffelTower painted in the style of @StarryNight",
reference_images=[
{"uri": "https://example.com/eiffel.jpg", "tag": "EiffelTower"},
{"uri": "https://example.com/starry.jpg", "tag": "StarryNight"}
]
).wait_for_task_output()
注: gen4_image_turbo は reference_images が必須です (最低 1 つ)。テキストのみの生成には gen4_image を使用してください。
タグなしのリファレンスは一般的なスタイルとして適用されます:
reference_images=[
{"uri": "https://example.com/subject.jpg", "tag": "subject"},
{"uri": "https://example.com/style.jpg"} # No tag = style reference
]
音声生成
ElevenLabs モデルでテキスト-音声、効果音、音声処理を行います。
音声プリセット: Maya、Arjun、Serene、Bernard、Billy、Mark、Clint、Mabel、Chad、Leslie、Eleanor、Elias、Elliot、Noah、Rachel、James、Katie、Tom、Wanda、Benjamin
テキスト-音声
task = client.text_to_speech.create(
model="eleven_multilingual_v2",
prompt_text="Hello, welcome to RunwayML!",
voice={"type": "runway-preset", "preset_id": "Maya"}
).wait_for_task_output()
効果音
task = client.sound_effect.create(
model="eleven_text_to_sound_v2",
prompt_text="Thunder rumbling in the distance, rain on a window"
).wait_for_task_output()
音声分離
task = client.voice_isolation.create(
model="eleven_voice_isolation",
audio_uri="https://example.com/noisy_audio.mp3"
).wait_for_task_output()
音声ダビング
task = client.voice_dubbing.create(
model="eleven_voice_dubbing",
audio_uri="https://example.com/speech.mp3",
target_lang="es" # Spanish
).wait_for_task_output()
サポート言語: en、hi、pt、zh、es、fr、de、ja、ar、ru、ko、id、it、nl、tr、pl、sv、fil、ms、ro、uk、el、cs、da、fi、bg、hr、sk、ta
音声-音声
音声を別の声に変換します。type 識別子が必須です:
task = client.speech_to_speech.create(
model="eleven_multilingual_sts_v2",
media={"type": "audio", "uri": "https://example.com/original.mp3"}, # or type: "video"
voice={"type": "runway-preset", "preset_id": "Maya"}
).wait_for_task_output()
入力要件
サイズ制限
| タイプ | URL 制限 | Data URI 制限 | 一時アップロード |
|---|---|---|---|
| 画像 | 16MB | 5MB (エンコード前 3.3MB) | 200MB |
| ビデオ | 32MB | 16MB | 200MB |
| 音声 | 32MB | 16MB | 200MB |
サポート形式
画像: JPEG、PNG、WebP (GIF 不可)
ビデオ: MP4 (H.264/H.265/AV1)、MOV (ProRes)、MKV、WebM
音声: MP3、WAV、FLAC、M4A、AAC
Base64 Data URI
import base64
with open("image.jpg", "rb") as f:
data_uri = f"data:image/jpeg;base64,{base64.b64encode(f.read()).decode()}"
task = client.image_to_video.create(
model="gen4_turbo",
prompt_image=data_uri,
prompt_text="Gentle movement"
).wait_for_task_output()
タスク管理
すべての操作は非同期です。wait_for_task_output() を使用してください (自動ポーリング、10 分タイムアウト)。
ステータス: PENDING → RUNNING → SUCCEEDED / FAILED / CANCELED
THROTTLED = レート制限中。PENDING として扱います。
タスクのキャンセル/削除
# 実行中のタスクをキャンセルするか完了済みタスクを削除
client.tasks.delete(task.id)
手動ポーリングとバッチ処理については タスク管理 を参照してください。
プロンプティングのコツ
Gen-4 はシンプルさが効果的です。 シンプルに始めて、反復します。
- 単一シーン (5~10 秒クリップ) を説明します。
- 明確な物理的説明を使用し、概念的な言語は避けます
- サブジェクトは汎用的に参照します: 「そのサブジェクト」、「彼女」
- 否定的な表現を避けます - 「ぼかしなし」は予測不可能な結果をもたらします
カメラの動きと高度なテクニックについては プロンプティングガイド を参照してください。
エラーハンドリング
from runwayml import RunwayML, APIError, RateLimitError
client = RunwayML()
try:
task = client.image_to_video.create(...).wait_for_task_output()
if task.status == "FAILED":
print(f"Generation failed: {task.failure}")
except RateLimitError:
print("Rate limited - SDK retries automatically")
except APIError as e:
print(f"API error {e.status_code}: {e.message}")
| コード | 意味 | アクション |
|---|---|---|
| 400 | 無効な入力 | リクエストパラメータを修正してください |
| 401 | 無効な API キー | RUNWAYML_API_SECRET を確認してください |
| 429 | レート制限 | SDK が自動的にバックオフ付きで再試行します |
| 503 | サービス利用不可 | SDK が自動的に再試行します |
パラメータクイックリファレンス
ビデオ (gen4.5)
| パラメータ | タイプ | オプション |
|---|---|---|
model | string | "gen4.5"、"gen4_turbo"、"veo3"、"veo3.1" |
duration | number | 2 ~ 10 (秒) |
ratio | string | テキスト-ビデオ: "1280:720" (16:9)、"720:1280" (9:16)<br>画像-ビデオ追加: "1584:672" (21:9)、"1104:832" (4:3)、"832:1104" (3:4) |
prompt_text | string | 動きとシーンの説明 (必須) |
prompt_image | string | URL または base64 (テキスト-ビデオではオプション、画像-ビデオでは必須) |
seed | number | オプション、再現性のため |
画像 (gen4_image)
| パラメータ | タイプ | オプション |
|---|---|---|
model | string | "gen4_image"、"gen4_image_turbo" |
ratio | string | "1920:1080"、"1280:720" など |
prompt_text | string | 画像の説明 |
reference_images | array | [{"uri": "..."、"tag": "..."}] |
参考資料
インストールガイド- SDK セットアッププロンプティングガイド- 高度なプロンプティングタスク管理- ポーリング、バッチ処理
公式ドキュメント
- Runway API ドキュメント - 完全な API リファレンス
- モデルガイド - 利用可能なすべてのモデル
- デベロッパーポータル - API キーとアカウント管理
ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- diegosouzapw
- ライセンス
- MIT
- 最終更新
- 2026/3/2
Source: https://github.com/diegosouzapw/awesome-omni-skill / ライセンス: MIT
関連スキル
listenhub
あらゆることを説明できます。アイデアをポッドキャスト、解説動画、または音声ナレーションに変換します。 ユーザーが「ポッドキャストを作りたい」「解説動画を作成したい」「これを読み上げてほしい」「画像を生成したい」、または知識を音声・映像形式で共有したいときに使用します。トピックの説明、YouTubeリンク、記事URL、プレーンテキスト、画像プロンプトに対応しています。
best-youtube-video-editor
ClawHub上の「best-youtube-video-editor」スキルは、YouTube クリエイターのコンテンツ制作を革新します。タイムラインや複雑なソフトウェアを必要とせず、会話形式のAI駆動型ビデオ編集が可能です。無音部分のカット、チャプターマーカーの追加、字幕の挿入、ペーシングの調整、エクスポートの最適化——すべてが自然言語の指示で実現します。初回使用時には NemoVideo API を通じて認証情報を自動設定するため、有効化後数秒で編集を開始できます。YouTuber、教育関係者、ポッドキャスター、ブランドチャネル向けに開発され、品質を損なわず高速な納期対応が必要な方に最適です。mp4、mov、avi、webm、mkv 形式に対応しています。
video
ユーザーがAIツールやプログラマティックフレームワークを使用してビデオコンテンツを作成、生成、または制作したい場合に使用します。また、ユーザーが「ビデオ制作」「AIビデオ」「Remotion」「Hyperframes」「HeyGen」「Synthesia」「Veo」「Runway」「Kling」「Pika」「ビデオ生成」「AIアバター」「トーキングヘッドビデオ」「プログラマティックビデオ」「ビデオテンプレート」「解説ビデオ」「プロダクトデモビデオ」「ビデオパイプライン」または「ビデオを作ってほしい」と言及している場合にも使用します。ビデオ作成、生成、制作のワークフロー全般に対応できます。ビデオコンテンツの戦略や投稿内容については「social-content」を、有料ビデオ広告クリエイティブについては「ad-creative」をご参照ください。
clipify
ビデオから最も面白い瞬間を検出し、スタンドアロンクリップとしてカットできます。オプションで16:9から9:16へのリフォーマット(フェイスパンまたはスプリットスクリーン)に対応し、Opus風の単語ごとのキャプションを焼き込みます。ユーザーが「clipify」「このビデオからクリップをカットして」「これからショーツを作って」「面白い瞬間を見つけて」「9:16にリフレーミングして」「縦型クリップ」と言及したり、ビデオファイルパスを貼り付けてSNS対応のクリップを求める場合に使用します。
speech
ユーザーが音声生成、ナレーション、アクセシビリティ対応の読み上げ、音声プロンプト、またはOpenAI Audio APIによるバッチ音声生成をリクエストした場合に使用します。組み込みボイスを備えたバンドルCLI(`scripts/text_to_speech.py`)を実行でき、ライブ呼び出しには`OPENAI_API_KEY`が必要です。カスタムボイスの作成には対応していません。
depth-estimation
Depth Anything v2を使用したリアルタイム深度マップのプライバシー変換(CoreML + PyTorch対応) このスキルは、Depth Anything v2モデルを活用して、画像やビデオから取得した深度情報をリアルタイムで処理し、プライバシーを保護しながら変換します。CoreMLとPyTorchの両方に対応しており、エッジデバイスでの高速処理とクラウド環境での柔軟な運用が可能です。顔認識データのぼかしや背景の匿名化など、プライバシー関連の処理を効率的に実行できます。