fal-ai-media
fal.ai MCPを通じて画像・動画・音声を一元的に生成するスキルです。テキストから画像(Nano Banana)、テキスト/画像から動画(Seedance、Kling、Veo 3)、テキストから音声(CSM-1B)、動画から効果音(ThinkSound)など幅広い生成に対応します。ユーザーがAIを使って画像・動画・音声を生成したい場合に使用してください。
description の原文を見る
Unified media generation via fal.ai MCP — image, video, and audio. Covers text-to-image (Nano Banana), text/image-to-video (Seedance, Kling, Veo 3), text-to-speech (CSM-1B), and video-to-audio (ThinkSound). Use when the user wants to generate images, videos, or audio with AI.
SKILL.md 本文
fal.ai メディア生成
fal.ai モデルを MCP 経由で使用して、画像、動画、オーディオを生成します。
アクティベーション条件
- ユーザーがテキストプロンプトから画像を生成したい
- テキストまたは画像から動画を作成する
- 音声、音楽、効果音を生成する
- その他のメディア生成タスク
- ユーザーが「画像を生成して」「動画を作って」「テキスト音声合成」「サムネイルを作成」などと言う
MCP 要件
fal.ai MCP サーバーを設定する必要があります。~/.claude.json に追加してください:
"fal-ai": {
"command": "npx",
"args": ["-y", "fal-ai-mcp-server"],
"env": { "FAL_KEY": "YOUR_FAL_KEY_HERE" }
}
API キーは fal.ai で取得してください。
MCP ツール
fal.ai MCP は以下のツールを提供します:
search— キーワードで利用可能なモデルを検索find— モデルの詳細とパラメータを取得generate— パラメータを指定してモデルを実行result— 非同期生成のステータスを確認status— ジョブのステータスを確認cancel— 実行中のジョブをキャンセルestimate_cost— 生成コストを推定models— 人気のあるモデルをリスト表示upload— 入力として使用するファイルをアップロード
画像生成
Nano Banana 2 (高速)
最適用途: 迅速な反復、ドラフト、テキスト・画像生成、画像編集。
generate(
model_name: "fal-ai/nano-banana-2",
input: {
"prompt": "a futuristic cityscape at sunset, cyberpunk style",
"image_size": "landscape_16_9",
"num_images": 1,
"seed": 42
}
)
Nano Banana Pro (高忠実度)
最適用途: 本番用画像、リアリティ、タイポグラフィ、詳細なプロンプト。
generate(
model_name: "fal-ai/nano-banana-pro",
input: {
"prompt": "professional product photo of wireless headphones on marble surface, studio lighting",
"image_size": "square",
"num_images": 1,
"guidance_scale": 7.5
}
)
一般的な画像パラメータ
| パラメータ | 型 | オプション | 備考 |
|---|---|---|---|
prompt | 文字列 | 必須 | 生成したい内容を説明 |
image_size | 文字列 | square、portrait_4_3、landscape_16_9、portrait_16_9、landscape_4_3 | アスペクト比 |
num_images | 数値 | 1-4 | 生成枚数 |
seed | 数値 | 任意の整数 | 再現性 |
guidance_scale | 数値 | 1-20 | プロンプトの厳密性(高いほどより厳密) |
画像編集
入力画像を使用して Nano Banana 2 でインペイント、アウトペイント、スタイル転送を実行:
# まずソース画像をアップロード
upload(file_path: "/path/to/image.png")
# その後、画像入力で生成
generate(
model_name: "fal-ai/nano-banana-2",
input: {
"prompt": "same scene but in watercolor style",
"image_url": "<uploaded_url>",
"image_size": "landscape_16_9"
}
)
動画生成
Seedance 1.0 Pro (ByteDance)
最適用途: テキスト・動画生成、高いモーション品質の画像・動画生成。
generate(
model_name: "fal-ai/seedance-1-0-pro",
input: {
"prompt": "a drone flyover of a mountain lake at golden hour, cinematic",
"duration": "5s",
"aspect_ratio": "16:9",
"seed": 42
}
)
Kling Video v3 Pro
最適用途: テキスト/画像・動画生成(ネイティブオーディオ生成対応)。
generate(
model_name: "fal-ai/kling-video/v3/pro",
input: {
"prompt": "ocean waves crashing on a rocky coast, dramatic clouds",
"duration": "5s",
"aspect_ratio": "16:9"
}
)
Veo 3 (Google DeepMind)
最適用途: 生成音声付き動画、高い視覚品質。
generate(
model_name: "fal-ai/veo-3",
input: {
"prompt": "a bustling Tokyo street market at night, neon signs, crowd noise",
"aspect_ratio": "16:9"
}
)
画像・動画生成
既存の画像から開始:
generate(
model_name: "fal-ai/seedance-1-0-pro",
input: {
"prompt": "camera slowly zooms out, gentle wind moves the trees",
"image_url": "<uploaded_image_url>",
"duration": "5s"
}
)
動画パラメータ
| パラメータ | 型 | オプション | 備考 |
|---|---|---|---|
prompt | 文字列 | 必須 | 動画を説明 |
duration | 文字列 | "5s"、"10s" | 動画の長さ |
aspect_ratio | 文字列 | "16:9"、"9:16"、"1:1" | フレーム比 |
seed | 数値 | 任意の整数 | 再現性 |
image_url | 文字列 | URL | 画像・動画生成のソース画像 |
オーディオ生成
CSM-1B (会話型音声合成)
自然で会話的なテキスト音声合成。
generate(
model_name: "fal-ai/csm-1b",
input: {
"text": "Hello, welcome to the demo. Let me show you how this works.",
"speaker_id": 0
}
)
ThinkSound (動画からのオーディオ生成)
動画コンテンツに合わせたオーディオを生成。
generate(
model_name: "fal-ai/thinksound",
input: {
"video_url": "<video_url>",
"prompt": "ambient forest sounds with birds chirping"
}
)
ElevenLabs (API 経由、MCP なし)
プロフェッショナルな音声合成には ElevenLabs を直接使用:
import os
import requests
resp = requests.post(
"https://api.elevenlabs.io/v1/text-to-speech/<voice_id>",
headers={
"xi-api-key": os.environ["ELEVENLABS_API_KEY"],
"Content-Type": "application/json"
},
json={
"text": "Your text here",
"model_id": "eleven_turbo_v2_5",
"voice_settings": {"stability": 0.5, "similarity_boost": 0.75}
}
)
with open("output.mp3", "wb") as f:
f.write(resp.content)
VideoDB 生成オーディオ
VideoDB が設定されている場合、その生成オーディオを使用:
# 音声生成
audio = coll.generate_voice(text="Your narration here", voice="alloy")
# 音楽生成
music = coll.generate_music(prompt="upbeat electronic background music", duration=30)
# 効果音
sfx = coll.generate_sound_effect(prompt="thunder crack followed by rain")
コスト推定
生成前に推定コストを確認:
estimate_cost(model_name: "fal-ai/nano-banana-pro", input: {...})
モデル検索
特定のタスク向けのモデルを検索:
search(query: "text to video")
find(model_name: "fal-ai/seedance-1-0-pro")
models()
ヒント
- プロンプトの反復時には
seedを使用して再現性のある結果を得る - プロンプトの反復には低コストモデル (Nano Banana 2) から始め、最終版では Pro に切り替える
- 動画の場合、プロンプトは説明的かつ簡潔に — モーションとシーンに焦点を当てる
- 画像・動画生成は純粋なテキスト・動画生成よりもより制御可能な結果をもたらす
- 高コストの動画生成を実行する前に
estimate_costを確認
関連スキル
videodb— 動画処理、編集、ストリーミングvideo-editing— AI駆動の動画編集ワークフローcontent-engine— ソーシャルプラットフォーム向けコンテンツ生成
ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- affaan-m
- ライセンス
- MIT
- 最終更新
- 不明
Source: https://github.com/affaan-m/everything-claude-code / ライセンス: MIT
関連スキル
agent-browser
AI エージェント向けのブラウザ自動化 CLI です。ウェブサイトとの対話が必要な場合に使用します。ページ遷移、フォーム入力、ボタンクリック、スクリーンショット取得、データ抽出、ウェブアプリのテスト、ブラウザ操作の自動化など、あらゆるブラウザタスクに対応できます。「ウェブサイトを開く」「フォームに記入する」「ボタンをクリックする」「スクリーンショットを取得する」「ページからデータを抽出する」「このウェブアプリをテストする」「サイトにログインする」「ブラウザ操作を自動化する」といった要求や、プログラマティックなウェブ操作が必要なタスクで起動します。
anyskill
AnySkill — あなたのプライベート・スキルクラウド。GitHubを基盤としたリポジトリからエージェントスキルを管理、同期、動的にロードできます。自然言語でクラウドスキルを検索し、オンデマンドでプロンプトを自動ロード、カスタムスキルのアップロードと共有、スキルバンドルの一括インストールが可能です。OpenClaw、Antigravity、Claude Code、Cursorに対応しています。
engram
AIエージェント向けの永続的なメモリシステムです。バグ修正、意思決定、発見、設定変更の後はmem_saveを使用してください。ユーザーが「覚えている」「記憶している」と言及した場合、または以前のセッションと重複する作業を開始する際はmem_searchを使用します。セッション終了前にmem_session_summaryを使用して、コンテキストを保持してください。
skyvern
AI駆動のブラウザ自動化により、任意のウェブサイトを自動化できます。フォーム入力、データ抽出、ファイルダウンロード、ログイン、複数ステップのワークフロー実行など、ユーザーがウェブサイトと連携する必要があるときに使用します。Skyvernは、LLMとコンピュータビジョンを活用して、未知のサイトも自動操作可能です。Python SDK、TypeScript SDK、REST API、MCPサーバー、またはCLIを通じて統合できます。
pinchbench
PinchBenchベンチマークを実行して、OpenClawエージェントの実世界タスクにおけるパフォーマンスを評価できます。モデルの機能テスト、モデル間の比較、ベンチマーク結果のリーダーボード提出、またはOpenClawのセットアップがカレンダー、メール、リサーチ、コーディング、複数ステップのワークフローにどの程度対応しているかを確認する際に使用します。
openui
OpenUIとOpenUI Langを使用してジェネレーティブUIアプリを構築できます。これらはLLM生成インターフェースのためのトークン効率的なオープン標準です。OpenUI、@openuidev、ジェネレーティブUI、LLMからのストリーミングUI、AI向けコンポーネントライブラリ、またはjson-render/A2UIの置き換えについて述べる際に使用します。スキャフォルディング、defineComponent、システムプロンプト、Renderer、およびOpenUI Lang出力のデバッグに対応しています。