Anthropic ClaudeLLM・AI開発⭐ リポ 0品質スコア 50/100

fal-ai-media

Name: fal-ai-media
Author: affaan-m

fal.ai MCPを通じて画像・動画・音声を一元的に生成するスキルです。テキストから画像（Nano Banana）、テキスト／画像から動画（Seedance、Kling、Veo 3）、テキストから音声（CSM-1B）、動画から効果音（ThinkSound）など幅広い生成に対応します。ユーザーがAIを使って画像・動画・音声を生成したい場合に使用してください。

description の原文を見る

Unified media generation via fal.ai MCP — image, video, and audio. Covers text-to-image (Nano Banana), text/image-to-video (Seedance, Kling, Veo 3), text-to-speech (CSM-1B), and video-to-audio (ThinkSound). Use when the user wants to generate images, videos, or audio with AI.

SKILL.md 本文

fal.ai メディア生成

fal.ai モデルを MCP 経由で使用して、画像、動画、オーディオを生成します。

アクティベーション条件

ユーザーがテキストプロンプトから画像を生成したい
テキストまたは画像から動画を作成する
音声、音楽、効果音を生成する
その他のメディア生成タスク
ユーザーが「画像を生成して」「動画を作って」「テキスト音声合成」「サムネイルを作成」などと言う

MCP 要件

fal.ai MCP サーバーを設定する必要があります。~/.claude.json に追加してください：

"fal-ai": {
  "command": "npx",
  "args": ["-y", "fal-ai-mcp-server"],
  "env": { "FAL_KEY": "YOUR_FAL_KEY_HERE" }
}

API キーは fal.ai で取得してください。

MCP ツール

fal.ai MCP は以下のツールを提供します：

search — キーワードで利用可能なモデルを検索
find — モデルの詳細とパラメータを取得
generate — パラメータを指定してモデルを実行
result — 非同期生成のステータスを確認
status — ジョブのステータスを確認
cancel — 実行中のジョブをキャンセル
estimate_cost — 生成コストを推定
models — 人気のあるモデルをリスト表示
upload — 入力として使用するファイルをアップロード

画像生成

Nano Banana 2 (高速)

最適用途: 迅速な反復、ドラフト、テキスト・画像生成、画像編集。

generate(
  model_name: "fal-ai/nano-banana-2",
  input: {
    "prompt": "a futuristic cityscape at sunset, cyberpunk style",
    "image_size": "landscape_16_9",
    "num_images": 1,
    "seed": 42
  }
)

Nano Banana Pro (高忠実度)

最適用途: 本番用画像、リアリティ、タイポグラフィ、詳細なプロンプト。

generate(
  model_name: "fal-ai/nano-banana-pro",
  input: {
    "prompt": "professional product photo of wireless headphones on marble surface, studio lighting",
    "image_size": "square",
    "num_images": 1,
    "guidance_scale": 7.5
  }
)

一般的な画像パラメータ

パラメータ	型	オプション	備考
`prompt`	文字列	必須	生成したい内容を説明
`image_size`	文字列	`square`、`portrait_4_3`、`landscape_16_9`、`portrait_16_9`、`landscape_4_3`	アスペクト比
`num_images`	数値	1-4	生成枚数
`seed`	数値	任意の整数	再現性
`guidance_scale`	数値	1-20	プロンプトの厳密性（高いほどより厳密）

画像編集

入力画像を使用して Nano Banana 2 でインペイント、アウトペイント、スタイル転送を実行：

# まずソース画像をアップロード
upload(file_path: "/path/to/image.png")

# その後、画像入力で生成
generate(
  model_name: "fal-ai/nano-banana-2",
  input: {
    "prompt": "same scene but in watercolor style",
    "image_url": "<uploaded_url>",
    "image_size": "landscape_16_9"
  }
)

動画生成

Seedance 1.0 Pro (ByteDance)

最適用途: テキスト・動画生成、高いモーション品質の画像・動画生成。

generate(
  model_name: "fal-ai/seedance-1-0-pro",
  input: {
    "prompt": "a drone flyover of a mountain lake at golden hour, cinematic",
    "duration": "5s",
    "aspect_ratio": "16:9",
    "seed": 42
  }
)

Kling Video v3 Pro

最適用途: テキスト/画像・動画生成（ネイティブオーディオ生成対応）。

generate(
  model_name: "fal-ai/kling-video/v3/pro",
  input: {
    "prompt": "ocean waves crashing on a rocky coast, dramatic clouds",
    "duration": "5s",
    "aspect_ratio": "16:9"
  }
)

Veo 3 (Google DeepMind)

最適用途: 生成音声付き動画、高い視覚品質。

generate(
  model_name: "fal-ai/veo-3",
  input: {
    "prompt": "a bustling Tokyo street market at night, neon signs, crowd noise",
    "aspect_ratio": "16:9"
  }
)

画像・動画生成

既存の画像から開始：

generate(
  model_name: "fal-ai/seedance-1-0-pro",
  input: {
    "prompt": "camera slowly zooms out, gentle wind moves the trees",
    "image_url": "<uploaded_image_url>",
    "duration": "5s"
  }
)

動画パラメータ

パラメータ	型	オプション	備考
`prompt`	文字列	必須	動画を説明
`duration`	文字列	`"5s"`、`"10s"`	動画の長さ
`aspect_ratio`	文字列	`"16:9"`、`"9:16"`、`"1:1"`	フレーム比
`seed`	数値	任意の整数	再現性
`image_url`	文字列	URL	画像・動画生成のソース画像

オーディオ生成

CSM-1B (会話型音声合成)

自然で会話的なテキスト音声合成。

generate(
  model_name: "fal-ai/csm-1b",
  input: {
    "text": "Hello, welcome to the demo. Let me show you how this works.",
    "speaker_id": 0
  }
)

ThinkSound (動画からのオーディオ生成)

動画コンテンツに合わせたオーディオを生成。

generate(
  model_name: "fal-ai/thinksound",
  input: {
    "video_url": "<video_url>",
    "prompt": "ambient forest sounds with birds chirping"
  }
)

ElevenLabs (API 経由、MCP なし)

プロフェッショナルな音声合成には ElevenLabs を直接使用：

import os
import requests

resp = requests.post(
    "https://api.elevenlabs.io/v1/text-to-speech/<voice_id>",
    headers={
        "xi-api-key": os.environ["ELEVENLABS_API_KEY"],
        "Content-Type": "application/json"
    },
    json={
        "text": "Your text here",
        "model_id": "eleven_turbo_v2_5",
        "voice_settings": {"stability": 0.5, "similarity_boost": 0.75}
    }
)
with open("output.mp3", "wb") as f:
    f.write(resp.content)

VideoDB 生成オーディオ

VideoDB が設定されている場合、その生成オーディオを使用：

# 音声生成
audio = coll.generate_voice(text="Your narration here", voice="alloy")

# 音楽生成
music = coll.generate_music(prompt="upbeat electronic background music", duration=30)

# 効果音
sfx = coll.generate_sound_effect(prompt="thunder crack followed by rain")

コスト推定

生成前に推定コストを確認：

estimate_cost(model_name: "fal-ai/nano-banana-pro", input: {...})

モデル検索

特定のタスク向けのモデルを検索：

search(query: "text to video")
find(model_name: "fal-ai/seedance-1-0-pro")
models()

ヒント

プロンプトの反復時には seed を使用して再現性のある結果を得る
プロンプトの反復には低コストモデル (Nano Banana 2) から始め、最終版では Pro に切り替える
動画の場合、プロンプトは説明的かつ簡潔に — モーションとシーンに焦点を当てる
画像・動画生成は純粋なテキスト・動画生成よりもより制御可能な結果をもたらす
高コストの動画生成を実行する前に estimate_cost を確認

詳細情報

作者: affaan-m
リポジトリ: affaan-m/everything-claude-code
ライセンス: MIT
最終更新: 不明

GitHubで原本を見る →フィードバックを送る

Source: https://github.com/affaan-m/everything-claude-code / ライセンス: MIT