Agent Skills by ALSEL
Anthropic ClaudeLLM・AI開発⭐ リポ 0品質スコア 50/100

fal-ai-media

fal.ai MCPを通じて画像・動画・音声を一元的に生成するスキルです。テキストから画像(Nano Banana)、テキスト/画像から動画(Seedance、Kling、Veo 3)、テキストから音声(CSM-1B)、動画から効果音(ThinkSound)など幅広い生成に対応します。ユーザーがAIを使って画像・動画・音声を生成したい場合に使用してください。

description の原文を見る

Unified media generation via fal.ai MCP — image, video, and audio. Covers text-to-image (Nano Banana), text/image-to-video (Seedance, Kling, Veo 3), text-to-speech (CSM-1B), and video-to-audio (ThinkSound). Use when the user wants to generate images, videos, or audio with AI.

SKILL.md 本文

fal.ai メディア生成

fal.ai モデルを MCP 経由で使用して、画像、動画、オーディオを生成します。

アクティベーション条件

  • ユーザーがテキストプロンプトから画像を生成したい
  • テキストまたは画像から動画を作成する
  • 音声、音楽、効果音を生成する
  • その他のメディア生成タスク
  • ユーザーが「画像を生成して」「動画を作って」「テキスト音声合成」「サムネイルを作成」などと言う

MCP 要件

fal.ai MCP サーバーを設定する必要があります。~/.claude.json に追加してください:

"fal-ai": {
  "command": "npx",
  "args": ["-y", "fal-ai-mcp-server"],
  "env": { "FAL_KEY": "YOUR_FAL_KEY_HERE" }
}

API キーは fal.ai で取得してください。

MCP ツール

fal.ai MCP は以下のツールを提供します:

  • search — キーワードで利用可能なモデルを検索
  • find — モデルの詳細とパラメータを取得
  • generate — パラメータを指定してモデルを実行
  • result — 非同期生成のステータスを確認
  • status — ジョブのステータスを確認
  • cancel — 実行中のジョブをキャンセル
  • estimate_cost — 生成コストを推定
  • models — 人気のあるモデルをリスト表示
  • upload — 入力として使用するファイルをアップロード

画像生成

Nano Banana 2 (高速)

最適用途: 迅速な反復、ドラフト、テキスト・画像生成、画像編集。

generate(
  model_name: "fal-ai/nano-banana-2",
  input: {
    "prompt": "a futuristic cityscape at sunset, cyberpunk style",
    "image_size": "landscape_16_9",
    "num_images": 1,
    "seed": 42
  }
)

Nano Banana Pro (高忠実度)

最適用途: 本番用画像、リアリティ、タイポグラフィ、詳細なプロンプト。

generate(
  model_name: "fal-ai/nano-banana-pro",
  input: {
    "prompt": "professional product photo of wireless headphones on marble surface, studio lighting",
    "image_size": "square",
    "num_images": 1,
    "guidance_scale": 7.5
  }
)

一般的な画像パラメータ

パラメータオプション備考
prompt文字列必須生成したい内容を説明
image_size文字列squareportrait_4_3landscape_16_9portrait_16_9landscape_4_3アスペクト比
num_images数値1-4生成枚数
seed数値任意の整数再現性
guidance_scale数値1-20プロンプトの厳密性(高いほどより厳密)

画像編集

入力画像を使用して Nano Banana 2 でインペイント、アウトペイント、スタイル転送を実行:

# まずソース画像をアップロード
upload(file_path: "/path/to/image.png")

# その後、画像入力で生成
generate(
  model_name: "fal-ai/nano-banana-2",
  input: {
    "prompt": "same scene but in watercolor style",
    "image_url": "<uploaded_url>",
    "image_size": "landscape_16_9"
  }
)

動画生成

Seedance 1.0 Pro (ByteDance)

最適用途: テキスト・動画生成、高いモーション品質の画像・動画生成。

generate(
  model_name: "fal-ai/seedance-1-0-pro",
  input: {
    "prompt": "a drone flyover of a mountain lake at golden hour, cinematic",
    "duration": "5s",
    "aspect_ratio": "16:9",
    "seed": 42
  }
)

Kling Video v3 Pro

最適用途: テキスト/画像・動画生成(ネイティブオーディオ生成対応)。

generate(
  model_name: "fal-ai/kling-video/v3/pro",
  input: {
    "prompt": "ocean waves crashing on a rocky coast, dramatic clouds",
    "duration": "5s",
    "aspect_ratio": "16:9"
  }
)

Veo 3 (Google DeepMind)

最適用途: 生成音声付き動画、高い視覚品質。

generate(
  model_name: "fal-ai/veo-3",
  input: {
    "prompt": "a bustling Tokyo street market at night, neon signs, crowd noise",
    "aspect_ratio": "16:9"
  }
)

画像・動画生成

既存の画像から開始:

generate(
  model_name: "fal-ai/seedance-1-0-pro",
  input: {
    "prompt": "camera slowly zooms out, gentle wind moves the trees",
    "image_url": "<uploaded_image_url>",
    "duration": "5s"
  }
)

動画パラメータ

パラメータオプション備考
prompt文字列必須動画を説明
duration文字列"5s""10s"動画の長さ
aspect_ratio文字列"16:9""9:16""1:1"フレーム比
seed数値任意の整数再現性
image_url文字列URL画像・動画生成のソース画像

オーディオ生成

CSM-1B (会話型音声合成)

自然で会話的なテキスト音声合成。

generate(
  model_name: "fal-ai/csm-1b",
  input: {
    "text": "Hello, welcome to the demo. Let me show you how this works.",
    "speaker_id": 0
  }
)

ThinkSound (動画からのオーディオ生成)

動画コンテンツに合わせたオーディオを生成。

generate(
  model_name: "fal-ai/thinksound",
  input: {
    "video_url": "<video_url>",
    "prompt": "ambient forest sounds with birds chirping"
  }
)

ElevenLabs (API 経由、MCP なし)

プロフェッショナルな音声合成には ElevenLabs を直接使用:

import os
import requests

resp = requests.post(
    "https://api.elevenlabs.io/v1/text-to-speech/<voice_id>",
    headers={
        "xi-api-key": os.environ["ELEVENLABS_API_KEY"],
        "Content-Type": "application/json"
    },
    json={
        "text": "Your text here",
        "model_id": "eleven_turbo_v2_5",
        "voice_settings": {"stability": 0.5, "similarity_boost": 0.75}
    }
)
with open("output.mp3", "wb") as f:
    f.write(resp.content)

VideoDB 生成オーディオ

VideoDB が設定されている場合、その生成オーディオを使用:

# 音声生成
audio = coll.generate_voice(text="Your narration here", voice="alloy")

# 音楽生成
music = coll.generate_music(prompt="upbeat electronic background music", duration=30)

# 効果音
sfx = coll.generate_sound_effect(prompt="thunder crack followed by rain")

コスト推定

生成前に推定コストを確認:

estimate_cost(model_name: "fal-ai/nano-banana-pro", input: {...})

モデル検索

特定のタスク向けのモデルを検索:

search(query: "text to video")
find(model_name: "fal-ai/seedance-1-0-pro")
models()

ヒント

  • プロンプトの反復時には seed を使用して再現性のある結果を得る
  • プロンプトの反復には低コストモデル (Nano Banana 2) から始め、最終版では Pro に切り替える
  • 動画の場合、プロンプトは説明的かつ簡潔に — モーションとシーンに焦点を当てる
  • 画像・動画生成は純粋なテキスト・動画生成よりもより制御可能な結果をもたらす
  • 高コストの動画生成を実行する前に estimate_cost を確認

関連スキル

  • videodb — 動画処理、編集、ストリーミング
  • video-editing — AI駆動の動画編集ワークフロー
  • content-engine — ソーシャルプラットフォーム向けコンテンツ生成

ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

詳細情報

作者
affaan-m
リポジトリ
affaan-m/everything-claude-code
ライセンス
MIT
最終更新
不明

Source: https://github.com/affaan-m/everything-claude-code / ライセンス: MIT

関連スキル

OpenAILLM・AI開発⭐ リポ 6,054

agent-browser

AI エージェント向けのブラウザ自動化 CLI です。ウェブサイトとの対話が必要な場合に使用します。ページ遷移、フォーム入力、ボタンクリック、スクリーンショット取得、データ抽出、ウェブアプリのテスト、ブラウザ操作の自動化など、あらゆるブラウザタスクに対応できます。「ウェブサイトを開く」「フォームに記入する」「ボタンをクリックする」「スクリーンショットを取得する」「ページからデータを抽出する」「このウェブアプリをテストする」「サイトにログインする」「ブラウザ操作を自動化する」といった要求や、プログラマティックなウェブ操作が必要なタスクで起動します。

by JimmyLv
汎用LLM・AI開発⭐ リポ 1,982

anyskill

AnySkill — あなたのプライベート・スキルクラウド。GitHubを基盤としたリポジトリからエージェントスキルを管理、同期、動的にロードできます。自然言語でクラウドスキルを検索し、オンデマンドでプロンプトを自動ロード、カスタムスキルのアップロードと共有、スキルバンドルの一括インストールが可能です。OpenClaw、Antigravity、Claude Code、Cursorに対応しています。

by LeoYeAI
汎用LLM・AI開発⭐ リポ 1,982

engram

AIエージェント向けの永続的なメモリシステムです。バグ修正、意思決定、発見、設定変更の後はmem_saveを使用してください。ユーザーが「覚えている」「記憶している」と言及した場合、または以前のセッションと重複する作業を開始する際はmem_searchを使用します。セッション終了前にmem_session_summaryを使用して、コンテキストを保持してください。

by LeoYeAI
汎用LLM・AI開発⭐ リポ 21,584

skyvern

AI駆動のブラウザ自動化により、任意のウェブサイトを自動化できます。フォーム入力、データ抽出、ファイルダウンロード、ログイン、複数ステップのワークフロー実行など、ユーザーがウェブサイトと連携する必要があるときに使用します。Skyvernは、LLMとコンピュータビジョンを活用して、未知のサイトも自動操作可能です。Python SDK、TypeScript SDK、REST API、MCPサーバー、またはCLIを通じて統合できます。

by Skyvern-AI
汎用LLM・AI開発⭐ リポ 1,149

pinchbench

PinchBenchベンチマークを実行して、OpenClawエージェントの実世界タスクにおけるパフォーマンスを評価できます。モデルの機能テスト、モデル間の比較、ベンチマーク結果のリーダーボード提出、またはOpenClawのセットアップがカレンダー、メール、リサーチ、コーディング、複数ステップのワークフローにどの程度対応しているかを確認する際に使用します。

by pinchbench
汎用LLM・AI開発⭐ リポ 4,693

openui

OpenUIとOpenUI Langを使用してジェネレーティブUIアプリを構築できます。これらはLLM生成インターフェースのためのトークン効率的なオープン標準です。OpenUI、@openuidev、ジェネレーティブUI、LLMからのストリーミングUI、AI向けコンポーネントライブラリ、またはjson-render/A2UIの置き換えについて述べる際に使用します。スキャフォルディング、defineComponent、システムプロンプト、Renderer、およびOpenUI Lang出力のデバッグに対応しています。

by thesysdev
本サイトは GitHub 上で公開されているオープンソースの SKILL.md ファイルをクロール・インデックス化したものです。 各スキルの著作権は原作者に帰属します。掲載に問題がある場合は info@alsel.co.jp または /takedown フォームよりご連絡ください。
原作者: affaan-m · affaan-m/everything-claude-code · ライセンス: MIT