nano-banana-2
RunComfy上でGoogle Nano Banana 2(GeminiファミリーのフラッシュティアText-to-imageモデル)を使って画像を生成するスキルです。モデル固有のプロンプトパターンを内蔵しているため、素朴なプロンプトよりも高品質な出力が得られ、高速イテレーション・画像内テキスト描画・安定したフレーミングなどの強みを最大限に活かせます。解像度ごとの料金体系やセーフティ設定、Nano Banana Pro / GPT Image 2 / Flux 2 / Seedreamへの切り替え判断基準も把握しており、「nano banana」「gemini image」「google image gen」などのキーワードや本モデルへの明示的なリクエストで自動的にトリガーされます。
description の原文を見る
> Generate images with Google Nano Banana 2 (Gemini-family flash-tier text-to-image) on RunComfy — bundled with the model's documented prompting patterns so the skill gets sharper output than naive prompting against the same model. Documents Nano Banana 2's strengths (rapid iteration, in-image typography rendering, predictable framing, optional web-grounded context), the resolution-tier pricing, the safety-tolerance dial, and when to route to Nano Banana Pro / GPT Image 2 / Flux 2 / Seedream instead. Calls `runcomfy run google/nano-banana-2/text-to-image` through the local RunComfy CLI. Triggers on "nano banana", "nano-banana-2", "nano banana 2", "google image gen", "gemini image", or any explicit ask to generate with this model.
SKILL.md 本文
Nano Banana 2 — Pro Pack on RunComfy
runcomfy.com · Model page · GitHub
Google Nano Banana 2 — Gemini ファミリーのフラッシュ層テキスト・ツー・イメージモデル — RunComfy Model API でホストされています。アイディエーション、ソーシャルサムネイル、および高い画像内テキスト生成品質を持つ高速ドラフト向けに最適化されています。
npx skills add agentspace-so/runcomfy-skills --skill nano-banana-2 -g
このモデルを選ぶべき場合(兄弟モデルとの比較)
Nano Banana 2 は Google イメージ生成ラインのフラッシュ層です。最大の詳細度よりも反復速度と予測可能なフレーミングが重要な場合に選びましょう。
| 必要な機能 | 使用モデル |
|---|---|
| 高速ドラフト、ソーシャルサムネイル、バッチバリエーション | Nano Banana 2 |
| 予測可能なレンダリングの画像内テキスト | Nano Banana 2 |
| Web ベースの画像(最新イベント/実在する人物) | Nano Banana 2 + enable_web_search |
| 画像編集(対象を保持し背景を変更) | Nano Banana Edit(兄弟スキル) |
| 重厚なスタイル化、絵画的表現 | Flux 2 |
| 最大プロンプト準拠度+多言語テキスト | GPT Image 2 |
| 2K–4K ヒーロー画像、最大リアリズム | Seedream 5 |
| 超リアルなポートレート | Nano Banana Pro |
ユーザーが「Nano Banana」/「nano-banana-2」/「Gemini image」を明示的に指定した場合は、関係なくこちらにルーティングしてください。「Nano Banana」と指定されたが 2 vs Pro を指定されていない場合、ポートレートは Pro、その他すべてのものは 2 をデフォルトにしてください。
前提条件
- RunComfy CLI —
npm i -g @runcomfy/cli - RunComfy アカウント —
runcomfy loginはブラウザデバイスコードフローを開きます。 - CI / コンテナ —
RUNCOMFY_TOKEN=<token>を設定してください(runcomfy loginの代わりに)。
エンドポイント+入力スキーマ
google/nano-banana-2/text-to-image
| フィールド | 型 | 必須 | デフォルト | 注記 |
|---|---|---|---|---|
prompt | string | はい | — | サブジェクト優先の説明。 |
num_images | int | いいえ | 1 | 1–4。アイディエーションラウンドは 4 を使用。 |
seed | int | いいえ | 0 | 再現性のため再利用します。 |
aspect_ratio | enum | いいえ | auto | auto, 21:9, 16:9, 3:2, 4:3, 5:4, 1:1, 4:5, 3:4, 2:3, 9:16。 |
resolution | enum | いいえ | 1K | 0.5K(ドラフト)、1K(デフォルト)、2K(最終版)、4K(最大)。 |
output_format | enum | いいえ | png | png, jpeg, webp。 |
safety_tolerance | int | いいえ | 4 | 1(厳密)– 6(許容度高)。 |
limit_generations | bool | いいえ | true | 各プロンプトラウンドを 1 回の生成に制限します。 |
enable_web_search | bool | いいえ | false | Web グラウンディングを追加します(追加コスト+レイテンシ)。 |
画像編集(サブジェクトを保持+変更を適用)については、兄弟スキルの を参照してください。nano-banana-edit
実行方法
デフォルトドラフト(1K、正方形、png):
runcomfy run google/nano-banana-2/text-to-image \
--input '{"prompt": "<user prompt>"}' \
--output-dir <absolute/path>
アイディエーション向け縦型 4-up バッチ:
runcomfy run google/nano-banana-2/text-to-image \
--input '{
"prompt": "<user prompt>",
"num_images": 4,
"aspect_ratio": "9:16",
"resolution": "0.5K"
}' \
--output-dir <absolute/path>
2K、シード固定で最終版:
runcomfy run google/nano-banana-2/text-to-image \
--input '{
"prompt": "<user prompt>",
"resolution": "2K",
"aspect_ratio": "16:9",
"seed": 42
}' \
--output-dir <absolute/path>
Web グラウンド(最新イベント/実在する人物):
runcomfy run google/nano-banana-2/text-to-image \
--input '{
"prompt": "<prompt referencing a real-world event from this week>",
"enable_web_search": true
}' \
--output-dir <absolute/path>
プロンプティング — 実際に機能すること
サブジェクト優先の宣言的文法。 「An American woman standing under neon lights in rainy Tokyo, cinematic close-up portrait, shallow depth of field, reflective wet streets, ultra-detailed, realistic skin texture」— 主サブジェクト、その後アクション、環境、スタイル、カメラ。サブジェクトを前面に配置し、ディレクティブで終わらせます。
画像内テキストの正確な引用。 「The label reads 'AURA' in clean bold sans-serif, centered, white on black」— 文字そのものを引用します。配置とフォントスタイルを指定します。「brand name を付ける」と言って期待しないでください。
一貫性のあるシードで細化。 単一プロンプトを小さなバリエーション間で反復する場合、seed をロックします — 構成を安定させます。
Web グラウンディング、控えめに。 最新イベント/実在する人物を指定するプロンプトの場合のみ、enable_web_search をオンにします。レイテンシ+コストを追加; デフォルトでオフです。
スタイルの競合を避ける。 「minimalist + ornate + retro + cyberpunk」は相殺します。1–2 のアンカーを選びます。
アンチパターン:
- 言葉で安定したサブジェクト識別を説明しようとする — 代わりに画像参照付きの編集エンドポイントを使用します。
- 4 つの層の外の解像度を要求 → 422。
- サポートされている 11 個のアスペクト比外のアスペクト比 → 422。
- 引用符のない画像内テキスト → 予測不可能なレンダリング。
ここが優れている場合
| ユースケース | Nano Banana 2 が優れている理由 |
|---|---|
| マーケティングドラフトサムネイル(4 つのバッチ) | 0.5K での高速反復、その後勝者を 2K にプロモート |
| ソーシャルプラットフォームネイティブ | 9:16、4:5、21:9 を含む広いアスペクト比サポート |
| ポスター/カード用の画像内テキスト | 文字が引用される場合の予測可能なテキストレンダリング |
| Web ベースの最新イベント画像 | enable_web_search は最新情報を統合 |
| 再現可能なバリエーションテスト | 強力なシード+一貫したフレーミング |
サンプルプロンプト(強い結果を生成することが確認済み)
シネマティックポートレート(ページ例):
A cinematic close-up portrait of an American woman standing under neon
lights in rainy Tokyo, shallow depth of field, reflective wet streets,
ultra-detailed, realistic skin texture
引用したテキスト付きブランドアセットカード:
A minimalist 16:9 product card: a matte black ceramic mug centered on a
soft warm-grey paper background, rim highlight from upper-left, the
headline "Brewed Quietly" in clean bold sans-serif top-right, balanced
negative space below, e-commerce ready, clean studio lighting
垂直型プラットフォームネイティブ:
A 9:16 vertical hero for a wellness brand: a single ceramic teacup on a
linen runner, soft morning side-light, the words "Slow Down" in
hand-drawn serif large at the top, gentle steam rising, neutral color
palette, uncluttered
制限事項
- 静止画のみ。 このエンドポイントではビデオなし。
- 最大 4 出力/リクエスト。
- Web 検索はレイテンシ+コストを追加 — オンデマンドの場合のみ有効化。
- 2K / 4K はコストが高い — ユーザーがより高い解像度を要求しない限り 1K をデフォルトに。
- 画像編集の場合は
/editエンドポイントを使用 — これではなく。
終了コード
| コード | 意味 |
|---|---|
| 0 | 成功 |
| 64 | 不正な CLI 引数 |
| 65 | 不正な入力 JSON / スキーマ不一致 |
| 69 | 上流 5xx |
| 75 | リトライ可能: タイムアウト / 429 |
| 77 | サインインしていない、またはトークンが拒否されました |
完全なリファレンス: docs.runcomfy.com/cli/troubleshooting。
仕組み
このスキルは、スキーマに一致する JSON ボディで runcomfy run google/nano-banana-2/text-to-image を呼び出します。CLI は https://model-api.runcomfy.net/v1/models/google/nano-banana-2/text-to-image に POST し、リクエストをポーリングし、結果を取得し、任意の .runcomfy.net/.runcomfy.com URL を --output-dir にダウンロードします。Ctrl-C は終了前にリモートリクエストをキャンセルします。
セキュリティとプライバシー
- トークンストレージ:
runcomfy loginは API トークンを~/.config/runcomfy/token.jsonにモード 0600(所有者のみ読み取り/書き込み)で書き込みます。CI/コンテナでRUNCOMFY_TOKENenv var を設定してファイルをまったくバイパスしてください。 - 入力境界: ユーザープロンプトは JSON 文字列として
--input経由で CLI に渡されます。CLI はプロンプトをシェル展開しません。JSON ボディを HTTPS 経由で Model API に直接送信します。プロンプトコンテンツからのシェルインジェクション表面なし。 - サードパーティコンテンツ: 渡す画像/マスク/ビデオ URL は、RunComfy モデルサーバーによってフェッチされ、マシン上の CLI ではありません。外部 URL を信頼されないものとして扱ってください。画像ベースのプロンプトインジェクションは、任意の画像編集/ビデオ編集モデルの既知のリスクです。
- アウトバウンドエンドポイント:
model-api.runcomfy.net(リクエスト送信)および*.runcomfy.net/*.runcomfy.com(生成された出力のダウンロードホワイトリスト)のみ。テレメトリなし、コールバックなし。 - 生成ファイルサイズキャップ: CLI は単一ダウンロード > 2 GiB を中止して、悪意のあるまたは暴走するモデル出力からのディスク満杯を防止します。
ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- agentspace-so
- ライセンス
- MIT
- 最終更新
- 不明
Source: https://github.com/agentspace-so/runcomfy-agent-skills / ライセンス: MIT
関連スキル
agent-browser
AI エージェント向けのブラウザ自動化 CLI です。ウェブサイトとの対話が必要な場合に使用します。ページ遷移、フォーム入力、ボタンクリック、スクリーンショット取得、データ抽出、ウェブアプリのテスト、ブラウザ操作の自動化など、あらゆるブラウザタスクに対応できます。「ウェブサイトを開く」「フォームに記入する」「ボタンをクリックする」「スクリーンショットを取得する」「ページからデータを抽出する」「このウェブアプリをテストする」「サイトにログインする」「ブラウザ操作を自動化する」といった要求や、プログラマティックなウェブ操作が必要なタスクで起動します。
anyskill
AnySkill — あなたのプライベート・スキルクラウド。GitHubを基盤としたリポジトリからエージェントスキルを管理、同期、動的にロードできます。自然言語でクラウドスキルを検索し、オンデマンドでプロンプトを自動ロード、カスタムスキルのアップロードと共有、スキルバンドルの一括インストールが可能です。OpenClaw、Antigravity、Claude Code、Cursorに対応しています。
engram
AIエージェント向けの永続的なメモリシステムです。バグ修正、意思決定、発見、設定変更の後はmem_saveを使用してください。ユーザーが「覚えている」「記憶している」と言及した場合、または以前のセッションと重複する作業を開始する際はmem_searchを使用します。セッション終了前にmem_session_summaryを使用して、コンテキストを保持してください。
skyvern
AI駆動のブラウザ自動化により、任意のウェブサイトを自動化できます。フォーム入力、データ抽出、ファイルダウンロード、ログイン、複数ステップのワークフロー実行など、ユーザーがウェブサイトと連携する必要があるときに使用します。Skyvernは、LLMとコンピュータビジョンを活用して、未知のサイトも自動操作可能です。Python SDK、TypeScript SDK、REST API、MCPサーバー、またはCLIを通じて統合できます。
pinchbench
PinchBenchベンチマークを実行して、OpenClawエージェントの実世界タスクにおけるパフォーマンスを評価できます。モデルの機能テスト、モデル間の比較、ベンチマーク結果のリーダーボード提出、またはOpenClawのセットアップがカレンダー、メール、リサーチ、コーディング、複数ステップのワークフローにどの程度対応しているかを確認する際に使用します。
openui
OpenUIとOpenUI Langを使用してジェネレーティブUIアプリを構築できます。これらはLLM生成インターフェースのためのトークン効率的なオープン標準です。OpenUI、@openuidev、ジェネレーティブUI、LLMからのストリーミングUI、AI向けコンポーネントライブラリ、またはjson-render/A2UIの置き換えについて述べる際に使用します。スキャフォルディング、defineComponent、システムプロンプト、Renderer、およびOpenUI Lang出力のデバッグに対応しています。