Agent Skills by ALSEL
Anthropic ClaudeLLM・AI開発⭐ リポ 0品質スコア 50/100

gpt-image-edit

RunComfy上でOpenAI GPT Image 2(ChatGPT Images 2.0の`/edit`エンドポイント)を使って画像を編集するスキル。モデルのプロンプトパターンを内包しているため、素朴なプロンプトより高精度な出力が得られ、領域保持の指示・多言語テキスト編集・最大10枚のマルチリファレンス・レイアウト/タイポグラフィ制御といった強みを活かせます。「gpt image edit」「chatgpt image edit」「edit with gpt image 2」などの指示、またはこのモデルを明示した編集リクエストをトリガーとして、ローカルのRunComfy CLI経由で`runcomfy run openai/gpt-image-2/edit`を実行します。

description の原文を見る

> Edit images with OpenAI GPT Image 2 (the `/edit` endpoint of ChatGPT Images 2.0) on RunComfy — bundled with the model's documented prompting patterns so the skill gets sharper output than naive prompting against the same model. Documents GPT Image Edit's strengths (preservation language, multilingual in-image text editing, multi-reference up to 10 images, layout / typography precision), the schema, and when to route to Nano Banana Edit / Flux Kontext / GPT Image 2 t2i instead. Calls `runcomfy run openai/gpt-image-2/edit` through the local RunComfy CLI. Triggers on "gpt image edit", "gpt-image-edit", "chatgpt image edit", "edit with gpt image 2", or any explicit ask to edit with this model.

SKILL.md 本文

GPT Image Edit — Pro Pack on RunComfy

runcomfy.com · Edit endpoint · Text-to-image sibling · GitHub

OpenAI GPT Image 2 — /edit エンドポイント (ChatGPT Images 2.0 画像から画像へ) を RunComfy Model API で使用します。ターゲットを絞った編集を通じてアイデンティティを保存し、任意のスクリプト (ラテン文字、仮名、CJK、キリル文字、アラビア文字) に埋め込まれたテキストを書き換える点で同クラス最強です。

npx skills add agentspace-so/runcomfy-skills --skill gpt-image-edit -g

このモデルを選ぶべき場合 (兄弟モデルとの比較)

目的使用するモデル
画像内の多言語 / 埋め込みテキストを編集GPT Image Edit
翻訳されたヘッドライン変種を通じてアイデンティティを保存GPT Image Edit
レイアウト精度の高い編集 (ヘッドラインの移動、CTA の入れ替えなど)GPT Image Edit
最大 10 枚の参照画像GPT Image Edit
最大 20 枚の画像を一貫性を持ってバッチ処理Nano Banana Edit
単一パス精度の高いローカル編集、ソース忠実度重視Flux Kontext
GPT Image 2 でスクラッチから生成兄弟スキル gpt-image-2
安定したアイデンティティを持つバッチ SKU ギャラリーNano Banana Edit

前提条件

  1. RunComfy CLInpm i -g @runcomfy/cli
  2. RunComfy アカウントruncomfy login でブラウザデバイスコードフローが開きます。
  3. CI / コンテナRUNCOMFY_TOKEN=<token> を設定してください (runcomfy login の代わりに)。

エンドポイント + 入力スキーマ

openai/gpt-image-2/edit

フィールド必須デフォルト備考
promptstringはい編集の指示。保存で始まり、変更で終わります。
imagesstring[]はい最大 10 個の公開フェッチ可能な HTTPS URL。最初がプライマリ、残りは補助的。
sizeenumいいえautoauto (入力を保存)、1024_1024 (1:1)、1024_1536 (2:3 縦)、1536_1024 (3:2 横)。

size=auto は入力比率を保存します。編集が明示的にフレーミングを変更する場合を除き、強く推奨されます。

呼び出し方法

単一参照保存編集:

runcomfy run openai/gpt-image-2/edit \
  --input '{
    "prompt": "Keep the person'\''s face, pose, and brand mark unchanged. Replace the background with a soft warm-grey studio sweep and a gentle floor shadow.",
    "images": ["https://.../portrait.jpg"]
  }' \
  --output-dir <absolute/path>

多言語テキスト書き換え (ヘッドライン以外すべてを保存):

runcomfy run openai/gpt-image-2/edit \
  --input '{
    "prompt": "Keep the photograph, layout, and brand mark exactly as in the input. Replace only the in-image headline. The new headline reads \"今日のおすすめ\" in bold Japanese kana, same position and font weight as before.",
    "images": ["https://.../poster-en.jpg"]
  }' \
  --output-dir <absolute/path>

複数参照合成:

runcomfy run openai/gpt-image-2/edit \
  --input '{
    "prompt": "Compose subject from image 1 into the room from image 2. Match the lighting and color palette of image 2. Keep image 1 subject identity (face, pose, clothing) unchanged.",
    "images": ["https://.../subject.jpg", "https://.../room.jpg"]
  }' \
  --output-dir <absolute/path>

プロンプティング — 実際に機能すること

保存目標で始めましょう。 常に: "Keep [face / pose / clothing / brand / framing] unchanged." その後に変更を述べます。モデルは前に述べられたものを尊重します。

多言語テキスト — 文字を引用し、スクリプトを名付けます。 "the headline reads \"コーヒー\" in bold Japanese kana""the label says \"АРОМА\" in Cyrillic, white on black""the right-margin caption reads \"تخفيض\" in Arabic right-to-left"。言い換えではなく、引用してください。

空間編集のための方向言語。 具体的な空間スコープが機能します: "move the headline from top-right to bottom-center""remove the leftmost object only""replace the watermark in the bottom-right corner"

複数参照番号付け。 複数の images を渡す場合、番号で参照します: "subject from image 1, lighting from image 2, color palette from image 3"。モデルはキューを正しくルーティングします。

size: "auto" を使用して入力比率を保存してください。 編集が明示的にフレーミングを変更する場合のみオーバーライドしてください (例えば 16:9 から 1:1 へのトリミング)。

アンチパターン:

  • 長い複合編集指示 ("change A and B and C and D") → ドリフトが追加スコープごとに増加します。
  • 保存目標がない → モデルは顔 / ブランド / フレーミングを微妙に書き直します。
  • 画像内テキストをパラフレーズする代わりに引用する → テキストが異なって出ます。
  • 3 つの固定値 + auto の外の size を要求 → 422。

得意な領域

ユースケースGPT Image Edit の理由
多言語広告ローカライズ1 つのソースアセット → 同じヘッドラインの多くの言語変種
ブランドセーフなヘッドライン / CTA スワップレイアウト精度 + 保存言語が残りを安定に保つ
複数参照合成 (1 つから被写体、別の 1 つからシーン)番号付き参照がキューを正しくルーティング
レイアウト精度の正確な位置変更方向言語 ("top-right to bottom-center") を尊重
サイネッジ編集を通じてアイデンティティを保存ターゲットを絞った編集を通じて顔 / ブランド保存で同クラス最強

サンプルプロンプト (強い結果が得られることが確認されている)

背景スワップ (ページ例) での完全な保存:

Turn the background into a bright minimal white-to-soft-gray studio
sweep with gentle floor shadow; add a large headline in-image that
reads "OPEN STUDIO" in a bold clean sans-serif, high contrast, centered;
keep the main person or product, pose, and face identity unchanged

多言語変種:

Keep the photograph, layout, lighting, and brand mark exactly as in the
input. Replace only the in-image headline.
The new headline reads "コーヒー" in bold Japanese kana, same position
and font weight as before.

複数参照合成:

Compose subject from image 1 into the kitchen from image 2.
Match the warm window light and color palette of image 2.
Keep subject identity (face, pose, clothing) from image 1 unchanged.

制限事項

  • size: 3 つの固定値 + auto — その他は 422。
  • images: 最大 10 個 — 最初がプライマリ、残りは補助的キュー。
  • 長い複合プロンプトはドリフト — 必要に応じて複数パスに分割します。
  • 多くの SKU 画像全体でのバッチ一貫性には、Nano Banana Edit (最大 20 個) が優れています。
  • ポートレートでのフォトリアリズム — Nano Banana Pro がヘッドツーヘッドで勝ります。

終了コード

コード意味
0成功
64CLI 引数が不正
65入力 JSON / スキーマ不一致が不正
69アップストリーム 5xx
75再試行可能: タイムアウト / 429
77サインインしていないか、トークンが拒否されました

完全なリファレンス: docs.runcomfy.com/cli/troubleshooting

仕組み

このスキルはスキーマに一致する JSON 本文で runcomfy run openai/gpt-image-2/edit を呼び出します。CLI は https://model-api.runcomfy.net/v1/models/openai/gpt-image-2/edit に POST し、リクエストをポーリングし、結果を取得して、.runcomfy.net/.runcomfy.com URL を --output-dir にダウンロードします。Ctrl-C は終了前にリモートリクエストをキャンセルします。

セキュリティとプライバシー

  • トークン保存: runcomfy login は API トークンを ~/.config/runcomfy/token.json に mode 0600 (オーナーのみ読み取り/書き込み) で書き込みます。CI / コンテナでファイルを完全にバイパスするには RUNCOMFY_TOKEN 環境変数を設定してください。
  • 入力境界: ユーザープロンプトは --input 経由で JSON 文字列として CLI に渡されます。CLI はプロンプトをシェル展開せず、JSON 本文を HTTPS 経由で Model API に直接送信します。プロンプトコンテンツからのシェルインジェクション表面はありません。
  • サードパーティコンテンツ: 渡す画像 / マスク / ビデオ URL はローカルマシンの CLI ではなく、RunComfy モデルサーバーでフェッチされます。外部 URL を信頼できないものとして扱い、画像ベースのプロンプトインジェクションはあらゆるイメージ編集 / ビデオ編集モデルの既知リスクです。
  • アウトバウンドエンドポイント: model-api.runcomfy.net (リクエスト送信) および *.runcomfy.net / *.runcomfy.com (生成出力のダウンロードホワイトリスト) のみ。テレメトリやコールバックはありません。
  • 生成ファイルサイズキャップ: CLI は単一ダウンロード > 2 GiB を中止して、悪意のあるまたは暴走するモデル出力からのディスク満杯を防ぎます。

ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

詳細情報

作者
agentspace-so
リポジトリ
agentspace-so/runcomfy-agent-skills
ライセンス
MIT
最終更新
不明

Source: https://github.com/agentspace-so/runcomfy-agent-skills / ライセンス: MIT

関連スキル

OpenAILLM・AI開発⭐ リポ 6,054

agent-browser

AI エージェント向けのブラウザ自動化 CLI です。ウェブサイトとの対話が必要な場合に使用します。ページ遷移、フォーム入力、ボタンクリック、スクリーンショット取得、データ抽出、ウェブアプリのテスト、ブラウザ操作の自動化など、あらゆるブラウザタスクに対応できます。「ウェブサイトを開く」「フォームに記入する」「ボタンをクリックする」「スクリーンショットを取得する」「ページからデータを抽出する」「このウェブアプリをテストする」「サイトにログインする」「ブラウザ操作を自動化する」といった要求や、プログラマティックなウェブ操作が必要なタスクで起動します。

by JimmyLv
汎用LLM・AI開発⭐ リポ 1,982

anyskill

AnySkill — あなたのプライベート・スキルクラウド。GitHubを基盤としたリポジトリからエージェントスキルを管理、同期、動的にロードできます。自然言語でクラウドスキルを検索し、オンデマンドでプロンプトを自動ロード、カスタムスキルのアップロードと共有、スキルバンドルの一括インストールが可能です。OpenClaw、Antigravity、Claude Code、Cursorに対応しています。

by LeoYeAI
汎用LLM・AI開発⭐ リポ 1,982

engram

AIエージェント向けの永続的なメモリシステムです。バグ修正、意思決定、発見、設定変更の後はmem_saveを使用してください。ユーザーが「覚えている」「記憶している」と言及した場合、または以前のセッションと重複する作業を開始する際はmem_searchを使用します。セッション終了前にmem_session_summaryを使用して、コンテキストを保持してください。

by LeoYeAI
汎用LLM・AI開発⭐ リポ 21,584

skyvern

AI駆動のブラウザ自動化により、任意のウェブサイトを自動化できます。フォーム入力、データ抽出、ファイルダウンロード、ログイン、複数ステップのワークフロー実行など、ユーザーがウェブサイトと連携する必要があるときに使用します。Skyvernは、LLMとコンピュータビジョンを活用して、未知のサイトも自動操作可能です。Python SDK、TypeScript SDK、REST API、MCPサーバー、またはCLIを通じて統合できます。

by Skyvern-AI
汎用LLM・AI開発⭐ リポ 1,149

pinchbench

PinchBenchベンチマークを実行して、OpenClawエージェントの実世界タスクにおけるパフォーマンスを評価できます。モデルの機能テスト、モデル間の比較、ベンチマーク結果のリーダーボード提出、またはOpenClawのセットアップがカレンダー、メール、リサーチ、コーディング、複数ステップのワークフローにどの程度対応しているかを確認する際に使用します。

by pinchbench
汎用LLM・AI開発⭐ リポ 4,693

openui

OpenUIとOpenUI Langを使用してジェネレーティブUIアプリを構築できます。これらはLLM生成インターフェースのためのトークン効率的なオープン標準です。OpenUI、@openuidev、ジェネレーティブUI、LLMからのストリーミングUI、AI向けコンポーネントライブラリ、またはjson-render/A2UIの置き換えについて述べる際に使用します。スキャフォルディング、defineComponent、システムプロンプト、Renderer、およびOpenUI Lang出力のデバッグに対応しています。

by thesysdev
本サイトは GitHub 上で公開されているオープンソースの SKILL.md ファイルをクロール・インデックス化したものです。 各スキルの著作権は原作者に帰属します。掲載に問題がある場合は info@alsel.co.jp または /takedown フォームよりご連絡ください。
原作者: agentspace-so · agentspace-so/runcomfy-agent-skills · ライセンス: MIT