gpt-image-2
RunComfy上でOpenAI GPT Image 2(ChatGPT Images 2.0)を使用した画像の生成・編集を行うスキルです。テキスト埋め込み・ロゴ・多言語タイポグラフィ・高精度な指示追従といったGPT Image 2の強みを活かし、ローカルのRunComfy CLIを通じて`runcomfy run openai/gpt-image-2/text-to-image`または`/edit`を呼び出します。「gpt image 2」「gpt-image-2」「ChatGPT Images 2」「image 2」などのキーワード、またはこのモデルでの生成・編集を明示的に求められた際にトリガーされます。
description の原文を見る
> Generate and edit images with OpenAI GPT Image 2 (ChatGPT Images 2.0) on RunComfy. Documents GPT Image 2's strengths (embedded text, logos, multilingual typography, instruction precision), its 3 fixed sizes, edit-with-preservation language, and when to route to a sibling (Flux 2 / Nano Banana Pro / Seedream) instead. Calls `runcomfy run openai/gpt-image-2/text-to-image` or `/edit` through the local RunComfy CLI. Triggers on "gpt image 2", "gpt-image-2", "ChatGPT Images 2", "image 2", or any explicit ask to generate or edit with this model.
SKILL.md 本文
GPT Image 2 — Pro Pack on RunComfy
runcomfy.com · Text-to-image · Edit · GitHub
OpenAI GPT Image 2 (ChatGPT Images 2.0) を RunComfy Model API でホスト — OpenAI キー不要、非同期 REST。
npx skills add agentspace-so/runcomfy-skills --skill gpt-image-2 -g
このモデルを選ぶべき場面(兄弟モデルとの比較)
GPT Image 2 の際立った強みは 指示の精密性 です。複数要素のプロンプト、レイアウト指示、埋め込みテキストを同業他社より確実に従います。キャンバス上に何があるかが、スタイル化のされ方よりも重要な場合 に選びます。
| 必要な機能 | 使用モデル |
|---|---|
| 埋め込みテキスト、ロゴ、看板、多言語タイポグラフィ | GPT Image 2 |
| ブランドセーフ、eコマース / 広告 / UI モックアップ画像 | GPT Image 2 |
| 構図を安定させた反復改善 | GPT Image 2 |
| 重いスタイル化、画風的な表現 | Flux 2 |
| 超リアルなポートレート | Nano Banana Pro |
| シネマティック / 美学重視のヒーロー画像 | Seedream 5 |
ユーザーが明確に GPT Image 2 / ChatGPT Image 2 / Image 2 を指定した場合は、ここにルーティングしてください — モデル選択に疑問を挟まないこと。
前提条件
- RunComfy CLI —
npm i -g @runcomfy/cli - RunComfy アカウント —
runcomfy loginでブラウザのデバイスコードフローを開きます。 - CI / コンテナ —
RUNCOMFY_TOKEN=<token>を環境変数で設定します。
エンドポイント + 入力スキーマ
2 つのエンドポイント、同じモデル。
openai/gpt-image-2/text-to-image
| フィールド | 型 | 必須 | デフォルト | 備考 |
|---|---|---|---|---|
prompt | string | yes | — | ポジティブプロンプト |
size | enum | no | 1024_1024 | 1024_1024 (1:1)、1024_1536 (2:3 ポートレート)、1536_1024 (3:2 ランドスケープ) — この 3 つのみ |
openai/gpt-image-2/edit
| フィールド | 型 | 必須 | デフォルト | 備考 |
|---|---|---|---|---|
prompt | string | yes | — | 自然言語の 編集指示 |
images | string[] | yes | — | 最大 10 個 の参照画像 URL(パブリック HTTPS) |
size | enum | no | auto | auto(入力のアスペクト比を維持)、または上記の 3 つの固定サイズのいずれか |
編集時の size=auto は入力のアスペクト比を維持します — 編集が明確にフレーミングを変更しない限り強く推奨します。
呼び出し方法
テキスト生成:
runcomfy run openai/gpt-image-2/text-to-image \
--input '{"prompt": "<user prompt>", "size": "1024_1536"}' \
--output-dir <absolute/path>
編集(単一参照):
runcomfy run openai/gpt-image-2/edit \
--input '{
"prompt": "<edit instruction>",
"images": ["https://..."]
}' \
--output-dir <absolute/path>
編集(複数参照、最大 10 個):
runcomfy run openai/gpt-image-2/edit \
--input '{
"prompt": "compose subject from image 1 into the room from image 2; match the lighting of image 2",
"images": ["https://...subject.jpg", "https://...room.jpg"]
}' \
--output-dir <absolute/path>
CLI は提出し、ターミナル状態に達するまで 2 秒ごとにポーリング、結果から *.runcomfy.net / *.runcomfy.com URL をすべて --output-dir にダウンロードします。Stdout は結果 JSON、stderr は進捗です。
パイプフレンドリーな使用法:
runcomfy --output json run openai/gpt-image-2/text-to-image \
--input '{"prompt":"..."}' --no-wait | jq -r .request_id
プロンプティング — 実際に機能する方法
これらはモデル固有のパターンで、経験的に出力品質を向上させます。テキスト生成と編集の両方に適用します。
被写体 + 背景 + ムードを明確に。 「温かいリネン上のマット仕上げのセラミック水ボトルの大写し、柔らかい窓光、ニュートラル背景」 — 3 つの具体的な指示 — は「ボトルのいい製品写真」より優れています。
埋め込みテキストは正確に引用。短く保つ。 GPT Image 2 はこのクラスで最強のテキストレンダリングモデルですが、リテラル文字を引用符に入れた場合のみ です。長いテキストブロックは品質が低下します。多言語テキストの場合、スクリプトを名前付けしてください:「Japanese kana」、「Cyrillic」、「Arabic right-to-left」。
構図キューを直接使用。 「rule of thirds」、「close-up」、「aerial view」、「centered subject」、「shallow depth of field」 — これらはモデルに学習済みの意味を持ちます。
一度に 1 つの属性で反復。 改善時には反復ごとに 1 つのこと(照明 OR 背景 OR ポーズ OR テキスト)だけを変更し、プロンプトの残りは逐語的に保ってください。モデルは 1 つのノブだけが動く場合、反復間で構図を安定させます。
指示を競わせない。 「テキストなし」+ 「ラベルに「AQUA+」という単語」は矛盾しています — モデルは 1 つを選び、どちらを選ぶかはコントロールできません。
スタイルを積み重ねない。 「浮世絵 + 水彩 + 8K + シネマティック + ミニマリスト」は打ち消し合います。スタイルアンカーは最大 1~2 個を選んでください。
編集 エンドポイント専用:
- 保存目標を述べる。 「人物のポーズと顔のアイデンティティを変えない」、「パッケージ上のブランドマークとタイポグラフィを保つ」、「全体的なフレーミングを保つ」。モデルは何を変更しないかを知る必要があります。
- 空間編集に方向言語を使用。 「見出しを右上から下中央に移動」、「見出しを再配置」ではなく。
- マルチリファレンス:プロンプト内で画像に番号を付けます — 「被写体は画像 1、照明と背景は画像 2」 — モデルはキューを正しくルーティングします。
輝く用途
| ユースケース | GPT Image 2 の理由 |
|---|---|
| eコマース製品写真 | ラベル上のテキストが確実、ブランドセーフな照明、SKU 全体で一貫性 |
| 高コンバージョン広告 | 見出し + ビジュアルの統合が 1 パスで実現 |
| ブランドアセットのローカライゼーション | 1 つのソースアセット → 同じ見出しの複数言語バリアント |
| 看板、ポスター、パッケージモックアップ | 複数スケールでのテキスト精度 |
| UI モックアップ、科学イラスト | レイアウト精度とラベル判読性 |
サンプルプロンプト(強い結果を生成することが確認済み)
テキスト生成 — 製品ヒーロー:
A minimal hero product still life: a matte ceramic water bottle on warm linen,
soft window light, the word "AQUA+" in clean sans-serif on the label,
subtle rim highlights, e-commerce ready, 8K detail, neutral background
テキスト生成 — 多言語看板:
A small Tokyo café storefront at dusk, warm interior glow,
the sign reads "コーヒー" in bold Japanese kana on a wooden plaque,
shallow depth of field, rule of thirds, cinematic
編集 — 保存による背景スワップ:
Turn the background into a bright minimal white-to-soft-gray studio sweep
with gentle floor shadow; add a large headline in-image that reads
"OPEN STUDIO" in a bold clean sans-serif, high contrast, centered;
keep the main person or product, pose, and face identity unchanged
制限事項
- 固定サイズは 3 つのみ テキスト生成で(編集も同じ 3 つ +
auto)。極端なアスペクト比は最も近いサポートされたものに自動リサイズされます。 - プロンプト長 ~ 数千トークン。長い埋め込みテキストブロックは出力を劣化させます。
- 編集のマルチ画像 サポートは「最大 10 個のリファレンスからのガイダンス」、ControlNet スタイルのスタックではありません。最初の画像がプライマリとして扱われ、その他は補助的なキューを提供します。
- ポートレートのフォトリアリズム は最強の分野ではありません — Nano Banana Pro がヘッドツーヘッドで勝ちます。
終了コード
runcomfy CLI は sysexits スタイルのコードを使用:
| コード | 意味 |
|---|---|
| 0 | 成功 |
| 64 | CLI 引数の不良 |
| 65 | 不正な入力 JSON / スキーマ不一致(例:size: "2048_2048" は 422) |
| 69 | アップストリーム 5xx |
| 75 | 再試行可能:タイムアウト / 429 |
| 77 | 未サインイン、またはトークン拒否 |
完全なリファレンス:docs.runcomfy.com/cli/troubleshooting。
仕組み
- スキルは
runcomfy run openai/gpt-image-2/<endpoint>を上記のスキーマにマッチする JSON ボディで呼び出します。 - CLI は
https://model-api.runcomfy.net/v1/models/openai/gpt-image-2/<endpoint>にユーザーのベアラートークンでポストします。 - Model API は
request_idを返します。CLI はGET .../requests/<id>/statusを 2 秒ごとにポーリングします。 - ターミナル状態で、CLI は
GET .../requests/<id>/resultをフェッチしてホストが.runcomfy.netまたは.runcomfy.comで終わる URL を--output-dirにダウンロードします。その他の URL はリストされますが、フェッチされません。 - ポーリング中の
Ctrl-CはPOST .../requests/<id>/cancelを送信し、停止した GPU にチャージされません。
このスキルではないもの
直接 OpenAI API クライアント。ではありません。機能グラント — 機能する RunComfy アカウントに依存。マルチテナント。ではありません。
セキュリティ & プライバシー
- トークンストレージ:
runcomfy loginは API トークンを~/.config/runcomfy/token.jsonにモード 0600(所有者のみ読み書き)で書き込みます。CI / コンテナでファイルを完全にバイパスするにはRUNCOMFY_TOKEN環境変数を設定してください。 - 入力バウンダリ:ユーザープロンプトは
--input経由で CLI に JSON 文字列として渡されます。CLI はプロンプトをシェル展開 しません。HTTPS 経由で JSON ボディを Model API に直接送信します。プロンプトコンテンツからのシェルインジェクション表面はありません。 - サードパーティコンテンツ:渡された画像 / マスク / ビデオ URL は RunComfy モデルサーバーによってフェッチされ、マシン上の CLI によってではありません。外部 URL を信頼できないものとして扱ってください。画像ベースのプロンプトインジェクションはあらゆる画像編集 / ビデオ編集モデルの既知のリスクです。
- アウトバウンドエンドポイント:
model-api.runcomfy.net(リクエスト送信)と*.runcomfy.net/*.runcomfy.com(生成された出力のダウンロードホワイトリスト)のみ。テレメトリ、コールバックなし。 - 生成ファイルサイズキャップ:CLI は単一ダウンロード > 2 GiB を中止し、悪意のあるまたは暴走するモデル出力からのディスク埋め込みを防ぎます。
ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- agentspace-so
- ライセンス
- MIT
- 最終更新
- 不明
Source: https://github.com/agentspace-so/runcomfy-agent-skills / ライセンス: MIT
関連スキル
agent-browser
AI エージェント向けのブラウザ自動化 CLI です。ウェブサイトとの対話が必要な場合に使用します。ページ遷移、フォーム入力、ボタンクリック、スクリーンショット取得、データ抽出、ウェブアプリのテスト、ブラウザ操作の自動化など、あらゆるブラウザタスクに対応できます。「ウェブサイトを開く」「フォームに記入する」「ボタンをクリックする」「スクリーンショットを取得する」「ページからデータを抽出する」「このウェブアプリをテストする」「サイトにログインする」「ブラウザ操作を自動化する」といった要求や、プログラマティックなウェブ操作が必要なタスクで起動します。
anyskill
AnySkill — あなたのプライベート・スキルクラウド。GitHubを基盤としたリポジトリからエージェントスキルを管理、同期、動的にロードできます。自然言語でクラウドスキルを検索し、オンデマンドでプロンプトを自動ロード、カスタムスキルのアップロードと共有、スキルバンドルの一括インストールが可能です。OpenClaw、Antigravity、Claude Code、Cursorに対応しています。
engram
AIエージェント向けの永続的なメモリシステムです。バグ修正、意思決定、発見、設定変更の後はmem_saveを使用してください。ユーザーが「覚えている」「記憶している」と言及した場合、または以前のセッションと重複する作業を開始する際はmem_searchを使用します。セッション終了前にmem_session_summaryを使用して、コンテキストを保持してください。
skyvern
AI駆動のブラウザ自動化により、任意のウェブサイトを自動化できます。フォーム入力、データ抽出、ファイルダウンロード、ログイン、複数ステップのワークフロー実行など、ユーザーがウェブサイトと連携する必要があるときに使用します。Skyvernは、LLMとコンピュータビジョンを活用して、未知のサイトも自動操作可能です。Python SDK、TypeScript SDK、REST API、MCPサーバー、またはCLIを通じて統合できます。
pinchbench
PinchBenchベンチマークを実行して、OpenClawエージェントの実世界タスクにおけるパフォーマンスを評価できます。モデルの機能テスト、モデル間の比較、ベンチマーク結果のリーダーボード提出、またはOpenClawのセットアップがカレンダー、メール、リサーチ、コーディング、複数ステップのワークフローにどの程度対応しているかを確認する際に使用します。
openui
OpenUIとOpenUI Langを使用してジェネレーティブUIアプリを構築できます。これらはLLM生成インターフェースのためのトークン効率的なオープン標準です。OpenUI、@openuidev、ジェネレーティブUI、LLMからのストリーミングUI、AI向けコンポーネントライブラリ、またはjson-render/A2UIの置き換えについて述べる際に使用します。スキャフォルディング、defineComponent、システムプロンプト、Renderer、およびOpenUI Lang出力のデバッグに対応しています。