Anthropic ClaudeLLM・AI開発⭐ リポ 0品質スコア 50/100

gpt-image-2

Name: gpt-image-2
Author: agentspace-so

RunComfy上でOpenAI GPT Image 2（ChatGPT Images 2.0）を使用した画像の生成・編集を行うスキルです。テキスト埋め込み・ロゴ・多言語タイポグラフィ・高精度な指示追従といったGPT Image 2の強みを活かし、ローカルのRunComfy CLIを通じて`runcomfy run openai/gpt-image-2/text-to-image`または`/edit`を呼び出します。「gpt image 2」「gpt-image-2」「ChatGPT Images 2」「image 2」などのキーワード、またはこのモデルでの生成・編集を明示的に求められた際にトリガーされます。

description の原文を見る

> Generate and edit images with OpenAI GPT Image 2 (ChatGPT Images 2.0) on RunComfy. Documents GPT Image 2's strengths (embedded text, logos, multilingual typography, instruction precision), its 3 fixed sizes, edit-with-preservation language, and when to route to a sibling (Flux 2 / Nano Banana Pro / Seedream) instead. Calls `runcomfy run openai/gpt-image-2/text-to-image` or `/edit` through the local RunComfy CLI. Triggers on "gpt image 2", "gpt-image-2", "ChatGPT Images 2", "image 2", or any explicit ask to generate or edit with this model.

SKILL.md 本文

GPT Image 2 — Pro Pack on RunComfy

runcomfy.com · Text-to-image · Edit · GitHub

OpenAI GPT Image 2 (ChatGPT Images 2.0) を RunComfy Model API でホスト — OpenAI キー不要、非同期 REST。

npx skills add agentspace-so/runcomfy-skills --skill gpt-image-2 -g

このモデルを選ぶべき場面（兄弟モデルとの比較）

GPT Image 2 の際立った強みは 指示の精密性 です。複数要素のプロンプト、レイアウト指示、埋め込みテキストを同業他社より確実に従います。キャンバス上に何があるかが、スタイル化のされ方よりも重要な場合 に選びます。

必要な機能	使用モデル
埋め込みテキスト、ロゴ、看板、多言語タイポグラフィ	GPT Image 2
ブランドセーフ、eコマース / 広告 / UI モックアップ画像	GPT Image 2
構図を安定させた反復改善	GPT Image 2
重いスタイル化、画風的な表現	Flux 2
超リアルなポートレート	Nano Banana Pro
シネマティック / 美学重視のヒーロー画像	Seedream 5

ユーザーが明確に GPT Image 2 / ChatGPT Image 2 / Image 2 を指定した場合は、ここにルーティングしてください — モデル選択に疑問を挟まないこと。

前提条件

RunComfy CLI — npm i -g @runcomfy/cli
RunComfy アカウント — runcomfy login でブラウザのデバイスコードフローを開きます。
CI / コンテナ — RUNCOMFY_TOKEN=<token> を環境変数で設定します。

エンドポイント + 入力スキーマ

2 つのエンドポイント、同じモデル。

`openai/gpt-image-2/text-to-image`

フィールド	型	必須	デフォルト	備考
`prompt`	string	yes	—	ポジティブプロンプト
`size`	enum	no	`1024_1024`	`1024_1024` (1:1)、`1024_1536` (2:3 ポートレート)、`1536_1024` (3:2 ランドスケープ) — この 3 つのみ

`openai/gpt-image-2/edit`

フィールド	型	必須	デフォルト	備考
`prompt`	string	yes	—	自然言語の編集指示
`images`	string[]	yes	—	最大 10 個の参照画像 URL（パブリック HTTPS）
`size`	enum	no	`auto`	`auto`（入力のアスペクト比を維持）、または上記の 3 つの固定サイズのいずれか

編集時の size=auto は入力のアスペクト比を維持します — 編集が明確にフレーミングを変更しない限り強く推奨します。

呼び出し方法

テキスト生成：

runcomfy run openai/gpt-image-2/text-to-image \
  --input '{"prompt": "<user prompt>", "size": "1024_1536"}' \
  --output-dir <absolute/path>

編集（単一参照）：

runcomfy run openai/gpt-image-2/edit \
  --input '{
    "prompt": "<edit instruction>",
    "images": ["https://..."]
  }' \
  --output-dir <absolute/path>

編集（複数参照、最大 10 個）：

runcomfy run openai/gpt-image-2/edit \
  --input '{
    "prompt": "compose subject from image 1 into the room from image 2; match the lighting of image 2",
    "images": ["https://...subject.jpg", "https://...room.jpg"]
  }' \
  --output-dir <absolute/path>

CLI は提出し、ターミナル状態に達するまで 2 秒ごとにポーリング、結果から *.runcomfy.net / *.runcomfy.com URL をすべて --output-dir にダウンロードします。Stdout は結果 JSON、stderr は進捗です。

パイプフレンドリーな使用法：

runcomfy --output json run openai/gpt-image-2/text-to-image \
  --input '{"prompt":"..."}' --no-wait | jq -r .request_id

プロンプティング — 実際に機能する方法

これらはモデル固有のパターンで、経験的に出力品質を向上させます。テキスト生成と編集の両方に適用します。

被写体 + 背景 + ムードを明確に。 「温かいリネン上のマット仕上げのセラミック水ボトルの大写し、柔らかい窓光、ニュートラル背景」 — 3 つの具体的な指示 — は「ボトルのいい製品写真」より優れています。

埋め込みテキストは正確に引用。短く保つ。 GPT Image 2 はこのクラスで最強のテキストレンダリングモデルですが、リテラル文字を引用符に入れた場合のみ です。長いテキストブロックは品質が低下します。多言語テキストの場合、スクリプトを名前付けしてください：「Japanese kana」、「Cyrillic」、「Arabic right-to-left」。

構図キューを直接使用。 「rule of thirds」、「close-up」、「aerial view」、「centered subject」、「shallow depth of field」 — これらはモデルに学習済みの意味を持ちます。

一度に 1 つの属性で反復。 改善時には反復ごとに 1 つのこと（照明 OR 背景 OR ポーズ OR テキスト）だけを変更し、プロンプトの残りは逐語的に保ってください。モデルは 1 つのノブだけが動く場合、反復間で構図を安定させます。

指示を競わせない。 「テキストなし」+ 「ラベルに「AQUA+」という単語」は矛盾しています — モデルは 1 つを選び、どちらを選ぶかはコントロールできません。

スタイルを積み重ねない。 「浮世絵 + 水彩 + 8K + シネマティック + ミニマリスト」は打ち消し合います。スタイルアンカーは最大 1～2 個を選んでください。

編集エンドポイント専用：

保存目標を述べる。 「人物のポーズと顔のアイデンティティを変えない」、「パッケージ上のブランドマークとタイポグラフィを保つ」、「全体的なフレーミングを保つ」。モデルは何を変更しないかを知る必要があります。
空間編集に方向言語を使用。 「見出しを右上から下中央に移動」、「見出しを再配置」ではなく。
マルチリファレンス：プロンプト内で画像に番号を付けます — 「被写体は画像 1、照明と背景は画像 2」 — モデルはキューを正しくルーティングします。

輝く用途

ユースケース	GPT Image 2 の理由
eコマース製品写真	ラベル上のテキストが確実、ブランドセーフな照明、SKU 全体で一貫性
高コンバージョン広告	見出し + ビジュアルの統合が 1 パスで実現
ブランドアセットのローカライゼーション	1 つのソースアセット → 同じ見出しの複数言語バリアント
看板、ポスター、パッケージモックアップ	複数スケールでのテキスト精度
UI モックアップ、科学イラスト	レイアウト精度とラベル判読性

サンプルプロンプト（強い結果を生成することが確認済み）

テキスト生成 — 製品ヒーロー：

A minimal hero product still life: a matte ceramic water bottle on warm linen,
soft window light, the word "AQUA+" in clean sans-serif on the label,
subtle rim highlights, e-commerce ready, 8K detail, neutral background

テキスト生成 — 多言語看板：

A small Tokyo café storefront at dusk, warm interior glow,
the sign reads "コーヒー" in bold Japanese kana on a wooden plaque,
shallow depth of field, rule of thirds, cinematic

編集 — 保存による背景スワップ：

Turn the background into a bright minimal white-to-soft-gray studio sweep
with gentle floor shadow; add a large headline in-image that reads
"OPEN STUDIO" in a bold clean sans-serif, high contrast, centered;
keep the main person or product, pose, and face identity unchanged

制限事項

固定サイズは 3 つのみ テキスト生成で（編集も同じ 3 つ + auto）。極端なアスペクト比は最も近いサポートされたものに自動リサイズされます。
プロンプト長 ~ 数千トークン。長い埋め込みテキストブロックは出力を劣化させます。
編集のマルチ画像 サポートは「最大 10 個のリファレンスからのガイダンス」、ControlNet スタイルのスタックではありません。最初の画像がプライマリとして扱われ、その他は補助的なキューを提供します。
ポートレートのフォトリアリズム は最強の分野ではありません — Nano Banana Pro がヘッドツーヘッドで勝ちます。

終了コード

runcomfy CLI は sysexits スタイルのコードを使用：

コード	意味
0	成功
64	CLI 引数の不良
65	不正な入力 JSON / スキーマ不一致（例：`size: "2048_2048"` は 422）
69	アップストリーム 5xx
75	再試行可能：タイムアウト / 429
77	未サインイン、またはトークン拒否

完全なリファレンス：docs.runcomfy.com/cli/troubleshooting。

仕組み

スキルは runcomfy run openai/gpt-image-2/<endpoint> を上記のスキーマにマッチする JSON ボディで呼び出します。
CLI は https://model-api.runcomfy.net/v1/models/openai/gpt-image-2/<endpoint> にユーザーのベアラートークンでポストします。
Model API は request_id を返します。CLI は GET .../requests/<id>/status を 2 秒ごとにポーリングします。
ターミナル状態で、CLI は GET .../requests/<id>/result をフェッチしてホストが .runcomfy.net または .runcomfy.com で終わる URL を --output-dir にダウンロードします。その他の URL はリストされますが、フェッチされません。
ポーリング中の Ctrl-C は POST .../requests/<id>/cancel を送信し、停止した GPU にチャージされません。

このスキルではないもの

直接 OpenAI API クライアント。ではありません。機能グラント — 機能する RunComfy アカウントに依存。マルチテナント。ではありません。

セキュリティ & プライバシー

トークンストレージ：runcomfy login は API トークンを ~/.config/runcomfy/token.json にモード 0600（所有者のみ読み書き）で書き込みます。CI / コンテナでファイルを完全にバイパスするには RUNCOMFY_TOKEN 環境変数を設定してください。
入力バウンダリ：ユーザープロンプトは --input 経由で CLI に JSON 文字列として渡されます。CLI はプロンプトをシェル展開 しません。HTTPS 経由で JSON ボディを Model API に直接送信します。プロンプトコンテンツからのシェルインジェクション表面はありません。
サードパーティコンテンツ：渡された画像 / マスク / ビデオ URL は RunComfy モデルサーバーによってフェッチされ、マシン上の CLI によってではありません。外部 URL を信頼できないものとして扱ってください。画像ベースのプロンプトインジェクションはあらゆる画像編集 / ビデオ編集モデルの既知のリスクです。
アウトバウンドエンドポイント：model-api.runcomfy.net（リクエスト送信）と *.runcomfy.net / *.runcomfy.com（生成された出力のダウンロードホワイトリスト）のみ。テレメトリ、コールバックなし。
生成ファイルサイズキャップ：CLI は単一ダウンロード > 2 GiB を中止し、悪意のあるまたは暴走するモデル出力からのディスク埋め込みを防ぎます。

ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

詳細情報

作者: agentspace-so
リポジトリ: agentspace-so/runcomfy-agent-skills
ライセンス: MIT
最終更新: 不明

GitHubで原本を見る →フィードバックを送る

Source: https://github.com/agentspace-so/runcomfy-agent-skills / ライセンス: MIT