Agent Skills by ALSEL
Anthropic ClaudeLLM・AI開発⭐ リポ 0品質スコア 50/100

gpt-image-2

RunComfy上でOpenAI GPT Image 2(ChatGPT Images 2.0)を使用した画像の生成・編集を行うスキルです。テキスト埋め込み・ロゴ・多言語タイポグラフィ・高精度な指示追従といったGPT Image 2の強みを活かし、ローカルのRunComfy CLIを通じて`runcomfy run openai/gpt-image-2/text-to-image`または`/edit`を呼び出します。「gpt image 2」「gpt-image-2」「ChatGPT Images 2」「image 2」などのキーワード、またはこのモデルでの生成・編集を明示的に求められた際にトリガーされます。

description の原文を見る

> Generate and edit images with OpenAI GPT Image 2 (ChatGPT Images 2.0) on RunComfy. Documents GPT Image 2's strengths (embedded text, logos, multilingual typography, instruction precision), its 3 fixed sizes, edit-with-preservation language, and when to route to a sibling (Flux 2 / Nano Banana Pro / Seedream) instead. Calls `runcomfy run openai/gpt-image-2/text-to-image` or `/edit` through the local RunComfy CLI. Triggers on "gpt image 2", "gpt-image-2", "ChatGPT Images 2", "image 2", or any explicit ask to generate or edit with this model.

SKILL.md 本文

GPT Image 2 — Pro Pack on RunComfy

runcomfy.com · Text-to-image · Edit · GitHub

OpenAI GPT Image 2 (ChatGPT Images 2.0) を RunComfy Model API でホスト — OpenAI キー不要、非同期 REST。

npx skills add agentspace-so/runcomfy-skills --skill gpt-image-2 -g

このモデルを選ぶべき場面(兄弟モデルとの比較)

GPT Image 2 の際立った強みは 指示の精密性 です。複数要素のプロンプト、レイアウト指示、埋め込みテキストを同業他社より確実に従います。キャンバス上に何があるかが、スタイル化のされ方よりも重要な場合 に選びます。

必要な機能使用モデル
埋め込みテキスト、ロゴ、看板、多言語タイポグラフィGPT Image 2
ブランドセーフ、eコマース / 広告 / UI モックアップ画像GPT Image 2
構図を安定させた反復改善GPT Image 2
重いスタイル化、画風的な表現Flux 2
超リアルなポートレートNano Banana Pro
シネマティック / 美学重視のヒーロー画像Seedream 5

ユーザーが明確に GPT Image 2 / ChatGPT Image 2 / Image 2 を指定した場合は、ここにルーティングしてください — モデル選択に疑問を挟まないこと。

前提条件

  1. RunComfy CLInpm i -g @runcomfy/cli
  2. RunComfy アカウントruncomfy login でブラウザのデバイスコードフローを開きます。
  3. CI / コンテナRUNCOMFY_TOKEN=<token> を環境変数で設定します。

エンドポイント + 入力スキーマ

2 つのエンドポイント、同じモデル。

openai/gpt-image-2/text-to-image

フィールド必須デフォルト備考
promptstringyesポジティブプロンプト
sizeenumno1024_10241024_1024 (1:1)、1024_1536 (2:3 ポートレート)、1536_1024 (3:2 ランドスケープ) — この 3 つのみ

openai/gpt-image-2/edit

フィールド必須デフォルト備考
promptstringyes自然言語の 編集指示
imagesstring[]yes最大 10 個 の参照画像 URL(パブリック HTTPS)
sizeenumnoautoauto(入力のアスペクト比を維持)、または上記の 3 つの固定サイズのいずれか

編集時の size=auto は入力のアスペクト比を維持します — 編集が明確にフレーミングを変更しない限り強く推奨します。

呼び出し方法

テキスト生成:

runcomfy run openai/gpt-image-2/text-to-image \
  --input '{"prompt": "<user prompt>", "size": "1024_1536"}' \
  --output-dir <absolute/path>

編集(単一参照):

runcomfy run openai/gpt-image-2/edit \
  --input '{
    "prompt": "<edit instruction>",
    "images": ["https://..."]
  }' \
  --output-dir <absolute/path>

編集(複数参照、最大 10 個):

runcomfy run openai/gpt-image-2/edit \
  --input '{
    "prompt": "compose subject from image 1 into the room from image 2; match the lighting of image 2",
    "images": ["https://...subject.jpg", "https://...room.jpg"]
  }' \
  --output-dir <absolute/path>

CLI は提出し、ターミナル状態に達するまで 2 秒ごとにポーリング、結果から *.runcomfy.net / *.runcomfy.com URL をすべて --output-dir にダウンロードします。Stdout は結果 JSON、stderr は進捗です。

パイプフレンドリーな使用法:

runcomfy --output json run openai/gpt-image-2/text-to-image \
  --input '{"prompt":"..."}' --no-wait | jq -r .request_id

プロンプティング — 実際に機能する方法

これらはモデル固有のパターンで、経験的に出力品質を向上させます。テキスト生成と編集の両方に適用します。

被写体 + 背景 + ムードを明確に。 「温かいリネン上のマット仕上げのセラミック水ボトルの大写し、柔らかい窓光、ニュートラル背景」 — 3 つの具体的な指示 — は「ボトルのいい製品写真」より優れています。

埋め込みテキストは正確に引用。短く保つ。 GPT Image 2 はこのクラスで最強のテキストレンダリングモデルですが、リテラル文字を引用符に入れた場合のみ です。長いテキストブロックは品質が低下します。多言語テキストの場合、スクリプトを名前付けしてください:「Japanese kana」、「Cyrillic」、「Arabic right-to-left」。

構図キューを直接使用。 「rule of thirds」、「close-up」、「aerial view」、「centered subject」、「shallow depth of field」 — これらはモデルに学習済みの意味を持ちます。

一度に 1 つの属性で反復。 改善時には反復ごとに 1 つのこと(照明 OR 背景 OR ポーズ OR テキスト)だけを変更し、プロンプトの残りは逐語的に保ってください。モデルは 1 つのノブだけが動く場合、反復間で構図を安定させます。

指示を競わせない。 「テキストなし」+ 「ラベルに「AQUA+」という単語」は矛盾しています — モデルは 1 つを選び、どちらを選ぶかはコントロールできません。

スタイルを積み重ねない。 「浮世絵 + 水彩 + 8K + シネマティック + ミニマリスト」は打ち消し合います。スタイルアンカーは最大 1~2 個を選んでください。

編集 エンドポイント専用:

  • 保存目標を述べる。人物のポーズと顔のアイデンティティを変えない」、「パッケージ上のブランドマークとタイポグラフィを保つ」、「全体的なフレーミングを保つ」。モデルは何を変更しないかを知る必要があります。
  • 空間編集に方向言語を使用。 「見出しを右上から下中央に移動」、「見出しを再配置」ではなく。
  • マルチリファレンス:プロンプト内で画像に番号を付けます — 「被写体は画像 1、照明と背景は画像 2」 — モデルはキューを正しくルーティングします。

輝く用途

ユースケースGPT Image 2 の理由
eコマース製品写真ラベル上のテキストが確実、ブランドセーフな照明、SKU 全体で一貫性
高コンバージョン広告見出し + ビジュアルの統合が 1 パスで実現
ブランドアセットのローカライゼーション1 つのソースアセット → 同じ見出しの複数言語バリアント
看板、ポスター、パッケージモックアップ複数スケールでのテキスト精度
UI モックアップ、科学イラストレイアウト精度とラベル判読性

サンプルプロンプト(強い結果を生成することが確認済み)

テキスト生成 — 製品ヒーロー:

A minimal hero product still life: a matte ceramic water bottle on warm linen,
soft window light, the word "AQUA+" in clean sans-serif on the label,
subtle rim highlights, e-commerce ready, 8K detail, neutral background

テキスト生成 — 多言語看板:

A small Tokyo café storefront at dusk, warm interior glow,
the sign reads "コーヒー" in bold Japanese kana on a wooden plaque,
shallow depth of field, rule of thirds, cinematic

編集 — 保存による背景スワップ:

Turn the background into a bright minimal white-to-soft-gray studio sweep
with gentle floor shadow; add a large headline in-image that reads
"OPEN STUDIO" in a bold clean sans-serif, high contrast, centered;
keep the main person or product, pose, and face identity unchanged

制限事項

  • 固定サイズは 3 つのみ テキスト生成で(編集も同じ 3 つ + auto)。極端なアスペクト比は最も近いサポートされたものに自動リサイズされます。
  • プロンプト長 ~ 数千トークン。長い埋め込みテキストブロックは出力を劣化させます。
  • 編集のマルチ画像 サポートは「最大 10 個のリファレンスからのガイダンス」、ControlNet スタイルのスタックではありません。最初の画像がプライマリとして扱われ、その他は補助的なキューを提供します。
  • ポートレートのフォトリアリズム は最強の分野ではありません — Nano Banana Pro がヘッドツーヘッドで勝ちます。

終了コード

runcomfy CLI は sysexits スタイルのコードを使用:

コード意味
0成功
64CLI 引数の不良
65不正な入力 JSON / スキーマ不一致(例:size: "2048_2048" は 422)
69アップストリーム 5xx
75再試行可能:タイムアウト / 429
77未サインイン、またはトークン拒否

完全なリファレンス:docs.runcomfy.com/cli/troubleshooting

仕組み

  1. スキルは runcomfy run openai/gpt-image-2/<endpoint> を上記のスキーマにマッチする JSON ボディで呼び出します。
  2. CLI は https://model-api.runcomfy.net/v1/models/openai/gpt-image-2/<endpoint> にユーザーのベアラートークンでポストします。
  3. Model API は request_id を返します。CLI は GET .../requests/<id>/status を 2 秒ごとにポーリングします。
  4. ターミナル状態で、CLI は GET .../requests/<id>/result をフェッチしてホストが .runcomfy.net または .runcomfy.com で終わる URL を --output-dir にダウンロードします。その他の URL はリストされますが、フェッチされません。
  5. ポーリング中の Ctrl-CPOST .../requests/<id>/cancel を送信し、停止した GPU にチャージされません。

このスキルではないもの

直接 OpenAI API クライアント。ではありません。機能グラント — 機能する RunComfy アカウントに依存。マルチテナント。ではありません。

セキュリティ & プライバシー

  • トークンストレージruncomfy login は API トークンを ~/.config/runcomfy/token.json にモード 0600(所有者のみ読み書き)で書き込みます。CI / コンテナでファイルを完全にバイパスするには RUNCOMFY_TOKEN 環境変数を設定してください。
  • 入力バウンダリ:ユーザープロンプトは --input 経由で CLI に JSON 文字列として渡されます。CLI はプロンプトをシェル展開 しません。HTTPS 経由で JSON ボディを Model API に直接送信します。プロンプトコンテンツからのシェルインジェクション表面はありません。
  • サードパーティコンテンツ:渡された画像 / マスク / ビデオ URL は RunComfy モデルサーバーによってフェッチされ、マシン上の CLI によってではありません。外部 URL を信頼できないものとして扱ってください。画像ベースのプロンプトインジェクションはあらゆる画像編集 / ビデオ編集モデルの既知のリスクです。
  • アウトバウンドエンドポイントmodel-api.runcomfy.net(リクエスト送信)と *.runcomfy.net / *.runcomfy.com(生成された出力のダウンロードホワイトリスト)のみ。テレメトリ、コールバックなし。
  • 生成ファイルサイズキャップ:CLI は単一ダウンロード > 2 GiB を中止し、悪意のあるまたは暴走するモデル出力からのディスク埋め込みを防ぎます。

ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

詳細情報

作者
agentspace-so
リポジトリ
agentspace-so/runcomfy-agent-skills
ライセンス
MIT
最終更新
不明

Source: https://github.com/agentspace-so/runcomfy-agent-skills / ライセンス: MIT

関連スキル

OpenAILLM・AI開発⭐ リポ 6,054

agent-browser

AI エージェント向けのブラウザ自動化 CLI です。ウェブサイトとの対話が必要な場合に使用します。ページ遷移、フォーム入力、ボタンクリック、スクリーンショット取得、データ抽出、ウェブアプリのテスト、ブラウザ操作の自動化など、あらゆるブラウザタスクに対応できます。「ウェブサイトを開く」「フォームに記入する」「ボタンをクリックする」「スクリーンショットを取得する」「ページからデータを抽出する」「このウェブアプリをテストする」「サイトにログインする」「ブラウザ操作を自動化する」といった要求や、プログラマティックなウェブ操作が必要なタスクで起動します。

by JimmyLv
汎用LLM・AI開発⭐ リポ 1,982

anyskill

AnySkill — あなたのプライベート・スキルクラウド。GitHubを基盤としたリポジトリからエージェントスキルを管理、同期、動的にロードできます。自然言語でクラウドスキルを検索し、オンデマンドでプロンプトを自動ロード、カスタムスキルのアップロードと共有、スキルバンドルの一括インストールが可能です。OpenClaw、Antigravity、Claude Code、Cursorに対応しています。

by LeoYeAI
汎用LLM・AI開発⭐ リポ 1,982

engram

AIエージェント向けの永続的なメモリシステムです。バグ修正、意思決定、発見、設定変更の後はmem_saveを使用してください。ユーザーが「覚えている」「記憶している」と言及した場合、または以前のセッションと重複する作業を開始する際はmem_searchを使用します。セッション終了前にmem_session_summaryを使用して、コンテキストを保持してください。

by LeoYeAI
汎用LLM・AI開発⭐ リポ 21,584

skyvern

AI駆動のブラウザ自動化により、任意のウェブサイトを自動化できます。フォーム入力、データ抽出、ファイルダウンロード、ログイン、複数ステップのワークフロー実行など、ユーザーがウェブサイトと連携する必要があるときに使用します。Skyvernは、LLMとコンピュータビジョンを活用して、未知のサイトも自動操作可能です。Python SDK、TypeScript SDK、REST API、MCPサーバー、またはCLIを通じて統合できます。

by Skyvern-AI
汎用LLM・AI開発⭐ リポ 1,149

pinchbench

PinchBenchベンチマークを実行して、OpenClawエージェントの実世界タスクにおけるパフォーマンスを評価できます。モデルの機能テスト、モデル間の比較、ベンチマーク結果のリーダーボード提出、またはOpenClawのセットアップがカレンダー、メール、リサーチ、コーディング、複数ステップのワークフローにどの程度対応しているかを確認する際に使用します。

by pinchbench
汎用LLM・AI開発⭐ リポ 4,693

openui

OpenUIとOpenUI Langを使用してジェネレーティブUIアプリを構築できます。これらはLLM生成インターフェースのためのトークン効率的なオープン標準です。OpenUI、@openuidev、ジェネレーティブUI、LLMからのストリーミングUI、AI向けコンポーネントライブラリ、またはjson-render/A2UIの置き換えについて述べる際に使用します。スキャフォルディング、defineComponent、システムプロンプト、Renderer、およびOpenUI Lang出力のデバッグに対応しています。

by thesysdev
本サイトは GitHub 上で公開されているオープンソースの SKILL.md ファイルをクロール・インデックス化したものです。 各スキルの著作権は原作者に帰属します。掲載に問題がある場合は info@alsel.co.jp または /takedown フォームよりご連絡ください。
原作者: agentspace-so · agentspace-so/runcomfy-agent-skills · ライセンス: MIT