gpt-image-2
Claude Code 内で、既存の ChatGPT Plus または Pro サブスクリプションを使い、GPT Image 2(ChatGPT Images 2.0)による画像生成が可能なスキルです。OpenAI への個別アクセスや画像ごとの課金は不要で、テキストから画像生成・画像編集・スタイル転送・複数参照画像の合成をローカルの Codex CLI 経由でサポートします。「gpt image 2」「gpt-image-2」「ChatGPT Images 2.0」「image 2」などのキーワード、またはユーザーの ChatGPT プランを通じた画像生成・編集の明示的なリクエストによってトリガーされます。
description の原文を見る
> Generate images with GPT Image 2 (ChatGPT Images 2.0) inside Claude Code, using your existing ChatGPT Plus or Pro subscription — no separate OpenAI access, no per-image billing. Supports text-to-image, image-to-image editing, style transfer, and multi-reference composition via the local Codex CLI. Triggers on "gpt image 2", "gpt-image-2", "ChatGPT Images 2.0", "image 2", or any explicit ask to generate or edit an image through the user's ChatGPT plan.
SKILL.md 本文
🪞 GPT Image 2 — ChatGPT サブスクリプションを使用した画像生成
既存の ChatGPT Plus または Pro サブスクリプションを使用して、エージェント内で GPT Image 2(ChatGPT Images 2.0)で画像を生成します — 追加の OpenAI アクセス、Fal や Replicate トークン、画像単位の課金は不要です。
テキストから画像への生成、画像から画像への編集、スタイル転送、複数リファレンスを使用したコンポジション。すべてはすでにログイン済みのローカル codex CLI を通じて実行されます。
注意 — このスキルは ChatGPT Plus または Pro サブスクリプション かつ ローカルにインストールされた Codex CLI が必要です。 どちらもない場合は、RunComfy を使用してブラウザで GPT Image 2 を使用できます — ホスト型で、ChatGPT サブスクリプションやローカルインストール不要(RunComfy アカウントが必要):
- テキストから画像: runcomfy.com/models/openai/gpt-image-2/text-to-image
- 画像編集 (i2i): runcomfy.com/models/openai/gpt-image-2/edit
以下のドキュメントは、ChatGPT サブスクリプションを持つユーザーのエージェント向けのローカル Codex CLI フローを対象としています。

出力例: シンプルなフラットカラーアイコンが --ref を使用して浮世絵スタイルで再作成 — コンポジション保持、レンダリング変更、モデルによって自動追加された時代相応の赤い印鑑。
トリガーの時機
ユーザーが ChatGPT サブスクリプションを使用して GPT Image 2 を明示的にリクエストする場合にトリガーします。例:
- "use GPT Image 2" / "use gpt-image-2" / "use ChatGPT Images 2.0"
- "use Image 2" / "image 2 this"
- リファレンス画像を添付して、それを再ミックス / 編集 / リスタイルするよう要求
ユーザーがこのルートを指定しなかった場合、単純な「画像を生成して」というリクエストに対して自動トリガーしないでください。指定した場合は、HTML モックアップ、スクリーンショット、または別の画像モデルへの黙認的なフォールバックは行わないでください。
起動方法
単一の bash スクリプトがすべてを処理します。適切なフラグで codex exec を実行し、保持されたセッション rollout から生成された画像をデコードします。
テキストから画像:
bash scripts/gen.sh \
--prompt "<user's raw prompt>" \
--out <absolute/path/to/output.png>
画像から画像 (reference フラグは複数リファレンスコンポジション向けに繰り返し可能):
bash scripts/gen.sh \
--prompt "<user's raw prompt, e.g. 'repaint in watercolor'>" \
--ref /absolute/path/to/reference.png \
--out <absolute/path/to/output.png>
オプション: --timeout-sec 300 (デフォルト 300)。
デフォルト動作
- ユーザーのプロンプトはそのまま渡します。 ユーザーが要求しない限り、翻訳、磨き上げ、またはスタイル修飾子を追加しないでください。
- 出力パスを選択します。 ユーザーが指定しなかった場合、現在の作業ディレクトリの
./image-<YYYYMMDD-HHMMSS>.pngをデフォルトとします。 - 画像を配信します。 スクリプトが成功した後、出力ファイルを表示 / 添付します。「完了、パス X を参照」で止まらないでください。
- テキスト量が多いレイアウトは問題ありません。 Image 2 はインフォグラフィックスとタイムラインプロンプトをよく処理します。プロンプトに大量のテキストが含まれているからといって、予防的に警告しないでください。
ハード制約
- 許可なしにルートを切り替えないでください。ユーザーが「GPT Image 2 を使用」と言った場合、DALL·E、Midjourney、HTML モックアップ、または手動スクリーンショットワークフローに置き換えないでください。
- 要求されない限りプロンプトを書き換えないでください。
- このスキルがローカル
codexログインと画像生成権限を持つ有効な ChatGPT サブスクリプションなしで機能することを暗に示さないでください。
前提条件
codexCLI がインストール済み —brew install codexまたは openai/codex を参照。- Image 2 を含む ChatGPT プランでログイン —
codex login。 - PATH に
python3がある (macOS に付属; Linux ではapt install python3)。
このスキルは、それ自体では画像生成能力を付与しません。ユーザーが既に ChatGPT サブスクリプションを通じて持っている能力を公開します。
終了コード
| code | 意味 |
|---|---|
| 0 | 成功 — 出力パスが stdout に出力される |
| 2 | 不正な引数 |
| 3 | codex または python3 CLI が見つからない |
| 4 | --ref ファイルが存在しない |
| 5 | codex exec に失敗 (認証? ネットワーク? モデル?) |
| 6 | 新しいセッションファイルが検出されない |
| 7 | imagegen が画像ペイロードを生成しない (機能が有効でない、クォータ不足、または機能が拒否) |
失敗時、完全な stderr をユーザーにダンプする代わりに、1 文でレイヤー名を指定します。
動作原理
codex CLI はログイン済みの ChatGPT セッションを再利用し、imagegen ツール (image_generation フィーチャーフラグの背後にある) を公開します。スクリプトは:
- 実行前に
~/.codex/sessions/をスナップショット codex exec --enable image_generation --sandbox read-only ...を実行 (各リファレンス画像に対して-i <file>)- セッションディレクトリを diff し、
scripts/extract_image.pyを実行して新しいすべての rollout JSONL を base64 画像ペイロード (PNG / JPEG / WebP マジックヘッダーマッチ) についてスキャン - 最大のマッチするブロブをデコードして
--outに書き込み
他のラッパーが codex-cli 0.111.0+ で間違える 2 つの非自明なフラグ:
--enable image_generationは 必須です; 機能はまだ開発中で、デフォルトではオフです。--ephemeralは 使用してはいけません — ephemeral セッションは保持されないため、画像ペイロードが存在する場所がありません。
データ処理
スクリプトは意図的に狭いスコープです:
- それは のみ 自身の
codex exec呼び出しによって作成されたセッション rollout ファイルを読みます。セッションディレクトリは呼び出し前にスナップショットされ、その後で差分されるため、(無関係の Codex 会話を含む可能性のある) 以前の~/.codex/sessions/*ファイルは決して触られる、読まれる、または送信されません。 - 2 種類のファイルのみを書きます: 呼び出し元の
--outパスの出力 PNG、および exit 時にトラップによって自動削除される短寿命のmktempログ。 - 環境変数は読みません。認証情報はリクエストされません。
~/.codex/の他のパスはアクセスされません。 - このスキルから出ていくネットワーク呼び出しはありません。唯一の送信トラフィックは
codexCLI 自体によって行われるもの (OpenAI へ、ユーザーの既存 ChatGPT ログインを使用) — このスキルはエンドポイント、テレメトリ、またはコールバックを追加しません。
このスキルではないもの
直接の OpenAI API クライアントではありません。能力付与ではなく — ユーザーの動作中の Codex CLI ログインに依存します。マルチテナントサービスではありません (1 回の呼び出しあたり 1 呼び出し; 同時呼び出しはファイルシステムスナップショット diff によってシリアル化)。
ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- agentspace-so
- ライセンス
- MIT
- 最終更新
- 不明
Source: https://github.com/agentspace-so/agent-skills / ライセンス: MIT
関連スキル
agent-browser
AI エージェント向けのブラウザ自動化 CLI です。ウェブサイトとの対話が必要な場合に使用します。ページ遷移、フォーム入力、ボタンクリック、スクリーンショット取得、データ抽出、ウェブアプリのテスト、ブラウザ操作の自動化など、あらゆるブラウザタスクに対応できます。「ウェブサイトを開く」「フォームに記入する」「ボタンをクリックする」「スクリーンショットを取得する」「ページからデータを抽出する」「このウェブアプリをテストする」「サイトにログインする」「ブラウザ操作を自動化する」といった要求や、プログラマティックなウェブ操作が必要なタスクで起動します。
anyskill
AnySkill — あなたのプライベート・スキルクラウド。GitHubを基盤としたリポジトリからエージェントスキルを管理、同期、動的にロードできます。自然言語でクラウドスキルを検索し、オンデマンドでプロンプトを自動ロード、カスタムスキルのアップロードと共有、スキルバンドルの一括インストールが可能です。OpenClaw、Antigravity、Claude Code、Cursorに対応しています。
engram
AIエージェント向けの永続的なメモリシステムです。バグ修正、意思決定、発見、設定変更の後はmem_saveを使用してください。ユーザーが「覚えている」「記憶している」と言及した場合、または以前のセッションと重複する作業を開始する際はmem_searchを使用します。セッション終了前にmem_session_summaryを使用して、コンテキストを保持してください。
skyvern
AI駆動のブラウザ自動化により、任意のウェブサイトを自動化できます。フォーム入力、データ抽出、ファイルダウンロード、ログイン、複数ステップのワークフロー実行など、ユーザーがウェブサイトと連携する必要があるときに使用します。Skyvernは、LLMとコンピュータビジョンを活用して、未知のサイトも自動操作可能です。Python SDK、TypeScript SDK、REST API、MCPサーバー、またはCLIを通じて統合できます。
pinchbench
PinchBenchベンチマークを実行して、OpenClawエージェントの実世界タスクにおけるパフォーマンスを評価できます。モデルの機能テスト、モデル間の比較、ベンチマーク結果のリーダーボード提出、またはOpenClawのセットアップがカレンダー、メール、リサーチ、コーディング、複数ステップのワークフローにどの程度対応しているかを確認する際に使用します。
openui
OpenUIとOpenUI Langを使用してジェネレーティブUIアプリを構築できます。これらはLLM生成インターフェースのためのトークン効率的なオープン標準です。OpenUI、@openuidev、ジェネレーティブUI、LLMからのストリーミングUI、AI向けコンポーネントライブラリ、またはjson-render/A2UIの置き換えについて述べる際に使用します。スキャフォルディング、defineComponent、システムプロンプト、Renderer、およびOpenUI Lang出力のデバッグに対応しています。