Agent Skills by ALSEL
Anthropic ClaudeLLM・AI開発⭐ リポ 0品質スコア 50/100

gpt-image-2

Claude Code 内で、既存の ChatGPT Plus または Pro サブスクリプションを使い、GPT Image 2(ChatGPT Images 2.0)による画像生成が可能なスキルです。OpenAI への個別アクセスや画像ごとの課金は不要で、テキストから画像生成・画像編集・スタイル転送・複数参照画像の合成をローカルの Codex CLI 経由でサポートします。「gpt image 2」「gpt-image-2」「ChatGPT Images 2.0」「image 2」などのキーワード、またはユーザーの ChatGPT プランを通じた画像生成・編集の明示的なリクエストによってトリガーされます。

description の原文を見る

> Generate images with GPT Image 2 (ChatGPT Images 2.0) inside Claude Code, using your existing ChatGPT Plus or Pro subscription — no separate OpenAI access, no per-image billing. Supports text-to-image, image-to-image editing, style transfer, and multi-reference composition via the local Codex CLI. Triggers on "gpt image 2", "gpt-image-2", "ChatGPT Images 2.0", "image 2", or any explicit ask to generate or edit an image through the user's ChatGPT plan.

SKILL.md 本文

🪞 GPT Image 2 — ChatGPT サブスクリプションを使用した画像生成

agentspace.so · GitHub

既存の ChatGPT Plus または Pro サブスクリプションを使用して、エージェント内で GPT Image 2(ChatGPT Images 2.0)で画像を生成します — 追加の OpenAI アクセス、Fal や Replicate トークン、画像単位の課金は不要です。

テキストから画像への生成、画像から画像への編集、スタイル転送、複数リファレンスを使用したコンポジション。すべてはすでにログイン済みのローカル codex CLI を通じて実行されます。

注意 — このスキルは ChatGPT Plus または Pro サブスクリプション かつ ローカルにインストールされた Codex CLI が必要です。 どちらもない場合は、RunComfy を使用してブラウザで GPT Image 2 を使用できます — ホスト型で、ChatGPT サブスクリプションやローカルインストール不要(RunComfy アカウントが必要):

以下のドキュメントは、ChatGPT サブスクリプションを持つユーザーのエージェント向けのローカル Codex CLI フローを対象としています。

GPT Image 2 の例 — フラットカラーのロブスターが 1950 年代の浮世絵木版画として再作成された

出力例: シンプルなフラットカラーアイコンが --ref を使用して浮世絵スタイルで再作成 — コンポジション保持、レンダリング変更、モデルによって自動追加された時代相応の赤い印鑑。

トリガーの時機

ユーザーが ChatGPT サブスクリプションを使用して GPT Image 2 を明示的にリクエストする場合にトリガーします。例:

  • "use GPT Image 2" / "use gpt-image-2" / "use ChatGPT Images 2.0"
  • "use Image 2" / "image 2 this"
  • リファレンス画像を添付して、それを再ミックス / 編集 / リスタイルするよう要求

ユーザーがこのルートを指定しなかった場合、単純な「画像を生成して」というリクエストに対して自動トリガーしないでください。指定した場合は、HTML モックアップ、スクリーンショット、または別の画像モデルへの黙認的なフォールバックは行わないでください。

起動方法

単一の bash スクリプトがすべてを処理します。適切なフラグで codex exec を実行し、保持されたセッション rollout から生成された画像をデコードします。

テキストから画像:

bash scripts/gen.sh \
  --prompt "<user's raw prompt>" \
  --out <absolute/path/to/output.png>

画像から画像 (reference フラグは複数リファレンスコンポジション向けに繰り返し可能):

bash scripts/gen.sh \
  --prompt "<user's raw prompt, e.g. 'repaint in watercolor'>" \
  --ref /absolute/path/to/reference.png \
  --out <absolute/path/to/output.png>

オプション: --timeout-sec 300 (デフォルト 300)。

デフォルト動作

  • ユーザーのプロンプトはそのまま渡します。 ユーザーが要求しない限り、翻訳、磨き上げ、またはスタイル修飾子を追加しないでください。
  • 出力パスを選択します。 ユーザーが指定しなかった場合、現在の作業ディレクトリの ./image-<YYYYMMDD-HHMMSS>.png をデフォルトとします。
  • 画像を配信します。 スクリプトが成功した後、出力ファイルを表示 / 添付します。「完了、パス X を参照」で止まらないでください。
  • テキスト量が多いレイアウトは問題ありません。 Image 2 はインフォグラフィックスとタイムラインプロンプトをよく処理します。プロンプトに大量のテキストが含まれているからといって、予防的に警告しないでください。

ハード制約

  • 許可なしにルートを切り替えないでください。ユーザーが「GPT Image 2 を使用」と言った場合、DALL·E、Midjourney、HTML モックアップ、または手動スクリーンショットワークフローに置き換えないでください。
  • 要求されない限りプロンプトを書き換えないでください。
  • このスキルがローカル codex ログインと画像生成権限を持つ有効な ChatGPT サブスクリプションなしで機能することを暗に示さないでください。

前提条件

  1. codex CLI がインストール済み — brew install codex または openai/codex を参照。
  2. Image 2 を含む ChatGPT プランでログイン — codex login
  3. PATH に python3 がある (macOS に付属; Linux では apt install python3)。

このスキルは、それ自体では画像生成能力を付与しません。ユーザーが既に ChatGPT サブスクリプションを通じて持っている能力を公開します。

終了コード

code意味
0成功 — 出力パスが stdout に出力される
2不正な引数
3codex または python3 CLI が見つからない
4--ref ファイルが存在しない
5codex exec に失敗 (認証? ネットワーク? モデル?)
6新しいセッションファイルが検出されない
7imagegen が画像ペイロードを生成しない (機能が有効でない、クォータ不足、または機能が拒否)

失敗時、完全な stderr をユーザーにダンプする代わりに、1 文でレイヤー名を指定します。

動作原理

codex CLI はログイン済みの ChatGPT セッションを再利用し、imagegen ツール (image_generation フィーチャーフラグの背後にある) を公開します。スクリプトは:

  1. 実行前に ~/.codex/sessions/ をスナップショット
  2. codex exec --enable image_generation --sandbox read-only ... を実行 (各リファレンス画像に対して -i <file>)
  3. セッションディレクトリを diff し、scripts/extract_image.py を実行して新しいすべての rollout JSONL を base64 画像ペイロード (PNG / JPEG / WebP マジックヘッダーマッチ) についてスキャン
  4. 最大のマッチするブロブをデコードして --out に書き込み

他のラッパーが codex-cli 0.111.0+ で間違える 2 つの非自明なフラグ:

  • --enable image_generation必須です; 機能はまだ開発中で、デフォルトではオフです。
  • --ephemeral使用してはいけません — ephemeral セッションは保持されないため、画像ペイロードが存在する場所がありません。

データ処理

スクリプトは意図的に狭いスコープです:

  • それは のみ 自身の codex exec 呼び出しによって作成されたセッション rollout ファイルを読みます。セッションディレクトリは呼び出し前にスナップショットされ、その後で差分されるため、(無関係の Codex 会話を含む可能性のある) 以前の ~/.codex/sessions/* ファイルは決して触られる、読まれる、または送信されません。
  • 2 種類のファイルのみを書きます: 呼び出し元の --out パスの出力 PNG、および exit 時にトラップによって自動削除される短寿命の mktemp ログ。
  • 環境変数は読みません。認証情報はリクエストされません。~/.codex/ の他のパスはアクセスされません。
  • このスキルから出ていくネットワーク呼び出しはありません。唯一の送信トラフィックは codex CLI 自体によって行われるもの (OpenAI へ、ユーザーの既存 ChatGPT ログインを使用) — このスキルはエンドポイント、テレメトリ、またはコールバックを追加しません。

このスキルではないもの

直接の OpenAI API クライアントではありません。能力付与ではなく — ユーザーの動作中の Codex CLI ログインに依存します。マルチテナントサービスではありません (1 回の呼び出しあたり 1 呼び出し; 同時呼び出しはファイルシステムスナップショット diff によってシリアル化)。

ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

詳細情報

作者
agentspace-so
リポジトリ
agentspace-so/agent-skills
ライセンス
MIT
最終更新
不明

Source: https://github.com/agentspace-so/agent-skills / ライセンス: MIT

関連スキル

OpenAILLM・AI開発⭐ リポ 6,054

agent-browser

AI エージェント向けのブラウザ自動化 CLI です。ウェブサイトとの対話が必要な場合に使用します。ページ遷移、フォーム入力、ボタンクリック、スクリーンショット取得、データ抽出、ウェブアプリのテスト、ブラウザ操作の自動化など、あらゆるブラウザタスクに対応できます。「ウェブサイトを開く」「フォームに記入する」「ボタンをクリックする」「スクリーンショットを取得する」「ページからデータを抽出する」「このウェブアプリをテストする」「サイトにログインする」「ブラウザ操作を自動化する」といった要求や、プログラマティックなウェブ操作が必要なタスクで起動します。

by JimmyLv
汎用LLM・AI開発⭐ リポ 1,982

anyskill

AnySkill — あなたのプライベート・スキルクラウド。GitHubを基盤としたリポジトリからエージェントスキルを管理、同期、動的にロードできます。自然言語でクラウドスキルを検索し、オンデマンドでプロンプトを自動ロード、カスタムスキルのアップロードと共有、スキルバンドルの一括インストールが可能です。OpenClaw、Antigravity、Claude Code、Cursorに対応しています。

by LeoYeAI
汎用LLM・AI開発⭐ リポ 1,982

engram

AIエージェント向けの永続的なメモリシステムです。バグ修正、意思決定、発見、設定変更の後はmem_saveを使用してください。ユーザーが「覚えている」「記憶している」と言及した場合、または以前のセッションと重複する作業を開始する際はmem_searchを使用します。セッション終了前にmem_session_summaryを使用して、コンテキストを保持してください。

by LeoYeAI
汎用LLM・AI開発⭐ リポ 21,584

skyvern

AI駆動のブラウザ自動化により、任意のウェブサイトを自動化できます。フォーム入力、データ抽出、ファイルダウンロード、ログイン、複数ステップのワークフロー実行など、ユーザーがウェブサイトと連携する必要があるときに使用します。Skyvernは、LLMとコンピュータビジョンを活用して、未知のサイトも自動操作可能です。Python SDK、TypeScript SDK、REST API、MCPサーバー、またはCLIを通じて統合できます。

by Skyvern-AI
汎用LLM・AI開発⭐ リポ 1,149

pinchbench

PinchBenchベンチマークを実行して、OpenClawエージェントの実世界タスクにおけるパフォーマンスを評価できます。モデルの機能テスト、モデル間の比較、ベンチマーク結果のリーダーボード提出、またはOpenClawのセットアップがカレンダー、メール、リサーチ、コーディング、複数ステップのワークフローにどの程度対応しているかを確認する際に使用します。

by pinchbench
汎用LLM・AI開発⭐ リポ 4,693

openui

OpenUIとOpenUI Langを使用してジェネレーティブUIアプリを構築できます。これらはLLM生成インターフェースのためのトークン効率的なオープン標準です。OpenUI、@openuidev、ジェネレーティブUI、LLMからのストリーミングUI、AI向けコンポーネントライブラリ、またはjson-render/A2UIの置き換えについて述べる際に使用します。スキャフォルディング、defineComponent、システムプロンプト、Renderer、およびOpenUI Lang出力のデバッグに対応しています。

by thesysdev
本サイトは GitHub 上で公開されているオープンソースの SKILL.md ファイルをクロール・インデックス化したものです。 各スキルの著作権は原作者に帰属します。掲載に問題がある場合は info@alsel.co.jp または /takedown フォームよりご連絡ください。
原作者: agentspace-so · agentspace-so/agent-skills · ライセンス: MIT