gpt-image-2
テキストから画像生成、マスクを使った編集、複数画像のバッチ処理、ストリーミング、テキストと画像の混在レスポンスなど、GPT Image 2の全機能をOpenAI互換APIで網羅的に利用できるスキルです。シンプルな画像生成ヘルパーでは対応できない高度なユースケースに活用してください。`.env`ファイルや環境変数を読み込み、OpenAI互換のゲートウェイであればどれでも動作します。
description の原文を見る
Full OpenAI-compatible GPT Image 2 coverage across images/generations, images/edits, and responses with the image_generation tool. Use when the one-shot image helper is not enough - text-to-image, mask edits, multi-image batches, streaming, partial_images, and mixed text+image Responses flows. Reads .env and respects process environment variables; works with any OpenAI-compatible gateway.
SKILL.md 本文
GPT Image 2
モデルのサイズ、アスペクト、および機能制約を厳密に事前検証する、すべてのGPT Image 2ルートをカバーする単一のPythonエントリポイント。
ワークフロー
references/config.mdを開いて、環境変数とデフォルト値を選択する。references/api-surface.mdを開いて、generations、edits、responsesから選択する。- ユーザーが別のOpenAI互換エンドポイントを指定していない限り、
OPENAI_BASE_URL=https://api.openai.com/v1を使用する。 generationsとeditsにはgpt-image-2を使用し、responsesにはテキスト機能を持つレスポンスモデル(例:gpt-5.4)を使用する。- 3つのサブコマンドのいずれかで
scripts/gpt_image.pyを実行する。 - ペイロード形状が主なリスクである場合は、最初に
--dry-runを追加する。 - 生のJSONボディまたはSSEイベントストリームをデバッグのために保持する必要がある場合は、
--save-response <path>を追加する。
コマンド
パブリックImages APIを使用したテキストから画像への変換:
python .\skills\gpt-image-2\scripts\gpt_image.py generations `
--prompt "A bold product hero image for a developer tool homepage" `
--output .\out\hero.png `
--size 1536x1024 `
--quality high `
--format png
ファイル名パターンを使用したマルチ画像バッチ:
python .\skills\gpt-image-2\scripts\gpt_image.py generations `
--prompt "A cinematic city skyline at night" `
--output .\out\skyline-{index}.webp `
--n 3 `
--format webp `
--compression 90
2つの入力とマスクを使用した画像編集:
python .\skills\gpt-image-2\scripts\gpt_image.py edits `
--prompt "Blend the two references into one clean marketing illustration" `
--image .\refs\subject.png `
--image .\refs\background.png `
--mask .\refs\mask.png `
--output .\out\edit-{index}.png `
--image-field-style brackets `
--n 2
ストリーミングと部分プレビュー付きResponses API:
python .\skills\gpt-image-2\scripts\gpt_image.py responses `
--input-text "Generate a poster for an AI developer summit" `
--model gpt-5.4 `
--output .\out\poster-{index}.png `
--stream `
--partial-images 2 `
--save-response .\out\poster-events.json
ローカル画像とマスク付きResponses API編集:
python .\skills\gpt-image-2\scripts\gpt_image.py responses `
--input-text "Turn this product shot into a clean studio ad" `
--model gpt-5.4 `
--input-image .\refs\product.png `
--mask .\refs\mask.png `
--output .\out\studio.png `
--action edit
送信せずに構築されたリクエストを検査する:
python .\skills\gpt-image-2\scripts\gpt_image.py generations `
--prompt "A minimal cover image" `
--output .\out\cover.png `
--dry-run
ルール
- パブリックテキストから画像への呼び出しには
generationsを使用する。 - マルチパート画像編集とマスクアップロードには
editsを使用する。 - 高度なフロー(ストリーミング、テキスト+画像入力の混在、
previous_response_id、tool_choice、action、オプションのtool_model)にはresponsesを使用する。 - プロセス環境変数は
.envをオーバーライドし、CLIフラグは両方をオーバーライドする。 - シークレットを出力しない。
--outputは単一パスまたはマルチ画像やストリーミングフロー用のimage-{index}.pngなどのパターンを受け取る。responsesは画像モデルから独立したトップレベルのResponsesモデルを使用する。別のテキスト機能を持つモデルが必要でない限り、デフォルトはgpt-5.4にする。- Responsesツールフロー上の
qualityはパススルーされるが、最終的な動作はホストされている画像ツールに依存する。 - OpenAI GPT画像モデルでは
response_formatを省略する。画像データは既にbase64で返される。 - サポートされていない
gpt-image-2の組み合わせで高速に失敗する:透明背景、無効なサイズ、0..3外のpartial_images、またはパブリックImagesルート上でstream=trueとn>1の組み合わせ。
リソース
- スクリプト:
scripts/gpt_image.py - 設定参照:
references/config.md - APIサーフェス参照:
references/api-surface.md
ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- gargantuax
- ライセンス
- MIT
- 最終更新
- 不明
Source: https://github.com/gargantuax/openskills / ライセンス: MIT
関連スキル
agent-browser
AI エージェント向けのブラウザ自動化 CLI です。ウェブサイトとの対話が必要な場合に使用します。ページ遷移、フォーム入力、ボタンクリック、スクリーンショット取得、データ抽出、ウェブアプリのテスト、ブラウザ操作の自動化など、あらゆるブラウザタスクに対応できます。「ウェブサイトを開く」「フォームに記入する」「ボタンをクリックする」「スクリーンショットを取得する」「ページからデータを抽出する」「このウェブアプリをテストする」「サイトにログインする」「ブラウザ操作を自動化する」といった要求や、プログラマティックなウェブ操作が必要なタスクで起動します。
anyskill
AnySkill — あなたのプライベート・スキルクラウド。GitHubを基盤としたリポジトリからエージェントスキルを管理、同期、動的にロードできます。自然言語でクラウドスキルを検索し、オンデマンドでプロンプトを自動ロード、カスタムスキルのアップロードと共有、スキルバンドルの一括インストールが可能です。OpenClaw、Antigravity、Claude Code、Cursorに対応しています。
engram
AIエージェント向けの永続的なメモリシステムです。バグ修正、意思決定、発見、設定変更の後はmem_saveを使用してください。ユーザーが「覚えている」「記憶している」と言及した場合、または以前のセッションと重複する作業を開始する際はmem_searchを使用します。セッション終了前にmem_session_summaryを使用して、コンテキストを保持してください。
skyvern
AI駆動のブラウザ自動化により、任意のウェブサイトを自動化できます。フォーム入力、データ抽出、ファイルダウンロード、ログイン、複数ステップのワークフロー実行など、ユーザーがウェブサイトと連携する必要があるときに使用します。Skyvernは、LLMとコンピュータビジョンを活用して、未知のサイトも自動操作可能です。Python SDK、TypeScript SDK、REST API、MCPサーバー、またはCLIを通じて統合できます。
pinchbench
PinchBenchベンチマークを実行して、OpenClawエージェントの実世界タスクにおけるパフォーマンスを評価できます。モデルの機能テスト、モデル間の比較、ベンチマーク結果のリーダーボード提出、またはOpenClawのセットアップがカレンダー、メール、リサーチ、コーディング、複数ステップのワークフローにどの程度対応しているかを確認する際に使用します。
openui
OpenUIとOpenUI Langを使用してジェネレーティブUIアプリを構築できます。これらはLLM生成インターフェースのためのトークン効率的なオープン標準です。OpenUI、@openuidev、ジェネレーティブUI、LLMからのストリーミングUI、AI向けコンポーネントライブラリ、またはjson-render/A2UIの置き換えについて述べる際に使用します。スキャフォルディング、defineComponent、システムプロンプト、Renderer、およびOpenUI Lang出力のデバッグに対応しています。