generate-image
AI モデル(FLUX、Gemini)を使って画像の生成・編集を行います。写真、イラスト、アートワーク、ビジュアルアセット、コンセプトアートなど、汎用的な画像生成に使用してください。フローチャート、回路図、技術的な図解には scientific-schematics スキルを使用してください。
description の原文を見る
Generate or edit images using AI models (FLUX, Gemini). Use for general-purpose image generation including photos, illustrations, artwork, visual assets, concept art, and any image that isn't a technical diagram or schematic. For flowcharts, circuits, pathways, and technical diagrams, use the scientific-schematics skill instead.
SKILL.md 本文
画像生成
OpenRouter の画像生成モデル(FLUX.2 Pro および Gemini 3 Pro を含む)を使用して、高品質の画像を生成および編集します。
このスキルを使用する時期
generate-image を使用する場合:
- 写真とフォトリアルな画像
- アーティスティックなイラストとアートワーク
- コンセプトアートとビジュアルコンセプト
- プレゼンテーションやドキュメント用の視覚的アセット
- 画像編集と修正
- その他すべての汎用的な画像生成ニーズ
代わりに scientific-schematics を使用する場合:
- フローチャートとプロセス図
- 回路図と電気回路図
- 生物学的経路とシグナル伝達カスケード
- システムアーキテクチャ図
- CONSORT 図と方法論フローチャート
- その他すべての技術的/スキーマティック図
クイックスタート
scripts/generate_image.py スクリプトを使用して画像を生成または編集します:
# 新しい画像を生成
python scripts/generate_image.py "A beautiful sunset over mountains"
# 既存の画像を編集
python scripts/generate_image.py "Make the sky purple" --input photo.jpg
これで画像が生成/編集され、現在のディレクトリに generated_image.png として保存されます。
API キーセットアップ
重要: スクリプトには OpenRouter API キーが必要です。実行前に、ユーザーが API キーを設定しているかを確認してください:
- プロジェクトディレクトリまたは親ディレクトリで
.envファイルを確認してください .envファイルでOPENROUTER_API_KEY=<key>を確認してください- 見つからない場合は、ユーザーに以下を行うよう指示してください:
OPENROUTER_API_KEY=your-api-key-hereを含む.envファイルを作成する- または環境変数を設定する:
export OPENROUTER_API_KEY=your-api-key-here - API キーを取得: https://openrouter.ai/keys
スクリプトは自動的に .env ファイルを検出し、API キーが不足している場合は明確なエラーメッセージを提供します。
モデル選択
デフォルトモデル: google/gemini-3-pro-image-preview(高品質、推奨)
生成および編集に利用可能なモデル:
google/gemini-3-pro-image-preview- 高品質、生成と編集をサポートblack-forest-labs/flux.2-pro- 高速、高品質、生成と編集をサポート
生成のみ:
black-forest-labs/flux.2-flex- 高速で安価ですが、Pro ほど高品質ではありません
以下に基づいて選択してください:
- 品質: gemini-3-pro または flux.2-pro を使用してください
- 編集: gemini-3-pro または flux.2-pro を使用してください(どちらも画像編集をサポート)
- コスト: 生成のみの場合は flux.2-flex を使用してください
一般的な使用パターン
基本的な生成
python scripts/generate_image.py "Your prompt here"
モデルを指定
python scripts/generate_image.py "A cat in space" --model "black-forest-labs/flux.2-pro"
カスタム出力パス
python scripts/generate_image.py "Abstract art" --output artwork.png
既存の画像を編集
python scripts/generate_image.py "Make the background blue" --input photo.jpg
特定のモデルで編集
python scripts/generate_image.py "Add sunglasses to the person" --input portrait.png --model "black-forest-labs/flux.2-pro"
カスタム出力で編集
python scripts/generate_image.py "Remove the text from the image" --input screenshot.png --output cleaned.png
複数の画像
異なるプロンプトまたは出力パスでスクリプトを複数回実行します:
python scripts/generate_image.py "Image 1 description" --output image1.png
python scripts/generate_image.py "Image 2 description" --output image2.png
スクリプトパラメータ
prompt(必須): 生成する画像のテキスト説明、または編集指示--inputまたは-i: 編集用の入力画像パス(編集モードを有効にします)--modelまたは-m: OpenRouter モデル ID(デフォルト: google/gemini-3-pro-image-preview)--outputまたは-o: 出力ファイルパス(デフォルト: generated_image.png)--api-key: OpenRouter API キー(.env ファイルをオーバーライド)
使用例
科学文書用
# 論文用のコンセプチュアルイラストを生成
python scripts/generate_image.py "Microscopic view of cancer cells being attacked by immunotherapy agents, scientific illustration style" --output figures/immunotherapy_concept.png
# プレゼンテーション用のビジュアルを作成
python scripts/generate_image.py "DNA double helix structure with highlighted mutation site, modern scientific visualization" --output slides/dna_mutation.png
プレゼンテーションとポスター用
# タイトルスライドの背景
python scripts/generate_image.py "Abstract blue and white background with subtle molecular patterns, professional presentation style" --output slides/background.png
# ポスターのヒーロー画像
python scripts/generate_image.py "Laboratory setting with modern equipment, photorealistic, well-lit" --output poster/hero.png
一般的なビジュアルコンテンツ用
# ウェブサイトまたはドキュメント画像
python scripts/generate_image.py "Professional team collaboration around a digital whiteboard, modern office" --output docs/team_collaboration.png
# マーケティング資料
python scripts/generate_image.py "Futuristic AI brain concept with glowing neural networks" --output marketing/ai_concept.png
エラーハンドリング
スクリプトは以下に対する明確なエラーメッセージを提供します:
- 不足している API キー(セットアップ指示付き)
- API エラー(ステータスコード付き)
- 予期しない応答フォーマット
- 不足している依存関係(requests ライブラリ)
スクリプトが失敗した場合は、エラーメッセージを読んで、再試行する前に問題に対処してください。
注釈
- 画像は base64 エンコードされたデータ URL として返され、PNG ファイルとして自動的に保存されます
- スクリプトは異なる OpenRouter モデルからの
imagesとcontentレスポンスフォーマットの両方をサポートしています - 生成時間はモデルによって異なります(通常 5~30 秒)
- 画像編集の場合、入力画像は base64 にエンコードされてモデルに送信されます
- サポートされている入力画像フォーマット: PNG、JPEG、GIF、WebP
- OpenRouter の価格情報を確認してください: https://openrouter.ai/models
画像編集のヒント
- 必要な変更について具体的に指定してください(例:「空をサンセットカラーに変更する」対「空を編集する」)
- 可能な場合は、画像内の特定の要素を参照してください
- 最良の結果を得るために、明確で詳細な編集指示を使用してください
- Gemini 3 Pro と FLUX.2 Pro はどちらも OpenRouter を通じた画像編集をサポートしています
他のスキルとの統合
- scientific-schematics: 技術図、フローチャート、回路、経路に使用してください
- generate-image: 写真、イラスト、アートワーク、ビジュアルコンセプトに使用してください
- scientific-slides: ビジュアル豊富なプレゼンテーション用に generate-image と組み合わせてください
- latex-posters: ポスターのビジュアルとヒーロー画像に generate-image を使用してください
ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- davila7
- ライセンス
- MIT
- 最終更新
- 不明
Source: https://github.com/davila7/claude-code-templates / ライセンス: MIT
関連スキル
agent-browser
AI エージェント向けのブラウザ自動化 CLI です。ウェブサイトとの対話が必要な場合に使用します。ページ遷移、フォーム入力、ボタンクリック、スクリーンショット取得、データ抽出、ウェブアプリのテスト、ブラウザ操作の自動化など、あらゆるブラウザタスクに対応できます。「ウェブサイトを開く」「フォームに記入する」「ボタンをクリックする」「スクリーンショットを取得する」「ページからデータを抽出する」「このウェブアプリをテストする」「サイトにログインする」「ブラウザ操作を自動化する」といった要求や、プログラマティックなウェブ操作が必要なタスクで起動します。
anyskill
AnySkill — あなたのプライベート・スキルクラウド。GitHubを基盤としたリポジトリからエージェントスキルを管理、同期、動的にロードできます。自然言語でクラウドスキルを検索し、オンデマンドでプロンプトを自動ロード、カスタムスキルのアップロードと共有、スキルバンドルの一括インストールが可能です。OpenClaw、Antigravity、Claude Code、Cursorに対応しています。
engram
AIエージェント向けの永続的なメモリシステムです。バグ修正、意思決定、発見、設定変更の後はmem_saveを使用してください。ユーザーが「覚えている」「記憶している」と言及した場合、または以前のセッションと重複する作業を開始する際はmem_searchを使用します。セッション終了前にmem_session_summaryを使用して、コンテキストを保持してください。
skyvern
AI駆動のブラウザ自動化により、任意のウェブサイトを自動化できます。フォーム入力、データ抽出、ファイルダウンロード、ログイン、複数ステップのワークフロー実行など、ユーザーがウェブサイトと連携する必要があるときに使用します。Skyvernは、LLMとコンピュータビジョンを活用して、未知のサイトも自動操作可能です。Python SDK、TypeScript SDK、REST API、MCPサーバー、またはCLIを通じて統合できます。
pinchbench
PinchBenchベンチマークを実行して、OpenClawエージェントの実世界タスクにおけるパフォーマンスを評価できます。モデルの機能テスト、モデル間の比較、ベンチマーク結果のリーダーボード提出、またはOpenClawのセットアップがカレンダー、メール、リサーチ、コーディング、複数ステップのワークフローにどの程度対応しているかを確認する際に使用します。
openui
OpenUIとOpenUI Langを使用してジェネレーティブUIアプリを構築できます。これらはLLM生成インターフェースのためのトークン効率的なオープン標準です。OpenUI、@openuidev、ジェネレーティブUI、LLMからのストリーミングUI、AI向けコンポーネントライブラリ、またはjson-render/A2UIの置き換えについて述べる際に使用します。スキャフォルディング、defineComponent、システムプロンプト、Renderer、およびOpenUI Lang出力のデバッグに対応しています。