image-gen
テキストプロンプトからAI画像を生成します。「generate image」「draw」「visualize」「create picture」などの指示をトリガーとして起動します。
description の原文を見る
| Generate AI images from text prompts. Triggers on: "生成图片", "画一张", "AI图", "generate image", "配图", "create picture", "draw", "visualize", "generate an image".
SKILL.md 本文
いつ使うか
- ユーザーがテキスト説明から AI 画像を生成したい
- ユーザーが「generate image」「draw」「create picture」「配图」と言っている
- ユーザーが「生成图片」「画一张」「AI图」と言っている
- ユーザーがカバー画像、イラスト、またはコンセプトアートが必要
いつ使わないか
- ユーザーがオーディオコンテンツを作成したい場合 (
/podcast、/speechを使用) - ユーザーがビデオを作成したい場合 (
/explainerを使用) - ユーザーが既存画像を編集したい場合 (非対応)
- ユーザーが URL からコンテンツを抽出したい場合 (
/content-parserを使用)
目的
ListenHub CLI を使用して AI 画像を生成します。オプションの参照画像 (ローカルファイルまたは URL)、複数の解像度、アスペクト比をサポートしています。画像はローカルファイルとして保存されます。
厳密な制約
- 常に
shared/cli-authentication.mdに従って CLI 認証をチェックする - コマンド実行とエラーハンドリングについて
shared/cli-patterns.mdに従う - あらゆるインタラクションの前に
shared/config-pattern.mdに従って設定を読み込む - 出力は
.listenhub/image-gen/YYYY-MM-DD-{jobId}/に保存される —~/Downloads/には絶対に保存しない
ステップ -1: CLI 認証チェック
shared/cli-authentication.md § Auth Check に従う。CLI がインストールされていないか、ログインしていない場合は、自動的にインストール・ログインする — ユーザーにコマンドを手動で実行させない。
ステップ 0: 設定のセットアップ
shared/config-pattern.md ステップ 0 (Zero-Question Boot) に従う。
ファイルが存在しない場合 — デフォルト設定で静かに作成して進める:
mkdir -p ".listenhub/image-gen"
echo '{"outputDir":".listenhub","outputMode":"inline"}' > ".listenhub/image-gen/config.json"
CONFIG_PATH=".listenhub/image-gen/config.json"
CONFIG=$(cat "$CONFIG_PATH")
セットアップ質問は行わない。 インタラクションフローに直接進む。
ファイルが存在する場合 — 設定を静かに読み込んで進める:
CONFIG_PATH=".listenhub/image-gen/config.json"
[ ! -f "$CONFIG_PATH" ] && CONFIG_PATH="$HOME/.listenhub/image-gen/config.json"
CONFIG=$(cat "$CONFIG_PATH")
セットアップフロー (ユーザーが明示的に再設定を要求した場合のみ)
ユーザーが明示的に再設定を要求した場合のみ実行します。現在の設定を表示:
当前配置 (image-gen):
输出方式:{inline / download / both}
その後、質問:
- outputMode:
shared/output-mode.md§ Setup Flow Question に従う。
すぐに保存:
NEW_CONFIG=$(echo "$CONFIG" | jq --arg m "$OUTPUT_MODE" '. + {"outputMode": $m}')
echo "$NEW_CONFIG" > "$CONFIG_PATH"
CONFIG=$(cat "$CONFIG_PATH")
インタラクションフロー
ステップ 1: 画像の説明
自由なテキスト入力です。ユーザーに以下のように尋ねます:
生成したい画像について説明してください。
プロンプトが非常に短い場合 (10 語未満) で、ユーザーが逐語的な生成を要求していない場合、プロンプトを充実させるのに役立つかどうかを提案します。そうでない場合は、そのまま使用します。
ステップ 2: モデル
以下のように尋ねます:
Question: "どのモデルを使いますか?"
Options:
- "pro (recommended)" — gemini-3-pro-image-preview、高品質
- "flash" — gemini-3.1-flash-image-preview、高速で低コスト、極端なアスペクト比 (1:4, 4:1, 1:8, 8:1) に対応
ステップ 3: 解像度とアスペクト比
両方をまとめて尋ねます (独立したパラメータ):
Question: "どの解像度を希望しますか?"
Options:
- "1K" — 標準品質
- "2K (recommended)" — 高品質、良好なバランス
- "4K" — 超高品質、生成が遅い
Question: "どのアスペクト比を希望しますか?"
Options (すべてのモデル):
- "16:9" — ランドスケープ、ワイドスクリーン
- "1:1" — スクエア
- "9:16" — ポートレート、スマートフォン画面
- "Other" — 2:3, 3:2, 3:4, 4:3, 21:9
flash モデルが選択された場合は、次も提供します: 1:4 (細長いポートレート)、4:1 (広いランドスケープ)、1:8 (極端なポートレート)、8:1 (パノラマ)
ステップ 4: 参照画像 (オプション)
Question: "スタイル参考用の参照画像はありますか?"
Options:
- "Yes" — ファイルパスまたは URL を提供
- "No references" — プロンプトのみから生成
「はい」の場合: 参照画像のパスまたは URL (カンマ区切り) を収集します。CLI はローカルファイルと URL の両方をネイティブに処理します — それらを区別する必要はありません。
- 最大 5 つの参照
- サポートされている形式: jpg, png, webp, gif
- ファイルあたり最大 10MB
各参照は CLI に --reference フラグとして渡されます。
ステップ 5: 確認と生成
すべての選択をまとめます:
画像生成の準備ができました:
プロンプト: {prompt text}
モデル: {pro / flash}
解像度: {1K / 2K / 4K}
アスペクト比: {ratio}
参照画像: {yes — N 個の画像 / no}
進めますか?
CLI コマンドを実行する前に、明示的な確認を待ちます。
ワークフロー
-
CLI コマンドの構築: 収集されたすべてのパラメータで
listenhub image createコマンドを構築します。 -
実行: コマンドを
run_in_background: trueとtimeout: 180000で実行します:listenhub image create \ --prompt "{description}" \ --model "{model}" \ --lang "{lang}" \ --aspect-ratio {16:9|9:16|1:1} \ --size {1K|2K|4K} \ --json参照画像が提供された場合、各画像に
--referenceを追加します:listenhub image create \ --prompt "{description}" \ --model "{model}" \ --lang "{lang}" \ --aspect-ratio 16:9 \ --size 2K \ --reference ./sketch.png \ --reference ./photo.jpg \ --json--langフラグはプロンプトの言語ヒントを提供します。ユーザーのプロンプトの言語から検出します (例: 中国語プロンプト →zh、英語プロンプト →en)。 -
結果の解析と提示
設定から
OUTPUT_MODEを読み込みます。動作についてはshared/output-mode.mdに従います。CLI JSON 出力を解析して画像 URL を抽出します:
IMAGE_URL=$(echo "$RESULT" | jq -r '.imageUrl')inlineまたはboth: 一時ファイルにダウンロードし、Read ツールを使用します。JOB_ID=$(date +%s) listenhub download "$IMAGE_URL" -o /tmp/image-gen-${JOB_ID}.jpgその後、
/tmp/image-gen-{jobId}.jpgに対して Read ツールを使用します。画像は会話にインラインで表示されます。以下を提示します:
图片已生成!downloadまたはboth: アーティファクトディレクトリに保存します。JOB_ID=$(date +%s) DATE=$(date +%Y-%m-%d) JOB_DIR=".listenhub/image-gen/${DATE}-${JOB_ID}" mkdir -p "$JOB_DIR" listenhub download "$IMAGE_URL" -o "${JOB_DIR}/${JOB_ID}.jpg"以下を提示します:
图片已生成! 已保存到 .listenhub/image-gen/{YYYY-MM-DD}-{jobId}/: {jobId}.jpg
プロンプト処理
デフォルト: ユーザーのプロンプトを修正せずに直接渡します。
最適化を提案するとき:
- プロンプトが非常に短い (数語) かつユーザーが逐語的な生成を要求していない
- 質問: 「スタイル/照明/構図の詳細でプロンプトを充実させるのに役立ちますか?」
修正しないとき:
- 長い、詳細な、または構造化されたプロンプト — ユーザーが経験豊富と見なす
- ユーザーが「このプロンプトをそのまま使用してください」と言った場合
最適化テクニック (ユーザーが同意した場合):
- スタイル: 「cyberpunk」→ 「neon lights, futuristic, dystopian」を追加
- シーン: 時間帯、照明、天候
- 品質: 「highly detailed」「8K quality」「cinematic composition」
- 常に英語キーワードを使用 (モデルは英語で学習)
- 最適化されたプロンプトを送信前に表示
API リファレンス
- CLI 認証:
shared/cli-authentication.md - CLI 実行パターン:
shared/cli-patterns.md - 設定パターン:
shared/config-pattern.md - 出力モード:
shared/output-mode.md
構成可能性
- 呼び出し: なし (直接 CLI 呼び出し)
- 呼び出し元: カバー画像用のプラットフォームスキル (フェーズ 2)
例
ユーザー: 「Generate an image: cyberpunk city at night」
エージェントワークフロー:
- プロンプトが短い → 充実化を提案 → ユーザーが拒否
- モデルを尋ねる → 「pro」
- 解像度を尋ねる → 「2K」
- 比率を尋ねる → 「16:9」
- 参照画像なし
listenhub image create \
--prompt "cyberpunk city at night" \
--model "gemini-3-pro-image-preview" \
--lang en \
--aspect-ratio 16:9 \
--size 2K \
--json
outputMode に従い CLI JSON 出力を解析します (shared/output-mode.md を参照)。
例 2 — 参照画像付き
ユーザー: 「Generate an image in this style」(ローカルファイルと URL を提供)
エージェントワークフロー:
- プロンプトを尋ねる → 「a serene mountain lake at dawn」
- モデルを尋ねる → 「pro」
- 解像度を尋ねる → 「2K」
- 比率を尋ねる → 「16:9」
- 参照画像 →
/path/to/style-reference.png、https://example.com/photo.jpg
listenhub image create \
--prompt "a serene mountain lake at dawn" \
--model "gemini-3-pro-image-preview" \
--lang en \
--aspect-ratio 16:9 \
--size 2K \
--reference /path/to/style-reference.png \
--reference https://example.com/photo.jpg \
--json
outputMode に従い CLI JSON 出力を解析します (shared/output-mode.md を参照)。
ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- marswaveai
- リポジトリ
- marswaveai/skills
- ライセンス
- MIT
- 最終更新
- 不明
Source: https://github.com/marswaveai/skills / ライセンス: MIT
関連スキル
agent-browser
AI エージェント向けのブラウザ自動化 CLI です。ウェブサイトとの対話が必要な場合に使用します。ページ遷移、フォーム入力、ボタンクリック、スクリーンショット取得、データ抽出、ウェブアプリのテスト、ブラウザ操作の自動化など、あらゆるブラウザタスクに対応できます。「ウェブサイトを開く」「フォームに記入する」「ボタンをクリックする」「スクリーンショットを取得する」「ページからデータを抽出する」「このウェブアプリをテストする」「サイトにログインする」「ブラウザ操作を自動化する」といった要求や、プログラマティックなウェブ操作が必要なタスクで起動します。
anyskill
AnySkill — あなたのプライベート・スキルクラウド。GitHubを基盤としたリポジトリからエージェントスキルを管理、同期、動的にロードできます。自然言語でクラウドスキルを検索し、オンデマンドでプロンプトを自動ロード、カスタムスキルのアップロードと共有、スキルバンドルの一括インストールが可能です。OpenClaw、Antigravity、Claude Code、Cursorに対応しています。
engram
AIエージェント向けの永続的なメモリシステムです。バグ修正、意思決定、発見、設定変更の後はmem_saveを使用してください。ユーザーが「覚えている」「記憶している」と言及した場合、または以前のセッションと重複する作業を開始する際はmem_searchを使用します。セッション終了前にmem_session_summaryを使用して、コンテキストを保持してください。
skyvern
AI駆動のブラウザ自動化により、任意のウェブサイトを自動化できます。フォーム入力、データ抽出、ファイルダウンロード、ログイン、複数ステップのワークフロー実行など、ユーザーがウェブサイトと連携する必要があるときに使用します。Skyvernは、LLMとコンピュータビジョンを活用して、未知のサイトも自動操作可能です。Python SDK、TypeScript SDK、REST API、MCPサーバー、またはCLIを通じて統合できます。
pinchbench
PinchBenchベンチマークを実行して、OpenClawエージェントの実世界タスクにおけるパフォーマンスを評価できます。モデルの機能テスト、モデル間の比較、ベンチマーク結果のリーダーボード提出、またはOpenClawのセットアップがカレンダー、メール、リサーチ、コーディング、複数ステップのワークフローにどの程度対応しているかを確認する際に使用します。
openui
OpenUIとOpenUI Langを使用してジェネレーティブUIアプリを構築できます。これらはLLM生成インターフェースのためのトークン効率的なオープン標準です。OpenUI、@openuidev、ジェネレーティブUI、LLMからのストリーミングUI、AI向けコンポーネントライブラリ、またはjson-render/A2UIの置き換えについて述べる際に使用します。スキャフォルディング、defineComponent、システムプロンプト、Renderer、およびOpenUI Lang出力のデバッグに対応しています。