Anthropic ClaudeLLM・AI開発⭐ リポ 0品質スコア 50/100

image-gen

Name: image-gen
Author: marswaveai

テキストプロンプトからAI画像を生成します。「generate image」「draw」「visualize」「create picture」などの指示をトリガーとして起動します。

description の原文を見る

| Generate AI images from text prompts. Triggers on: "生成图片", "画一张", "AI图", "generate image", "配图", "create picture", "draw", "visualize", "generate an image".

SKILL.md 本文

いつ使うか

ユーザーがテキスト説明から AI 画像を生成したい
ユーザーが「generate image」「draw」「create picture」「配图」と言っている
ユーザーが「生成图片」「画一张」「AI图」と言っている
ユーザーがカバー画像、イラスト、またはコンセプトアートが必要

いつ使わないか

ユーザーがオーディオコンテンツを作成したい場合 (/podcast、/speech を使用)
ユーザーがビデオを作成したい場合 (/explainer を使用)
ユーザーが既存画像を編集したい場合 (非対応)
ユーザーが URL からコンテンツを抽出したい場合 (/content-parser を使用)

目的

ListenHub CLI を使用して AI 画像を生成します。オプションの参照画像 (ローカルファイルまたは URL)、複数の解像度、アスペクト比をサポートしています。画像はローカルファイルとして保存されます。

厳密な制約

常に shared/cli-authentication.md に従って CLI 認証をチェックする
コマンド実行とエラーハンドリングについて shared/cli-patterns.md に従う
あらゆるインタラクションの前に shared/config-pattern.md に従って設定を読み込む
出力は .listenhub/image-gen/YYYY-MM-DD-{jobId}/ に保存される — ~/Downloads/ には絶対に保存しない

<HARD-GATE> 複数選択の各ステップで AskUserQuestion ツールを使用する — 選択肢をプレーンテキストで表示しない。一度に 1 つの質問を行う。次のステップに進む前にユーザーの回答を待つ。すべてのパラメータを収集した後、選択内容をまとめ、ユーザーに確認を求める。ユーザーが明示的に確認するまで、画像生成コマンドを呼び出さない。 </HARD-GATE>

ステップ -1: CLI 認証チェック

shared/cli-authentication.md § Auth Check に従う。CLI がインストールされていないか、ログインしていない場合は、自動的にインストール・ログインする — ユーザーにコマンドを手動で実行させない。

ステップ 0: 設定のセットアップ

shared/config-pattern.md ステップ 0 (Zero-Question Boot) に従う。

ファイルが存在しない場合 — デフォルト設定で静かに作成して進める:

mkdir -p ".listenhub/image-gen"
echo '{"outputDir":".listenhub","outputMode":"inline"}' > ".listenhub/image-gen/config.json"
CONFIG_PATH=".listenhub/image-gen/config.json"
CONFIG=$(cat "$CONFIG_PATH")

セットアップ質問は行わない。 インタラクションフローに直接進む。

ファイルが存在する場合 — 設定を静かに読み込んで進める:

CONFIG_PATH=".listenhub/image-gen/config.json"
[ ! -f "$CONFIG_PATH" ] && CONFIG_PATH="$HOME/.listenhub/image-gen/config.json"
CONFIG=$(cat "$CONFIG_PATH")

セットアップフロー (ユーザーが明示的に再設定を要求した場合のみ)

ユーザーが明示的に再設定を要求した場合のみ実行します。現在の設定を表示:

当前配置 (image-gen)：
  输出方式：{inline / download / both}

その後、質問:

outputMode: shared/output-mode.md § Setup Flow Question に従う。

すぐに保存:

NEW_CONFIG=$(echo "$CONFIG" | jq --arg m "$OUTPUT_MODE" '. + {"outputMode": $m}')
echo "$NEW_CONFIG" > "$CONFIG_PATH"
CONFIG=$(cat "$CONFIG_PATH")

インタラクションフロー

ステップ 1: 画像の説明

自由なテキスト入力です。ユーザーに以下のように尋ねます:

生成したい画像について説明してください。

プロンプトが非常に短い場合 (10 語未満) で、ユーザーが逐語的な生成を要求していない場合、プロンプトを充実させるのに役立つかどうかを提案します。そうでない場合は、そのまま使用します。

ステップ 2: モデル

以下のように尋ねます:

Question: "どのモデルを使いますか?"
Options:
  - "pro (recommended)" — gemini-3-pro-image-preview、高品質
  - "flash" — gemini-3.1-flash-image-preview、高速で低コスト、極端なアスペクト比 (1:4, 4:1, 1:8, 8:1) に対応

ステップ 3: 解像度とアスペクト比

両方をまとめて尋ねます (独立したパラメータ):

Question: "どの解像度を希望しますか?"
Options:
  - "1K" — 標準品質
  - "2K (recommended)" — 高品質、良好なバランス
  - "4K" — 超高品質、生成が遅い

Question: "どのアスペクト比を希望しますか?"
Options (すべてのモデル):
  - "16:9" — ランドスケープ、ワイドスクリーン
  - "1:1" — スクエア
  - "9:16" — ポートレート、スマートフォン画面
  - "Other" — 2:3, 3:2, 3:4, 4:3, 21:9

flash モデルが選択された場合は、次も提供します: 1:4 (細長いポートレート)、4:1 (広いランドスケープ)、1:8 (極端なポートレート)、8:1 (パノラマ)

ステップ 4: 参照画像 (オプション)

Question: "スタイル参考用の参照画像はありますか?"
Options:
  - "Yes" — ファイルパスまたは URL を提供
  - "No references" — プロンプトのみから生成

「はい」の場合: 参照画像のパスまたは URL (カンマ区切り) を収集します。CLI はローカルファイルと URL の両方をネイティブに処理します — それらを区別する必要はありません。

最大 5 つの参照
サポートされている形式: jpg, png, webp, gif
ファイルあたり最大 10MB

各参照は CLI に --reference フラグとして渡されます。

ステップ 5: 確認と生成

すべての選択をまとめます:

画像生成の準備ができました:

  プロンプト: {prompt text}
  モデル: {pro / flash}
  解像度: {1K / 2K / 4K}
  アスペクト比: {ratio}
  参照画像: {yes — N 個の画像 / no}

  進めますか?

CLI コマンドを実行する前に、明示的な確認を待ちます。

ワークフロー

CLI コマンドの構築: 収集されたすべてのパラメータで listenhub image create コマンドを構築します。

実行: コマンドを run_in_background: true と timeout: 180000 で実行します:

listenhub image create \
  --prompt "{description}" \
  --model "{model}" \
  --lang "{lang}" \
  --aspect-ratio {16:9|9:16|1:1} \
  --size {1K|2K|4K} \
  --json

参照画像が提供された場合、各画像に --reference を追加します:

listenhub image create \
  --prompt "{description}" \
  --model "{model}" \
  --lang "{lang}" \
  --aspect-ratio 16:9 \
  --size 2K \
  --reference ./sketch.png \
  --reference ./photo.jpg \
  --json

--lang フラグはプロンプトの言語ヒントを提供します。ユーザーのプロンプトの言語から検出します (例: 中国語プロンプト → zh、英語プロンプト → en)。

結果の解析と提示

設定から OUTPUT_MODE を読み込みます。動作については shared/output-mode.md に従います。

CLI JSON 出力を解析して画像 URL を抽出します:
```
IMAGE_URL=$(echo "$RESULT" | jq -r '.imageUrl')
```
inline または both: 一時ファイルにダウンロードし、Read ツールを使用します。
```
JOB_ID=$(date +%s)
listenhub download "$IMAGE_URL" -o /tmp/image-gen-${JOB_ID}.jpg
```
その後、/tmp/image-gen-{jobId}.jpg に対して Read ツールを使用します。画像は会話にインラインで表示されます。

以下を提示します:
```
图片已生成！
```
download または both: アーティファクトディレクトリに保存します。
```
JOB_ID=$(date +%s)
DATE=$(date +%Y-%m-%d)
JOB_DIR=".listenhub/image-gen/${DATE}-${JOB_ID}"
mkdir -p "$JOB_DIR"
listenhub download "$IMAGE_URL" -o "${JOB_DIR}/${JOB_ID}.jpg"
```
以下を提示します:
```
图片已生成！

已保存到 .listenhub/image-gen/{YYYY-MM-DD}-{jobId}/：
  {jobId}.jpg
```

プロンプト処理

デフォルト: ユーザーのプロンプトを修正せずに直接渡します。

最適化を提案するとき:

プロンプトが非常に短い (数語) かつユーザーが逐語的な生成を要求していない
質問: 「スタイル/照明/構図の詳細でプロンプトを充実させるのに役立ちますか?」

修正しないとき:

長い、詳細な、または構造化されたプロンプト — ユーザーが経験豊富と見なす
ユーザーが「このプロンプトをそのまま使用してください」と言った場合

最適化テクニック (ユーザーが同意した場合):

スタイル: 「cyberpunk」→ 「neon lights, futuristic, dystopian」を追加
シーン: 時間帯、照明、天候
品質: 「highly detailed」「8K quality」「cinematic composition」
常に英語キーワードを使用 (モデルは英語で学習)
最適化されたプロンプトを送信前に表示

API リファレンス

CLI 認証: shared/cli-authentication.md
CLI 実行パターン: shared/cli-patterns.md
設定パターン: shared/config-pattern.md
出力モード: shared/output-mode.md

構成可能性

呼び出し: なし (直接 CLI 呼び出し)
呼び出し元: カバー画像用のプラットフォームスキル (フェーズ 2)

例

ユーザー: 「Generate an image: cyberpunk city at night」

エージェントワークフロー:

プロンプトが短い → 充実化を提案 → ユーザーが拒否
モデルを尋ねる → 「pro」
解像度を尋ねる → 「2K」
比率を尋ねる → 「16:9」
参照画像なし

listenhub image create \
  --prompt "cyberpunk city at night" \
  --model "gemini-3-pro-image-preview" \
  --lang en \
  --aspect-ratio 16:9 \
  --size 2K \
  --json

outputMode に従い CLI JSON 出力を解析します (shared/output-mode.md を参照)。

例 2 — 参照画像付き

ユーザー: 「Generate an image in this style」(ローカルファイルと URL を提供)

エージェントワークフロー:

プロンプトを尋ねる → 「a serene mountain lake at dawn」
モデルを尋ねる → 「pro」
解像度を尋ねる → 「2K」
比率を尋ねる → 「16:9」
参照画像 → /path/to/style-reference.png、https://example.com/photo.jpg

listenhub image create \
  --prompt "a serene mountain lake at dawn" \
  --model "gemini-3-pro-image-preview" \
  --lang en \
  --aspect-ratio 16:9 \
  --size 2K \
  --reference /path/to/style-reference.png \
  --reference https://example.com/photo.jpg \
  --json

outputMode に従い CLI JSON 出力を解析します (shared/output-mode.md を参照)。

ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

詳細情報

作者: marswaveai
リポジトリ: marswaveai/skills
ライセンス: MIT
最終更新: 不明

GitHubで原本を見る →フィードバックを送る

Source: https://github.com/marswaveai/skills / ライセンス: MIT