Agent Skills by ALSEL
Anthropic ClaudeLLM・AI開発⭐ リポ 0品質スコア 50/100

image-gen

テキストプロンプトからAI画像を生成します。「generate image」「draw」「visualize」「create picture」などの指示をトリガーとして起動します。

description の原文を見る

| Generate AI images from text prompts. Triggers on: "生成图片", "画一张", "AI图", "generate image", "配图", "create picture", "draw", "visualize", "generate an image".

SKILL.md 本文

いつ使うか

  • ユーザーがテキスト説明から AI 画像を生成したい
  • ユーザーが「generate image」「draw」「create picture」「配图」と言っている
  • ユーザーが「生成图片」「画一张」「AI图」と言っている
  • ユーザーがカバー画像、イラスト、またはコンセプトアートが必要

いつ使わないか

  • ユーザーがオーディオコンテンツを作成したい場合 (/podcast/speech を使用)
  • ユーザーがビデオを作成したい場合 (/explainer を使用)
  • ユーザーが既存画像を編集したい場合 (非対応)
  • ユーザーが URL からコンテンツを抽出したい場合 (/content-parser を使用)

目的

ListenHub CLI を使用して AI 画像を生成します。オプションの参照画像 (ローカルファイルまたは URL)、複数の解像度、アスペクト比をサポートしています。画像はローカルファイルとして保存されます。

厳密な制約

  • 常に shared/cli-authentication.md に従って CLI 認証をチェックする
  • コマンド実行とエラーハンドリングについて shared/cli-patterns.md に従う
  • あらゆるインタラクションの前に shared/config-pattern.md に従って設定を読み込む
  • 出力は .listenhub/image-gen/YYYY-MM-DD-{jobId}/ に保存される — ~/Downloads/ には絶対に保存しない
<HARD-GATE> 複数選択の各ステップで AskUserQuestion ツールを使用する — 選択肢をプレーンテキストで表示しない。一度に 1 つの質問を行う。次のステップに進む前にユーザーの回答を待つ。すべてのパラメータを収集した後、選択内容をまとめ、ユーザーに確認を求める。ユーザーが明示的に確認するまで、画像生成コマンドを呼び出さない。 </HARD-GATE>

ステップ -1: CLI 認証チェック

shared/cli-authentication.md § Auth Check に従う。CLI がインストールされていないか、ログインしていない場合は、自動的にインストール・ログインする — ユーザーにコマンドを手動で実行させない。

ステップ 0: 設定のセットアップ

shared/config-pattern.md ステップ 0 (Zero-Question Boot) に従う。

ファイルが存在しない場合 — デフォルト設定で静かに作成して進める:

mkdir -p ".listenhub/image-gen"
echo '{"outputDir":".listenhub","outputMode":"inline"}' > ".listenhub/image-gen/config.json"
CONFIG_PATH=".listenhub/image-gen/config.json"
CONFIG=$(cat "$CONFIG_PATH")

セットアップ質問は行わない。 インタラクションフローに直接進む。

ファイルが存在する場合 — 設定を静かに読み込んで進める:

CONFIG_PATH=".listenhub/image-gen/config.json"
[ ! -f "$CONFIG_PATH" ] && CONFIG_PATH="$HOME/.listenhub/image-gen/config.json"
CONFIG=$(cat "$CONFIG_PATH")

セットアップフロー (ユーザーが明示的に再設定を要求した場合のみ)

ユーザーが明示的に再設定を要求した場合のみ実行します。現在の設定を表示:

当前配置 (image-gen):
  输出方式:{inline / download / both}

その後、質問:

  1. outputMode: shared/output-mode.md § Setup Flow Question に従う。

すぐに保存:

NEW_CONFIG=$(echo "$CONFIG" | jq --arg m "$OUTPUT_MODE" '. + {"outputMode": $m}')
echo "$NEW_CONFIG" > "$CONFIG_PATH"
CONFIG=$(cat "$CONFIG_PATH")

インタラクションフロー

ステップ 1: 画像の説明

自由なテキスト入力です。ユーザーに以下のように尋ねます:

生成したい画像について説明してください。

プロンプトが非常に短い場合 (10 語未満) で、ユーザーが逐語的な生成を要求していない場合、プロンプトを充実させるのに役立つかどうかを提案します。そうでない場合は、そのまま使用します。

ステップ 2: モデル

以下のように尋ねます:

Question: "どのモデルを使いますか?"
Options:
  - "pro (recommended)" — gemini-3-pro-image-preview、高品質
  - "flash" — gemini-3.1-flash-image-preview、高速で低コスト、極端なアスペクト比 (1:4, 4:1, 1:8, 8:1) に対応

ステップ 3: 解像度とアスペクト比

両方をまとめて尋ねます (独立したパラメータ):

Question: "どの解像度を希望しますか?"
Options:
  - "1K" — 標準品質
  - "2K (recommended)" — 高品質、良好なバランス
  - "4K" — 超高品質、生成が遅い
Question: "どのアスペクト比を希望しますか?"
Options (すべてのモデル):
  - "16:9" — ランドスケープ、ワイドスクリーン
  - "1:1" — スクエア
  - "9:16" — ポートレート、スマートフォン画面
  - "Other" — 2:3, 3:2, 3:4, 4:3, 21:9

flash モデルが選択された場合は、次も提供します: 1:4 (細長いポートレート)、4:1 (広いランドスケープ)、1:8 (極端なポートレート)、8:1 (パノラマ)

ステップ 4: 参照画像 (オプション)

Question: "スタイル参考用の参照画像はありますか?"
Options:
  - "Yes" — ファイルパスまたは URL を提供
  - "No references" — プロンプトのみから生成

「はい」の場合: 参照画像のパスまたは URL (カンマ区切り) を収集します。CLI はローカルファイルと URL の両方をネイティブに処理します — それらを区別する必要はありません。

  • 最大 5 つの参照
  • サポートされている形式: jpg, png, webp, gif
  • ファイルあたり最大 10MB

各参照は CLI に --reference フラグとして渡されます。

ステップ 5: 確認と生成

すべての選択をまとめます:

画像生成の準備ができました:

  プロンプト: {prompt text}
  モデル: {pro / flash}
  解像度: {1K / 2K / 4K}
  アスペクト比: {ratio}
  参照画像: {yes — N 個の画像 / no}

  進めますか?

CLI コマンドを実行する前に、明示的な確認を待ちます。

ワークフロー

  1. CLI コマンドの構築: 収集されたすべてのパラメータで listenhub image create コマンドを構築します。

  2. 実行: コマンドを run_in_background: truetimeout: 180000 で実行します:

    listenhub image create \
      --prompt "{description}" \
      --model "{model}" \
      --lang "{lang}" \
      --aspect-ratio {16:9|9:16|1:1} \
      --size {1K|2K|4K} \
      --json
    

    参照画像が提供された場合、各画像に --reference を追加します:

    listenhub image create \
      --prompt "{description}" \
      --model "{model}" \
      --lang "{lang}" \
      --aspect-ratio 16:9 \
      --size 2K \
      --reference ./sketch.png \
      --reference ./photo.jpg \
      --json
    

    --lang フラグはプロンプトの言語ヒントを提供します。ユーザーのプロンプトの言語から検出します (例: 中国語プロンプト → zh、英語プロンプト → en)。

  3. 結果の解析と提示

    設定から OUTPUT_MODE を読み込みます。動作については shared/output-mode.md に従います。

    CLI JSON 出力を解析して画像 URL を抽出します:

    IMAGE_URL=$(echo "$RESULT" | jq -r '.imageUrl')
    

    inline または both: 一時ファイルにダウンロードし、Read ツールを使用します。

    JOB_ID=$(date +%s)
    listenhub download "$IMAGE_URL" -o /tmp/image-gen-${JOB_ID}.jpg
    

    その後、/tmp/image-gen-{jobId}.jpg に対して Read ツールを使用します。画像は会話にインラインで表示されます。

    以下を提示します:

    图片已生成!
    

    download または both: アーティファクトディレクトリに保存します。

    JOB_ID=$(date +%s)
    DATE=$(date +%Y-%m-%d)
    JOB_DIR=".listenhub/image-gen/${DATE}-${JOB_ID}"
    mkdir -p "$JOB_DIR"
    listenhub download "$IMAGE_URL" -o "${JOB_DIR}/${JOB_ID}.jpg"
    

    以下を提示します:

    图片已生成!
    
    已保存到 .listenhub/image-gen/{YYYY-MM-DD}-{jobId}/:
      {jobId}.jpg
    

プロンプト処理

デフォルト: ユーザーのプロンプトを修正せずに直接渡します。

最適化を提案するとき:

  • プロンプトが非常に短い (数語) かつユーザーが逐語的な生成を要求していない
  • 質問: 「スタイル/照明/構図の詳細でプロンプトを充実させるのに役立ちますか?」

修正しないとき:

  • 長い、詳細な、または構造化されたプロンプト — ユーザーが経験豊富と見なす
  • ユーザーが「このプロンプトをそのまま使用してください」と言った場合

最適化テクニック (ユーザーが同意した場合):

  • スタイル: 「cyberpunk」→ 「neon lights, futuristic, dystopian」を追加
  • シーン: 時間帯、照明、天候
  • 品質: 「highly detailed」「8K quality」「cinematic composition」
  • 常に英語キーワードを使用 (モデルは英語で学習)
  • 最適化されたプロンプトを送信前に表示

API リファレンス

  • CLI 認証: shared/cli-authentication.md
  • CLI 実行パターン: shared/cli-patterns.md
  • 設定パターン: shared/config-pattern.md
  • 出力モード: shared/output-mode.md

構成可能性

  • 呼び出し: なし (直接 CLI 呼び出し)
  • 呼び出し元: カバー画像用のプラットフォームスキル (フェーズ 2)

ユーザー: 「Generate an image: cyberpunk city at night」

エージェントワークフロー:

  1. プロンプトが短い → 充実化を提案 → ユーザーが拒否
  2. モデルを尋ねる → 「pro」
  3. 解像度を尋ねる → 「2K」
  4. 比率を尋ねる → 「16:9」
  5. 参照画像なし
listenhub image create \
  --prompt "cyberpunk city at night" \
  --model "gemini-3-pro-image-preview" \
  --lang en \
  --aspect-ratio 16:9 \
  --size 2K \
  --json

outputMode に従い CLI JSON 出力を解析します (shared/output-mode.md を参照)。

例 2 — 参照画像付き

ユーザー: 「Generate an image in this style」(ローカルファイルと URL を提供)

エージェントワークフロー:

  1. プロンプトを尋ねる → 「a serene mountain lake at dawn」
  2. モデルを尋ねる → 「pro」
  3. 解像度を尋ねる → 「2K」
  4. 比率を尋ねる → 「16:9」
  5. 参照画像 → /path/to/style-reference.pnghttps://example.com/photo.jpg
listenhub image create \
  --prompt "a serene mountain lake at dawn" \
  --model "gemini-3-pro-image-preview" \
  --lang en \
  --aspect-ratio 16:9 \
  --size 2K \
  --reference /path/to/style-reference.png \
  --reference https://example.com/photo.jpg \
  --json

outputMode に従い CLI JSON 出力を解析します (shared/output-mode.md を参照)。

ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

詳細情報

作者
marswaveai
リポジトリ
marswaveai/skills
ライセンス
MIT
最終更新
不明

Source: https://github.com/marswaveai/skills / ライセンス: MIT

関連スキル

OpenAILLM・AI開発⭐ リポ 6,054

agent-browser

AI エージェント向けのブラウザ自動化 CLI です。ウェブサイトとの対話が必要な場合に使用します。ページ遷移、フォーム入力、ボタンクリック、スクリーンショット取得、データ抽出、ウェブアプリのテスト、ブラウザ操作の自動化など、あらゆるブラウザタスクに対応できます。「ウェブサイトを開く」「フォームに記入する」「ボタンをクリックする」「スクリーンショットを取得する」「ページからデータを抽出する」「このウェブアプリをテストする」「サイトにログインする」「ブラウザ操作を自動化する」といった要求や、プログラマティックなウェブ操作が必要なタスクで起動します。

by JimmyLv
汎用LLM・AI開発⭐ リポ 1,982

anyskill

AnySkill — あなたのプライベート・スキルクラウド。GitHubを基盤としたリポジトリからエージェントスキルを管理、同期、動的にロードできます。自然言語でクラウドスキルを検索し、オンデマンドでプロンプトを自動ロード、カスタムスキルのアップロードと共有、スキルバンドルの一括インストールが可能です。OpenClaw、Antigravity、Claude Code、Cursorに対応しています。

by LeoYeAI
汎用LLM・AI開発⭐ リポ 1,982

engram

AIエージェント向けの永続的なメモリシステムです。バグ修正、意思決定、発見、設定変更の後はmem_saveを使用してください。ユーザーが「覚えている」「記憶している」と言及した場合、または以前のセッションと重複する作業を開始する際はmem_searchを使用します。セッション終了前にmem_session_summaryを使用して、コンテキストを保持してください。

by LeoYeAI
汎用LLM・AI開発⭐ リポ 21,584

skyvern

AI駆動のブラウザ自動化により、任意のウェブサイトを自動化できます。フォーム入力、データ抽出、ファイルダウンロード、ログイン、複数ステップのワークフロー実行など、ユーザーがウェブサイトと連携する必要があるときに使用します。Skyvernは、LLMとコンピュータビジョンを活用して、未知のサイトも自動操作可能です。Python SDK、TypeScript SDK、REST API、MCPサーバー、またはCLIを通じて統合できます。

by Skyvern-AI
汎用LLM・AI開発⭐ リポ 1,149

pinchbench

PinchBenchベンチマークを実行して、OpenClawエージェントの実世界タスクにおけるパフォーマンスを評価できます。モデルの機能テスト、モデル間の比較、ベンチマーク結果のリーダーボード提出、またはOpenClawのセットアップがカレンダー、メール、リサーチ、コーディング、複数ステップのワークフローにどの程度対応しているかを確認する際に使用します。

by pinchbench
汎用LLM・AI開発⭐ リポ 4,693

openui

OpenUIとOpenUI Langを使用してジェネレーティブUIアプリを構築できます。これらはLLM生成インターフェースのためのトークン効率的なオープン標準です。OpenUI、@openuidev、ジェネレーティブUI、LLMからのストリーミングUI、AI向けコンポーネントライブラリ、またはjson-render/A2UIの置き換えについて述べる際に使用します。スキャフォルディング、defineComponent、システムプロンプト、Renderer、およびOpenUI Lang出力のデバッグに対応しています。

by thesysdev
本サイトは GitHub 上で公開されているオープンソースの SKILL.md ファイルをクロール・インデックス化したものです。 各スキルの著作権は原作者に帰属します。掲載に問題がある場合は info@alsel.co.jp または /takedown フォームよりご連絡ください。
原作者: marswaveai · marswaveai/skills · ライセンス: MIT