prompt-engineer-toolkit
AIの出力をより良くするためにプロンプトを分析・改善し、マーケティングユースケース(広告コピー、メールキャンペーン、ソーシャルメディア)向けの再利用可能なプロンプトテンプレートを作成します。また、エンドツーエンドのAIコンテンツワークフローを構築することもできます。ユーザーがAI活用マーケティングのプロンプト改善、プロンプトテンプレートの構築、またはAIコンテンツワークフローの最適化を求める場合に使用してください。「プロンプトエンジニアリング」「プロンプトの改善」「AI文章作成の品質」「プロンプトテンプレート」「AIコンテンツワークフロー」といったキーワードが挙げられた場合にも活用できます。
description の原文を見る
Analyzes and rewrites prompts for better AI output, creates reusable prompt templates for marketing use cases (ad copy, email campaigns, social media), and structures end-to-end AI content workflows. Use when the user wants to improve prompts for AI-assisted marketing, build prompt templates, or optimize AI content workflows. Also use when the user mentions 'prompt engineering,' 'improve my prompts,' 'AI writing quality,' 'prompt templates,' or 'AI content workflow.'
SKILL.md 本文
プロンプトエンジニアリングツールキット
概要
このスキルを使用して、プロンプトをアドホックなドラフトから本番資産に移行できます。反復可能なテスト、バージョニング、リグレッション安全性を備えています。直感よりも測定可能な品質を重視しています。新しいLLM機能の起動で信頼性の高い出力が必要な場合、モデルまたは指示の変更後にプロンプト品質が低下した場合、複数のチームメンバーがプロンプトを編集する際に履歴/差分が必要な場合、本番展開の根拠に基づいたプロンプト選択が必要な場合、または環境全体にわたって一貫したプロンプトガバナンスが必要な場合に適用してください。
コア機能
- 構造化されたテストケースに対するAプロンプトとBプロンプトの評価
- 準拠性、関連性、安全性チェックの定量的スコアリング
- 変更不可能な履歴と変更ログを備えたプロンプトバージョン追跡
- 動作に影響を与える編集をレビューするためのプロンプト差分
- 再利用可能なプロンプトテンプレートと選択ガイダンス
- モデル/プロンプト更新向けのリグレッション対応ワークフロー
主要ワークフロー
1. プロンプトA/Bテストを実行
JSONテストケースを準備して実行します:
python3 scripts/prompt_tester.py \
--prompt-a-file prompts/a.txt \
--prompt-b-file prompts/b.txt \
--cases-file testcases.json \
--runner-cmd 'my-llm-cli --prompt {prompt} --input {input}' \
--format text
入力はstdin または --input JSONペイロードからも取得できます。
2. エビデンスに基づいて勝者を選択
テスターはケースごとに出力をスコアリングして集約します:
- 期待されるコンテンツカバレッジ
- 禁止コンテンツの違反
- 正規表現/フォーマット準拠性
- 出力長の妥当性
より高いスコアのプロンプトを候補ベースラインとして使用し、その後リグレッションスイートを実行します。
3. プロンプトをバージョニング
# バージョンを追加
python3 scripts/prompt_versioner.py add \
--name support_classifier \
--prompt-file prompts/support_v3.txt \
--author alice
# バージョンを比較
python3 scripts/prompt_versioner.py diff --name support_classifier --from-version 2 --to-version 3
# 変更ログを表示
python3 scripts/prompt_versioner.py changelog --name support_classifier
4. リグレッションループ
- ベースラインバージョンを保存します。
- プロンプト編集を提案します。
- A/Bテストを再実行します。
- スコアと安全性制約が改善された場合のみ昇格させます。
スクリプトインターフェース
python3 scripts/prompt_tester.py --help- stdinまたは
--inputからプロンプト/ケースを読み込み - オプションの外部ランナーコマンド
- テキストまたはJSONメトリクスを出力
- stdinまたは
python3 scripts/prompt_versioner.py --help- プロンプト履歴を管理(
add、list、diff、changelog) - メタデータとコンテンツスナップショットをローカルに保存
- プロンプト履歴を管理(
落とし穴、ベストプラクティス、レビューチェックリスト
これらの間違いを避けてください:
- 単一ケースの出力からプロンプトを選択する — 現実的でエッジケースが豊富なテストスイートを使用してください。
- プロンプトとモデルを同時に変更する — 常に変数を分離してください。
- 評価基準に
must_not_contain(禁止コンテンツ)チェックを含めない。 - バージョンメタデータ、作成者、変更理由なしでプロンプトを編集する。
- 新しいプロンプトバージョン展開前のセマンティック差分をスキップする。
- 1つのベンチマークを最適化しながらエッジケースを損なう — 全スイートを追跡してください。
- モデルスワップなしでベースラインA/Bスイートを再実行しない。
プロンプトを昇格させる前に、以下を確認してください:
- タスクの意図は明確で曖昧さがない。
- 出力スキーマ/フォーマットは明確である。
- 安全性と除外制約は明確である。
- 矛盾する指示がない。
- 不要な冗長トークンがない。
- A/Bスコアが改善され、違反数がゼロのままである。
リファレンス
references/prompt-templates.mdreferences/technique-guide.mdreferences/evaluation-rubric.mdREADME.md
評価設計
各テストケースは以下を定義する必要があります:
input: 本番環境に似た現実的な入力expected_contains: 必要なマーカー/コンテンツforbidden_contains: 許可されないフレーズまたは安全でないコンテンツexpected_regex: 必要な構造パターン
これにより、プロンプトバリアント全体で決定論的な採点が可能になります。
バージョニングポリシー
- 機能ごとにセマンティックなプロンプト識別子を使用してください(
support_classifier、ad_copy_shortform)。 - すべての改版について作成者と変更メモを記録してください。
- 過去のバージョンを上書きしないでください。
- 新しいプロンプトを本番環境に昇格させる前に差分を確認してください。
ロールアウト戦略
- ベースラインプロンプトバージョンを作成します。
- 候補プロンプトを提案します。
- 同じケースに対してA/Bスイートを実行します。
- 勝者が平均を改善し、違反数がゼロのままである場合のみ昇格させます。
- リリース後のフィードバックを追跡し、新しい失敗ケースをテストスイートにフィードバックしてください。
ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- Boboegg
- リポジトリ
- Boboegg/ai-resources
- ライセンス
- MIT
- 最終更新
- 2026/4/3
Source: https://github.com/Boboegg/ai-resources / ライセンス: MIT
関連スキル
agent-browser
AI エージェント向けのブラウザ自動化 CLI です。ウェブサイトとの対話が必要な場合に使用します。ページ遷移、フォーム入力、ボタンクリック、スクリーンショット取得、データ抽出、ウェブアプリのテスト、ブラウザ操作の自動化など、あらゆるブラウザタスクに対応できます。「ウェブサイトを開く」「フォームに記入する」「ボタンをクリックする」「スクリーンショットを取得する」「ページからデータを抽出する」「このウェブアプリをテストする」「サイトにログインする」「ブラウザ操作を自動化する」といった要求や、プログラマティックなウェブ操作が必要なタスクで起動します。
anyskill
AnySkill — あなたのプライベート・スキルクラウド。GitHubを基盤としたリポジトリからエージェントスキルを管理、同期、動的にロードできます。自然言語でクラウドスキルを検索し、オンデマンドでプロンプトを自動ロード、カスタムスキルのアップロードと共有、スキルバンドルの一括インストールが可能です。OpenClaw、Antigravity、Claude Code、Cursorに対応しています。
engram
AIエージェント向けの永続的なメモリシステムです。バグ修正、意思決定、発見、設定変更の後はmem_saveを使用してください。ユーザーが「覚えている」「記憶している」と言及した場合、または以前のセッションと重複する作業を開始する際はmem_searchを使用します。セッション終了前にmem_session_summaryを使用して、コンテキストを保持してください。
skyvern
AI駆動のブラウザ自動化により、任意のウェブサイトを自動化できます。フォーム入力、データ抽出、ファイルダウンロード、ログイン、複数ステップのワークフロー実行など、ユーザーがウェブサイトと連携する必要があるときに使用します。Skyvernは、LLMとコンピュータビジョンを活用して、未知のサイトも自動操作可能です。Python SDK、TypeScript SDK、REST API、MCPサーバー、またはCLIを通じて統合できます。
pinchbench
PinchBenchベンチマークを実行して、OpenClawエージェントの実世界タスクにおけるパフォーマンスを評価できます。モデルの機能テスト、モデル間の比較、ベンチマーク結果のリーダーボード提出、またはOpenClawのセットアップがカレンダー、メール、リサーチ、コーディング、複数ステップのワークフローにどの程度対応しているかを確認する際に使用します。
openui
OpenUIとOpenUI Langを使用してジェネレーティブUIアプリを構築できます。これらはLLM生成インターフェースのためのトークン効率的なオープン標準です。OpenUI、@openuidev、ジェネレーティブUI、LLMからのストリーミングUI、AI向けコンポーネントライブラリ、またはjson-render/A2UIの置き換えについて述べる際に使用します。スキャフォルディング、defineComponent、システムプロンプト、Renderer、およびOpenUI Lang出力のデバッグに対応しています。