AI スキルを構築する — エージェントではなく

小さく、フォーカスされた、コンポーザブルな AI 機能を構築するためのフレームワーク。Anthropic のエンジニアリング講演 (Barry Zhang & Mahesh Murag, AI Engineer Code Summit) に基づいています。

コア哲学

モノリシックなエージェントを構築しないでください。スキルを構築してください。

エージェント は、すべてのことを行おうとする大規模で複雑なシステム
スキル は、小さく、非常に具体的で、信頼性のある、改善可能な機能

スキルはより安定していて、保守しやすく、スケーラビリティに優れています。エージェントはスキルをツールとして使用します — これらは競合ではなく、補完的です。

本番スキルの 3 つの必須プロパティ

1. 評価

具体的で測定可能な成功基準 — リリース前に定義されたもの:

精度: ≥ X%
フォーマット正確性: はい/いいえ
レイテンシ: < X 秒
既知の失敗ケース: ドキュメント化されたリスト

2. バージョニング

各スキルには版があり、依存関係を破壊することなく安全に反復できます:

フォーマット: v1.0 – YYYY-MM-DD
意味のある変更 = 新しいバージョン
チェンジログを保持

3. コンポーザビリティ

スキルは連鎖します。各スキルがクリーンなインプットを受け取り、クリーンなアウトプットを生成するように設計します:

リサーチスキル → ライティングスキル → フォーマットスキル
インプット/アウトプットコントラクトを明示的に定義

進化マインドセット

1日目:  ほぼスキルなし → モデルは「インテリジェント」
5日目:  いくつかのスキル → モデルは「有能」
30日目: 多くのスキル → モデルは「非常に有用で信頼性が高い」

基本から始めましょう。テストします。改善します。組み合わせます。1日目に完璧なスキルを構築しようとしないでください。

スキルビルダーテンプレート

コピーして適応させてください:

**スキル名**: [明確で具体的な名前 — 例: 「Swedish Accident Report Analyzer v2」]

**目的** (1 文):
正確に何をするのか、そして理想的なアウトプットがどのように見えるか。

**バージョン**: v1.0 – [日付]

---

## ベースプロンプト

You are an expert [ultra-specific role] with 15 years of experience.
Your only mission is [objective in one sentence].

Instructions:
- Think step by step (Chain-of-Thought) before responding
- First, quote the relevant parts of the input
- Only answer with information you can extract or reason with high confidence
- If something is uncertain, say "UNCERTAINTY: [explanation]"
- Always use this exact output format:

[JSON or structured Markdown format]

Example input → output: [1–2 good examples]

---

## 評価基準

- 精度: ≥ 95%
- 完全なフォーマット: はい/いいえ
- 実行時間: < X 秒
- 既知の失敗: [失敗したケースとその理由のリスト]

## バージョンログ

- v1.0 – [日付]: 初版

## コンポーザビリティ

このスキルは以下と組み合わせることができます: [他のスキルのリスト]

スキルを構築する方法 (5 ステップループ)

AI で繰り返し行うタスクを特定する
上記のテンプレートを使用してベースプロンプトを作成する
3～5 つの実際のケース (エッジケースを含む) でテストする
プロンプトを改善する:
- より多くの例を追加 (少数ショット)
- ハルシネーション防止ルールを追加
- アウトプット検証ステップを追加
- 問題が分岐している場合は ToT に切り替え
評価基準を追加 + バージョンタグを追加 → スキルライブラリに保存

スキルライブラリ構造

スキルごとにフォルダを維持してください:

skills/
  {skill-name}/
    SKILL.md          # prompt + metadata (このフォーマット)
    test-cases/       # inputs + expected outputs
    CHANGELOG.md      # version history

スキルを使用するたびに:

結果をログに記録
失敗した場合 → v1.X を修正して作成
非常にうまくいった場合 → 共有するか、別のスキルと組み合わせ

ユーザーに結果を提示

スキル設計についてアドバイスするときは、常に以下に対応してください:

目的は十分に具体的ですか? (広すぎる = 悪いスキル)
評価基準は何ですか?
どの既存スキルとこれを組み合わせることができますか?
現在どのバージョンであり、次のバージョンで何が予定されていますか?

トラブルシューティング

スキルが広すぎる: 1 つのジョブを持つ 2 つのより小さいスキルに分割
アウトプットが一貫していない: アウトプットフォーマットを厳しくする + 2～3 の例を追加
評価が難しい: バイナリメトリック (フォーマット正確: はい/いいえ) を主観的なものの前に定義
組み合わせると破壊される: インプット/アウトプットコントラクトを確認 — 明示的なスキーマ定義を追加

ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

build-ai-skills

SKILL.md 本文