agentic-engineering
AIエージェントが実装作業の大部分を担う開発環境において、評価駆動の実行・タスク分解・コスト意識を持つモデルルーティングを組み合わせてエンジニアリングを行うスキル。人間が品質管理とリスク管理を担う役割を果たす場面で使用する。
description の原文を見る
> Operate as an agentic engineer using eval-first execution, decomposition, and cost-aware model routing. Use when AI agents perform most implementation work and humans enforce quality and risk controls.
SKILL.md 本文
Agentic Engineering
AI エージェントがほとんどの実装作業を行い、人間が品質とリスク管理を行うエンジニアリングワークフローにこのスキルを使用します。
運用原則
- 実行前に完了基準を定義します。
- 作業をエージェント単位に分解します。
- タスク複雑性に応じてモデルティアをルーティングします。
- eval と回帰チェックで測定します。
Eval-First ループ
- 機能 eval と回帰 eval を定義します。
- ベースラインを実行して失敗シグネチャをキャプチャします。
- 実装を実行します。
- eval を再実行し、差分を比較します。
ワークフロー例:
1. 目的のふるまいをキャプチャするテストを作成する (eval)
2. テストを実行 → ベースラインの失敗をキャプチャ
3. 機能を実装する
4. テストを再実行 → 改善を確認
5. 他のテストで回帰がないかチェック
タスク分解
15分単位ルールを適用します:
- 各ユニットは独立して検証可能である必要があります
- 各ユニットは単一の支配的なリスクを持つ必要があります
- 各ユニットは明確な完了条件を示す必要があります
良い分解:
タスク: ユーザー認証を追加
├─ ユニット 1: パスワードハッシング追加 (15分、セキュリティリスク)
├─ ユニット 2: ログインエンドポイント作成 (15分、API契約リスク)
├─ ユニット 3: セッション管理を追加 (15分、状態リスク)
└─ ユニット 4: ミドルウェアでルートを保護 (15分、認証ロジックリスク)
悪い分解:
タスク: ユーザー認証を追加 (2時間、複数のリスク)
モデルルーティング
タスク複雑性に基づいてモデルティアを選択します:
-
Haiku: 分類、ボイラープレート変換、狭い範囲の編集
- 例:変数名の変更、型注釈の追加、コードフォーマット
-
Sonnet: 実装とリファクタリング
- 例:機能の実装、モジュールのリファクタリング、テスト作成
-
Opus: アーキテクチャ、根本原因分析、複数ファイルにまたがる不変条件
- 例:システム設計、複雑な問題のデバッグ、アーキテクチャレビュー
コスト規律: 下位のティアが明確な推論ギャップで失敗した場合にのみ、モデルティアを昇格させます。
セッション戦略
-
セッションを続行 する (密結合ユニット)
- 例:同じモジュール内の関連関数を実装する
-
メジャーフェーズ遷移後に新規セッションを開始 する
- 例:実装からテストへ移行する
-
マイルストーン完了後にコンパクト化 する (アクティブなデバッグ中ではなく)
- 例:機能完成後、次の機能開始前
AI 生成コードのレビュー重点
優先順位:
- 不変条件とエッジケース
- エラー境界
- セキュリティと認証の前提条件
- 隠れた結合とロールアウトリスク
自動フォーマット/lint がすでにスタイルを適用している場合、スタイルのみの不一致にレビューサイクルを費やさないでください。
レビューチェックリスト:
- エッジケースを処理している (null、空、境界値)
- エラーハンドリングが包括的である
- セキュリティ前提条件が検証されている
- モジュール間に隠れた結合がない
- ロールアウトリスクが評価されている (破壊的変更、マイグレーション)
コスト規律
タスクごとに追跡します:
- 使用モデルティア
- トークン予測
- 必要な再試行
- ウォールクロック時間
- 成功/失敗の結果
追跡例:
タスク: ユーザーログイン実装
モデル: Sonnet
トークン: 約 5k 入力、約 2k 出力
再試行: 1回 (初期実装に認証バグ)
時間: 8分
結果: 成功
このスキルを使用する場合
- AI 駆動開発ワークフローを管理する
- エージェントタスク分解を計画する
- モデルティア選択を最適化する
- 評価ファースト開発を実装する
- AI 生成コードをレビューする
- 開発コストを追跡する
他のスキルとの統合
- tdd-workflow: テスト駆動開発のため eval-first ループと組み合わせます
- verification-loop: 実装中の継続的な検証に使用します
- search-first: 実装前に既存ソリューションを検索するために適用します
- coding-standards: コードレビューフェーズ中に参照します
ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- affaan-m
- ライセンス
- MIT
- 最終更新
- 不明
Source: https://github.com/affaan-m/everything-claude-code / ライセンス: MIT
関連スキル
agent-browser
AI エージェント向けのブラウザ自動化 CLI です。ウェブサイトとの対話が必要な場合に使用します。ページ遷移、フォーム入力、ボタンクリック、スクリーンショット取得、データ抽出、ウェブアプリのテスト、ブラウザ操作の自動化など、あらゆるブラウザタスクに対応できます。「ウェブサイトを開く」「フォームに記入する」「ボタンをクリックする」「スクリーンショットを取得する」「ページからデータを抽出する」「このウェブアプリをテストする」「サイトにログインする」「ブラウザ操作を自動化する」といった要求や、プログラマティックなウェブ操作が必要なタスクで起動します。
anyskill
AnySkill — あなたのプライベート・スキルクラウド。GitHubを基盤としたリポジトリからエージェントスキルを管理、同期、動的にロードできます。自然言語でクラウドスキルを検索し、オンデマンドでプロンプトを自動ロード、カスタムスキルのアップロードと共有、スキルバンドルの一括インストールが可能です。OpenClaw、Antigravity、Claude Code、Cursorに対応しています。
engram
AIエージェント向けの永続的なメモリシステムです。バグ修正、意思決定、発見、設定変更の後はmem_saveを使用してください。ユーザーが「覚えている」「記憶している」と言及した場合、または以前のセッションと重複する作業を開始する際はmem_searchを使用します。セッション終了前にmem_session_summaryを使用して、コンテキストを保持してください。
skyvern
AI駆動のブラウザ自動化により、任意のウェブサイトを自動化できます。フォーム入力、データ抽出、ファイルダウンロード、ログイン、複数ステップのワークフロー実行など、ユーザーがウェブサイトと連携する必要があるときに使用します。Skyvernは、LLMとコンピュータビジョンを活用して、未知のサイトも自動操作可能です。Python SDK、TypeScript SDK、REST API、MCPサーバー、またはCLIを通じて統合できます。
pinchbench
PinchBenchベンチマークを実行して、OpenClawエージェントの実世界タスクにおけるパフォーマンスを評価できます。モデルの機能テスト、モデル間の比較、ベンチマーク結果のリーダーボード提出、またはOpenClawのセットアップがカレンダー、メール、リサーチ、コーディング、複数ステップのワークフローにどの程度対応しているかを確認する際に使用します。
openui
OpenUIとOpenUI Langを使用してジェネレーティブUIアプリを構築できます。これらはLLM生成インターフェースのためのトークン効率的なオープン標準です。OpenUI、@openuidev、ジェネレーティブUI、LLMからのストリーミングUI、AI向けコンポーネントライブラリ、またはjson-render/A2UIの置き換えについて述べる際に使用します。スキャフォルディング、defineComponent、システムプロンプト、Renderer、およびOpenUI Lang出力のデバッグに対応しています。