test-pilot-loop
実行中のアプリケーションをコンピュータ操作を通じてテスト実行できます。ビルド完了時、またはユーザーが「test pilot this」「test my app」「quick flight」「run a flight check」「check the UX」と指示した際にトリガーされます。3つの知識レベル(何も知らない状態、マニュアル保有、PRD保有)でテストを実施し、UXの課題を「Tier Gap Ratio」とともにレポートします。
description の原文を見る
Test-pilot any running app through computer use. Trigger when a build completes, user says "test pilot this", "test my app", "quick flight", "run a flight check", or "check the UX". Tests with three knowledge tiers (knows nothing, has manual, has PRD) and reports UX findings with a Tier Gap Ratio.
SKILL.md 本文
Test Pilot Loop — OpenClaw Skill
コードを書くだけではなく、まず製品を試飛行させるAI。
コンピュータ操作を通じて、実行中のアプリをテストします。混乱、フラストレーション、摩擦を見つけます。単なるバグではなく。
アクティベーションのタイミング
- ユーザーが「test pilot this」「test my app」「quick flight」「flight check」「check the UX」と言う
- ビルドが完了し、ユーザーが検証を望んでいる
- ユーザーが「このアプリは使いやすいか」「誰かこれを理解できるか」と聞く
- ビルドイベント後にCronでトリガーされる
テスト前に
まだ提供されていない場合は、ユーザーに以下を確認します:
- アプリはどこにあるか? (URL、アプリ名、ウィンドウタイトル、シミュレータ)
- 何がビルドされたか? (1文で)
- ユーザーは何ができるべきか? (コアタスク)
ユーザーがPRDまたはREADMEパスを提供する場合は、Run 2とRun 3で読んでください。
2つのモード
Quick Flight(約5分)
何も知らないコールドユーザーとして、1回のテスト。
Full Test Pilot Loop(約15~20分)
異なる知識レベルで3つの連続テスト。結果を比較。
Quick Flight
- アプリを開く(ブラウザのURL、またはデスクトップコントロール経由でウィンドウを検索)
- このアプリについて、名前以外の事前知識は一切ない状態
- ユーザーが説明したタスクを完了しようと試みる
- 見たこと、試したこと、混乱したことを話す
- すべてのアクション(クリック、入力、スクロール、ナビゲーション)をステップ1としてカウント
- レポートを作成します:
QUICK FLIGHT REPORT
═══════════════════
App: [名前またはURL]
Feature tested: [何がビルドされたか]
Task attempted: [何を試したか]
COMPLETED: YES / NO / PARTIALLY
If NO: [どこで詰まったか、なぜか]
STEPS: [カウント] WRONG TURNS: [カウント]
WHAT WORKED WELL:
• [明確で自然な瞬間]
WHAT CONFUSED ME:
• [どこで、何が、なぜか]
WHAT I'D CHANGE:
• [具体的な提案]
BUGS FOUND:
• [何が起きたか vs 期待値]
INTERFACE CHECK:
Layout clear: YES / MOSTLY / NO
Labels make sense: YES / MOSTLY / NO
Feedback after taps: YES / SOMETIMES / NEVER
Know what to do next: YES / SOMETIMES / NO
ONE-SENTENCE SUMMARY:
"[修正すべき最も重要なこと。]"
Full Test Pilot Loop
3つのテストを順番に実行します。各Run前にアプリをリセット。
Run 1 — Cold User(何も知らない): このプロジェクトについて事前知識がない状態。アプリを探し、タスクを試み、すべてのステップをカウント、混乱のたびにメモ。8回の混乱ステップ後に理解できない場合は、放棄を報告。
Run 2 — Guided User(マニュアルのみ): ユーザーマニュアルまたはREADMEを読んでいる状態。PRDはまだ見ていない。ドキュメント化された指示に従う。ドキュメントが間違っている、不完全、またはアプリとは異なる言葉を使っている場所を記録。マニュアルが存在しない場合は、このRunをスキップ。
Run 3 — Insider(フルPRDを持つ): 完全なProduct Requirements Documentを持っている状態。すべての意図した機能と受け入れ条件を知っている。アプリが仕様通りに提供されているかテスト。PRDが存在しない場合は、このRunをスキップ。
フルレポート
TEST PILOT REPORT
═════════════════
App: [名前またはURL]
Feature: [何がビルドされたか]
Task: [何がテストされたか]
Tiers completed: [1 / 2 / 3]
┌─────────────────────────────────────────────────┐
│ RUN 1 RUN 2 RUN 3 │
│ COLD GUIDED INSIDER │
├─────────────────────────────────────────────────┤
│ Completed: [Y/N] [Y/N] [Y/N] │
│ Steps: [カウント] [カウント] [カウント] │
│ Wrong turns: [カウント] [カウント] [カウント] │
│ Confusion: [カウント] [カウント] [カウント] │
└─────────────────────────────────────────────────┘
TIER GAP RATIO: [Coldステップ数] / [Insiderステップ数] = [X]x
≤ 1.5x = ⭐ 優秀 ≤ 2.0x = 🟢 良好
≤ 3.0x = 🟡 許容 > 3.0x = 🔴 不良
COLD USER FINDINGS:
Confused at: [どこで、何が、なぜか]
Would give up at: [正確なポイント]
Would have helped: [提案]
GUIDED USER FINDINGS:
Manual accuracy issues: [間違った/古い指示、用語の不一致]
INSIDER FINDINGS:
PRD compliance: [X]%
Requirements not met: [リスト]
BUGS FOUND:
• [何が起きたか vs 期待値]
FIX THESE (優先順):
1. [最も重要 — 何と理由]
2. [次]
3. [次]
VERDICT: PASS ✅ / NEEDS WORK ⚠️ / FAIL ❌
テスト後
- レポートをユーザーに送信
- コーディングエージェントが実行中の場合:レポートを
FLIGHT_PLAN.mdまたはtest-pilot-report.mdに保存 - ユーザーが「fix it」と言った場合:共有プロジェクトファイルにFIX THESEセクションを書き込む
再テストループ
ユーザーが「retest」「test again」「check the fixes」と言ったとき:
- 以前に問題を見つけたテストを再実行
- 新しい結果を前回の結果と比較
- Tier Gap Ratioが改善されたかどうかを報告
- PASSになるまでループを続行
Dual-Patrolを使った永続的なループ
継続的なビルド・テスト・修正サイクル(夜間実行、複数イテレーション開発)の場合、このスキルをフルTest Pilot LoopフレームワークからDual-Patrol Modelと組み合わせます。オーケストレータ(Cowork Opus)とコーディングエージェントの両方が、共有の FLIGHT_PLAN.md ファイルを独立して巡回します。ターミナルの直接制御は必要ありません。オーケストレータがフィードバックと NEXT_ACTION 指示を記述し、コーディングエージェントがそれを受け取って修正、リビルド、「再テスト準備完了」と通知します。セットアップの詳細はTEST_PILOT_LOOP.md — The Dual-Patrol Modelを参照してください。
ルール
- ソースコードを読むのではなく、常にコンピュータ操作を通じてテスト
- コールドユーザーテストは決してスキップしない — 最も価値がある
- 常にステップをカウント。ステップは普遍的な測定値
- アプリにアクセスできない場合は、すぐにユーザーに伝える
- 存在しない機能を想像で追加しない。見たものを報告
- 混乱については正直に — あなたの混乱がフィードバック
- タスク完了せずに20ステップを超える場合は放棄を報告
- Tierテスト間でアプリをリセットし、新鮮な体験にする
Test Pilot Loop Skill v1.0 By Huan Su — github.com/suhuandds/test-pilot-loop
ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- suhuandds
- ライセンス
- MIT
- 最終更新
- 2026/4/4
Source: https://github.com/suhuandds/test-pilot-loop / ライセンス: MIT