Anthropic Claudeその他⭐ リポ 0品質スコア 50/100

ab-test-setup

Name: ab-test-setup
Author: sickn33

仮説・指標・実行準備の必須チェックゲートを備えた、A/Bテストのセットアップを体系的にガイドするスキルです。

description の原文を見る

Structured guide for setting up A/B tests with mandatory gates for hypothesis, metrics, and execution readiness.

SKILL.md 本文

A/B テスト設定

1️⃣ 目的とスコープ

すべての A/B テストが有効で厳密で安全であることを、コード作成前に確認します。

「途中確認」を防止
統計的パワーを強制
無効な仮説をブロック

2️⃣ 前提条件

以下が必要です：

明確なユーザー課題
分析ソースへのアクセス
大まかなトラフィック量の推定

仮説品質チェックリスト

有効な仮説には以下が含まれます：

観察または証拠
単一で具体的な変更
方向性のある予想
定義されたオーディエンス
測定可能な成功基準

3️⃣ 仮説ロック（ハードゲート）

バリアントやメトリクスを設計する前に、以下が必須です：

最終仮説を提示
以下を指定：
- ターゲットオーディエンス
- プライマリメトリクス
- 予想される効果の方向
- 最小検出可能効果（MDE）

明示的に質問してください：

「これはこのテストにコミットする最終仮説ですか？」

確認されるまで進まないでください。

4️⃣ 仮説と妥当性チェック（必須）

以下について明示的に仮説をリストアップしてください：

トラフィックの安定性
ユーザーの独立性
メトリクスの信頼性
ランダム化の質
外的要因（季節性、キャンペーン、リリース）

仮説が弱いまたは違反している場合：

ユーザーに警告
テストの遅延または再設計を推奨

5️⃣ テストタイプの選択

最もシンプルな有効なテストを選択してください：

A/B テスト – 単一の変更、2 つのバリアント
A/B/n テスト – 複数のバリアント、高いトラフィック必須
多変量テスト（MVT） – 相互作用効果、非常に高いトラフィック必須
分割 URL テスト – 大規模な構造変更

明確な理由がない限りA/B テストをデフォルトにしてください。

6️⃣ メトリクスの定義

プライマリメトリクス（必須）

成功を評価するために使用される単一のメトリクス
仮説に直接関連
ローンチ前に事前定義で凍結

セカンダリメトリクス

コンテキストを提供
結果が発生した理由を説明
プライマリメトリクスをオーバーライドしてはいけません

ガードレールメトリクス

低下してはならないメトリクス
有害な勝利を防ぐために使用
著しく負の場合、テスト停止をトリガー

7️⃣ サンプルサイズと期間

事前に定義してください：

ベースラインレート
MDE
有意水準（通常は 95%）
統計的パワー（通常は 80%）

推定してください：

バリアントあたりの必要なサンプルサイズ
予想テスト期間

現実的なサンプルサイズ推定なしで進まないでください。

8️⃣ 実行準備ゲート（ハードストップ）

以下がすべて true の場合のみ実装に進むことができます：

仮説がロックされている
プライマリメトリクスが凍結されている
サンプルサイズが計算されている
テスト期間が定義されている
ガードレールが設定されている
トラッキングが検証されている

いずれかが欠けている場合は、停止して解決してください。

テストの実行

テスト実行中

すること：

技術的なヘルスを監視
外的要因を文書化

しないこと：

「良さそう」な結果により早期停止
テスト途中でバリアントを変更
新しいトラフィックソースを追加
成功基準を再定義

結果の分析

分析の規律

結果を解釈する際：

テストされた母集団を超えて一般化しない
テストされた変更を超えて因果関係を主張しない
ガードレール障害をオーバーライドしない
統計的有意性とビジネス判断を分離する

解釈の成果

結果	アクション
有意な正の結果	ロールアウトを検討
有意な負の結果	バリアントを拒否、学びを文書化
決定的でない結果	より多くのトラフィックまたはより大胆な変更を検討
ガードレール障害	プライマリが勝っても出荷しない

ドキュメンテーションと学習

テストレコード（必須）

文書化してください：

仮説
バリアント
メトリクス
達成したサンプルサイズ対予測
結果
決定
学び
フォローアップのアイデア

記録は共有の検索可能な場所に保存して、繰り返しの失敗を避けてください。

拒否条件（安全性）

以下の場合は進むことを拒否してください：

ベースラインレートが不明で推定できない
トラフィックが MDE を検出するには不十分
プライマリメトリクスが未定義
複数の変数が適切な設計なしで変更されている
仮説が明確に述べられない

理由を説明し、次のステップを推奨してください。

主要原則（非交渉的）

テストごとに 1 つの仮説
1 つのプライマリメトリクス
ローンチ前にコミット
途中確認なし
勝利よりも学習
統計的厳密性を第一に

最終リマインダー

A/B テストは、アイデアが正しいことを証明することではありません。それは自信を持って真実を学ぶことについてです。

急ぐ、単純化、「試しに実行」する誘惑を感じたら — それはスローダウンして設計を再確認する信号です。

使用時期

このスキルは、概要に記載されているワークフローまたはアクションを実行する際に適用できます。

制限事項

このスキルは上記に説明されているスコープが明確に一致する場合にのみ使用してください。
出力を環境固有の検証、テスト、または専門家レビューの代替として扱わないでください。
必要な入力、権限、安全性の境界、または成功基準が欠けている場合は停止して明確化を求めてください。

ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

詳細情報

作者: sickn33
リポジトリ: sickn33/antigravity-awesome-skills
ライセンス: MIT
最終更新: 不明

GitHubで原本を見る →フィードバックを送る

Source: https://github.com/sickn33/antigravity-awesome-skills / ライセンス: MIT

ab-test-setup

SKILL.md 本文

A/B テスト設定

1️⃣ 目的とスコープ

2️⃣ 前提条件

仮説品質チェックリスト

3️⃣ 仮説ロック（ハードゲート）

4️⃣ 仮説と妥当性チェック（必須）

5️⃣ テストタイプの選択

6️⃣ メトリクスの定義

プライマリメトリクス（必須）

セカンダリメトリクス

ガードレールメトリクス

7️⃣ サンプルサイズと期間

8️⃣ 実行準備ゲート（ハードストップ）

テストの実行

テスト実行中

結果の分析

分析の規律

解釈の成果

ドキュメンテーションと学習

テストレコード（必須）

拒否条件（安全性）

主要原則（非交渉的）

最終リマインダー

使用時期

制限事項

詳細情報

関連スキル

superfluid

civ-finish-quotes

nookplot

web3-polymarket

ethskills

xxyy-trade

SKILL.md 本文

A/B テスト設定

1️⃣ 目的とスコープ

2️⃣ 前提条件

仮説品質チェックリスト

3️⃣ 仮説ロック（ハード ゲート）

4️⃣ 仮説と妥当性チェック（必須）

5️⃣ テスト タイプの選択

6️⃣ メトリクスの定義

プライマリ メトリクス（必須）

セカンダリ メトリクス

ガードレール メトリクス

7️⃣ サンプル サイズと期間

8️⃣ 実行準備ゲート（ハード ストップ）

テストの実行

テスト実行中

結果の分析

分析の規律

解釈の成果

ドキュメンテーションと学習

テスト レコード（必須）

拒否条件（安全性）

主要原則（非交渉的）

最終リマインダー

使用時期

制限事項

詳細情報

関連スキル

superfluid

civ-finish-quotes

nookplot

web3-polymarket

ethskills

xxyy-trade

3️⃣ 仮説ロック（ハードゲート）

5️⃣ テストタイプの選択

プライマリメトリクス（必須）

セカンダリメトリクス

ガードレールメトリクス

7️⃣ サンプルサイズと期間

8️⃣ 実行準備ゲート（ハードストップ）

テストレコード（必須）