Anthropic Claudeその他⭐ リポ 0品質スコア 50/100

statistical-analysis

Name: statistical-analysis
Author: anthropics

記述統計・トレンド分析・外れ値検出・仮説検定などの統計的手法を適用します。分布の分析、有意差の検定、異常値の検出、相関の算出、統計結果の解釈が必要な場面で使用してください。

description の原文を見る

Apply statistical methods including descriptive stats, trend analysis, outlier detection, and hypothesis testing. Use when analyzing distributions, testing for significance, detecting anomalies, computing correlations, or interpreting statistical results.

SKILL.md 本文

統計分析スキル

記述統計、トレンド分析、外れ値検出、仮説検定、および統計的主張に関して注意すべき点に関するガイダンス。

記述統計の方法論

中心傾向

データの特性に基づいて適切な中心の尺度を選択してください：

状況	使用する指標	理由
対称分布、外れ値なし	平均値	最も効率的な推定量
歪んだ分布	中央値	外れ値に対してロバスト
カテゴリカルデータまたは順序データ	最頻値	非数値データの唯一の選択肢
外れ値を含む極度に歪んだ分布（例：ユーザーあたり収益）	中央値＋平均値	両方を報告；差が歪度を示す

ビジネスメトリクスでは常に平均値と中央値を一緒に報告してください。 大きく異なる場合、データは歪んでおり、平均値だけでは誤解を招きます。

散布度と変動性

標準偏差：値が平均からどの程度離れているか。正規分布データで使用します。
四分位範囲（IQR）：第25パーセンタイルから第75パーセンタイルまでの距離。外れ値に対してロバスト。歪んだデータで使用します。
変動係数（CV）：標準偏差 / 平均値。異なるスケールのメトリクス間の変動性を比較するときに使用します。
範囲：最大値から最小値を引いたもの。外れ値に敏感ですが、データの範囲を素早く把握できます。

ビジネスコンテキストのためのパーセンタイル

平均値だけでなく、より豊かなストーリーを伝えるために重要なパーセンタイルを報告します：

p1:   下位1%（床値/最小的な典型値）
p5:   通常範囲の低端
p25:  第1四分位数
p50:  中央値（典型的ユーザー）
p75:  第3四分位数
p90:  上位10%/パワーユーザー
p95:  通常範囲の高端
p99:  上位1%/極端なユーザー

例示的な説明：「中央のセッション継続時間は4.2分ですが、上位10%のユーザーはセッションあたり22分以上費やしており、平均を7.8分まで引き上げています。」

分布の特性化

分析するすべての数値分布の特性を説明してください：

形状：正規、右歪み、左歪み、二峰性、一様、重いテール
中心：平均値と中央値（および両者の差）
散布度：標準偏差またはIQR
外れ値：どのくらいの数でどの程度の極値性か
界：自然な下限（ゼロ）または上限（100%）があるか

トレンド分析と予測

トレンドの識別

移動平均でノイズを平滑化：

# 7日間移動平均（週次の季節性を持つ日次データに最適）
df['ma_7d'] = df['metric'].rolling(window=7, min_periods=1).mean()

# 28日間移動平均（週次および月次のパターンを平滑化）
df['ma_28d'] = df['metric'].rolling(window=28, min_periods=1).mean()

期間対期間の比較：

Week-over-week（WoW）：前週の同じ日と比較
Month-over-month（MoM）：前月の同じ月と比較
Year-over-year（YoY）：季節性を持つビジネスのゴールドスタンダード
Same-day-last-year：特定の暦日を比較

成長率：

シンプルな成長率：(現在 - 前回) / 前回
CAGR：(終了値 / 開始値) ^ (1 / 年数) - 1
対数成長率：ln(現在 / 前回)  -- 変動の激しい系列に最適

季節性の検出

周期的パターンをチェック：

生の時系列をプロット――最初に視覚的に検査
曜日ごとの平均を計算：明確な週次パターンがあるか
月ごとの平均を計算：年間サイクルがあるか
期間を比較する際は、トレンドと季節性を混同しないようにYoYまたは同期間比較を常に使用してください

予測（シンプルな方法）

ビジネスアナリスト（データサイエンティストではない）向けに、直感的な方法を使用：

ナイーブ予測：明日 = 今日。ベースラインとして使用します。
季節性を考慮したナイーブ予測：明日 = 前週/前年の同じ日。
線形トレンド：履歴データに線を当てはめます。明確に線形のトレンドのみで使用。
移動平均予測：末尾の平均を予測として使用します。

常に不確実性を伝えてください。 ポイント推定ではなく範囲を提供：

「3ヶ月のトレンドに基づいて、来月のサインアップは10K～12Kになると予想しています」
~~「来月は正確に11,234件のサインアップが発生します」~~

データサイエンティストにエスカレートする場合：非線形トレンド、複数の季節性、外部要因（マーケティング支出、休日）、または予測精度がリソース配分に重要な場合。

外れ値と異常検出

統計的手法

Z-scoreメソッド（正規分布データの場合）：

z_scores = (df['value'] - df['value'].mean()) / df['value'].std()
outliers = df[abs(z_scores) > 3]  # 3標準偏差以上

IQRメソッド（非正規分布に対してロバスト）：

Q1 = df['value'].quantile(0.25)
Q3 = df['value'].quantile(0.75)
IQR = Q3 - Q1
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR
outliers = df[(df['value'] < lower_bound) | (df['value'] > upper_bound)]

パーセンタイルメソッド（最もシンプル）：

outliers = df[(df['value'] < df['value'].quantile(0.01)) |
              (df['value'] > df['value'].quantile(0.99))]

外れ値の処理

外れ値を自動的に削除しないでください。代わりに：

調査：これはデータエラー、真の極値、または異なる母集団か？
データエラー：修正または削除（例：負の年齢、1970年のタイムスタンプ）
真の極値：保持しますが、ロバストな統計（平均値の代わりに中央値）を使用することを検討
異なる母集団：セグメント化して別途分析（例：エンタープライズ対中堅企業顧客）

実施内容を報告：「トランザクション額が$50K以上の47レコード（0.3%）を除外しました。これらは別途分析されたバルク企業注文を表しています。」

時系列異常検出

時系列の異常値を検出するため：

予想される値を計算（移動平均または前年の同じ期間）
予想値からの偏差を計算
しきい値を超える偏差をフラグ（通常、残差の2～3標準偏差）
ポイント異常（単一の異常値）と変化点（持続的なシフト）を区別

仮説検定の基本

使用する場合

観察された差が実際に存在するか、またはランダムな変動による可能性があるかを判断する必要がある場合に仮説検定を使用します。一般的なシナリオ：

A/Bテスト結果：バリアントBは本当にAより優れているか？
前後比較：製品変更は実際にメトリクスを動かしたか？
セグメント比較：エンタープライズ顧客は本当に高い顧客維持率を持つか？

フレームワーク

帰無仮説（H0）：差異はない（デフォルトの仮定）
対立仮説（H1）：差異がある
有意水準（alpha）を選択：通常は0.05（偽陽性の5%の確率）
検定統計量とp値を計算
解釈：p < alphaの場合、H0を棄却（真の差異の証拠）

一般的な検定

シナリオ	検定	使用する場合
2つのグループの平均を比較	t検定（独立）	正規データ、2つのグループ
2つのグループの比率を比較	比率のz検定	コンバージョンレート、二値結果
ペアの測定値を比較	ペアのt検定	同じエンティティの前後
3つ以上のグループの平均を比較	ANOVA	複数のセグメントまたはバリアント
非正規データ、2つのグループ	Mann-Whitney U検定	歪んだメトリクス、順序データ
カテゴリ間の関連性	カイ二乗検定	2つのカテゴリ変数

実質的有意性対統計的有意性

統計的有意性は、差異がランダムな変動によるものではない可能性が高いことを意味します。

実質的有意性は、ビジネス上の決定にとって十分に大きな差異があることを意味します。

差異は統計的に有意でも、実質的に無意味である可能性があります（大規模サンプルで一般的）。常に報告してください：

効果サイズ：差異はどの程度大きいか？（例：「バリアントBはコンバージョンを0.3ポイント改善しました」）
信頼区間：妥当な真の効果の範囲は何か？
ビジネスへの影響：これは収益、ユーザー、または他のビジネス用語にどう変換されるか？

サンプルサイズの考慮事項

小さなサンプルは、有意なp値があっても信頼できない結果をもたらします
比率の経験則：基本的な信頼性のためにグループあたり少なくとも30イベントが必要
小さな効果（例：1%のコンバージョンレート変化）を検出するには、グループあたり数千の観察が必要な場合があります
サンプルが小さい場合、その旨を明記してください：「グループあたり200の観察では、X%より小さい効果を検出する能力が限定されています」

統計的主張に関して注意すべき場合

相関は因果ではない

相関を見つけたときは、明示的に以下を考慮してください：

逆の因果関係：BがAの原因の可能性もあります
交絡変数：CがAとBの両方の原因の可能性もあります
偶然：十分な変数があれば、偽りの相関は避けられません

言えること：「機能Xを使用するユーザーは顧客維持率が30%高い」 追加の証拠なしに言えないこと：「機能Xは顧客維持率を30%向上させます」

多重比較問題

多くの仮説を検定すると、一部は偶然に「有意」になります：

p=0.05で20のメトリクスをテストすると、約1つが偽陽性になります
差異のあるセグメントを見つける前に多くのセグメントを検査した場合、それを記載してください
Bonferroni補正で多重比較を調整（alphaをテスト数で割る）するか、実行したテスト数を報告してください

シンプソンのパラドックス

集計データのトレンドは、データをセグメント化すると逆転することがあります：

主要セグメント全体で結論が成立するかどうかを常に確認してください
例：全体的なコンバージョン率が上昇していても、すべてのセグメントではコンバージョン率が低下している――ミックスがより高い変換セグメントにシフトしたため

生存者バイアス

データセットに「生き残った」エンティティのみを分析できます：

アクティブユーザーを分析するとチャーンしたユーザーを無視します
成功した企業を分析すると失敗した企業を無視します
常に以下を自問してください：「このデータセットから誰が不足しており、彼らを含めることで結論が変わるか？」

生態学的虚偽

集計的なトレンドは個人には適用されない場合があります：

「Xが高い国はYが高い」は「Xが高い個人はYが高い」を意味しません
グループレベルの調査結果を個別のケースに適用するときは注意してください

特定の数値へのアンカリング

偽りの精度に注意してください：

「来四半期のチャーン率は4.73%になります」は保証されているほどの確実性を暗示します
範囲を優先：「履歴パターンに基づいて、チャーン率は4～6%と予想しています」
適切に丸める：「約5%」は「4.73%」より誠実なことが多いです

ライセンス: Apache-2.0(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

詳細情報

作者: anthropics
リポジトリ: anthropics/knowledge-work-plugins
ライセンス: Apache-2.0
最終更新: 不明

GitHubで原本を見る →フィードバックを送る

Source: https://github.com/anthropics/knowledge-work-plugins / ライセンス: Apache-2.0