Anthropic Claudeデータ・分析⭐ リポ 0品質スコア 50/100

data-analyst

Name: data-analyst
Author: ailabs-393

CSVデータセットの分析、欠損値のインテリジェントな補完処理、データトレンドを可視化するインタラクティブなダッシュボードの作成が必要な場合に使用するスキルです。データ品質の評価、欠損値の自動検出・補完、統計分析、および探索的データ分析のためのPlotly Dashダッシュボード生成といったタスクに活用してください。

description の原文を見る

This skill should be used when analyzing CSV datasets, handling missing values through intelligent imputation, and creating interactive dashboards to visualize data trends. Use this skill for tasks involving data quality assessment, automated missing value detection and filling, statistical analysis, and generating Plotly Dash dashboards for exploratory data analysis.

SKILL.md 本文

Data Analyst

Overview

このスキルは、CSVデータセットのデータ分析ワークフローに対する包括的な機能を提供します。欠損値パターンを自動的に分析し、適切な統計手法を使用して欠損データをインテリジェントに補完し、傾向とパターンを可視化するためのインタラクティブなPlotly Dashダッシュボードを作成します。このスキルは、自動化された欠損値処理とリッチなインタラクティブ可視化を組み合わせて、エンドツーエンドの探索的データ分析をサポートします。

Core Capabilities

data-analystスキルは、独立して、または完全なワークフローとして使用できる3つの主要機能を提供します:

1. Missing Value Analysis

データセット内の欠損値を自動検出・分析し、パターンを特定し、最適な補完戦略を提案します。

2. Intelligent Imputation

各列のデータ型と分布特性に合わせた高度な補完方法を適用します。

3. Interactive Dashboard Creation

トレンド分析と探索用の複数の可視化タイプを備えた包括的なPlotly Dashダッシュボードを生成します。

Complete Workflow

ユーザーが欠損値処理と可視化を伴う完全なデータ分析をリクエストした場合、以下のワークフローに従ってください:

Step 1: Analyze Missing Values

欠損値分析スクリプトを実行して、データ品質を理解します:

python3 scripts/analyze_missing_values.py <input_file.csv> <output_analysis.json>

このスクリプトの機能:

各列の欠損値を検出
データ型を特定 (数値、カテゴリ、時間序列など)
欠損値統計を計算
各列に対して適切な補完戦略を提案
詳細なJSONレポートとコンソール出力を生成

出力を確認して、以下を理解してください:

どの列に欠損データが存在するか
欠損値の割合
各列の推奨補完方法
各方法が推奨された理由

Step 2: Impute Missing Values

分析に基づいて自動補完を適用します:

python3 scripts/impute_missing_values.py <input_file.csv> <analysis.json> <output_imputed.csv>

このスクリプトの機能:

分析結果を読み込みます (提供されない場合は分析を実行)
各列に最適な補完方法を適用:
- Mean (平均値): 正規分布した数値データ用
- Median (中央値): スキュー状の数値データ用
- Mode (最頻値): カテゴリ変数用
- KNN: 相関がある多変量数値データ用
- Forward fill: 時系列データ用
- Constant (定数): 高い基数を持つテキストフィールド用
エッジケースを処理 (必要に応じて行・列を削除)
補完前後の統計を含むレポートを生成
クリーン済みデータセットを保存

スクリプトが自動的に実行すること:

70%以上の欠損値を持つ列を削除
重要なID列の欠損値を持つ行を削除
相関がある変数に対してバッチKNN補完を実行
詳細な補完ログを作成

Step 3: Create Interactive Dashboard

インタラクティブなPlotly Dashダッシュボードを生成します:

python3 scripts/create_dashboard.py <imputed_file.csv> <output_dir> <port>

例:

python3 scripts/create_dashboard.py data_imputed.csv ./visualizations 8050

このスクリプトの機能:

列の型を自動検出 (数値、カテゴリ、時間序列)
包括的な可視化を作成:
- Summary statistics table (要約統計テーブル): すべての数値列の記述統計
- Time series plots (時系列プロット): 日付/時刻列が存在する場合はトレンド分析
- Distribution plots (分布プロット): データ分布を理解するためのヒストグラム
- Correlation heatmap (相関ヒートマップ): 数値変数間の関係
- Categorical analysis (カテゴリ分析): カテゴリ変数用の棒グラフ
- Scatter plot matrix (散布図行列): 変数間のペアワイズ関係
インタラクティブなDash Webサーバーを起動
オプションで静的HTML可視化を保存

ダッシュボードにアクセス: http://127.0.0.1:8050 (または指定したポート)

Individual Use Cases

Use Case A: Quick Missing Value Assessment

ユーザーが補完なしでデータ品質を理解したい場合:

python3 scripts/analyze_missing_values.py data.csv

コンソール出力を確認して、欠損値パターンを理解し、推奨事項を得てください。

Use Case B: Imputation Only

ユーザーが欠損値を持つデータセットを持っていてクリーン済みデータが必要な場合:

python3 scripts/impute_missing_values.py data.csv

これは分析と補完を1つのステップで実行し、data_imputed.csvを生成します。

Use Case C: Visualization Only

ユーザーがクリーン済みデータセットを持っていてインタラクティブな可視化が必要な場合:

python3 scripts/create_dashboard.py clean_data.csv ./visualizations 8050

これは前処理なしでフルダッシュボードを作成します。

Use Case D: Custom Imputation Strategy

ユーザーが補完戦略をレビューして調整したい場合:

まず分析を実行:

python3 scripts/analyze_missing_values.py data.csv analysis.json

analysis.jsonをレビューしてユーザーと戦略を議論
必要に応じて、スクリプト内の補完ロジックまたはパラメータを変更

補完を実行:

python3 scripts/impute_missing_values.py data.csv analysis.json data_imputed.csv

Understanding Imputation Methods

このスキルはデータ特性に基づいたインテリジェントな補完戦略を使用します。主要な方法は以下の通りです:

Mean/Median (平均値/中央値): 数値データ用 (正規分布は平均値、スキュー分布は中央値)
Mode (最頻値): カテゴリ変数用 (最も頻度の高い値)
KNN (K-Nearest Neighbors): 変数が相関している多変量数値データ用
Forward Fill: 時系列データ用 (最後の観測値を前方に継続)
Interpolation (補間): スムーズな時間的トレンド用
Constant Value (定数値): 高基数テキストフィールド用 (例: "Unknown")
Drop (削除): 70%以上の欠損がある列、またはIDが欠損している行用

各方法がいつ適切かについての詳細情報は、references/imputation_methods.mdを参照してください。

Dashboard Features

インタラクティブなダッシュボードには以下が含まれます:

Summary Statistics

すべての数値列のcount、mean、std、min、max、四分位数
欠損値のカウント数とパーセンテージ
ソート可能なテーブル形式

Time Series Analysis

時間的トレンド用の折れ線グラフマーカー
複数系列のサポート (最大4つのプライマリメトリクス)
正確な値を示すホバー詳細
簡単な比較のための統一ホバーモード

Distribution Analysis

すべての数値変数のヒストグラム
粒度の高い分布ビューのための30ビンデフォルト
簡単な比較のためのマルチパネルレイアウト

Correlation Analysis

相関係数を示すヒートマップ
-1 (負) から +1 (正) へのカラーコード化
正確な相関値で注釈付け
関係性を特定するのに有用

Categorical Analysis

カテゴリ変数の棒グラフ
トップ10カテゴリを表示 (高基数変数の場合)
度数をカウント表示

Scatter Plot Matrix

数値変数のペアワイズ散布図
読みやすさのために最大5つの変数に限定
冗長性を避けるため下三角形を表示

Setup and Dependencies

スキルを使用する前に、依存関係がインストールされていることを確認してください:

pip install -r requirements.txt

必要なパッケージ:

pandas - データ操作と分析
numpy - 数値計算
scikit-learn - KNN補完
plotly - インタラクティブ可視化
dash - Webダッシュボードフレームワーク
dash-bootstrap-components - ダッシュボードスタイリング

Best Practices

分析の場合:

補完前に常に分析を実行してデータ品質を理解
提案された補完方法をレビュー - これらは推奨事項であり、必須ではありません
欠損値のパーセンテージに注意 (40%以上は慎重に検討が必要)
データ型が期待と一致することを確認 (例: 数値IDが数値として検出される)

補完の場合:

補完前に元のデータセットを保存
補完レポートをレビューして、方法が理にかなっていることを確認
補完された値が合理的な範囲内にあることを確認
重要な変数について欠損インジケータの作成を検討
再現性のため、どの補完方法を使用したかを記録

ダッシュボードの場合:

最も正確な可視化のためにインポート/クリーン済みデータを使用
非技術的なステークホルダーと共有する場合は静的HTMLプロットを保存
複数のダッシュボードを同時に実行する場合は異なるポートを使用
大規模なデータセット (>100k行) の場合は、より高速なレンダリングのためサンプリングを検討

Handling Edge Cases

High Missing Rates (>50%)

スクリプトは自動的に50%以上の欠損値を持つ列にフラグを立てます。オプション:

重要でない場合は列を削除
欠損インジケータ変数を作成
データが欠損している理由を調査 (情報価値がある可能性)

Mixed Data Types

列に混合型が含まれている場合 (例: 数値とテキスト):

スクリプトはプライマリ型を検出
分析前に列のクリーニングを検討
混合型テキスト列に定数補完を使用

Small Datasets

データセットが50行未満の場合:

単純な補完 (mean/median/mode) がより安定
KNN を避ける (十分な近傍を必要)
インポートの代わりに行の削除を検討

Time Series Gaps

不規則なタイムスタンプを持つ時系列の場合:

短いギャップには forward fill を使用
長いギャップでスムーズなトレンドがある場合は補間を使用
方法を選択する際にサンプリング周波数を検討

Troubleshooting

"module not found" でスクリプトが失敗する

依存関係をインストール: pip install -r requirements.txt

ダッシュボードが起動しない (ポート使用中)

別のポートを指定: python3 scripts/create_dashboard.py data.csv ./viz 8051

KNN補完が遅い

KNNは大規模データセットについて計算量が多いです。50k行以上の場合は、以下を検討:

よりシンプルな方法を使用 (mean/median)
データを先にサンプリング
KNNで使用する列数を減らす

インポートされた値が間違っていると思われる

分析レポートをレビュー - 検出されたデータ型を確認
列が正しく検出されていることを確認 (数値 vs カテゴリ)
手動調整または異なる補完方法を検討
平均値/中央値に影響する外れ値を確認

Resources

scripts/

analyze_missing_values.py - 自動戦略推奨機能を備えた包括的な欠損値分析
impute_missing_values.py - データ特性に合わせた複数の方法を使用したインテリジェント補完
create_dashboard.py - 複数の可視化タイプを備えたインタラクティブなPlotly Dashダッシュボードジェネレーター

references/

imputation_methods.md - 欠損値補完戦略、意思決定フレームワーク、およびベストプラクティスの詳細ガイド

Other Files

requirements.txt - スキル用のPython依存関係

ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

詳細情報

作者: ailabs-393
リポジトリ: ailabs-393/ai-labs-claude-skills
ライセンス: MIT
最終更新: 不明

GitHubで原本を見る →フィードバックを送る

Source: https://github.com/ailabs-393/ai-labs-claude-skills / ライセンス: MIT

SKILL.md 本文

Data Analyst

Overview

Core Capabilities

1. Missing Value Analysis

2. Intelligent Imputation

3. Interactive Dashboard Creation

Complete Workflow

Step 1: Analyze Missing Values

Step 2: Impute Missing Values

Step 3: Create Interactive Dashboard

Individual Use Cases

Use Case A: Quick Missing Value Assessment

Use Case B: Imputation Only

Use Case C: Visualization Only

Use Case D: Custom Imputation Strategy

Understanding Imputation Methods

Dashboard Features

Summary Statistics

Time Series Analysis

Distribution Analysis

Correlation Analysis

Categorical Analysis

Scatter Plot Matrix

Setup and Dependencies

Best Practices

分析の場合:

補完の場合:

ダッシュボードの場合:

Handling Edge Cases

High Missing Rates (>50%)

Mixed Data Types

Small Datasets

Time Series Gaps

Troubleshooting

"module not found" でスクリプトが失敗する

ダッシュボードが起動しない (ポート使用中)

KNN補完が遅い

インポートされた値が間違っていると思われる

Resources

scripts/

references/

Other Files

詳細情報

関連スキル

hugging-face-trackio

btc-bottom-model

protein_solubility_optimization

research-lookup

tree-formatting

querying-indonesian-gov-data