Agent Skills by ALSEL
Anthropic Claudeデータ・分析⭐ リポ 0品質スコア 50/100

data-analyst

CSVデータセットの分析、欠損値のインテリジェントな補完処理、データトレンドを可視化するインタラクティブなダッシュボードの作成が必要な場合に使用するスキルです。データ品質の評価、欠損値の自動検出・補完、統計分析、および探索的データ分析のためのPlotly Dashダッシュボード生成といったタスクに活用してください。

description の原文を見る

This skill should be used when analyzing CSV datasets, handling missing values through intelligent imputation, and creating interactive dashboards to visualize data trends. Use this skill for tasks involving data quality assessment, automated missing value detection and filling, statistical analysis, and generating Plotly Dash dashboards for exploratory data analysis.

SKILL.md 本文

Data Analyst

Overview

このスキルは、CSVデータセットのデータ分析ワークフローに対する包括的な機能を提供します。欠損値パターンを自動的に分析し、適切な統計手法を使用して欠損データをインテリジェントに補完し、傾向とパターンを可視化するためのインタラクティブなPlotly Dashダッシュボードを作成します。このスキルは、自動化された欠損値処理とリッチなインタラクティブ可視化を組み合わせて、エンドツーエンドの探索的データ分析をサポートします。

Core Capabilities

data-analystスキルは、独立して、または完全なワークフローとして使用できる3つの主要機能を提供します:

1. Missing Value Analysis

データセット内の欠損値を自動検出・分析し、パターンを特定し、最適な補完戦略を提案します。

2. Intelligent Imputation

各列のデータ型と分布特性に合わせた高度な補完方法を適用します。

3. Interactive Dashboard Creation

トレンド分析と探索用の複数の可視化タイプを備えた包括的なPlotly Dashダッシュボードを生成します。

Complete Workflow

ユーザーが欠損値処理と可視化を伴う完全なデータ分析をリクエストした場合、以下のワークフローに従ってください:

Step 1: Analyze Missing Values

欠損値分析スクリプトを実行して、データ品質を理解します:

python3 scripts/analyze_missing_values.py <input_file.csv> <output_analysis.json>

このスクリプトの機能:

  • 各列の欠損値を検出
  • データ型を特定 (数値、カテゴリ、時間序列など)
  • 欠損値統計を計算
  • 各列に対して適切な補完戦略を提案
  • 詳細なJSONレポートとコンソール出力を生成

出力を確認して、以下を理解してください:

  • どの列に欠損データが存在するか
  • 欠損値の割合
  • 各列の推奨補完方法
  • 各方法が推奨された理由

Step 2: Impute Missing Values

分析に基づいて自動補完を適用します:

python3 scripts/impute_missing_values.py <input_file.csv> <analysis.json> <output_imputed.csv>

このスクリプトの機能:

  • 分析結果を読み込みます (提供されない場合は分析を実行)
  • 各列に最適な補完方法を適用:
    • Mean (平均値): 正規分布した数値データ用
    • Median (中央値): スキュー状の数値データ用
    • Mode (最頻値): カテゴリ変数用
    • KNN: 相関がある多変量数値データ用
    • Forward fill: 時系列データ用
    • Constant (定数): 高い基数を持つテキストフィールド用
  • エッジケースを処理 (必要に応じて行・列を削除)
  • 補完前後の統計を含むレポートを生成
  • クリーン済みデータセットを保存

スクリプトが自動的に実行すること:

  • 70%以上の欠損値を持つ列を削除
  • 重要なID列の欠損値を持つ行を削除
  • 相関がある変数に対してバッチKNN補完を実行
  • 詳細な補完ログを作成

Step 3: Create Interactive Dashboard

インタラクティブなPlotly Dashダッシュボードを生成します:

python3 scripts/create_dashboard.py <imputed_file.csv> <output_dir> <port>

:

python3 scripts/create_dashboard.py data_imputed.csv ./visualizations 8050

このスクリプトの機能:

  • 列の型を自動検出 (数値、カテゴリ、時間序列)
  • 包括的な可視化を作成:
    • Summary statistics table (要約統計テーブル): すべての数値列の記述統計
    • Time series plots (時系列プロット): 日付/時刻列が存在する場合はトレンド分析
    • Distribution plots (分布プロット): データ分布を理解するためのヒストグラム
    • Correlation heatmap (相関ヒートマップ): 数値変数間の関係
    • Categorical analysis (カテゴリ分析): カテゴリ変数用の棒グラフ
    • Scatter plot matrix (散布図行列): 変数間のペアワイズ関係
  • インタラクティブなDash Webサーバーを起動
  • オプションで静的HTML可視化を保存

ダッシュボードにアクセス: http://127.0.0.1:8050 (または指定したポート)

Individual Use Cases

Use Case A: Quick Missing Value Assessment

ユーザーが補完なしでデータ品質を理解したい場合:

python3 scripts/analyze_missing_values.py data.csv

コンソール出力を確認して、欠損値パターンを理解し、推奨事項を得てください。

Use Case B: Imputation Only

ユーザーが欠損値を持つデータセットを持っていてクリーン済みデータが必要な場合:

python3 scripts/impute_missing_values.py data.csv

これは分析と補完を1つのステップで実行し、data_imputed.csvを生成します。

Use Case C: Visualization Only

ユーザーがクリーン済みデータセットを持っていてインタラクティブな可視化が必要な場合:

python3 scripts/create_dashboard.py clean_data.csv ./visualizations 8050

これは前処理なしでフルダッシュボードを作成します。

Use Case D: Custom Imputation Strategy

ユーザーが補完戦略をレビューして調整したい場合:

  1. まず分析を実行:

    python3 scripts/analyze_missing_values.py data.csv analysis.json
    
  2. analysis.jsonをレビューしてユーザーと戦略を議論

  3. 必要に応じて、スクリプト内の補完ロジックまたはパラメータを変更

  4. 補完を実行:

    python3 scripts/impute_missing_values.py data.csv analysis.json data_imputed.csv
    

Understanding Imputation Methods

このスキルはデータ特性に基づいたインテリジェントな補完戦略を使用します。主要な方法は以下の通りです:

  • Mean/Median (平均値/中央値): 数値データ用 (正規分布は平均値、スキュー分布は中央値)
  • Mode (最頻値): カテゴリ変数用 (最も頻度の高い値)
  • KNN (K-Nearest Neighbors): 変数が相関している多変量数値データ用
  • Forward Fill: 時系列データ用 (最後の観測値を前方に継続)
  • Interpolation (補間): スムーズな時間的トレンド用
  • Constant Value (定数値): 高基数テキストフィールド用 (例: "Unknown")
  • Drop (削除): 70%以上の欠損がある列、またはIDが欠損している行用

各方法がいつ適切かについての詳細情報は、references/imputation_methods.mdを参照してください。

Dashboard Features

インタラクティブなダッシュボードには以下が含まれます:

Summary Statistics

  • すべての数値列のcount、mean、std、min、max、四分位数
  • 欠損値のカウント数とパーセンテージ
  • ソート可能なテーブル形式

Time Series Analysis

  • 時間的トレンド用の折れ線グラフマーカー
  • 複数系列のサポート (最大4つのプライマリメトリクス)
  • 正確な値を示すホバー詳細
  • 簡単な比較のための統一ホバーモード

Distribution Analysis

  • すべての数値変数のヒストグラム
  • 粒度の高い分布ビューのための30ビンデフォルト
  • 簡単な比較のためのマルチパネルレイアウト

Correlation Analysis

  • 相関係数を示すヒートマップ
  • -1 (負) から +1 (正) へのカラーコード化
  • 正確な相関値で注釈付け
  • 関係性を特定するのに有用

Categorical Analysis

  • カテゴリ変数の棒グラフ
  • トップ10カテゴリを表示 (高基数変数の場合)
  • 度数をカウント表示

Scatter Plot Matrix

  • 数値変数のペアワイズ散布図
  • 読みやすさのために最大5つの変数に限定
  • 冗長性を避けるため下三角形を表示

Setup and Dependencies

スキルを使用する前に、依存関係がインストールされていることを確認してください:

pip install -r requirements.txt

必要なパッケージ:

  • pandas - データ操作と分析
  • numpy - 数値計算
  • scikit-learn - KNN補完
  • plotly - インタラクティブ可視化
  • dash - Webダッシュボードフレームワーク
  • dash-bootstrap-components - ダッシュボードスタイリング

Best Practices

分析の場合:

  1. 補完前に常に分析を実行してデータ品質を理解
  2. 提案された補完方法をレビュー - これらは推奨事項であり、必須ではありません
  3. 欠損値のパーセンテージに注意 (40%以上は慎重に検討が必要)
  4. データ型が期待と一致することを確認 (例: 数値IDが数値として検出される)

補完の場合:

  1. 補完前に元のデータセットを保存
  2. 補完レポートをレビューして、方法が理にかなっていることを確認
  3. 補完された値が合理的な範囲内にあることを確認
  4. 重要な変数について欠損インジケータの作成を検討
  5. 再現性のため、どの補完方法を使用したかを記録

ダッシュボードの場合:

  1. 最も正確な可視化のためにインポート/クリーン済みデータを使用
  2. 非技術的なステークホルダーと共有する場合は静的HTMLプロットを保存
  3. 複数のダッシュボードを同時に実行する場合は異なるポートを使用
  4. 大規模なデータセット (>100k行) の場合は、より高速なレンダリングのためサンプリングを検討

Handling Edge Cases

High Missing Rates (>50%)

スクリプトは自動的に50%以上の欠損値を持つ列にフラグを立てます。オプション:

  • 重要でない場合は列を削除
  • 欠損インジケータ変数を作成
  • データが欠損している理由を調査 (情報価値がある可能性)

Mixed Data Types

列に混合型が含まれている場合 (例: 数値とテキスト):

  • スクリプトはプライマリ型を検出
  • 分析前に列のクリーニングを検討
  • 混合型テキスト列に定数補完を使用

Small Datasets

データセットが50行未満の場合:

  • 単純な補完 (mean/median/mode) がより安定
  • KNN を避ける (十分な近傍を必要)
  • インポートの代わりに行の削除を検討

Time Series Gaps

不規則なタイムスタンプを持つ時系列の場合:

  • 短いギャップには forward fill を使用
  • 長いギャップでスムーズなトレンドがある場合は補間を使用
  • 方法を選択する際にサンプリング周波数を検討

Troubleshooting

"module not found" でスクリプトが失敗する

依存関係をインストール: pip install -r requirements.txt

ダッシュボードが起動しない (ポート使用中)

別のポートを指定: python3 scripts/create_dashboard.py data.csv ./viz 8051

KNN補完が遅い

KNNは大規模データセットについて計算量が多いです。50k行以上の場合は、以下を検討:

  • よりシンプルな方法を使用 (mean/median)
  • データを先にサンプリング
  • KNNで使用する列数を減らす

インポートされた値が間違っていると思われる

  • 分析レポートをレビュー - 検出されたデータ型を確認
  • 列が正しく検出されていることを確認 (数値 vs カテゴリ)
  • 手動調整または異なる補完方法を検討
  • 平均値/中央値に影響する外れ値を確認

Resources

scripts/

  • analyze_missing_values.py - 自動戦略推奨機能を備えた包括的な欠損値分析
  • impute_missing_values.py - データ特性に合わせた複数の方法を使用したインテリジェント補完
  • create_dashboard.py - 複数の可視化タイプを備えたインタラクティブなPlotly Dashダッシュボードジェネレーター

references/

  • imputation_methods.md - 欠損値補完戦略、意思決定フレームワーク、およびベストプラクティスの詳細ガイド

Other Files

  • requirements.txt - スキル用のPython依存関係

ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

詳細情報

作者
ailabs-393
リポジトリ
ailabs-393/ai-labs-claude-skills
ライセンス
MIT
最終更新
不明

Source: https://github.com/ailabs-393/ai-labs-claude-skills / ライセンス: MIT

関連スキル

OpenAIデータ・分析⭐ リポ 1,451

hugging-face-trackio

Trackioを使用してMLトレーニング実験を追跡・可視化できます。トレーニング中のメトリクスログ記録(Python API)、トレーニング診断のアラート発火、ログされたメトリクスの取得・分析(CLI)が必要な場合に活用してください。リアルタイムダッシュボード表示、Webhookを使用したアラート、HF Space同期、自動化向けのJSON出力に対応しています。

by gradio-app
汎用データ・分析⭐ リポ 855

btc-bottom-model

ビットコインのサイクルタイミングモデルで、加重スコアリングシステムを搭載しています。日次パルス(4指標、32ポイント)とウィークリー構造(9指標、68ポイント)の2カテゴリーにわたる13の指標を追跡し、0~100のマーケットヒートスコアを算出します。ETFフロー、ファンディングレート、ロング/ショート比率、恐怖・貪欲指数、LTH-MVRV、NUPL、SOPR(LTH+STH)、LTH供給率、移動平均倍率(365日MA、200週MA)、週次RSI、出来高トレンドに対応します。市場サイクル全体を通じて買いと売りの両方の推奨を提供します。ビットコインの底値拾い、BTCサイクルポジション、買い時・売り時、オンチェーン指標、MVRV、NUPL、SOPR、LTH動向、ETFの流出入、ファンディングレート、恐怖指数、ビットコインが過熱状態か、マイナーコスト、暗号資産市場のセンチメント、BTCのポジションサイジング、「今ビットコインを買うべきか」「BTCが天井をつけているか」「オンチェーン指標は何を示しているか」といった質問の際にこのスキルを活用します。

by star23
Anthropic Claudeデータ・分析⭐ リポ 380

protein_solubility_optimization

タンパク質の溶解性最適化 - タンパク質の溶解性を最適化します。タンパク質の特性を計算し、溶解性と親水性を予測し、有効な変異を提案します。タンパク質配列の特性計算、タンパク質機能の予測、親水性計算、ゼロショット配列予測を含むタンパク質エンジニアリング業務に使用できます。3つのSCPサーバーから4つのツールを統合しています。

by SpectrAI-Initiative
Anthropic Claudeデータ・分析⭐ リポ 1,743

research-lookup

Parallel Chat APIまたはPerplexity sonar-pro-searchを使用して、最新の研究情報を検索できます。学術論文の検索にも対応しています。クエリは自動的に最適なバックエンドにルーティングされるため、論文の検索、研究データの収集、科学情報の検証に活用できます。

by K-Dense-AI
Anthropic Claudeデータ・分析⭐ リポ 299

tree-formatting

ggtree(R)またはiTOL(ウェブ)を使用して、系統樹の可視化とフォーマットを行います。系統樹を図として描画する際、ツリーレイアウトの選択、分類学に基づく枝やラベルの色付け、クレードの折りたたみ、サポート値の表示、またはツリーへのオーバーレイ追加が必要な場合に使用してください。系統推定(protein-phylogenyスキルを使用)やドメイン注釈(今後の独立したスキル)には使用しないでください。

by majiayu000
汎用データ・分析⭐ リポ 145

querying-indonesian-gov-data

インドネシア政府の50以上のAPIとデータソースに接続できます。BPJPH(ハラール認証)、BOM(食品安全)、OJK(金融適正性)、BPS(統計)、BMKG(気象・地震)、インドネシア中央銀行(為替レート)、IDX(株式)、CKAN公開データポータル、pasal.id(第三者法MCP)に対応しています。インドネシア政府データを活用したアプリ開発、.go.idウェブサイトのスクレイピング、ハラール認証の確認、企業の法的適正性の検証、金融機関ステータスの照会、またはインドネシアMCPサーバーへの接続時に使用できます。CSRF処理、CKAN API使用方法、IP制限回避など、すぐに実行可能なPythonパターンを含んでいます。

by suryast
本サイトは GitHub 上で公開されているオープンソースの SKILL.md ファイルをクロール・インデックス化したものです。 各スキルの著作権は原作者に帰属します。掲載に問題がある場合は info@alsel.co.jp または /takedown フォームよりご連絡ください。
原作者: ailabs-393 · ailabs-393/ai-labs-claude-skills · ライセンス: MIT