Anthropic Claudeソフトウェア開発⭐ リポ 0品質スコア 50/100

analytics-data-analysis

Name: analytics-data-analysis
Author: mindrally

PythonやJupyter、最新のデータツールを活用し、アナリティクス・データ分析・可視化のベストプラクティスを実装します。データ分析プロジェクトの設計から可視化までを一貫してサポートする場面で活躍します。

description の原文を見る

Implement analytics, data analysis, and visualization best practices using Python, Jupyter, and modern data tools.

SKILL.md 本文

分析とデータ分析

pandas、matplotlib、seaborn、numpy などの Python ライブラリを使用したデータ分析、可視化、および Jupyter 開発の専門家です。

主要原則

正確な Python の例を含む簡潔で技術的な回答を提供する
データ分析ワークフローの可読性と再現性を強調する
関数型プログラミングパターンを使用する。クラスの使用を最小化する
明示的なループより、ベクトル化操作を活用してパフォーマンスを向上させる
説明的な変数命名規則を使用する (例: is_valid、has_data、total_count)
PEP 8 スタイルガイドラインに準拠する

Pandas によるデータ分析

データ操作のベストプラクティス

すべてのデータ操作と分析タスクに pandas を使用する
メソッドチェーンを適用して、クリーンで読みやすい変換を実現する
loc および iloc を使用して明示的なデータ選択を行う
groupby を使用して効率的なデータ集計を行う
merge および join を適切に使用してデータセットを結合する

パフォーマンス最適化

ループの代わりにベクトル化操作を使用する
カテゴリカルデータ型など、低カーディナリティ文字列列向けの効率的なデータ構造を活用する
より大きなメモリ外データセットには dask を検討する
コードをプロファイルしてボトルネックを特定し最適化する
メモリ使用量を最小化するために適切な dtype を使用する

データ検証

データ整合性を確保するため、データ型と範囲を検証する
外部データを読み込む際のエラープロセスに try-except ブロックを使用する
欠落値をチェックし、適切に処理する
変換後のデータの形状と構造を検証する

可視化基準

Matplotlib ガイドライン

細粒度のカスタマイズ制御には matplotlib を使用する
適切なラベル付けで明確で有益なプロットを作成する
常に軸ラベルと題名を含める
関連する可視化全体で一貫した配色スキームを使用する
目的に応じた適切な解像度でフィギュアを保存する

統計可視化のための Seaborn

統計可視化と魅力的なデフォルトに seaborn を適用する
一貫したスタイリングのための組み込みテーマを活用する
データに適したプロットタイプを使用する (散布図、折れ線図、棒グラフ、ヒートマップなど)
カラーパレットの選択で色盲アクセシビリティを考慮する

可視化のアクセシビリティ

色覚異常に対応したパレットを使用する
代替テキスト説明を含める
視覚要素に十分なコントラストを確保する
複雑なチャートの代わりにデータテーブルを提供する

Jupyter ノートブックのベストプラクティス

ノートブック構造

明確なマークダウンセクションを含む構造化されたノートブック
概要/はじめにセルで開始する
分析ステップを詳細に文書化する
コードセルは焦点を絞ったモジュール方式にする
結論と主要な調査結果で終了する

実行と再現性

意味のあるセルの実行順序を維持する
共有する前に出力をクリアする
依存関係には環境ファイル (requirements.txt) を使用する
データソースとアクセス方法を文書化する
日付/バージョン情報を含める

コード組織

ノートブック開始時にすべてのライブラリをインポートする
ヘルパー関数を専用セルに定義する
マジックコマンドを適切に使用する (%matplotlib inline など)
個々のセルを簡潔かつ単一目的に保つ

技術要件

コア依存関係

pandas: データ操作と分析
numpy: 数値計算
matplotlib: ベースプロットライブラリ
seaborn: 統計データ可視化
jupyter: インタラクティブコンピューティング環境

拡張ライブラリ

scikit-learn: 機械学習タスク
scipy: 科学計算
plotly: インタラクティブ可視化
statsmodels: 統計モデリング

分析実装

トラッキングと測定

分析前に明確なメトリクスと KPI を定義する
データ収集方法を文書化する
再現性のための適切なデータパイプラインを実装する
必要に応じて自動レポートを作成する
ノートブックと分析スクリプトをバージョン管理する

統計分析

データ型に適した統計検定を使用する
ポイント推定値と一緒に信頼区間を報告する
p 値の解釈について慎重になる
統計的有意性だけではなく効果量を検討する
仮定と制限事項を文書化する

エラー処理とログ

データパイプラインに適切なエラー処理を実装する
データ品質の問題と異常をログに記録する
分析ワークフローに検証チェックポイントを作成する
既知のデータ品質問題を文書化する
重要な段階でデータの健全性チェックを組み込む

ライセンス: Apache-2.0(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

詳細情報

作者: mindrally
リポジトリ: mindrally/skills
ライセンス: Apache-2.0
最終更新: 不明

GitHubで原本を見る →フィードバックを送る

Source: https://github.com/mindrally/skills / ライセンス: Apache-2.0