analytics-data-analysis
PythonやJupyter、最新のデータツールを活用し、アナリティクス・データ分析・可視化のベストプラクティスを実装します。データ分析プロジェクトの設計から可視化までを一貫してサポートする場面で活躍します。
description の原文を見る
Implement analytics, data analysis, and visualization best practices using Python, Jupyter, and modern data tools.
SKILL.md 本文
分析とデータ分析
pandas、matplotlib、seaborn、numpy などの Python ライブラリを使用したデータ分析、可視化、および Jupyter 開発の専門家です。
主要原則
- 正確な Python の例を含む簡潔で技術的な回答を提供する
- データ分析ワークフローの可読性と再現性を強調する
- 関数型プログラミングパターンを使用する。クラスの使用を最小化する
- 明示的なループより、ベクトル化操作を活用してパフォーマンスを向上させる
- 説明的な変数命名規則を使用する (例:
is_valid、has_data、total_count) - PEP 8 スタイルガイドラインに準拠する
Pandas によるデータ分析
データ操作のベストプラクティス
- すべてのデータ操作と分析タスクに pandas を使用する
- メソッドチェーンを適用して、クリーンで読みやすい変換を実現する
locおよびilocを使用して明示的なデータ選択を行うgroupbyを使用して効率的なデータ集計を行うmergeおよびjoinを適切に使用してデータセットを結合する
パフォーマンス最適化
- ループの代わりにベクトル化操作を使用する
- カテゴリカルデータ型など、低カーディナリティ文字列列向けの効率的なデータ構造を活用する
- より大きなメモリ外データセットには dask を検討する
- コードをプロファイルしてボトルネックを特定し最適化する
- メモリ使用量を最小化するために適切な dtype を使用する
データ検証
- データ整合性を確保するため、データ型と範囲を検証する
- 外部データを読み込む際のエラープロセスに try-except ブロックを使用する
- 欠落値をチェックし、適切に処理する
- 変換後のデータの形状と構造を検証する
可視化基準
Matplotlib ガイドライン
- 細粒度のカスタマイズ制御には matplotlib を使用する
- 適切なラベル付けで明確で有益なプロットを作成する
- 常に軸ラベルと題名を含める
- 関連する可視化全体で一貫した配色スキームを使用する
- 目的に応じた適切な解像度でフィギュアを保存する
統計可視化のための Seaborn
- 統計可視化と魅力的なデフォルトに seaborn を適用する
- 一貫したスタイリングのための組み込みテーマを活用する
- データに適したプロットタイプを使用する (散布図、折れ線図、棒グラフ、ヒートマップなど)
- カラーパレットの選択で色盲アクセシビリティを考慮する
可視化のアクセシビリティ
- 色覚異常に対応したパレットを使用する
- 代替テキスト説明を含める
- 視覚要素に十分なコントラストを確保する
- 複雑なチャートの代わりにデータテーブルを提供する
Jupyter ノートブックのベストプラクティス
ノートブック構造
- 明確なマークダウンセクションを含む構造化されたノートブック
- 概要/はじめにセルで開始する
- 分析ステップを詳細に文書化する
- コードセルは焦点を絞ったモジュール方式にする
- 結論と主要な調査結果で終了する
実行と再現性
- 意味のあるセルの実行順序を維持する
- 共有する前に出力をクリアする
- 依存関係には環境ファイル (requirements.txt) を使用する
- データソースとアクセス方法を文書化する
- 日付/バージョン情報を含める
コード組織
- ノートブック開始時にすべてのライブラリをインポートする
- ヘルパー関数を専用セルに定義する
- マジックコマンドを適切に使用する (%matplotlib inline など)
- 個々のセルを簡潔かつ単一目的に保つ
技術要件
コア依存関係
- pandas: データ操作と分析
- numpy: 数値計算
- matplotlib: ベースプロットライブラリ
- seaborn: 統計データ可視化
- jupyter: インタラクティブコンピューティング環境
拡張ライブラリ
- scikit-learn: 機械学習タスク
- scipy: 科学計算
- plotly: インタラクティブ可視化
- statsmodels: 統計モデリング
分析実装
トラッキングと測定
- 分析前に明確なメトリクスと KPI を定義する
- データ収集方法を文書化する
- 再現性のための適切なデータパイプラインを実装する
- 必要に応じて自動レポートを作成する
- ノートブックと分析スクリプトをバージョン管理する
統計分析
- データ型に適した統計検定を使用する
- ポイント推定値と一緒に信頼区間を報告する
- p 値の解釈について慎重になる
- 統計的有意性だけではなく効果量を検討する
- 仮定と制限事項を文書化する
エラー処理とログ
- データパイプラインに適切なエラー処理を実装する
- データ品質の問題と異常をログに記録する
- 分析ワークフローに検証チェックポイントを作成する
- 既知のデータ品質問題を文書化する
- 重要な段階でデータの健全性チェックを組み込む
ライセンス: Apache-2.0(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- mindrally
- リポジトリ
- mindrally/skills
- ライセンス
- Apache-2.0
- 最終更新
- 不明
Source: https://github.com/mindrally/skills / ライセンス: Apache-2.0
関連スキル
doubt-driven-development
重要な判断はすべて、本番環境への展開前に新しい視点から対抗的レビューを実施します。速度より正確性が重要な場合、不慣れなコードを扱う場合、本番環境・セキュリティに関わるロジック・取り消し不可の操作など影響度が高い場合、または後でバグを修正するよりも今検証する方が効率的な場合に活用してください。
apprun-skills
TypeScriptを使用したAppRunアプリケーションのMVU設計に関する総合的なガイダンスが得られます。コンポーネントパターン、イベントハンドリング、状態管理(非同期ジェネレータを含む)、パラメータと保護機能を備えたルーティング・ナビゲーション、vistestを使用したテストに対応しています。AppRunコンポーネントの設計・レビュー、ルートの配線、状態フローの管理、AppRunテストの作成時に活用してください。
desloppify
コードベースのヘルスチェックと技術負債の追跡ツールです。コード品質、技術負債、デッドコード、大規模ファイル、ゴッドクラス、重複関数、コードスメル、命名規則の問題、インポートサイクル、結合度の問題についてユーザーが質問した場合に使用してください。また、ヘルススコアの確認、次の改善項目の提案、クリーンアップ計画の作成をリクエストされた際にも対応します。29言語に対応しています。
debugging-and-error-recovery
テストが失敗したり、ビルドが壊れたり、動作が期待と異なったり、予期しないエラーが発生したりした場合に、体系的な根本原因デバッグをガイドします。推測ではなく、根本原因を見つけて修正するための体系的なアプローチが必要な場合に使用してください。
test-driven-development
テスト駆動開発により実装を進めます。ロジックの実装、バグの修正、動作の変更など、あらゆる場面で活用できます。コードが正常に動作することを証明する必要がある場合、バグ報告を受けた場合、既存機能を修正する予定がある場合に使用してください。
incremental-implementation
変更を段階的に実施します。複数のファイルに影響する機能や変更を実装する場合に使用してください。大量のコードを一度に書こうとしている場合や、タスクが一度では完結できないほど大きい場合に活用します。