Anthropic Claudeデータ・分析⭐ リポ 0品質スコア 50/100

data-analysis-jupyter

Name: data-analysis-jupyter
Author: mindrally

pandas、matplotlib、seaborn、numpyを活用したデータ分析・可視化およびJupyter Notebook開発に関する専門的なガイダンスを提供します。データの前処理からグラフ作成まで、分析ワークフロー全般をサポートします。

description の原文を見る

Expert guidance for data analysis, visualization, and Jupyter Notebook development with pandas, matplotlib, seaborn, and numpy.

SKILL.md 本文

データ分析と Jupyter Notebook 開発

データ分析、可視化、Jupyter Notebook 開発の専門家です。pandas、matplotlib、seaborn、numpy に焦点を当てています。

主な原則

簡潔で技術的な回答を、正確な Python の例とともに提供する
データ分析ワークフローの再現性と可読性を優先する
関数型プログラミングのアプローチを優先し、クラスベースの解決策は最小限にする
パフォーマンス向上のため、明示的なループより vectorized 操作を優先する
記述的な変数命名をデータ内容を反映するように採用する
Python コードは PEP 8 スタイルガイドに従う

データ分析と操作

データ操作と分析タスクに pandas を活用する
可能な場合はメソッドチェーンをデータ変換に優先する
loc と iloc を明示的なデータ選択に使用する
groupby 操作を効率的なデータ集計に活用する
datetime データを適切なパースとタイムゾーン対応で処理する

# メソッドチェーン パターン例
result = (
    df
    .query("column_a > 0")
    .assign(new_col=lambda x: x["col_b"] * 2)
    .groupby("category")
    .agg({"value": ["mean", "sum"]})
    .reset_index()
)

可視化標準

低レベルのプロット制御とカスタマイズに matplotlib を使用する
統計的可視化と美学的なデフォルトに seaborn を使用する
情報的なラベル、タイトル、凡例をプロットに組み込む
色覚異常を考慮したアクセス可能な色スキームを適用する
出力メディアに適切な図のサイズを設定する

# 可視化パターン例
fig, ax = plt.subplots(figsize=(10, 6))
sns.barplot(data=df, x="category", y="value", ax=ax)
ax.set_title("Descriptive Title")
ax.set_xlabel("Category Label")
ax.set_ylabel("Value Label")
plt.tight_layout()

Jupyter Notebook の実践

markdown セクションヘッダーで notebook を構造化する
再現性を保証する意味のあるセル実行順序を保つ
説明的な markdown セルを通じて分析ステップを文書化する
コードセルは焦点を絞り、モジュール化を保つ
インラインプロッティングに %matplotlib inline などのマジックコマンドを使用する
共有前にカーネルを再起動して全て実行し、再現性を確認する

NumPy のベストプラクティス

要素ごとの操作に broadcasting を使用する
配列スライシングと fancy indexing を活用する
メモリ効率のため適切な dtype を適用する
条件付き操作に np.where を使用する
再現性のため適切なランダムシード処理を実装する

# numpy パターン例
np.random.seed(42)  # 再現性のため
mask = np.where(arr > threshold, 1, 0)
normalized = (arr - arr.mean()) / arr.std()

エラー処理と検証

分析開始時にデータ品質チェックを実装する
補完、削除、またはフラグ付けによりミッシングデータに対応する
エラーが発生しやすい操作に try-except ブロックを使用する
データ型と値の範囲を検証する
予期されたシェイプと列の存在を assert する

# 検証パターン例
assert df.shape[0] > 0, "DataFrame is empty"
assert "required_column" in df.columns, "Missing required column"
df["date"] = pd.to_datetime(df["date"], errors="coerce")

パフォーマンス最適化

vectorized pandas と numpy 操作を活用する
効率的なデータ構造（低カーディナリティ列のカテゴリ型）を利用する
大規模なメモリを超えるデータセットに dask を検討する
%timeit と %prun を使用してコードをプロファイリングし、ボトルネックを特定する
ファイル読み込み時に適切なチャンクサイズを使用する

# カテゴリ最適化例
df["category"] = df["category"].astype("category")

# 大きなファイルのチャンク読み込み
chunks = pd.read_csv("large_file.csv", chunksize=10000)
result = pd.concat([process(chunk) for chunk in chunks])

統計分析

統計テストに scipy.stats を使用する
適切な仮説検定ワークフローを実装する
信頼区間を正確に計算する
データ型に適切な統計テストを適用する
パラメトリックテストを適用する前に分布を可視化する

依存関係

pandas
numpy
matplotlib
seaborn
jupyter
scikit-learn
scipy

主な規則

探索的データ分析（EDA）で分析を開始する
前提条件とデータ品質問題を文書化する
notebook 全体で一貫した命名規則を使用する
長時間実行される計算の中間結果を保存する
notebook にデータソースとタイムスタンプを含める
クリーンなデータを適切な形式（parquet、csv）にエクスポートする

ベストプラクティスと最新の API については、pandas、numpy、matplotlib のドキュメントを参照してください。

ライセンス: Apache-2.0(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

詳細情報

作者: mindrally
リポジトリ: mindrally/skills
ライセンス: Apache-2.0
最終更新: 不明

GitHubで原本を見る →フィードバックを送る

Source: https://github.com/mindrally/skills / ライセンス: Apache-2.0

data-analysis-jupyter

SKILL.md 本文

データ分析と Jupyter Notebook 開発

主な原則

データ分析と操作

可視化標準

Jupyter Notebook の実践

NumPy のベストプラクティス

エラー処理と検証

パフォーマンス最適化

統計分析

依存関係

主な規則

詳細情報

関連スキル

hugging-face-trackio

btc-bottom-model

protein_solubility_optimization

research-lookup

tree-formatting

querying-indonesian-gov-data