data-analyst
pandas、numpy、matplotlib、seaborn、およびJupyter notebookを活用したデータ分析のベストプラクティスを提供するスキルです。データの前処理から可視化まで、分析作業全般をサポートします。
description の原文を見る
Data analysis best practices with pandas, numpy, matplotlib, seaborn, and Jupyter notebooks.
SKILL.md 本文
Data Analyst
pandas、numpy、および可視化ライブラリを使用したデータ分析の専門家です。
Core Principles
- 再現可能な分析ワークフローを作成する
- データ品質と検証を優先する
- 明確で情報量の多い可視化を作成する
- 分析の決定を徹底的に文書化する
Data Manipulation
Pandas Best Practices
- メソッドチェーンを使用して可読性を向上させる
- ループではなくベクトル化操作を優先する
- 明示的な選択には
locとilocを使用する - 集約には groupby を活用する
- 欠損データを適切に処理する
NumPy Operations
- 効率性のためブロードキャスティングを使用する
- ベクトル化関数を適用する
- 配列の形状を慎重に処理する
- 適切なデータ型を使用する
Data Validation
- 分析開始時にデータ品質をチェックする
- データ型と範囲を検証する
- 欠損値を明示的に処理する
- データの仮定を文書化する
- 妥当性チェックを実装する
Visualization
Matplotlib
- 低レベルのプロット制御に使用する
- 軸とラベルを適切にカスタマイズする
- 適切な形式で図を保存する
- 関連するプロットには subplots を使用する
Seaborn
- 統計的な可視化に適用する
- データに適したプロットタイプを使用する
- 組み込みテーマを活用する
- カラーパレットをカスタマイズする
Accessibility
- パレットに色覚異常を考慮する
- 明確なラベルと凡例を使用する
- 代替テキストの説明を提供する
- 十分なコントラストを確保する
Jupyter Best Practices
- 明確なセクションでノートブックを構成する
- ドキュメントには markdown を使用する
- セルを焦点を絞り、モジュール化したものにする
- 再現可能な実行順序を確保する
- コミット前に出力をクリアする
Performance
- 遅い操作をプロファイルする
- 文字列には categorical dtypes を使用する
- 大規模データではチャンク処理を検討する
- 中間結果をキャッシュする
- 適切なデータ形式(parquet など)を使用する
Reporting
- 明確なエグゼクティブサマリーを作成する
- 方法論の文書化を含める
- 再現可能なコードを提供する
- アクセス可能な形式で結果をエクスポートする
ライセンス: Apache-2.0(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- mindrally
- リポジトリ
- mindrally/skills
- ライセンス
- Apache-2.0
- 最終更新
- 不明
Source: https://github.com/mindrally/skills / ライセンス: Apache-2.0
関連スキル
hugging-face-trackio
Trackioを使用してMLトレーニング実験を追跡・可視化できます。トレーニング中のメトリクスログ記録(Python API)、トレーニング診断のアラート発火、ログされたメトリクスの取得・分析(CLI)が必要な場合に活用してください。リアルタイムダッシュボード表示、Webhookを使用したアラート、HF Space同期、自動化向けのJSON出力に対応しています。
btc-bottom-model
ビットコインのサイクルタイミングモデルで、加重スコアリングシステムを搭載しています。日次パルス(4指標、32ポイント)とウィークリー構造(9指標、68ポイント)の2カテゴリーにわたる13の指標を追跡し、0~100のマーケットヒートスコアを算出します。ETFフロー、ファンディングレート、ロング/ショート比率、恐怖・貪欲指数、LTH-MVRV、NUPL、SOPR(LTH+STH)、LTH供給率、移動平均倍率(365日MA、200週MA)、週次RSI、出来高トレンドに対応します。市場サイクル全体を通じて買いと売りの両方の推奨を提供します。ビットコインの底値拾い、BTCサイクルポジション、買い時・売り時、オンチェーン指標、MVRV、NUPL、SOPR、LTH動向、ETFの流出入、ファンディングレート、恐怖指数、ビットコインが過熱状態か、マイナーコスト、暗号資産市場のセンチメント、BTCのポジションサイジング、「今ビットコインを買うべきか」「BTCが天井をつけているか」「オンチェーン指標は何を示しているか」といった質問の際にこのスキルを活用します。
protein_solubility_optimization
タンパク質の溶解性最適化 - タンパク質の溶解性を最適化します。タンパク質の特性を計算し、溶解性と親水性を予測し、有効な変異を提案します。タンパク質配列の特性計算、タンパク質機能の予測、親水性計算、ゼロショット配列予測を含むタンパク質エンジニアリング業務に使用できます。3つのSCPサーバーから4つのツールを統合しています。
research-lookup
Parallel Chat APIまたはPerplexity sonar-pro-searchを使用して、最新の研究情報を検索できます。学術論文の検索にも対応しています。クエリは自動的に最適なバックエンドにルーティングされるため、論文の検索、研究データの収集、科学情報の検証に活用できます。
tree-formatting
ggtree(R)またはiTOL(ウェブ)を使用して、系統樹の可視化とフォーマットを行います。系統樹を図として描画する際、ツリーレイアウトの選択、分類学に基づく枝やラベルの色付け、クレードの折りたたみ、サポート値の表示、またはツリーへのオーバーレイ追加が必要な場合に使用してください。系統推定(protein-phylogenyスキルを使用)やドメイン注釈(今後の独立したスキル)には使用しないでください。
querying-indonesian-gov-data
インドネシア政府の50以上のAPIとデータソースに接続できます。BPJPH(ハラール認証)、BOM(食品安全)、OJK(金融適正性)、BPS(統計)、BMKG(気象・地震)、インドネシア中央銀行(為替レート)、IDX(株式)、CKAN公開データポータル、pasal.id(第三者法MCP)に対応しています。インドネシア政府データを活用したアプリ開発、.go.idウェブサイトのスクレイピング、ハラール認証の確認、企業の法的適正性の検証、金融機関ステータスの照会、またはインドネシアMCPサーバーへの接続時に使用できます。CSRF処理、CKAN API使用方法、IP制限回避など、すぐに実行可能なPythonパターンを含んでいます。