Agent Skills by ALSEL
Anthropic Claudeデータ・分析⭐ リポ 0品質スコア 50/100

datanalysis-credit-risk

融資前モデリングに向けた信用リスクデータのクレンジングおよび変数スクリーニングパイプラインです。生の信用データに対して品質評価・欠損値分析・変数選択が必要な場合に使用し、データ読み込みとフォーマット整形、異常期間のフィルタリング、欠損率の算出、高欠損変数の除去、低IV変数のフィルタリング、高PSI変数の除去、Null Importanceによるノイズ除去、高相関変数の除去、およびクレンジングレポートの生成までを一貫してカバーします。信用リスクデータの前処理や融資前モデリングの準備に幅広く活用できます。

description の原文を見る

Credit risk data cleaning and variable screening pipeline for pre-loan modeling. Use when working with raw credit data that needs quality assessment, missing value analysis, or variable selection before modeling. it covers data loading and formatting, abnormal period filtering, missing rate calculation, high-missing variable removal,low-IV variable filtering, high-PSI variable removal, Null Importance denoising, high-correlation variable removal, and cleaning report generation. Applicable scenarios arecredit risk data cleaning, variable screening, pre-loan modeling preprocessing.

SKILL.md 本文

データクリーニングと変数スクリーニング

クイックスタート

# Run the complete data cleaning pipeline
python ".github/skills/datanalysis-credit-risk/scripts/example.py"

完全なプロセス説明

データクリーニングパイプラインは以下の11ステップで構成され、各ステップは独立して実行され、元のデータは削除されません:

  1. データ取得 - 生データの読み込みとフォーマット
  2. 組織別サンプル分析 - 各組織のサンプル数と悪質サンプル比率の統計
  3. OOSデータの分離 - サンプル外(OOS)サンプルをモデリングサンプルから分離
  4. 異常月のフィルタリング - 悪質サンプル数またはサンプル総数が不足している月を削除
  5. 欠損率の計算 - 各特徴量の全体レベルおよび組織レベルの欠損率を計算
  6. 高欠損率特徴量の削除 - 全体欠損率が閾値を超える特徴量を削除
  7. 低IV特徴量の削除 - IV全体が低いまたは多くの組織でIVが低い特徴量を削除
  8. 高PSI特徴量の削除 - 不安定なPSIを持つ特徴量を削除
  9. Null Importance デノイジング - ラベル置換法を使用してノイズ特徴量を削除
  10. 高相関特徴量の削除 - 元のゲインに基づいて高相関特徴量を削除
  11. レポート出力 - 全ステップの詳細と統計を含むExcelレポートを生成

コア関数

関数目的モジュール
get_dataset()データの読み込みとフォーマットreferences.func
org_analysis()組織別サンプル分析references.func
missing_check()欠損率の計算references.func
drop_abnormal_ym()異常月のフィルタリングreferences.analysis
drop_highmiss_features()高欠損率特徴量の削除references.analysis
drop_lowiv_features()低IV特徴量の削除references.analysis
drop_highpsi_features()高PSI特徴量の削除references.analysis
drop_highnoise_features()Null Importance デノイジングreferences.analysis
drop_highcorr_features()高相関特徴量の削除references.analysis
iv_distribution_by_org()IV分布統計references.analysis
psi_distribution_by_org()PSI分布統計references.analysis
value_ratio_distribution_by_org()値比分布統計references.analysis
export_cleaning_report()クリーニングレポート出力references.analysis

パラメータ説明

データ読み込みパラメータ

  • DATA_PATH: データファイルパス(parquet形式が最適)
  • DATE_COL: 日付列名
  • Y_COL: ラベル列名
  • ORG_COL: 組織列名
  • KEY_COLS: 主キー列名リスト

OOS組織設定

  • OOS_ORGS: サンプル外組織リスト

異常月フィルタリングパラメータ

  • min_ym_bad_sample: 月単位の最小悪質サンプル数(デフォルト 10)
  • min_ym_sample: 月単位の最小サンプル数(デフォルト 500)

欠損率パラメータ

  • missing_ratio: 全体欠損率閾値(デフォルト 0.6)

IVパラメータ

  • overall_iv_threshold: 全体IV閾値(デフォルト 0.1)
  • org_iv_threshold: 単一組織IV閾値(デフォルト 0.1)
  • max_org_threshold: 許容される低IV組織数の最大値(デフォルト 2)

PSIパラメータ

  • psi_threshold: PSI閾値(デフォルト 0.1)
  • max_months_ratio: 不安定月比の最大値(デフォルト 1/3)
  • max_orgs: 不安定組織数の最大値(デフォルト 6)

Null Importanceパラメータ

  • n_estimators: ツリー数(デフォルト 100)
  • max_depth: ツリーの最大深さ(デフォルト 5)
  • gain_threshold: ゲイン差分閾値(デフォルト 50)

高相関パラメータ

  • max_corr: 相関閾値(デフォルト 0.9)
  • top_n_keep: 元のゲインランキングで上位N個の特徴量を保持(デフォルト 20)

出力レポート

生成されるExcelレポートには以下のシートが含まれます:

  1. 汇总 - 全ステップの要約情報(操作結果と条件を含む)
  2. 机构样本统计 - 各組織のサンプル数と悪質サンプル比率
  3. 分离OOS数据 - OOSサンプルとモデリングサンプルの数
  4. Step4-异常月份处理 - 削除された異常月
  5. 缺失率明细 - 各特徴量の全体および組織レベルの欠損率
  6. Step5-有值率分布统计 - 異なる値比範囲における特徴量の分布
  7. Step6-高缺失率处理 - 削除された高欠損率特徴量
  8. Step7-IV明细 - 各組織および全体における各特徴量のIV値
  9. Step7-IV处理 - IV条件を満たさない特徴量と低IV組織
  10. Step7-IV分布统计 - 異なるIV範囲における特徴量の分布
  11. Step8-PSI明细 - 各特徴量の各組織の各月におけるPSI値
  12. Step8-PSI处理 - PSI条件を満たさない特徴量と不安定組織
  13. Step8-PSI分布统计 - 異なるPSI範囲における特徴量の分布
  14. Step9-null importance处理 - 削除されたノイズ特徴量
  15. Step10-高相关性剔除 - 削除された高相関特徴量

特徴

  • インタラクティブな入力: 各ステップ実行前にパラメータを入力でき、デフォルト値をサポート
  • 独立実行: 各ステップは独立して実行され、元のデータは削除されないため、比較分析が容易
  • 完全なレポート: 詳細、統計、分布を含む完全なExcelレポートを生成
  • マルチプロセス対応: IVおよびPSI計算はマルチプロセス加速に対応
  • 組織レベル分析: 組織レベルの統計およびモデリング/OOS区別をサポート

ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

詳細情報

作者
github
リポジトリ
github/awesome-copilot
ライセンス
MIT
最終更新
不明

Source: https://github.com/github/awesome-copilot / ライセンス: MIT

関連スキル

OpenAIデータ・分析⭐ リポ 1,451

hugging-face-trackio

Trackioを使用してMLトレーニング実験を追跡・可視化できます。トレーニング中のメトリクスログ記録(Python API)、トレーニング診断のアラート発火、ログされたメトリクスの取得・分析(CLI)が必要な場合に活用してください。リアルタイムダッシュボード表示、Webhookを使用したアラート、HF Space同期、自動化向けのJSON出力に対応しています。

by gradio-app
汎用データ・分析⭐ リポ 855

btc-bottom-model

ビットコインのサイクルタイミングモデルで、加重スコアリングシステムを搭載しています。日次パルス(4指標、32ポイント)とウィークリー構造(9指標、68ポイント)の2カテゴリーにわたる13の指標を追跡し、0~100のマーケットヒートスコアを算出します。ETFフロー、ファンディングレート、ロング/ショート比率、恐怖・貪欲指数、LTH-MVRV、NUPL、SOPR(LTH+STH)、LTH供給率、移動平均倍率(365日MA、200週MA)、週次RSI、出来高トレンドに対応します。市場サイクル全体を通じて買いと売りの両方の推奨を提供します。ビットコインの底値拾い、BTCサイクルポジション、買い時・売り時、オンチェーン指標、MVRV、NUPL、SOPR、LTH動向、ETFの流出入、ファンディングレート、恐怖指数、ビットコインが過熱状態か、マイナーコスト、暗号資産市場のセンチメント、BTCのポジションサイジング、「今ビットコインを買うべきか」「BTCが天井をつけているか」「オンチェーン指標は何を示しているか」といった質問の際にこのスキルを活用します。

by star23
Anthropic Claudeデータ・分析⭐ リポ 380

protein_solubility_optimization

タンパク質の溶解性最適化 - タンパク質の溶解性を最適化します。タンパク質の特性を計算し、溶解性と親水性を予測し、有効な変異を提案します。タンパク質配列の特性計算、タンパク質機能の予測、親水性計算、ゼロショット配列予測を含むタンパク質エンジニアリング業務に使用できます。3つのSCPサーバーから4つのツールを統合しています。

by SpectrAI-Initiative
Anthropic Claudeデータ・分析⭐ リポ 1,743

research-lookup

Parallel Chat APIまたはPerplexity sonar-pro-searchを使用して、最新の研究情報を検索できます。学術論文の検索にも対応しています。クエリは自動的に最適なバックエンドにルーティングされるため、論文の検索、研究データの収集、科学情報の検証に活用できます。

by K-Dense-AI
Anthropic Claudeデータ・分析⭐ リポ 299

tree-formatting

ggtree(R)またはiTOL(ウェブ)を使用して、系統樹の可視化とフォーマットを行います。系統樹を図として描画する際、ツリーレイアウトの選択、分類学に基づく枝やラベルの色付け、クレードの折りたたみ、サポート値の表示、またはツリーへのオーバーレイ追加が必要な場合に使用してください。系統推定(protein-phylogenyスキルを使用)やドメイン注釈(今後の独立したスキル)には使用しないでください。

by majiayu000
汎用データ・分析⭐ リポ 145

querying-indonesian-gov-data

インドネシア政府の50以上のAPIとデータソースに接続できます。BPJPH(ハラール認証)、BOM(食品安全)、OJK(金融適正性)、BPS(統計)、BMKG(気象・地震)、インドネシア中央銀行(為替レート)、IDX(株式)、CKAN公開データポータル、pasal.id(第三者法MCP)に対応しています。インドネシア政府データを活用したアプリ開発、.go.idウェブサイトのスクレイピング、ハラール認証の確認、企業の法的適正性の検証、金融機関ステータスの照会、またはインドネシアMCPサーバーへの接続時に使用できます。CSRF処理、CKAN API使用方法、IP制限回避など、すぐに実行可能なPythonパターンを含んでいます。

by suryast
本サイトは GitHub 上で公開されているオープンソースの SKILL.md ファイルをクロール・インデックス化したものです。 各スキルの著作権は原作者に帰属します。掲載に問題がある場合は info@alsel.co.jp または /takedown フォームよりご連絡ください。
原作者: github · github/awesome-copilot · ライセンス: MIT