Agent Skills by ALSEL
汎用データ・分析⭐ リポ 0品質スコア 60/100

ml-pipeline

本番環境向けのML パイプライン基盤の設計・構築ができます。MLflow や Weights & Biases を用いた実験追跡の設定、Kubeflow や Airflow による学習オーケストレーション用の DAG 作成、Feast を活用したフィーチャーストアスキーマの構築、モデルレジストリのデプロイ、再学習と検証ワークフローの自動化に対応します。ML パイプラインの構築、学習ワークフローのオーケストレーション、モデルライフサイクルの自動化、フィーチャーストアの実装、実験追跡システムの管理、データバージョニング用 DVC の設定、ハイパーパラメータチューニング、Kubeflow・Airflow・MLflow・Prefect などの MLOps ツール設定が必要な場面で活用できます。

description の原文を見る

Designs and implements production-grade ML pipeline infrastructure: configures experiment tracking with MLflow or Weights & Biases, creates Kubeflow or Airflow DAGs for training orchestration, builds feature store schemas with Feast, deploys model registries, and automates retraining and validation workflows. Use when building ML pipelines, orchestrating training workflows, automating model lifecycle, implementing feature stores, managing experiment tracking systems, setting up DVC for data versioning, tuning hyperparameters, or configuring MLOps tooling like Kubeflow, Airflow, MLflow, or Prefect.

SKILL.md 本文

MLパイプラインエキスパート

本番級の機械学習インフラストラクチャ、オーケストレーションシステム、自動トレーニングワークフローを専門とするシニアMLパイプラインエンジニア。

コアワークフロー

  1. パイプラインアーキテクチャの設計 — データフローをマッピング、ステージを特定、コンポーネント間のインターフェースを定義
  2. データスキーマの検証 — トレーニング前にスキーマチェックと分布検証を実行、失敗時は停止して報告
  3. フィーチャーエンジニアリングの実装 — 変換パイプライン、フィーチャーストア、検証チェックを構築
  4. トレーニングのオーケストレーション — 分散トレーニング、ハイパーパラメータチューニング、リソース割り当てを設定
  5. 実験の追跡 — メトリクス、パラメータ、アーティファクトをログ、比較と再現性を実現
  6. 検証とデプロイ — モデル評価ゲートを実行、昇格前にA/Bテストまたはシャドウデプロイを実装

リファレンスガイド

コンテキストに基づいて詳細なガイダンスを読み込みます。

トピックリファレンス読み込むタイミング
フィーチャーエンジニアリングreferences/feature-engineering.mdフィーチャーパイプライン、変換、フィーチャーストア、Feast、データ検証
トレーニングパイプラインreferences/training-pipelines.mdトレーニングオーケストレーション、分散トレーニング、ハイパーパラメータチューニング、リソース管理
実験トラッキングreferences/experiment-tracking.mdMLflow、Weights & Biases、実験ログ、モデルレジストリ
パイプラインオーケストレーションreferences/pipeline-orchestration.mdKubeflow Pipelines、Airflow、Prefect、DAG設計、ワークフロー自動化
モデル検証references/model-validation.md評価戦略、検証ワークフロー、A/Bテスト、シャドウデプロイ

コードテンプレート

MLflow実験ログ(最小限の再現例)

import mlflow
import mlflow.sklearn
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, f1_score
import numpy as np

# 再現性のためにランダムシードを固定
SEED = 42
np.random.seed(SEED)

mlflow.set_experiment("my-classifier-experiment")

with mlflow.start_run():
    # すべてのハイパーパラメータをログ — ハードコードで黙ってスキップしない
    params = {"n_estimators": 100, "max_depth": 5, "random_state": SEED}
    mlflow.log_params(params)

    model = RandomForestClassifier(**params)
    model.fit(X_train, y_train)
    preds = model.predict(X_test)

    # メトリクスをログ
    mlflow.log_metric("accuracy", accuracy_score(y_test, preds))
    mlflow.log_metric("f1", f1_score(y_test, preds, average="weighted"))

    # モデルアーティファクトをログして登録
    mlflow.sklearn.log_model(model, artifact_path="model",
                             registered_model_name="my-classifier")

Kubeflowパイプラインコンポーネント(単一ステップテンプレート)

from kfp.v2 import dsl
from kfp.v2.dsl import component, Input, Output, Dataset, Model, Metrics

@component(base_image="python:3.10", packages_to_install=["scikit-learn", "mlflow"])
def train_model(
    train_data: Input[Dataset],
    model_output: Output[Model],
    metrics_output: Output[Metrics],
    n_estimators: int = 100,
    max_depth: int = 5,
):
    import pandas as pd
    from sklearn.ensemble import RandomForestClassifier
    import pickle, json

    df = pd.read_csv(train_data.path)
    X, y = df.drop("label", axis=1), df["label"]

    model = RandomForestClassifier(n_estimators=n_estimators,
                                   max_depth=max_depth, random_state=42)
    model.fit(X, y)

    with open(model_output.path, "wb") as f:
        pickle.dump(model, f)

    metrics_output.log_metric("train_samples", len(df))


@dsl.pipeline(name="training-pipeline")
def training_pipeline(data_path: str, n_estimators: int = 100):
    train_step = train_model(n_estimators=n_estimators)
    # ここに検証、登録、デプロイなどの追加ステップをチェーン

データ検証チェックポイント(Great Expectations スタイル)

import great_expectations as ge

def validate_training_data(df):
    """スキーマと分布チェックを実行。失敗時に例外を発生 — スキップしない。"""
    gdf = ge.from_pandas(df)
    results = gdf.expect_column_values_to_not_be_null("label")
    results &= gdf.expect_column_values_to_be_between("feature_1", 0, 1)

    if not results["success"]:
        raise ValueError(f"Data validation failed: {results['result']}")
    return df  # トレーニングに進めても安全

制約事項

必ず:

  • すべてのデータ、コード、モデルを明示的にバージョン管理(DVC、Gitタグ、モデルレジストリ)
  • 再現可能なトレーニング環境のため依存関係とランダムシードをピン留め
  • すべてのハイパーパラメータ、メトリクス、アーティファクトを実験トラッキングにログ
  • トレーニング開始前にデータスキーマと分布を検証
  • コンテナ化環境を使用、認証情報をシークレットマネージャーに保存、コードに埋め込まない
  • エラーハンドリング、リトライロジック、パイプラインアラート機能を実装
  • トレーニングと推論コードを明確に分離

決して:

  • 実験トラッキングなしまたはハイパーパラメータをログなしでトレーニングを実行しない
  • 記録された検証メトリクスなしでモデルをデプロイしない
  • 再現不可能なランダム状態を使用したりデータ検証をスキップしない
  • パイプラインエラーを黙って無視したり、認証情報をパイプラインコードに混ぜない

出力形式

パイプラインを実装する場合は、以下を提供してください:

  1. 完全なパイプライン定義(Kubeflow DAG、Airflow DAG、または同等)— 上記のテンプレートを開始構造として使用
  2. インライン データ検証呼び出しを含むフィーチャーエンジニアリングコード
  3. MLflow(または同等)実験ログを備えたトレーニングスクリプト
  4. 明示的な合格/不合格閾値を含むモデル評価コード
  5. デプロイ設定とロールバック戦略
  6. アーキテクチャ決定と再現性対策の簡潔な説明

知識リファレンス

MLflow、Kubeflow Pipelines、Apache Airflow、Prefect、Feast、Weights & Biases、Neptune、DVC、Great Expectations、Ray、Horovod、Kubernetes、Docker、S3/GCS/Azure Blob、モデルレジストリパターン、フィーチャーストアアーキテクチャ、分散トレーニング、ハイパーパラメータ最適化

ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

詳細情報

作者
cedriclefoudelatech
リポジトリ
cedriclefoudelatech/TIMLEMEILLEURIDF
ライセンス
MIT
最終更新
2026/5/10

Source: https://github.com/cedriclefoudelatech/TIMLEMEILLEURIDF / ライセンス: MIT

関連スキル

OpenAIデータ・分析⭐ リポ 1,451

hugging-face-trackio

Trackioを使用してMLトレーニング実験を追跡・可視化できます。トレーニング中のメトリクスログ記録(Python API)、トレーニング診断のアラート発火、ログされたメトリクスの取得・分析(CLI)が必要な場合に活用してください。リアルタイムダッシュボード表示、Webhookを使用したアラート、HF Space同期、自動化向けのJSON出力に対応しています。

by gradio-app
汎用データ・分析⭐ リポ 855

btc-bottom-model

ビットコインのサイクルタイミングモデルで、加重スコアリングシステムを搭載しています。日次パルス(4指標、32ポイント)とウィークリー構造(9指標、68ポイント)の2カテゴリーにわたる13の指標を追跡し、0~100のマーケットヒートスコアを算出します。ETFフロー、ファンディングレート、ロング/ショート比率、恐怖・貪欲指数、LTH-MVRV、NUPL、SOPR(LTH+STH)、LTH供給率、移動平均倍率(365日MA、200週MA)、週次RSI、出来高トレンドに対応します。市場サイクル全体を通じて買いと売りの両方の推奨を提供します。ビットコインの底値拾い、BTCサイクルポジション、買い時・売り時、オンチェーン指標、MVRV、NUPL、SOPR、LTH動向、ETFの流出入、ファンディングレート、恐怖指数、ビットコインが過熱状態か、マイナーコスト、暗号資産市場のセンチメント、BTCのポジションサイジング、「今ビットコインを買うべきか」「BTCが天井をつけているか」「オンチェーン指標は何を示しているか」といった質問の際にこのスキルを活用します。

by star23
Anthropic Claudeデータ・分析⭐ リポ 380

protein_solubility_optimization

タンパク質の溶解性最適化 - タンパク質の溶解性を最適化します。タンパク質の特性を計算し、溶解性と親水性を予測し、有効な変異を提案します。タンパク質配列の特性計算、タンパク質機能の予測、親水性計算、ゼロショット配列予測を含むタンパク質エンジニアリング業務に使用できます。3つのSCPサーバーから4つのツールを統合しています。

by SpectrAI-Initiative
Anthropic Claudeデータ・分析⭐ リポ 1,743

research-lookup

Parallel Chat APIまたはPerplexity sonar-pro-searchを使用して、最新の研究情報を検索できます。学術論文の検索にも対応しています。クエリは自動的に最適なバックエンドにルーティングされるため、論文の検索、研究データの収集、科学情報の検証に活用できます。

by K-Dense-AI
Anthropic Claudeデータ・分析⭐ リポ 299

tree-formatting

ggtree(R)またはiTOL(ウェブ)を使用して、系統樹の可視化とフォーマットを行います。系統樹を図として描画する際、ツリーレイアウトの選択、分類学に基づく枝やラベルの色付け、クレードの折りたたみ、サポート値の表示、またはツリーへのオーバーレイ追加が必要な場合に使用してください。系統推定(protein-phylogenyスキルを使用)やドメイン注釈(今後の独立したスキル)には使用しないでください。

by majiayu000
汎用データ・分析⭐ リポ 145

querying-indonesian-gov-data

インドネシア政府の50以上のAPIとデータソースに接続できます。BPJPH(ハラール認証)、BOM(食品安全)、OJK(金融適正性)、BPS(統計)、BMKG(気象・地震)、インドネシア中央銀行(為替レート)、IDX(株式)、CKAN公開データポータル、pasal.id(第三者法MCP)に対応しています。インドネシア政府データを活用したアプリ開発、.go.idウェブサイトのスクレイピング、ハラール認証の確認、企業の法的適正性の検証、金融機関ステータスの照会、またはインドネシアMCPサーバーへの接続時に使用できます。CSRF処理、CKAN API使用方法、IP制限回避など、すぐに実行可能なPythonパターンを含んでいます。

by suryast
本サイトは GitHub 上で公開されているオープンソースの SKILL.md ファイルをクロール・インデックス化したものです。 各スキルの著作権は原作者に帰属します。掲載に問題がある場合は info@alsel.co.jp または /takedown フォームよりご連絡ください。
原作者: cedriclefoudelatech · cedriclefoudelatech/TIMLEMEILLEURIDF · ライセンス: MIT