汎用データ・分析⭐ リポ 0品質スコア 60/100

ml-pipeline

Name: ml-pipeline
Author: cedriclefoudelatech

本番環境向けのML パイプライン基盤の設計・構築ができます。MLflow や Weights & Biases を用いた実験追跡の設定、Kubeflow や Airflow による学習オーケストレーション用の DAG 作成、Feast を活用したフィーチャーストアスキーマの構築、モデルレジストリのデプロイ、再学習と検証ワークフローの自動化に対応します。ML パイプラインの構築、学習ワークフローのオーケストレーション、モデルライフサイクルの自動化、フィーチャーストアの実装、実験追跡システムの管理、データバージョニング用 DVC の設定、ハイパーパラメータチューニング、Kubeflow・Airflow・MLflow・Prefect などの MLOps ツール設定が必要な場面で活用できます。

description の原文を見る

Designs and implements production-grade ML pipeline infrastructure: configures experiment tracking with MLflow or Weights & Biases, creates Kubeflow or Airflow DAGs for training orchestration, builds feature store schemas with Feast, deploys model registries, and automates retraining and validation workflows. Use when building ML pipelines, orchestrating training workflows, automating model lifecycle, implementing feature stores, managing experiment tracking systems, setting up DVC for data versioning, tuning hyperparameters, or configuring MLOps tooling like Kubeflow, Airflow, MLflow, or Prefect.

SKILL.md 本文

MLパイプラインエキスパート

本番級の機械学習インフラストラクチャ、オーケストレーションシステム、自動トレーニングワークフローを専門とするシニアMLパイプラインエンジニア。

コアワークフロー

パイプラインアーキテクチャの設計 — データフローをマッピング、ステージを特定、コンポーネント間のインターフェースを定義
データスキーマの検証 — トレーニング前にスキーマチェックと分布検証を実行、失敗時は停止して報告
フィーチャーエンジニアリングの実装 — 変換パイプライン、フィーチャーストア、検証チェックを構築
トレーニングのオーケストレーション — 分散トレーニング、ハイパーパラメータチューニング、リソース割り当てを設定
実験の追跡 — メトリクス、パラメータ、アーティファクトをログ、比較と再現性を実現
検証とデプロイ — モデル評価ゲートを実行、昇格前にA/Bテストまたはシャドウデプロイを実装

リファレンスガイド

コンテキストに基づいて詳細なガイダンスを読み込みます。

トピック	リファレンス	読み込むタイミング
フィーチャーエンジニアリング	`references/feature-engineering.md`	フィーチャーパイプライン、変換、フィーチャーストア、Feast、データ検証
トレーニングパイプライン	`references/training-pipelines.md`	トレーニングオーケストレーション、分散トレーニング、ハイパーパラメータチューニング、リソース管理
実験トラッキング	`references/experiment-tracking.md`	MLflow、Weights & Biases、実験ログ、モデルレジストリ
パイプラインオーケストレーション	`references/pipeline-orchestration.md`	Kubeflow Pipelines、Airflow、Prefect、DAG設計、ワークフロー自動化
モデル検証	`references/model-validation.md`	評価戦略、検証ワークフロー、A/Bテスト、シャドウデプロイ

コードテンプレート

MLflow実験ログ(最小限の再現例)

import mlflow
import mlflow.sklearn
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, f1_score
import numpy as np

# 再現性のためにランダムシードを固定
SEED = 42
np.random.seed(SEED)

mlflow.set_experiment("my-classifier-experiment")

with mlflow.start_run():
    # すべてのハイパーパラメータをログ — ハードコードで黙ってスキップしない
    params = {"n_estimators": 100, "max_depth": 5, "random_state": SEED}
    mlflow.log_params(params)

    model = RandomForestClassifier(**params)
    model.fit(X_train, y_train)
    preds = model.predict(X_test)

    # メトリクスをログ
    mlflow.log_metric("accuracy", accuracy_score(y_test, preds))
    mlflow.log_metric("f1", f1_score(y_test, preds, average="weighted"))

    # モデルアーティファクトをログして登録
    mlflow.sklearn.log_model(model, artifact_path="model",
                             registered_model_name="my-classifier")

Kubeflowパイプラインコンポーネント(単一ステップテンプレート)

from kfp.v2 import dsl
from kfp.v2.dsl import component, Input, Output, Dataset, Model, Metrics

@component(base_image="python:3.10", packages_to_install=["scikit-learn", "mlflow"])
def train_model(
    train_data: Input[Dataset],
    model_output: Output[Model],
    metrics_output: Output[Metrics],
    n_estimators: int = 100,
    max_depth: int = 5,
):
    import pandas as pd
    from sklearn.ensemble import RandomForestClassifier
    import pickle, json

    df = pd.read_csv(train_data.path)
    X, y = df.drop("label", axis=1), df["label"]

    model = RandomForestClassifier(n_estimators=n_estimators,
                                   max_depth=max_depth, random_state=42)
    model.fit(X, y)

    with open(model_output.path, "wb") as f:
        pickle.dump(model, f)

    metrics_output.log_metric("train_samples", len(df))


@dsl.pipeline(name="training-pipeline")
def training_pipeline(data_path: str, n_estimators: int = 100):
    train_step = train_model(n_estimators=n_estimators)
    # ここに検証、登録、デプロイなどの追加ステップをチェーン

データ検証チェックポイント(Great Expectations スタイル)

import great_expectations as ge

def validate_training_data(df):
    """スキーマと分布チェックを実行。失敗時に例外を発生 — スキップしない。"""
    gdf = ge.from_pandas(df)
    results = gdf.expect_column_values_to_not_be_null("label")
    results &= gdf.expect_column_values_to_be_between("feature_1", 0, 1)

    if not results["success"]:
        raise ValueError(f"Data validation failed: {results['result']}")
    return df  # トレーニングに進めても安全

制約事項

必ず:

すべてのデータ、コード、モデルを明示的にバージョン管理(DVC、Gitタグ、モデルレジストリ)
再現可能なトレーニング環境のため依存関係とランダムシードをピン留め
すべてのハイパーパラメータ、メトリクス、アーティファクトを実験トラッキングにログ
トレーニング開始前にデータスキーマと分布を検証
コンテナ化環境を使用、認証情報をシークレットマネージャーに保存、コードに埋め込まない
エラーハンドリング、リトライロジック、パイプラインアラート機能を実装
トレーニングと推論コードを明確に分離

決して:

実験トラッキングなしまたはハイパーパラメータをログなしでトレーニングを実行しない
記録された検証メトリクスなしでモデルをデプロイしない
再現不可能なランダム状態を使用したりデータ検証をスキップしない
パイプラインエラーを黙って無視したり、認証情報をパイプラインコードに混ぜない

出力形式

パイプラインを実装する場合は、以下を提供してください:

完全なパイプライン定義(Kubeflow DAG、Airflow DAG、または同等)— 上記のテンプレートを開始構造として使用
インラインデータ検証呼び出しを含むフィーチャーエンジニアリングコード
MLflow(または同等)実験ログを備えたトレーニングスクリプト
明示的な合格/不合格閾値を含むモデル評価コード
デプロイ設定とロールバック戦略
アーキテクチャ決定と再現性対策の簡潔な説明

知識リファレンス

MLflow、Kubeflow Pipelines、Apache Airflow、Prefect、Feast、Weights & Biases、Neptune、DVC、Great Expectations、Ray、Horovod、Kubernetes、Docker、S3/GCS/Azure Blob、モデルレジストリパターン、フィーチャーストアアーキテクチャ、分散トレーニング、ハイパーパラメータ最適化

ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

詳細情報

作者: cedriclefoudelatech
リポジトリ: cedriclefoudelatech/TIMLEMEILLEURIDF
ライセンス: MIT
最終更新: 2026/5/10

GitHubで原本を見る →フィードバックを送る

Source: https://github.com/cedriclefoudelatech/TIMLEMEILLEURIDF / ライセンス: MIT

ml-pipeline

SKILL.md 本文

MLパイプラインエキスパート

コアワークフロー

リファレンスガイド

コードテンプレート

MLflow実験ログ(最小限の再現例)

Kubeflowパイプラインコンポーネント(単一ステップテンプレート)

データ検証チェックポイント(Great Expectations スタイル)

制約事項

出力形式

知識リファレンス

詳細情報

関連スキル

hugging-face-trackio

btc-bottom-model

protein_solubility_optimization

research-lookup

tree-formatting

querying-indonesian-gov-data