huggingface-trackio
MLトレーニングの実験をTrackioで記録・可視化するスキルです。トレーニング中のメトリクスのログ記録(Python API)、診断アラートの発火、ログ済みメトリクスの取得・分析(CLI)が必要な場面で活用できます。リアルタイムダッシュボード表示、webhookによるアラート、HF Spaceとの同期、自動化向けJSON出力をサポートします。
description の原文を見る
Track and visualize ML training experiments with Trackio. Use when logging metrics during training (Python API), firing alerts for training diagnostics, or retrieving/analyzing logged metrics (CLI). Supports real-time dashboard visualization, alerts with webhooks, HF Space syncing, and JSON output for automation.
SKILL.md 本文
Trackio - ML トレーニングの実験トラッキング
Trackio は ML トレーニングメトリクスをログして可視化するための実験トラッキングライブラリです。Hugging Face Spaces にシンクして、リアルタイム監視ダッシュボードを実現します。
3 つのインターフェース
| タスク | インターフェース | リファレンス |
|---|---|---|
| トレーニング中のメトリクスのログ | Python API | references/logging_metrics.md |
| トレーニング診断のアラート発火 | Python API | references/alerts.md |
| トレーニング後/中のメトリクス・アラートの取得 | CLI | references/retrieving_metrics.md |
各インターフェースの使い分け
Python API → ロギング
トレーニングスクリプトで import trackio を使ってメトリクスをログします:
trackio.init()でトラッキングを初期化trackio.log()でメトリクスをログするか、TRL のreport_to="trackio"を使用trackio.finish()で完了
重要概念: リモート/クラウドトレーニングの場合、space_id を渡すことで、メトリクスは Space ダッシュボードにシンクされ、インスタンス終了後も保持されます。
→ セットアップ、TRL 統合、設定オプションについては references/logging_metrics.md を参照してください。
Python API → アラート
トレーニングコードに trackio.alert() 呼び出しを挿入して、重要なイベントをフラグしてください。デバッグ用の print ステートメント挿入に似ていますが、構造化でクエリ可能です:
trackio.alert(title="...", level=trackio.AlertLevel.WARN)— アラートを発火- 3 つの深刻度レベル:
INFO、WARN、ERROR - アラートはターミナルに表示され、データベースに保存され、ダッシュボードに表示され、オプションで Webhook (Slack/Discord) に送信されます
LLM エージェント向けの重要概念: アラートは自律的な実験反復の主要メカニズムです。エージェントは損失スパイク、NaN 勾配、低精度、トレーニング停滞などの診断条件についてトレーニングコードにアラートを挿入すべきです。アラートはターミナルに表示されるため、トレーニングスクリプトの出力を監視しているエージェントは自動的にそれを検知します。バックグラウンド実行やデタッチ実行の場合、エージェントは CLI でポーリングできます。
→ 完全なアラート API、Webhook セットアップ、自律エージェントワークフローについては references/alerts.md を参照してください。
CLI → 取得
trackio コマンドを使ってログされたメトリクスとアラートをクエリします:
trackio list projects/runs/metrics— 利用可能なデータを検出trackio get project/run/metric— サマリーと値を取得trackio list alerts --project <name> --json— アラートを取得trackio show— ダッシュボードを起動trackio sync— HF Space にシンク
重要概念: 自動化と LLM エージェント向けのプログラマティック出力には --json を追加します。
→ すべてのコマンド、ワークフロー、JSON 出力形式については references/retrieving_metrics.md を参照してください。
最小ロギングセットアップ
import trackio
trackio.init(project="my-project", space_id="username/trackio")
trackio.log({"loss": 0.1, "accuracy": 0.9})
trackio.log({"loss": 0.09, "accuracy": 0.91})
trackio.finish()
最小取得
trackio list projects --json
trackio get metric --project my-project --run my-run --metric loss --json
自律 ML 実験ワークフロー
LLM エージェントとして実験を自律的に実行する場合、推奨ワークフローは以下の通りです:
- アラート付きトレーニングセットアップ — 診断条件用に
trackio.alert()呼び出しを挿入 - トレーニング起動 — スクリプトをバックグラウンドで実行
- アラートのポーリング —
trackio list alerts --project <name> --json --since <timestamp>で新しいアラートをチェック - メトリクス読取 —
trackio get metric ...で特定値を検査 - 反復 — アラートとメトリクスに基づいて実行を停止し、ハイパーパラメータを調整して新しい実行を起動
import trackio
trackio.init(project="my-project", config={"lr": 1e-4})
for step in range(num_steps):
loss = train_step()
trackio.log({"loss": loss, "step": step})
if step > 100 and loss > 5.0:
trackio.alert(
title="Loss divergence",
text=f"Loss {loss:.4f} still high after {step} steps",
level=trackio.AlertLevel.ERROR,
)
if step > 0 and abs(loss) < 1e-8:
trackio.alert(
title="Vanishing loss",
text="Loss near zero — possible gradient collapse",
level=trackio.AlertLevel.WARN,
)
trackio.finish()
別のターミナル/プロセスからポーリングします:
trackio list alerts --project my-project --json --since "2025-01-01T00:00:00"
ライセンス: Apache-2.0(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- huggingface
- リポジトリ
- huggingface/skills
- ライセンス
- Apache-2.0
- 最終更新
- 不明
Source: https://github.com/huggingface/skills / ライセンス: Apache-2.0
関連スキル
doubt-driven-development
重要な判断はすべて、本番環境への展開前に新しい視点から対抗的レビューを実施します。速度より正確性が重要な場合、不慣れなコードを扱う場合、本番環境・セキュリティに関わるロジック・取り消し不可の操作など影響度が高い場合、または後でバグを修正するよりも今検証する方が効率的な場合に活用してください。
apprun-skills
TypeScriptを使用したAppRunアプリケーションのMVU設計に関する総合的なガイダンスが得られます。コンポーネントパターン、イベントハンドリング、状態管理(非同期ジェネレータを含む)、パラメータと保護機能を備えたルーティング・ナビゲーション、vistestを使用したテストに対応しています。AppRunコンポーネントの設計・レビュー、ルートの配線、状態フローの管理、AppRunテストの作成時に活用してください。
desloppify
コードベースのヘルスチェックと技術負債の追跡ツールです。コード品質、技術負債、デッドコード、大規模ファイル、ゴッドクラス、重複関数、コードスメル、命名規則の問題、インポートサイクル、結合度の問題についてユーザーが質問した場合に使用してください。また、ヘルススコアの確認、次の改善項目の提案、クリーンアップ計画の作成をリクエストされた際にも対応します。29言語に対応しています。
debugging-and-error-recovery
テストが失敗したり、ビルドが壊れたり、動作が期待と異なったり、予期しないエラーが発生したりした場合に、体系的な根本原因デバッグをガイドします。推測ではなく、根本原因を見つけて修正するための体系的なアプローチが必要な場合に使用してください。
test-driven-development
テスト駆動開発により実装を進めます。ロジックの実装、バグの修正、動作の変更など、あらゆる場面で活用できます。コードが正常に動作することを証明する必要がある場合、バグ報告を受けた場合、既存機能を修正する予定がある場合に使用してください。
incremental-implementation
変更を段階的に実施します。複数のファイルに影響する機能や変更を実装する場合に使用してください。大量のコードを一度に書こうとしている場合や、タスクが一度では完結できないほど大きい場合に活用します。