splitting-datasets
MLモデル開発用に、データセットを訓練用、検証用、テスト用に分割します。「データセット分割」「訓練・テスト分割」「データ分割」といった要望がある際に使用できます。スキルの目的に応じた関連フレーズでトリガーされます。
description の原文を見る
Process split datasets into training, validation, and testing sets for ML model development. Use when requesting "split dataset", "train-test split", or "data partitioning". Trigger with relevant phrases based on skill purpose.
SKILL.md 本文
データセット分割器
このスキルはデータセット分割タスクの自動化された支援を提供します。
概要
このスキルは、機械学習モデルの訓練、検証、テスト用にデータセットをサブセットに分割するプロセスを自動化します。適切なデータ準備を確保し、堅牢なモデル評価を促進します。
動作方法
- リクエストの分析: スキルはユーザーのリクエストを分析して、分割するデータセットと各サブセットの希望する比率を決定します。
- コードの生成: リクエストに基づいて、標準MLライブラリを使用してデータ分割を実行するPythonコードを生成します。
- 分割の実行: コードを実行して、指定された比率に従ってデータセットを訓練、検証、テストセットに分割します。
このスキルの使用時期
このスキルは以下の場合に有効化されます:
- 機械学習モデルの訓練用にデータセットを準備する必要がある場合
- 訓練、検証、テストセットを作成する場合
- モデルのパフォーマンスを評価するためにデータを分割する場合
例
例1: CSVファイルの分割
ユーザーリクエスト: 「'my_data.csv'のデータを70%訓練、15%検証、15%テストセットに分割してください」
スキルは以下を実行します:
- 'my_data.csv'ファイルを読み込むPythonコードを生成します。
- コードを実行して、指定された比率に従ってデータを分割し、'train.csv'、'validation.csv'、'test.csv'ファイルを作成します。
例2: 訓練テスト分割の作成
ユーザーリクエスト: 「'large_dataset.csv'を80/20の比率で訓練テスト分割を作成してください」
スキルは以下を実行します:
- 'large_dataset.csv'を読み込むPythonコードを生成します。
- コードを実行してデータセットを80%訓練、20%テストセットに分割し、'train.csv'と'test.csv'として保存します。
ベストプラクティス
- データ整合性: 分割プロセスがデータの整合性を維持し、データ損失や破損がないことを確認します。
- 層別化: クラス分布を各サブセットで維持するために、不均衡なデータセットの分割時に層別化を検討します。
- ランダム化: 結果として得られるデータセットのバイアスを避けるため、分割プロセスがランダム化されていることを確認します。
統合
このスキルは、Claude Codeエコシステム内の他のデータ処理およびモデル訓練ツールと統合して、完全な機械学習ワークフローを作成できます。
前提条件
- 適切なファイルアクセス権限
- 必要な依存関係がインストールされていること
手順
- トリガー条件が満たされた場合にこのスキルを呼び出します
- 必要なコンテキストとパラメータを提供します
- 生成された出力を確認します
- 必要に応じて修正を適用します
出力
スキルはタスクに関連した構造化された出力を生成します。
エラーハンドリング
- 無効な入力: 修正を求めるプロンプトを表示
- 依存関係の欠落: 必要なコンポーネントをリストアップ
- 権限エラー: 修復ステップを提案
リソース
- プロジェクトドキュメント
- 関連スキルおよびコマンド
ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- Brmbobo
- リポジトリ
- Brmbobo/Web2podcast
- ライセンス
- MIT
- 最終更新
- 2026/1/26
Source: https://github.com/Brmbobo/Web2podcast / ライセンス: MIT
関連スキル
hugging-face-trackio
Trackioを使用してMLトレーニング実験を追跡・可視化できます。トレーニング中のメトリクスログ記録(Python API)、トレーニング診断のアラート発火、ログされたメトリクスの取得・分析(CLI)が必要な場合に活用してください。リアルタイムダッシュボード表示、Webhookを使用したアラート、HF Space同期、自動化向けのJSON出力に対応しています。
btc-bottom-model
ビットコインのサイクルタイミングモデルで、加重スコアリングシステムを搭載しています。日次パルス(4指標、32ポイント)とウィークリー構造(9指標、68ポイント)の2カテゴリーにわたる13の指標を追跡し、0~100のマーケットヒートスコアを算出します。ETFフロー、ファンディングレート、ロング/ショート比率、恐怖・貪欲指数、LTH-MVRV、NUPL、SOPR(LTH+STH)、LTH供給率、移動平均倍率(365日MA、200週MA)、週次RSI、出来高トレンドに対応します。市場サイクル全体を通じて買いと売りの両方の推奨を提供します。ビットコインの底値拾い、BTCサイクルポジション、買い時・売り時、オンチェーン指標、MVRV、NUPL、SOPR、LTH動向、ETFの流出入、ファンディングレート、恐怖指数、ビットコインが過熱状態か、マイナーコスト、暗号資産市場のセンチメント、BTCのポジションサイジング、「今ビットコインを買うべきか」「BTCが天井をつけているか」「オンチェーン指標は何を示しているか」といった質問の際にこのスキルを活用します。
protein_solubility_optimization
タンパク質の溶解性最適化 - タンパク質の溶解性を最適化します。タンパク質の特性を計算し、溶解性と親水性を予測し、有効な変異を提案します。タンパク質配列の特性計算、タンパク質機能の予測、親水性計算、ゼロショット配列予測を含むタンパク質エンジニアリング業務に使用できます。3つのSCPサーバーから4つのツールを統合しています。
research-lookup
Parallel Chat APIまたはPerplexity sonar-pro-searchを使用して、最新の研究情報を検索できます。学術論文の検索にも対応しています。クエリは自動的に最適なバックエンドにルーティングされるため、論文の検索、研究データの収集、科学情報の検証に活用できます。
tree-formatting
ggtree(R)またはiTOL(ウェブ)を使用して、系統樹の可視化とフォーマットを行います。系統樹を図として描画する際、ツリーレイアウトの選択、分類学に基づく枝やラベルの色付け、クレードの折りたたみ、サポート値の表示、またはツリーへのオーバーレイ追加が必要な場合に使用してください。系統推定(protein-phylogenyスキルを使用)やドメイン注釈(今後の独立したスキル)には使用しないでください。
querying-indonesian-gov-data
インドネシア政府の50以上のAPIとデータソースに接続できます。BPJPH(ハラール認証)、BOM(食品安全)、OJK(金融適正性)、BPS(統計)、BMKG(気象・地震)、インドネシア中央銀行(為替レート)、IDX(株式)、CKAN公開データポータル、pasal.id(第三者法MCP)に対応しています。インドネシア政府データを活用したアプリ開発、.go.idウェブサイトのスクレイピング、ハラール認証の確認、企業の法的適正性の検証、金融機関ステータスの照会、またはインドネシアMCPサーバーへの接続時に使用できます。CSRF処理、CKAN API使用方法、IP制限回避など、すぐに実行可能なPythonパターンを含んでいます。