arize-dataset
Arizeのデータセットとサンプルの作成・管理・クエリを行います。データセットのCRUD操作、サンプルの追加、データのエクスポート、ax CLIを使ったファイルベースのデータセット作成に対応します。テストデータや評価用サンプルが必要な場合、またはデータセットの作成・一覧表示・エクスポート・サンプル追加・バージョン管理・ゴールデンデータセット・テストセットについて言及があった際に使用してください。
description の原文を見る
Creates, manages, and queries Arize datasets and examples. Covers dataset CRUD, appending examples, exporting data, and file-based dataset creation using the ax CLI. Use when the user needs test data, evaluation examples, or mentions create dataset, list datasets, export dataset, append examples, dataset version, golden dataset, or test set.
SKILL.md 本文
Arize Dataset Skill
SPACE— すべての--spaceフラグとARIZE_SPACE環境変数は、スペース名(例:my-workspace)またはBase64エンコードされたスペースID(例:U3BhY2U6...)を受け入れます。ax spaces listで確認できます。
概念
- Dataset(データセット) = 評価と実験に使用される例のバージョン管理されたコレクション
- Dataset Version(データセットバージョン) = ある時点でのデータセットのスナップショット;更新は既存版を変更するか新しいバージョンを作成するか選択可能
- Example(例) = ユーザーが定義した任意のフィールドを持つデータセット内の単一レコード(例:
question、answer、context) - Space(スペース) = 組織コンテナ;データセットはスペースに属する
例のシステム管理フィールド(id、created_at、updated_at)はサーバーによって自動生成されます。作成時または追記時のペイロードに含めないでください。
前提条件
必要な ax コマンドを直接実行してください。事前にバージョン、環境変数、またはプロフィールを確認しないでください。
ax コマンドが失敗した場合は、エラーに基づいてトラブルシューティングしてください:
command not foundまたはバージョンエラー → references/ax-setup.md を参照401 Unauthorized/ APIキーが見当たらない →ax profiles showを実行して現在のプロフィールを確認してください。プロフィールが見当たらない、またはAPIキーが間違っている場合は、references/ax-profiles.md に従って作成/更新してください。ユーザーがキーを持っていない場合は https://app.arize.com/admin > API Keys に案内してください- Space が不明 →
ax spaces listを実行して名前で選択するか、ユーザーに聞いてください - Project が不明確 → ユーザーに聞くか、
ax projects list -o json --limit 100を実行して選択肢として提示してください - セキュリティ:
.envファイルを読んだり、ファイルシステムから認証情報を検索しないでください。Arize認証情報にはax profilesを、LLMプロバイダーキーにはax ai-integrationsを使用してください。これらのチャネルから認証情報が利用できない場合は、ユーザーに聞いてください。
データセット一覧表示:ax datasets list
スペース内のデータセットを参照します。出力は標準出力に送られます。
ax datasets list
ax datasets list --space SPACE --limit 20
ax datasets list --cursor CURSOR_TOKEN
ax datasets list -o json
フラグ
| フラグ | 型 | デフォルト | 説明 |
|---|---|---|---|
--space | string | プロフィールから | スペースでフィルタ |
--limit, -l | int | 15 | 最大結果数(1-100) |
--cursor | string | なし | 前回のレスポンスからのページネーションカーソル |
-o, --output | string | table | 出力形式:table、json、csv、parquet、またはファイルパス |
-p, --profile | string | default | 設定プロフィール |
データセット取得:ax datasets get
クイックメタデータ検索 -- データセット名、スペース、タイムスタンプ、およびバージョン一覧を返します。
ax datasets get NAME_OR_ID
ax datasets get NAME_OR_ID -o json
ax datasets get NAME_OR_ID --space SPACE # IDの代わりにデータセット名を使用する場合は必須
フラグ
| フラグ | 型 | デフォルト | 説明 |
|---|---|---|---|
NAME_OR_ID | string | 必須 | データセット名またはID(位置引数) |
--space | string | なし | スペース名またはID(IDの代わりにデータセット名を使用する場合は必須) |
-o, --output | string | table | 出力形式 |
-p, --profile | string | default | 設定プロフィール |
レスポンスフィールド
| フィールド | 型 | 説明 |
|---|---|---|
id | string | データセットID |
name | string | データセット名 |
space_id | string | このデータセットが属するスペース |
created_at | datetime | データセット作成時刻 |
updated_at | datetime | 最終変更時刻 |
versions | array | データセットバージョン一覧(id、name、dataset_id、created_at、updated_at) |
データセットエクスポート:ax datasets export
すべての例をファイルにダウンロードします。500を超える例のデータセットに対しては --all を使用してください(無制限の一括エクスポート)。
ax datasets export NAME_OR_ID
# -> dataset_abc123_20260305_141500/examples.json
ax datasets export NAME_OR_ID --all
ax datasets export NAME_OR_ID --version-id VERSION_ID
ax datasets export NAME_OR_ID --output-dir ./data
ax datasets export NAME_OR_ID --stdout
ax datasets export NAME_OR_ID --stdout | jq '.[0]'
ax datasets export NAME_OR_ID --space SPACE # IDの代わりにデータセット名を使用する場合は必須
フラグ
| フラグ | 型 | デフォルト | 説明 |
|---|---|---|---|
NAME_OR_ID | string | 必須 | データセット名またはID(位置引数) |
--space | string | なし | スペース名またはID(IDの代わりにデータセット名を使用する場合は必須) |
--version-id | string | latest | 特定のデータセットバージョンをエクスポート |
--all | bool | false | 無制限の一括エクスポート(500を超える例のデータセット向け) |
--output-dir | string | . | 出力ディレクトリ |
--stdout | bool | false | ファイルの代わりにJSONを標準出力に出力 |
-p, --profile | string | default | 設定プロフィール |
エージェント自動エスカレーションルール: エクスポートが正確に500例を返す場合、結果は切り詰められている可能性があります。--all で再実行して完全なデータセットを取得してください。
エクスポート完全性の検証: エクスポート後、行数がサーバーが報告した内容と一致することを確認してください:
# データセットメタデータからサーバーが報告した数を取得
ax datasets get DATASET_NAME --space SPACE -o json | jq '.versions[-1] | {version: .id, examples: .example_count}'
# エクスポートされたものと比較
jq 'length' dataset_*/examples.json
# 数が異なる場合は --all で再度エクスポート
出力は例オブジェクトのJSON配列です。各例はシステムフィールド(id、created_at、updated_at)とすべてのユーザー定義フィールドを持ちます:
[
{
"id": "ex_001",
"created_at": "2026-01-15T10:00:00Z",
"updated_at": "2026-01-15T10:00:00Z",
"question": "What is 2+2?",
"answer": "4",
"topic": "math"
}
]
データセット作成:ax datasets create
データファイルから新しいデータセットを作成します。
ax datasets create --name "My Dataset" --space SPACE --file data.csv
ax datasets create --name "My Dataset" --space SPACE --file data.json
ax datasets create --name "My Dataset" --space SPACE --file data.jsonl
ax datasets create --name "My Dataset" --space SPACE --file data.parquet
フラグ
| フラグ | 型 | 必須 | 説明 |
|---|---|---|---|
--name, -n | string | yes | データセット名 |
--space | string | yes | データセットを作成するスペース |
--file, -f | path | yes | データファイル:CSV、JSON、JSONL、またはParquet |
-o, --output | string | no | 返されたデータセットメタデータの出力形式 |
-p, --profile | string | no | 設定プロフィール |
標準入力経由でのデータ渡し
--file - を使用してデータをパイプします。一時ファイルは不要です:
echo '[{"question": "What is 2+2?", "answer": "4"}]' | ax datasets create --name "my-dataset" --space SPACE --file -
# またはheredoc で
ax datasets create --name "my-dataset" --space SPACE --file - << 'EOF'
[{"question": "What is 2+2?", "answer": "4"}]
EOF
既存のデータセットに行を追加するには、ファイルが不要な ax datasets append --json '[...]' を代わりに使用してください。
サポートされているファイル形式
| 形式 | 拡張子 | 注記 |
|---|---|---|
| CSV | .csv | 列ヘッダーがフィールド名になります |
| JSON | .json | オブジェクトの配列 |
| JSON Lines | .jsonl | 1行1オブジェクト(JSON配列ではありません) |
| Parquet | .parquet | 列名がフィールド名になります;型を保持 |
形式の注意点:
- CSV:型情報が失われます -- 日付は文字列に、
nullは空文字列になります。型を保持するにはJSON/Parquetを使用してください。 - JSONL:各行は個別のJSONオブジェクトです。
.jsonlファイル内のJSON配列([{...}, {...}])は失敗します -- 代わりに.json拡張子を使用してください。 - Parquet:列の型を保持します。ローカルで読み取るには
pandas/pyarrowが必要です:pd.read_parquet("examples.parquet")。
例の追記:ax datasets append
既存のデータセットに例を追加します。2つの入力モード -- 適切な方を使用してください。
インラインJSON(エージェント向け)
ペイロードを直接生成します。一時ファイルは不要です:
ax datasets append DATASET_NAME --space SPACE --json '[{"question": "What is 2+2?", "answer": "4"}]'
ax datasets append DATASET_NAME --space SPACE --json '[
{"question": "What is gravity?", "answer": "A fundamental force..."},
{"question": "What is light?", "answer": "Electromagnetic radiation..."}
]'
ファイルから
ax datasets append DATASET_NAME --space SPACE --file new_examples.csv
ax datasets append DATASET_NAME --space SPACE --file additions.json
特定のバージョンに追記
ax datasets append DATASET_NAME --space SPACE --json '[{"q": "..."}]' --version-id VERSION_ID
フラグ
| フラグ | 型 | 必須 | 説明 |
|---|---|---|---|
NAME_OR_ID | string | yes | データセット名またはID(位置引数);名前を使用する場合は --space を追加 |
--space | string | no | スペース名またはID(IDの代わりにデータセット名を使用する場合は必須) |
--json | string | mutex | 例オブジェクトのJSON配列 |
--file, -f | path | mutex | データファイル(CSV、JSON、JSONL、Parquet) |
--version-id | string | no | 特定のバージョンに追記(デフォルト:latest) |
-o, --output | string | no | 返されたデータセットメタデータの出力形式 |
-p, --profile | string | no | 設定プロフィール |
--json または --file のいずれか1つは必須です。
検証
- 各例は少なくとも1つのユーザー定義フィールドを持つJSONオブジェクトである必要があります
- リクエストあたり最大100,000例
追記前のスキーマ検証: データセットに既に例がある場合は、追記前にそのスキーマを検査してフィールド名の不一致を避けてください:
# データセット内の既存フィールド名を確認
ax datasets export DATASET_NAME --space SPACE --stdout | jq '.[0] | keys'
# 新しいデータが一致するフィールド名を持つことを確認
echo '[{"question": "..."}]' | jq '.[0] | keys'
# 両方の出力は同じユーザー定義フィールドを示す必要があります
フィールドは自由形式です:新しい例の余分なフィールドは追加され、見落としたフィールドはnullになります。ただし、フィールド名のタイプミス(例:queston vs question)は新しい列を暗黙的に作成します。追記する前にスペルを確認してください。
データセット削除:ax datasets delete
ax datasets delete NAME_OR_ID
ax datasets delete NAME_OR_ID --space SPACE # IDの代わりにデータセット名を使用する場合は必須
ax datasets delete NAME_OR_ID --force # 確認プロンプトをスキップ
フラグ
| フラグ | 型 | デフォルト | 説明 |
|---|---|---|---|
NAME_OR_ID | string | 必須 | データセット名またはID(位置引数) |
--space | string | なし | スペース名またはID(IDの代わりにデータセット名を使用する場合は必須) |
--force, -f | bool | false | 確認プロンプトをスキップ |
-p, --profile | string | default | 設定プロフィール |
ワークフロー
名前でデータセットを探す
すべてのデータセットコマンドは名前またはIDを直接受け入れます。位置引数としてデータセット名を渡すことができます(IDを使用していない場合は --space SPACE を追加):
# 名前を直接使用
ax datasets get "eval-set-v1" --space SPACE
ax datasets export "eval-set-v1" --space SPACE
# または、Base64 IDが必要な場合はリストを使用して名前をIDに解決
ax datasets list -o json | jq '.[] | select(.name == "eval-set-v1") | .id'
評価用のファイルからデータセットを作成
- 評価列を含むCSV/JSON/Parquetファイルを準備してください(例:
input、expected_output)- データをインラインで生成する場合は、
--file -を使用して標準入力経由でパイプしてください(「データセット作成」セクションを参照)
- データをインラインで生成する場合は、
ax datasets create --name "eval-set-v1" --space SPACE --file eval_data.csv- 検証:
ax datasets get DATASET_NAME --space SPACE - データセット名を使用して実験を実行
既存のデータセットに例を追加
# データセットを探す
ax datasets list --space SPACE
# データセット名を使用してインラインまたはファイルから追記してください(完全な構文については「例の追記」セクションを参照)
ax datasets append DATASET_NAME --space SPACE --json '[{"question": "...", "answer": "..."}]'
ax datasets append DATASET_NAME --space SPACE --file additional_examples.csv
オフライン分析用にデータセットをダウンロード
ax datasets list --space SPACE-- データセット名を探すax datasets export DATASET_NAME --space SPACE-- ファイルにダウンロード- JSONを解析:
jq '.[] | .question' dataset_*/examples.json
特定のバージョンをエクスポート
# バージョンをリスト表示
ax datasets get DATASET_NAME --space SPACE -o json | jq '.versions'
# そのバージョンをエクスポート
ax datasets export DATASET_NAME --space SPACE --version-id VERSION_ID
データセットを繰り返す
- 現在のバージョンをエクスポート:
ax datasets export DATASET_NAME --space SPACE - 例をローカルで変更
- 新しい行を追記:
ax datasets append DATASET_NAME --space SPACE --file new_rows.csv - または新しいバージョンを作成:
ax datasets create --name "eval-set-v2" --space SPACE --file updated_data.json
エクスポートを他のツールにパイプ
# 例をカウント
ax datasets export DATASET_NAME --space SPACE --stdout | jq 'length'
# 単一フィールドを抽出
ax datasets export DATASET_NAME --space SPACE --stdout | jq '.[].question'
# jqを使用してCSVに変換
ax datasets export DATASET_NAME --space SPACE --stdout | jq -r '.[] | [.question, .answer] | @csv'
データセット例スキーマ
例は自由形式のJSONオブジェクトです。固定スキーマはなく、列は提供するフィールドです。システム管理フィールドはサーバーによって追加されます:
| フィールド | 型 | 管理者 | 注記 |
|---|---|---|---|
id | string | server | 自動生成UUID。更新時は必須、作成時/追記時は禁止 |
created_at | datetime | server | 不変の作成タイムスタンプ |
updated_at | datetime | server | 変更時に自動更新 |
| (任意のユーザーフィールド) | any JSON type | user | 文字列、数値、ブール値、null、ネストされたオブジェクト、配列 |
関連スキル
- arize-trace:本番スパンをエクスポートしてデータセットに入れるべきデータを理解します →
arize-traceを使用 - arize-experiment:このデータセットに対して評価を実行します → 次のステップは
arize-experiment - arize-prompt-optimization:データセット + 実験結果を使用してプロンプトを改善します →
arize-prompt-optimizationを使用
トラブルシューティング
| 問題 | 解決策 |
|---|---|
ax: command not found | references/ax-setup.md を参照 |
401 Unauthorized | APIキーが間違っている、期限切れ、またはこのスペースへのアクセス権がない。references/ax-profiles.md を使用してプロフィールを修正してください。 |
No profile found | プロフィールが設定されていません。references/ax-profiles.md を参照して作成してください。 |
Dataset not found | ax datasets list でデータセットIDを検証 |
File format error | サポート対象:CSV、JSON、JSONL、Parquet。--file - を使用して標準入力から読み取ります。 |
platform-managed column | 作成/追記ペイロードから id、created_at、updated_at を削除 |
reserved column | time、count、または任意の source_record_* フィールドを削除 |
Provide either --json or --file | 追記には正確に1つの入力ソースが必要 |
Examples array is empty | JSONファイルが少なくとも1つの例を含むことを確認 |
not a JSON object | --json 配列の各要素は文字列または数値ではなく {...} オブジェクトである必要があります |
将来の使用のために認証情報を保存
references/ax-profiles.md § 将来の使用のために認証情報を保存 を参照。
ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- github
- ライセンス
- MIT
- 最終更新
- 不明
Source: https://github.com/github/awesome-copilot / ライセンス: MIT
関連スキル
hugging-face-trackio
Trackioを使用してMLトレーニング実験を追跡・可視化できます。トレーニング中のメトリクスログ記録(Python API)、トレーニング診断のアラート発火、ログされたメトリクスの取得・分析(CLI)が必要な場合に活用してください。リアルタイムダッシュボード表示、Webhookを使用したアラート、HF Space同期、自動化向けのJSON出力に対応しています。
btc-bottom-model
ビットコインのサイクルタイミングモデルで、加重スコアリングシステムを搭載しています。日次パルス(4指標、32ポイント)とウィークリー構造(9指標、68ポイント)の2カテゴリーにわたる13の指標を追跡し、0~100のマーケットヒートスコアを算出します。ETFフロー、ファンディングレート、ロング/ショート比率、恐怖・貪欲指数、LTH-MVRV、NUPL、SOPR(LTH+STH)、LTH供給率、移動平均倍率(365日MA、200週MA)、週次RSI、出来高トレンドに対応します。市場サイクル全体を通じて買いと売りの両方の推奨を提供します。ビットコインの底値拾い、BTCサイクルポジション、買い時・売り時、オンチェーン指標、MVRV、NUPL、SOPR、LTH動向、ETFの流出入、ファンディングレート、恐怖指数、ビットコインが過熱状態か、マイナーコスト、暗号資産市場のセンチメント、BTCのポジションサイジング、「今ビットコインを買うべきか」「BTCが天井をつけているか」「オンチェーン指標は何を示しているか」といった質問の際にこのスキルを活用します。
protein_solubility_optimization
タンパク質の溶解性最適化 - タンパク質の溶解性を最適化します。タンパク質の特性を計算し、溶解性と親水性を予測し、有効な変異を提案します。タンパク質配列の特性計算、タンパク質機能の予測、親水性計算、ゼロショット配列予測を含むタンパク質エンジニアリング業務に使用できます。3つのSCPサーバーから4つのツールを統合しています。
research-lookup
Parallel Chat APIまたはPerplexity sonar-pro-searchを使用して、最新の研究情報を検索できます。学術論文の検索にも対応しています。クエリは自動的に最適なバックエンドにルーティングされるため、論文の検索、研究データの収集、科学情報の検証に活用できます。
tree-formatting
ggtree(R)またはiTOL(ウェブ)を使用して、系統樹の可視化とフォーマットを行います。系統樹を図として描画する際、ツリーレイアウトの選択、分類学に基づく枝やラベルの色付け、クレードの折りたたみ、サポート値の表示、またはツリーへのオーバーレイ追加が必要な場合に使用してください。系統推定(protein-phylogenyスキルを使用)やドメイン注釈(今後の独立したスキル)には使用しないでください。
querying-indonesian-gov-data
インドネシア政府の50以上のAPIとデータソースに接続できます。BPJPH(ハラール認証)、BOM(食品安全)、OJK(金融適正性)、BPS(統計)、BMKG(気象・地震)、インドネシア中央銀行(為替レート)、IDX(株式)、CKAN公開データポータル、pasal.id(第三者法MCP)に対応しています。インドネシア政府データを活用したアプリ開発、.go.idウェブサイトのスクレイピング、ハラール認証の確認、企業の法的適正性の検証、金融機関ステータスの照会、またはインドネシアMCPサーバーへの接続時に使用できます。CSRF処理、CKAN API使用方法、IP制限回避など、すぐに実行可能なPythonパターンを含んでいます。