Anthropic Claudeデータ・分析⭐ リポ 0品質スコア 50/100

arize-dataset

Name: arize-dataset
Author: github

Arizeのデータセットとサンプルの作成・管理・クエリを行います。データセットのCRUD操作、サンプルの追加、データのエクスポート、ax CLIを使ったファイルベースのデータセット作成に対応します。テストデータや評価用サンプルが必要な場合、またはデータセットの作成・一覧表示・エクスポート・サンプル追加・バージョン管理・ゴールデンデータセット・テストセットについて言及があった際に使用してください。

description の原文を見る

Creates, manages, and queries Arize datasets and examples. Covers dataset CRUD, appending examples, exporting data, and file-based dataset creation using the ax CLI. Use when the user needs test data, evaluation examples, or mentions create dataset, list datasets, export dataset, append examples, dataset version, golden dataset, or test set.

SKILL.md 本文

Arize Dataset Skill

SPACE — すべての --space フラグと ARIZE_SPACE 環境変数は、スペース名（例：my-workspace）またはBase64エンコードされたスペースID（例：U3BhY2U6...）を受け入れます。ax spaces list で確認できます。

概念

Dataset（データセット） = 評価と実験に使用される例のバージョン管理されたコレクション
Dataset Version（データセットバージョン） = ある時点でのデータセットのスナップショット；更新は既存版を変更するか新しいバージョンを作成するか選択可能
Example（例） = ユーザーが定義した任意のフィールドを持つデータセット内の単一レコード（例：question、answer、context）
Space（スペース） = 組織コンテナ；データセットはスペースに属する

例のシステム管理フィールド（id、created_at、updated_at）はサーバーによって自動生成されます。作成時または追記時のペイロードに含めないでください。

前提条件

必要な ax コマンドを直接実行してください。事前にバージョン、環境変数、またはプロフィールを確認しないでください。

ax コマンドが失敗した場合は、エラーに基づいてトラブルシューティングしてください：

command not found またはバージョンエラー → references/ax-setup.md を参照
401 Unauthorized / APIキーが見当たらない → ax profiles show を実行して現在のプロフィールを確認してください。プロフィールが見当たらない、またはAPIキーが間違っている場合は、references/ax-profiles.md に従って作成/更新してください。ユーザーがキーを持っていない場合は https://app.arize.com/admin > API Keys に案内してください
Space が不明 → ax spaces list を実行して名前で選択するか、ユーザーに聞いてください
Project が不明確 → ユーザーに聞くか、ax projects list -o json --limit 100 を実行して選択肢として提示してください
セキュリティ： .env ファイルを読んだり、ファイルシステムから認証情報を検索しないでください。Arize認証情報には ax profiles を、LLMプロバイダーキーには ax ai-integrations を使用してください。これらのチャネルから認証情報が利用できない場合は、ユーザーに聞いてください。

データセット一覧表示：`ax datasets list`

スペース内のデータセットを参照します。出力は標準出力に送られます。

ax datasets list
ax datasets list --space SPACE --limit 20
ax datasets list --cursor CURSOR_TOKEN
ax datasets list -o json

フラグ

フラグ	型	デフォルト	説明
`--space`	string	プロフィールから	スペースでフィルタ
`--limit, -l`	int	15	最大結果数（1-100）
`--cursor`	string	なし	前回のレスポンスからのページネーションカーソル
`-o, --output`	string	table	出力形式：table、json、csv、parquet、またはファイルパス
`-p, --profile`	string	default	設定プロフィール

データセット取得：`ax datasets get`

クイックメタデータ検索 -- データセット名、スペース、タイムスタンプ、およびバージョン一覧を返します。

ax datasets get NAME_OR_ID
ax datasets get NAME_OR_ID -o json
ax datasets get NAME_OR_ID --space SPACE   # IDの代わりにデータセット名を使用する場合は必須

フラグ

フラグ	型	デフォルト	説明
`NAME_OR_ID`	string	必須	データセット名またはID（位置引数）
`--space`	string	なし	スペース名またはID（IDの代わりにデータセット名を使用する場合は必須）
`-o, --output`	string	table	出力形式
`-p, --profile`	string	default	設定プロフィール

レスポンスフィールド

フィールド	型	説明
`id`	string	データセットID
`name`	string	データセット名
`space_id`	string	このデータセットが属するスペース
`created_at`	datetime	データセット作成時刻
`updated_at`	datetime	最終変更時刻
`versions`	array	データセットバージョン一覧（id、name、dataset_id、created_at、updated_at）

データセットエクスポート：`ax datasets export`

すべての例をファイルにダウンロードします。500を超える例のデータセットに対しては --all を使用してください（無制限の一括エクスポート）。

ax datasets export NAME_OR_ID
# -> dataset_abc123_20260305_141500/examples.json

ax datasets export NAME_OR_ID --all
ax datasets export NAME_OR_ID --version-id VERSION_ID
ax datasets export NAME_OR_ID --output-dir ./data
ax datasets export NAME_OR_ID --stdout
ax datasets export NAME_OR_ID --stdout | jq '.[0]'
ax datasets export NAME_OR_ID --space SPACE   # IDの代わりにデータセット名を使用する場合は必須

フラグ

フラグ	型	デフォルト	説明
`NAME_OR_ID`	string	必須	データセット名またはID（位置引数）
`--space`	string	なし	スペース名またはID（IDの代わりにデータセット名を使用する場合は必須）
`--version-id`	string	latest	特定のデータセットバージョンをエクスポート
`--all`	bool	false	無制限の一括エクスポート（500を超える例のデータセット向け）
`--output-dir`	string	`.`	出力ディレクトリ
`--stdout`	bool	false	ファイルの代わりにJSONを標準出力に出力
`-p, --profile`	string	default	設定プロフィール

エージェント自動エスカレーションルール： エクスポートが正確に500例を返す場合、結果は切り詰められている可能性があります。--all で再実行して完全なデータセットを取得してください。

エクスポート完全性の検証： エクスポート後、行数がサーバーが報告した内容と一致することを確認してください：

# データセットメタデータからサーバーが報告した数を取得
ax datasets get DATASET_NAME --space SPACE -o json | jq '.versions[-1] | {version: .id, examples: .example_count}'

# エクスポートされたものと比較
jq 'length' dataset_*/examples.json

# 数が異なる場合は --all で再度エクスポート

出力は例オブジェクトのJSON配列です。各例はシステムフィールド（id、created_at、updated_at）とすべてのユーザー定義フィールドを持ちます：

[
  {
    "id": "ex_001",
    "created_at": "2026-01-15T10:00:00Z",
    "updated_at": "2026-01-15T10:00:00Z",
    "question": "What is 2+2?",
    "answer": "4",
    "topic": "math"
  }
]

データセット作成：`ax datasets create`

データファイルから新しいデータセットを作成します。

ax datasets create --name "My Dataset" --space SPACE --file data.csv
ax datasets create --name "My Dataset" --space SPACE --file data.json
ax datasets create --name "My Dataset" --space SPACE --file data.jsonl
ax datasets create --name "My Dataset" --space SPACE --file data.parquet

フラグ

フラグ	型	必須	説明
`--name, -n`	string	yes	データセット名
`--space`	string	yes	データセットを作成するスペース
`--file, -f`	path	yes	データファイル：CSV、JSON、JSONL、またはParquet
`-o, --output`	string	no	返されたデータセットメタデータの出力形式
`-p, --profile`	string	no	設定プロフィール

標準入力経由でのデータ渡し

--file - を使用してデータをパイプします。一時ファイルは不要です：

echo '[{"question": "What is 2+2?", "answer": "4"}]' | ax datasets create --name "my-dataset" --space SPACE --file -

# またはheredoc で
ax datasets create --name "my-dataset" --space SPACE --file - << 'EOF'
[{"question": "What is 2+2?", "answer": "4"}]
EOF

既存のデータセットに行を追加するには、ファイルが不要な ax datasets append --json '[...]' を代わりに使用してください。

サポートされているファイル形式

形式	拡張子	注記
CSV	`.csv`	列ヘッダーがフィールド名になります
JSON	`.json`	オブジェクトの配列
JSON Lines	`.jsonl`	1行1オブジェクト（JSON配列ではありません）
Parquet	`.parquet`	列名がフィールド名になります；型を保持

形式の注意点：

CSV：型情報が失われます -- 日付は文字列に、null は空文字列になります。型を保持するにはJSON/Parquetを使用してください。
JSONL：各行は個別のJSONオブジェクトです。.jsonl ファイル内のJSON配列（[{...}, {...}]）は失敗します -- 代わりに .json 拡張子を使用してください。
Parquet：列の型を保持します。ローカルで読み取るには pandas/pyarrow が必要です：pd.read_parquet("examples.parquet")。

例の追記：`ax datasets append`

既存のデータセットに例を追加します。2つの入力モード -- 適切な方を使用してください。

インラインJSON（エージェント向け）

ペイロードを直接生成します。一時ファイルは不要です：

ax datasets append DATASET_NAME --space SPACE --json '[{"question": "What is 2+2?", "answer": "4"}]'

ax datasets append DATASET_NAME --space SPACE --json '[
  {"question": "What is gravity?", "answer": "A fundamental force..."},
  {"question": "What is light?", "answer": "Electromagnetic radiation..."}
]'

ファイルから

ax datasets append DATASET_NAME --space SPACE --file new_examples.csv
ax datasets append DATASET_NAME --space SPACE --file additions.json

特定のバージョンに追記

ax datasets append DATASET_NAME --space SPACE --json '[{"q": "..."}]' --version-id VERSION_ID

フラグ

フラグ	型	必須	説明
`NAME_OR_ID`	string	yes	データセット名またはID（位置引数）；名前を使用する場合は `--space` を追加
`--space`	string	no	スペース名またはID（IDの代わりにデータセット名を使用する場合は必須）
`--json`	string	mutex	例オブジェクトのJSON配列
`--file, -f`	path	mutex	データファイル（CSV、JSON、JSONL、Parquet）
`--version-id`	string	no	特定のバージョンに追記（デフォルト：latest）
`-o, --output`	string	no	返されたデータセットメタデータの出力形式
`-p, --profile`	string	no	設定プロフィール

--json または --file のいずれか1つは必須です。

検証

各例は少なくとも1つのユーザー定義フィールドを持つJSONオブジェクトである必要があります
リクエストあたり最大100,000例

追記前のスキーマ検証： データセットに既に例がある場合は、追記前にそのスキーマを検査してフィールド名の不一致を避けてください：

# データセット内の既存フィールド名を確認
ax datasets export DATASET_NAME --space SPACE --stdout | jq '.[0] | keys'

# 新しいデータが一致するフィールド名を持つことを確認
echo '[{"question": "..."}]' | jq '.[0] | keys'

# 両方の出力は同じユーザー定義フィールドを示す必要があります

フィールドは自由形式です：新しい例の余分なフィールドは追加され、見落としたフィールドはnullになります。ただし、フィールド名のタイプミス（例：queston vs question）は新しい列を暗黙的に作成します。追記する前にスペルを確認してください。

データセット削除：`ax datasets delete`

ax datasets delete NAME_OR_ID
ax datasets delete NAME_OR_ID --space SPACE   # IDの代わりにデータセット名を使用する場合は必須
ax datasets delete NAME_OR_ID --force   # 確認プロンプトをスキップ

フラグ

フラグ	型	デフォルト	説明
`NAME_OR_ID`	string	必須	データセット名またはID（位置引数）
`--space`	string	なし	スペース名またはID（IDの代わりにデータセット名を使用する場合は必須）
`--force, -f`	bool	false	確認プロンプトをスキップ
`-p, --profile`	string	default	設定プロフィール

ワークフロー

名前でデータセットを探す

すべてのデータセットコマンドは名前またはIDを直接受け入れます。位置引数としてデータセット名を渡すことができます（IDを使用していない場合は --space SPACE を追加）：

# 名前を直接使用
ax datasets get "eval-set-v1" --space SPACE
ax datasets export "eval-set-v1" --space SPACE

# または、Base64 IDが必要な場合はリストを使用して名前をIDに解決
ax datasets list -o json | jq '.[] | select(.name == "eval-set-v1") | .id'

評価用のファイルからデータセットを作成

評価列を含むCSV/JSON/Parquetファイルを準備してください（例：input、expected_output）
- データをインラインで生成する場合は、--file - を使用して標準入力経由でパイプしてください（「データセット作成」セクションを参照）
ax datasets create --name "eval-set-v1" --space SPACE --file eval_data.csv
検証：ax datasets get DATASET_NAME --space SPACE
データセット名を使用して実験を実行

既存のデータセットに例を追加

# データセットを探す
ax datasets list --space SPACE

# データセット名を使用してインラインまたはファイルから追記してください（完全な構文については「例の追記」セクションを参照）
ax datasets append DATASET_NAME --space SPACE --json '[{"question": "...", "answer": "..."}]'
ax datasets append DATASET_NAME --space SPACE --file additional_examples.csv

オフライン分析用にデータセットをダウンロード

ax datasets list --space SPACE -- データセット名を探す
ax datasets export DATASET_NAME --space SPACE -- ファイルにダウンロード
JSONを解析：jq '.[] | .question' dataset_*/examples.json

特定のバージョンをエクスポート

# バージョンをリスト表示
ax datasets get DATASET_NAME --space SPACE -o json | jq '.versions'

# そのバージョンをエクスポート
ax datasets export DATASET_NAME --space SPACE --version-id VERSION_ID

データセットを繰り返す

現在のバージョンをエクスポート：ax datasets export DATASET_NAME --space SPACE
例をローカルで変更
新しい行を追記：ax datasets append DATASET_NAME --space SPACE --file new_rows.csv
または新しいバージョンを作成：ax datasets create --name "eval-set-v2" --space SPACE --file updated_data.json

エクスポートを他のツールにパイプ

# 例をカウント
ax datasets export DATASET_NAME --space SPACE --stdout | jq 'length'

# 単一フィールドを抽出
ax datasets export DATASET_NAME --space SPACE --stdout | jq '.[].question'

# jqを使用してCSVに変換
ax datasets export DATASET_NAME --space SPACE --stdout | jq -r '.[] | [.question, .answer] | @csv'

データセット例スキーマ

例は自由形式のJSONオブジェクトです。固定スキーマはなく、列は提供するフィールドです。システム管理フィールドはサーバーによって追加されます：

フィールド	型	管理者	注記
`id`	string	server	自動生成UUID。更新時は必須、作成時/追記時は禁止
`created_at`	datetime	server	不変の作成タイムスタンプ
`updated_at`	datetime	server	変更時に自動更新
(任意のユーザーフィールド)	any JSON type	user	文字列、数値、ブール値、null、ネストされたオブジェクト、配列

トラブルシューティング

問題	解決策
`ax: command not found`	references/ax-setup.md を参照
`401 Unauthorized`	APIキーが間違っている、期限切れ、またはこのスペースへのアクセス権がない。references/ax-profiles.md を使用してプロフィールを修正してください。
`No profile found`	プロフィールが設定されていません。references/ax-profiles.md を参照して作成してください。
`Dataset not found`	`ax datasets list` でデータセットIDを検証
`File format error`	サポート対象：CSV、JSON、JSONL、Parquet。`--file -` を使用して標準入力から読み取ります。
`platform-managed column`	作成/追記ペイロードから `id`、`created_at`、`updated_at` を削除
`reserved column`	`time`、`count`、または任意の `source_record_*` フィールドを削除
`Provide either --json or --file`	追記には正確に1つの入力ソースが必要
`Examples array is empty`	JSONファイルが少なくとも1つの例を含むことを確認
`not a JSON object`	`--json` 配列の各要素は文字列または数値ではなく `{...}` オブジェクトである必要があります

将来の使用のために認証情報を保存

references/ax-profiles.md § 将来の使用のために認証情報を保存を参照。

ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

詳細情報

作者: github
リポジトリ: github/awesome-copilot
ライセンス: MIT
最終更新: 不明

GitHubで原本を見る →フィードバックを送る

Source: https://github.com/github/awesome-copilot / ライセンス: MIT

SKILL.md 本文

Arize Dataset Skill

概念

前提条件

データセット一覧表示：ax datasets list

フラグ

データセット取得：ax datasets get

フラグ

レスポンスフィールド

データセットエクスポート：ax datasets export

フラグ

データセット作成：ax datasets create

フラグ