Anthropic Claudeソフトウェア開発⭐ リポ 0品質スコア 50/100

huggingface-datasets

Name: huggingface-datasets
Author: huggingface

Hugging Face Dataset Viewer APIを使ったワークフローに活用するスキルで、サブセット・スプリットのメタデータ取得、行のページネーション、テキスト検索、フィルタリング、ParquetファイルのURLダウンロード、サイズや統計情報の参照などを行う際に使用します。

description の原文を見る

Use this skill for Hugging Face Dataset Viewer API workflows that fetch subset/split metadata, paginate rows, search text, apply filters, download parquet URLs, and read size or statistics.

SKILL.md 本文

Hugging Face Dataset Viewer

このスキルを使用して、データセット探索と抽出のための読み取り専用 Dataset Viewer API 呼び出しを実行します。

コアワークフロー

オプションで /is-valid でデータセットの可用性を検証します。
/splits で config + split を解決します。
/first-rows でプレビューします。
offset と length (最大 100) を使用して /rows でコンテンツをページネーションします。
テキストマッチングには /search を、行述語フィルタリングには /filter を使用します。
/parquet で parquet リンク、/size と /statistics で合計とメタデータを取得します。

デフォルト設定

ベース URL: https://datasets-server.huggingface.co
デフォルト API メソッド: GET
クエリパラメータは URL エンコードする必要があります。
offset は 0 ベースです。
length の最大値は通常、行関連エンドポイントで 100 です。
ゲート保護/プライベートデータセットには Authorization: Bearer <HF_TOKEN> が必要です。

Dataset Viewer

データセットの検証: /is-valid?dataset=<namespace/repo>
サブセットと分割のリスト: /splits?dataset=<namespace/repo>
最初の行をプレビュー: /first-rows?dataset=<namespace/repo>&config=<config>&split=<split>
行をページネーション: /rows?dataset=<namespace/repo>&config=<config>&split=<split>&offset=<int>&length=<int>
テキストを検索: /search?dataset=<namespace/repo>&config=<config>&split=<split>&query=<text>&offset=<int>&length=<int>
述語でフィルタリング: /filter?dataset=<namespace/repo>&config=<config>&split=<split>&where=<predicate>&orderby=<sort>&offset=<int>&length=<int>
parquet シャードをリスト: /parquet?dataset=<namespace/repo>
サイズ合計を取得: /size?dataset=<namespace/repo>
列統計を取得: /statistics?dataset=<namespace/repo>&config=<config>&split=<split>
Croissant メタデータを取得 (利用可能な場合): /croissant?dataset=<namespace/repo>

ページネーションパターン:

curl "https://datasets-server.huggingface.co/rows?dataset=stanfordnlp/imdb&config=plain_text&split=train&offset=0&length=100"
curl "https://datasets-server.huggingface.co/rows?dataset=stanfordnlp/imdb&config=plain_text&split=train&offset=100&length=100"

ページネーションが部分的な場合は、num_rows_total、num_rows_per_page、partial などのレスポンスフィールドを使用して継続ロジックを駆動します。

検索/フィルタに関する注記:

/search は文字列列にマッチします (全文検索スタイルの動作は API 内部です)。
/filter は where の述語構文と orderby のオプションのソートが必要です。
フィルタリングと検索は読み取り専用で副作用がないようにしてください。

CLI ベースの parquet URL 検出または SQL については、hf-cli スキルで hf datasets parquet と hf datasets sql を使用してください。

データセットの作成とアップロード

依存関係の制約に応じて、以下のいずれかのフローを使用します。

ローカルの依存関係がない (Hub UI):

ブラウザでデータセットリポジトリを作成: https://huggingface.co/new-dataset
リポジトリの「Files and versions」ページで parquet ファイルをアップロードします。
Dataset Viewer でシャードが表示されることを確認:

curl -s "https://datasets-server.huggingface.co/parquet?dataset=<namespace>/<repo>"

低依存関係 CLI フロー (npx @huggingface/hub / hfjs):

認証トークンを設定:

export HF_TOKEN=<your_hf_token>

parquet フォルダをデータセットリポジトリにアップロード (リポジトリが不足している場合は自動作成):

npx -y @huggingface/hub upload datasets/<namespace>/<repo> ./local/parquet-folder data

作成時にプライベートリポジトリとしてアップロード:

npx -y @huggingface/hub upload datasets/<namespace>/<repo> ./local/parquet-folder data --private

アップロード後、/parquet を呼び出して <config>/<split>/<shard> の値を検出し、@~parquet でクエリします。

Agent Traces

Hub は Claude Code、Codex、Pi Agent からの raw agent セッショントレースをサポートしています。元の JSONL ファイルとして Hugging Face Datasets にアップロードすると、Hub はトレース形式を自動検出し、データセットに Traces タグを付け、セッション、ターン、ツール呼び出し、モデルレスポンスをブラウジングするためのトレースビューアを有効にします。一般的なローカルセッションディレクトリ:

Claude Code: ~/.claude/projects
Codex: ~/.codex/sessions
Pi: ~/.pi/agent/sessions

トレースにはプロンプト、ファイルパス、ツール出力、シークレット、または PII が含まれる可能性があるため、デフォルトでプライベートデータセットリポジトリを使用します。raw .jsonl ファイルを保持し、すべてのセッションをデータセットルートにアップロードするのではなく、プロジェクト/cwd でそれらをネストします。

hf repos create <namespace>/<repo> --type dataset --private --exist-ok
hf upload <namespace>/<repo> ~/.codex/sessions codex/<project-or-cwd> --type dataset

ライセンス: Apache-2.0(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

詳細情報

作者: huggingface
リポジトリ: huggingface/skills
ライセンス: Apache-2.0
最終更新: 不明

GitHubで原本を見る →フィードバックを送る

Source: https://github.com/huggingface/skills / ライセンス: Apache-2.0

huggingface-datasets

SKILL.md 本文

Hugging Face Dataset Viewer

コアワークフロー

デフォルト設定

Dataset Viewer

データセットの作成とアップロード

Agent Traces

詳細情報

関連スキル

doubt-driven-development

apprun-skills

desloppify

debugging-and-error-recovery

test-driven-development

incremental-implementation