huggingface-datasets
Hugging Face Dataset Viewer APIを使ったワークフローに活用するスキルで、サブセット・スプリットのメタデータ取得、行のページネーション、テキスト検索、フィルタリング、ParquetファイルのURLダウンロード、サイズや統計情報の参照などを行う際に使用します。
description の原文を見る
Use this skill for Hugging Face Dataset Viewer API workflows that fetch subset/split metadata, paginate rows, search text, apply filters, download parquet URLs, and read size or statistics.
SKILL.md 本文
Hugging Face Dataset Viewer
このスキルを使用して、データセット探索と抽出のための読み取り専用 Dataset Viewer API 呼び出しを実行します。
コアワークフロー
- オプションで
/is-validでデータセットの可用性を検証します。 /splitsでconfig+splitを解決します。/first-rowsでプレビューします。offsetとlength(最大 100) を使用して/rowsでコンテンツをページネーションします。- テキストマッチングには
/searchを、行述語フィルタリングには/filterを使用します。 /parquetで parquet リンク、/sizeと/statisticsで合計とメタデータを取得します。
デフォルト設定
- ベース URL:
https://datasets-server.huggingface.co - デフォルト API メソッド:
GET - クエリパラメータは URL エンコードする必要があります。
offsetは 0 ベースです。lengthの最大値は通常、行関連エンドポイントで100です。- ゲート保護/プライベートデータセットには
Authorization: Bearer <HF_TOKEN>が必要です。
Dataset Viewer
データセットの検証:/is-valid?dataset=<namespace/repo>サブセットと分割のリスト:/splits?dataset=<namespace/repo>最初の行をプレビュー:/first-rows?dataset=<namespace/repo>&config=<config>&split=<split>行をページネーション:/rows?dataset=<namespace/repo>&config=<config>&split=<split>&offset=<int>&length=<int>テキストを検索:/search?dataset=<namespace/repo>&config=<config>&split=<split>&query=<text>&offset=<int>&length=<int>述語でフィルタリング:/filter?dataset=<namespace/repo>&config=<config>&split=<split>&where=<predicate>&orderby=<sort>&offset=<int>&length=<int>parquet シャードをリスト:/parquet?dataset=<namespace/repo>サイズ合計を取得:/size?dataset=<namespace/repo>列統計を取得:/statistics?dataset=<namespace/repo>&config=<config>&split=<split>Croissant メタデータを取得 (利用可能な場合):/croissant?dataset=<namespace/repo>
ページネーションパターン:
curl "https://datasets-server.huggingface.co/rows?dataset=stanfordnlp/imdb&config=plain_text&split=train&offset=0&length=100"
curl "https://datasets-server.huggingface.co/rows?dataset=stanfordnlp/imdb&config=plain_text&split=train&offset=100&length=100"
ページネーションが部分的な場合は、num_rows_total、num_rows_per_page、partial などのレスポンスフィールドを使用して継続ロジックを駆動します。
検索/フィルタに関する注記:
/searchは文字列列にマッチします (全文検索スタイルの動作は API 内部です)。/filterはwhereの述語構文とorderbyのオプションのソートが必要です。- フィルタリングと検索は読み取り専用で副作用がないようにしてください。
CLI ベースの parquet URL 検出または SQL については、hf-cli スキルで hf datasets parquet と hf datasets sql を使用してください。
データセットの作成とアップロード
依存関係の制約に応じて、以下のいずれかのフローを使用します。
ローカルの依存関係がない (Hub UI):
- ブラウザでデータセットリポジトリを作成:
https://huggingface.co/new-dataset - リポジトリの「Files and versions」ページで parquet ファイルをアップロードします。
- Dataset Viewer でシャードが表示されることを確認:
curl -s "https://datasets-server.huggingface.co/parquet?dataset=<namespace>/<repo>"
低依存関係 CLI フロー (npx @huggingface/hub / hfjs):
- 認証トークンを設定:
export HF_TOKEN=<your_hf_token>
- parquet フォルダをデータセットリポジトリにアップロード (リポジトリが不足している場合は自動作成):
npx -y @huggingface/hub upload datasets/<namespace>/<repo> ./local/parquet-folder data
- 作成時にプライベートリポジトリとしてアップロード:
npx -y @huggingface/hub upload datasets/<namespace>/<repo> ./local/parquet-folder data --private
アップロード後、/parquet を呼び出して <config>/<split>/<shard> の値を検出し、@~parquet でクエリします。
Agent Traces
Hub は Claude Code、Codex、Pi Agent からの raw agent セッショントレースをサポートしています。元の JSONL ファイルとして Hugging Face Datasets にアップロードすると、Hub はトレース形式を自動検出し、データセットに Traces タグを付け、セッション、ターン、ツール呼び出し、モデルレスポンスをブラウジングするためのトレースビューアを有効にします。一般的なローカルセッションディレクトリ:
- Claude Code:
~/.claude/projects - Codex:
~/.codex/sessions - Pi:
~/.pi/agent/sessions
トレースにはプロンプト、ファイルパス、ツール出力、シークレット、または PII が含まれる可能性があるため、デフォルトでプライベートデータセットリポジトリを使用します。raw .jsonl ファイルを保持し、すべてのセッションをデータセットルートにアップロードするのではなく、プロジェクト/cwd でそれらをネストします。
hf repos create <namespace>/<repo> --type dataset --private --exist-ok
hf upload <namespace>/<repo> ~/.codex/sessions codex/<project-or-cwd> --type dataset
ライセンス: Apache-2.0(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- huggingface
- リポジトリ
- huggingface/skills
- ライセンス
- Apache-2.0
- 最終更新
- 不明
Source: https://github.com/huggingface/skills / ライセンス: Apache-2.0
関連スキル
doubt-driven-development
重要な判断はすべて、本番環境への展開前に新しい視点から対抗的レビューを実施します。速度より正確性が重要な場合、不慣れなコードを扱う場合、本番環境・セキュリティに関わるロジック・取り消し不可の操作など影響度が高い場合、または後でバグを修正するよりも今検証する方が効率的な場合に活用してください。
apprun-skills
TypeScriptを使用したAppRunアプリケーションのMVU設計に関する総合的なガイダンスが得られます。コンポーネントパターン、イベントハンドリング、状態管理(非同期ジェネレータを含む)、パラメータと保護機能を備えたルーティング・ナビゲーション、vistestを使用したテストに対応しています。AppRunコンポーネントの設計・レビュー、ルートの配線、状態フローの管理、AppRunテストの作成時に活用してください。
desloppify
コードベースのヘルスチェックと技術負債の追跡ツールです。コード品質、技術負債、デッドコード、大規模ファイル、ゴッドクラス、重複関数、コードスメル、命名規則の問題、インポートサイクル、結合度の問題についてユーザーが質問した場合に使用してください。また、ヘルススコアの確認、次の改善項目の提案、クリーンアップ計画の作成をリクエストされた際にも対応します。29言語に対応しています。
debugging-and-error-recovery
テストが失敗したり、ビルドが壊れたり、動作が期待と異なったり、予期しないエラーが発生したりした場合に、体系的な根本原因デバッグをガイドします。推測ではなく、根本原因を見つけて修正するための体系的なアプローチが必要な場合に使用してください。
test-driven-development
テスト駆動開発により実装を進めます。ロジックの実装、バグの修正、動作の変更など、あらゆる場面で活用できます。コードが正常に動作することを証明する必要がある場合、バグ報告を受けた場合、既存機能を修正する予定がある場合に使用してください。
incremental-implementation
変更を段階的に実施します。複数のファイルに影響する機能や変更を実装する場合に使用してください。大量のコードを一度に書こうとしている場合や、タスクが一度では完結できないほど大きい場合に活用します。