Agent Skills by ALSEL
Anthropic Claudeソフトウェア開発⭐ リポ 0品質スコア 50/100

huggingface-datasets

Hugging Face Dataset Viewer APIを使ったワークフローに活用するスキルで、サブセット・スプリットのメタデータ取得、行のページネーション、テキスト検索、フィルタリング、ParquetファイルのURLダウンロード、サイズや統計情報の参照などを行う際に使用します。

description の原文を見る

Use this skill for Hugging Face Dataset Viewer API workflows that fetch subset/split metadata, paginate rows, search text, apply filters, download parquet URLs, and read size or statistics.

SKILL.md 本文

Hugging Face Dataset Viewer

このスキルを使用して、データセット探索と抽出のための読み取り専用 Dataset Viewer API 呼び出しを実行します。

コアワークフロー

  1. オプションで /is-valid でデータセットの可用性を検証します。
  2. /splitsconfig + split を解決します。
  3. /first-rows でプレビューします。
  4. offsetlength (最大 100) を使用して /rows でコンテンツをページネーションします。
  5. テキストマッチングには /search を、行述語フィルタリングには /filter を使用します。
  6. /parquet で parquet リンク、/size/statistics で合計とメタデータを取得します。

デフォルト設定

  • ベース URL: https://datasets-server.huggingface.co
  • デフォルト API メソッド: GET
  • クエリパラメータは URL エンコードする必要があります。
  • offset は 0 ベースです。
  • length の最大値は通常、行関連エンドポイントで 100 です。
  • ゲート保護/プライベートデータセットには Authorization: Bearer <HF_TOKEN> が必要です。

Dataset Viewer

  • データセットの検証: /is-valid?dataset=<namespace/repo>
  • サブセットと分割のリスト: /splits?dataset=<namespace/repo>
  • 最初の行をプレビュー: /first-rows?dataset=<namespace/repo>&config=<config>&split=<split>
  • 行をページネーション: /rows?dataset=<namespace/repo>&config=<config>&split=<split>&offset=<int>&length=<int>
  • テキストを検索: /search?dataset=<namespace/repo>&config=<config>&split=<split>&query=<text>&offset=<int>&length=<int>
  • 述語でフィルタリング: /filter?dataset=<namespace/repo>&config=<config>&split=<split>&where=<predicate>&orderby=<sort>&offset=<int>&length=<int>
  • parquet シャードをリスト: /parquet?dataset=<namespace/repo>
  • サイズ合計を取得: /size?dataset=<namespace/repo>
  • 列統計を取得: /statistics?dataset=<namespace/repo>&config=<config>&split=<split>
  • Croissant メタデータを取得 (利用可能な場合): /croissant?dataset=<namespace/repo>

ページネーションパターン:

curl "https://datasets-server.huggingface.co/rows?dataset=stanfordnlp/imdb&config=plain_text&split=train&offset=0&length=100"
curl "https://datasets-server.huggingface.co/rows?dataset=stanfordnlp/imdb&config=plain_text&split=train&offset=100&length=100"

ページネーションが部分的な場合は、num_rows_totalnum_rows_per_pagepartial などのレスポンスフィールドを使用して継続ロジックを駆動します。

検索/フィルタに関する注記:

  • /search は文字列列にマッチします (全文検索スタイルの動作は API 内部です)。
  • /filterwhere の述語構文と orderby のオプションのソートが必要です。
  • フィルタリングと検索は読み取り専用で副作用がないようにしてください。

CLI ベースの parquet URL 検出または SQL については、hf-cli スキルで hf datasets parquethf datasets sql を使用してください。

データセットの作成とアップロード

依存関係の制約に応じて、以下のいずれかのフローを使用します。

ローカルの依存関係がない (Hub UI):

  • ブラウザでデータセットリポジトリを作成: https://huggingface.co/new-dataset
  • リポジトリの「Files and versions」ページで parquet ファイルをアップロードします。
  • Dataset Viewer でシャードが表示されることを確認:
curl -s "https://datasets-server.huggingface.co/parquet?dataset=<namespace>/<repo>"

低依存関係 CLI フロー (npx @huggingface/hub / hfjs):

  • 認証トークンを設定:
export HF_TOKEN=<your_hf_token>
  • parquet フォルダをデータセットリポジトリにアップロード (リポジトリが不足している場合は自動作成):
npx -y @huggingface/hub upload datasets/<namespace>/<repo> ./local/parquet-folder data
  • 作成時にプライベートリポジトリとしてアップロード:
npx -y @huggingface/hub upload datasets/<namespace>/<repo> ./local/parquet-folder data --private

アップロード後、/parquet を呼び出して <config>/<split>/<shard> の値を検出し、@~parquet でクエリします。

Agent Traces

Hub は Claude Code、Codex、Pi Agent からの raw agent セッショントレースをサポートしています。元の JSONL ファイルとして Hugging Face Datasets にアップロードすると、Hub はトレース形式を自動検出し、データセットに Traces タグを付け、セッション、ターン、ツール呼び出し、モデルレスポンスをブラウジングするためのトレースビューアを有効にします。一般的なローカルセッションディレクトリ:

  • Claude Code: ~/.claude/projects
  • Codex: ~/.codex/sessions
  • Pi: ~/.pi/agent/sessions

トレースにはプロンプト、ファイルパス、ツール出力、シークレット、または PII が含まれる可能性があるため、デフォルトでプライベートデータセットリポジトリを使用します。raw .jsonl ファイルを保持し、すべてのセッションをデータセットルートにアップロードするのではなく、プロジェクト/cwd でそれらをネストします。

hf repos create <namespace>/<repo> --type dataset --private --exist-ok
hf upload <namespace>/<repo> ~/.codex/sessions codex/<project-or-cwd> --type dataset

ライセンス: Apache-2.0(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

詳細情報

作者
huggingface
リポジトリ
huggingface/skills
ライセンス
Apache-2.0
最終更新
不明

Source: https://github.com/huggingface/skills / ライセンス: Apache-2.0

関連スキル

汎用ソフトウェア開発⭐ リポ 39,967

doubt-driven-development

重要な判断はすべて、本番環境への展開前に新しい視点から対抗的レビューを実施します。速度より正確性が重要な場合、不慣れなコードを扱う場合、本番環境・セキュリティに関わるロジック・取り消し不可の操作など影響度が高い場合、または後でバグを修正するよりも今検証する方が効率的な場合に活用してください。

by addyosmani
汎用ソフトウェア開発⭐ リポ 1,175

apprun-skills

TypeScriptを使用したAppRunアプリケーションのMVU設計に関する総合的なガイダンスが得られます。コンポーネントパターン、イベントハンドリング、状態管理(非同期ジェネレータを含む)、パラメータと保護機能を備えたルーティング・ナビゲーション、vistestを使用したテストに対応しています。AppRunコンポーネントの設計・レビュー、ルートの配線、状態フローの管理、AppRunテストの作成時に活用してください。

by yysun
OpenAIソフトウェア開発⭐ リポ 797

desloppify

コードベースのヘルスチェックと技術負債の追跡ツールです。コード品質、技術負債、デッドコード、大規模ファイル、ゴッドクラス、重複関数、コードスメル、命名規則の問題、インポートサイクル、結合度の問題についてユーザーが質問した場合に使用してください。また、ヘルススコアの確認、次の改善項目の提案、クリーンアップ計画の作成をリクエストされた際にも対応します。29言語に対応しています。

by Git-on-my-level
汎用ソフトウェア開発⭐ リポ 39,967

debugging-and-error-recovery

テストが失敗したり、ビルドが壊れたり、動作が期待と異なったり、予期しないエラーが発生したりした場合に、体系的な根本原因デバッグをガイドします。推測ではなく、根本原因を見つけて修正するための体系的なアプローチが必要な場合に使用してください。

by addyosmani
汎用ソフトウェア開発⭐ リポ 39,967

test-driven-development

テスト駆動開発により実装を進めます。ロジックの実装、バグの修正、動作の変更など、あらゆる場面で活用できます。コードが正常に動作することを証明する必要がある場合、バグ報告を受けた場合、既存機能を修正する予定がある場合に使用してください。

by addyosmani
汎用ソフトウェア開発⭐ リポ 39,967

incremental-implementation

変更を段階的に実施します。複数のファイルに影響する機能や変更を実装する場合に使用してください。大量のコードを一度に書こうとしている場合や、タスクが一度では完結できないほど大きい場合に活用します。

by addyosmani
本サイトは GitHub 上で公開されているオープンソースの SKILL.md ファイルをクロール・インデックス化したものです。 各スキルの著作権は原作者に帰属します。掲載に問題がある場合は info@alsel.co.jp または /takedown フォームよりご連絡ください。
原作者: huggingface · huggingface/skills · ライセンス: Apache-2.0