nemo-curator
LLMトレーニング向けのGPUアクセラレーション対応データキュレーションツールです。テキスト・画像・動画・音声に対応し、ファジー重複除去(従来比16倍高速)、品質フィルタリング(30以上のヒューリスティクス)、セマンティック重複除去、PII除去、NSFWコンテンツ検出などの機能を備えています。RAPIDSを活用して複数GPUにスケールするため、高品質な学習データセットの準備、Webデータのクリーニング、大規模コーパスの重複除去に活用できます。
description の原文を見る
GPU-accelerated data curation for LLM training. Supports text/image/video/audio. Features fuzzy deduplication (16× faster), quality filtering (30+ heuristics), semantic deduplication, PII redaction, NSFW detection. Scales across GPUs with RAPIDS. Use for preparing high-quality training datasets, cleaning web data, or deduplicating large corpora.
SKILL.md 本文
NeMo Curator - GPU加速データキュレーション
LLM用の高品質なトレーニングデータを準備するためのNVIDIAツールキット。
NeMo Curator を使う場合
以下の場合に NeMo Curator を使用してください:
- Web スクレイプ (Common Crawl) から LLM トレーニングデータを準備する
- 高速な重複排除が必要 (CPU より16倍高速)
- マルチモーダルデータセット (テキスト、画像、ビデオ、オーディオ) をキュレーションする
- 低品質または有害なコンテンツをフィルタリングする
- GPU クラスタ全体でデータ処理をスケーリングする
パフォーマンス:
- 16倍高速 なファジー重複排除 (8TB RedPajama v2)
- 40% 低い TCO (CPU 代替案と比較)
- ほぼリニアスケーリング (GPU ノード間)
代わりに以下の選択肢を検討してください:
- datatrove: CPU ベース、オープンソースデータ処理
- dolma: Allen AI のデータツールキット
- Ray Data: 汎用 ML データ処理 (キュレーション特化ではない)
クイックスタート
インストール
# Text curation (CUDA 12)
uv pip install "nemo-curator[text_cuda12]"
# All modalities
uv pip install "nemo-curator[all_cuda12]"
# CPU-only (slower)
uv pip install "nemo-curator[cpu]"
基本的なテキストキュレーションパイプライン
from nemo_curator import ScoreFilter, Modify
from nemo_curator.datasets import DocumentDataset
import pandas as pd
# Load data
df = pd.DataFrame({"text": ["Good document", "Bad doc", "Excellent text"]})
dataset = DocumentDataset(df)
# Quality filtering
def quality_score(doc):
return len(doc["text"].split()) > 5 # Filter short docs
filtered = ScoreFilter(quality_score)(dataset)
# Deduplication
from nemo_curator.modules import ExactDuplicates
deduped = ExactDuplicates()(filtered)
# Save
deduped.to_parquet("curated_data/")
データキュレーションパイプライン
ステージ 1: 品質フィルタリング
from nemo_curator.filters import (
WordCountFilter,
RepeatedLinesFilter,
UrlRatioFilter,
NonAlphaNumericFilter
)
# Apply 30+ heuristic filters
from nemo_curator import ScoreFilter
# Word count filter
dataset = dataset.filter(WordCountFilter(min_words=50, max_words=100000))
# Remove repetitive content
dataset = dataset.filter(RepeatedLinesFilter(max_repeated_line_fraction=0.3))
# URL ratio filter
dataset = dataset.filter(UrlRatioFilter(max_url_ratio=0.2))
ステージ 2: 重複排除
完全一致重複排除:
from nemo_curator.modules import ExactDuplicates
# Remove exact duplicates
deduped = ExactDuplicates(id_field="id", text_field="text")(dataset)
ファジー重複排除 (GPU で16倍高速):
from nemo_curator.modules import FuzzyDuplicates
# MinHash + LSH deduplication
fuzzy_dedup = FuzzyDuplicates(
id_field="id",
text_field="text",
num_hashes=260, # MinHash parameters
num_buckets=20,
hash_method="md5"
)
deduped = fuzzy_dedup(dataset)
セマンティック重複排除:
from nemo_curator.modules import SemanticDuplicates
# Embedding-based deduplication
semantic_dedup = SemanticDuplicates(
id_field="id",
text_field="text",
embedding_model="sentence-transformers/all-MiniLM-L6-v2",
threshold=0.8 # Cosine similarity threshold
)
deduped = semantic_dedup(dataset)
ステージ 3: PII マスキング
from nemo_curator.modules import Modify
from nemo_curator.modifiers import PIIRedactor
# Redact personally identifiable information
pii_redactor = PIIRedactor(
supported_entities=["EMAIL_ADDRESS", "PHONE_NUMBER", "PERSON", "LOCATION"],
anonymize_action="replace" # or "redact"
)
redacted = Modify(pii_redactor)(dataset)
ステージ 4: 分類器フィルタリング
from nemo_curator.classifiers import QualityClassifier
# Quality classification
quality_clf = QualityClassifier(
model_path="nvidia/quality-classifier-deberta",
batch_size=256,
device="cuda"
)
# Filter low-quality documents
high_quality = dataset.filter(lambda doc: quality_clf(doc["text"]) > 0.5)
GPU アクセラレーション
GPU vs CPU パフォーマンス
| 処理 | CPU (16コア) | GPU (A100) | 高速化 |
|---|---|---|---|
| ファジー重複排除 (8TB) | 120 時間 | 7.5 時間 | 16× |
| 完全一致重複排除 (1TB) | 8 時間 | 0.5 時間 | 16× |
| 品質フィルタリング | 2 時間 | 0.2 時間 | 10× |
マルチ GPU スケーリング
from nemo_curator import get_client
import dask_cuda
# Initialize GPU cluster
client = get_client(cluster_type="gpu", n_workers=8)
# Process with 8 GPUs
deduped = FuzzyDuplicates(...)(dataset)
マルチモーダルキュレーション
画像キュレーション
from nemo_curator.image import (
AestheticFilter,
NSFWFilter,
CLIPEmbedder
)
# Aesthetic scoring
aesthetic_filter = AestheticFilter(threshold=5.0)
filtered_images = aesthetic_filter(image_dataset)
# NSFW detection
nsfw_filter = NSFWFilter(threshold=0.9)
safe_images = nsfw_filter(filtered_images)
# Generate CLIP embeddings
clip_embedder = CLIPEmbedder(model="openai/clip-vit-base-patch32")
image_embeddings = clip_embedder(safe_images)
ビデオキュレーション
from nemo_curator.video import (
SceneDetector,
ClipExtractor,
InternVideo2Embedder
)
# Detect scenes
scene_detector = SceneDetector(threshold=27.0)
scenes = scene_detector(video_dataset)
# Extract clips
clip_extractor = ClipExtractor(min_duration=2.0, max_duration=10.0)
clips = clip_extractor(scenes)
# Generate embeddings
video_embedder = InternVideo2Embedder()
video_embeddings = video_embedder(clips)
オーディオキュレーション
from nemo_curator.audio import (
ASRInference,
WERFilter,
DurationFilter
)
# ASR transcription
asr = ASRInference(model="nvidia/stt_en_fastconformer_hybrid_large_pc")
transcribed = asr(audio_dataset)
# Filter by WER (word error rate)
wer_filter = WERFilter(max_wer=0.3)
high_quality_audio = wer_filter(transcribed)
# Duration filtering
duration_filter = DurationFilter(min_duration=1.0, max_duration=30.0)
filtered_audio = duration_filter(high_quality_audio)
一般的なパターン
Web スクレイプキュレーション (Common Crawl)
from nemo_curator import ScoreFilter, Modify
from nemo_curator.filters import *
from nemo_curator.modules import *
from nemo_curator.datasets import DocumentDataset
# Load Common Crawl data
dataset = DocumentDataset.read_parquet("common_crawl/*.parquet")
# Pipeline
pipeline = [
# 1. Quality filtering
WordCountFilter(min_words=100, max_words=50000),
RepeatedLinesFilter(max_repeated_line_fraction=0.2),
SymbolToWordRatioFilter(max_symbol_to_word_ratio=0.3),
UrlRatioFilter(max_url_ratio=0.3),
# 2. Language filtering
LanguageIdentificationFilter(target_languages=["en"]),
# 3. Deduplication
ExactDuplicates(id_field="id", text_field="text"),
FuzzyDuplicates(id_field="id", text_field="text", num_hashes=260),
# 4. PII redaction
PIIRedactor(),
# 5. NSFW filtering
NSFWClassifier(threshold=0.8)
]
# Execute
for stage in pipeline:
dataset = stage(dataset)
# Save
dataset.to_parquet("curated_common_crawl/")
分散処理
from nemo_curator import get_client
from dask_cuda import LocalCUDACluster
# Multi-GPU cluster
cluster = LocalCUDACluster(n_workers=8)
client = get_client(cluster=cluster)
# Process large dataset
dataset = DocumentDataset.read_parquet("s3://large_dataset/*.parquet")
deduped = FuzzyDuplicates(...)(dataset)
# Cleanup
client.close()
cluster.close()
パフォーマンスベンチマーク
ファジー重複排除 (8TB RedPajama v2)
- CPU (256コア): 120 時間
- GPU (8× A100): 7.5 時間
- 高速化: 16×
完全一致重複排除 (1TB)
- CPU (64コア): 8 時間
- GPU (4× A100): 0.5 時間
- 高速化: 16×
品質フィルタリング (100GB)
- CPU (32コア): 2 時間
- GPU (2× A100): 0.2 時間
- 高速化: 10×
コスト比較
CPU ベースのキュレーション (AWS c5.18xlarge × 10):
- コスト: $3.60/時間 × 10 = $36/時間
- 8TB の処理時間: 120 時間
- 合計: $4,320
GPU ベースのキュレーション (AWS p4d.24xlarge × 2):
- コスト: $32.77/時間 × 2 = $65.54/時間
- 8TB の処理時間: 7.5 時間
- 合計: $491.55
節約額: 89% 削減 ($3,828 節約)
サポートされるデータ形式
- 入力: Parquet、JSONL、CSV
- 出力: Parquet (推奨)、JSONL
- WebDataset: マルチモーダル用 TAR アーカイブ
ユースケース
本番環境への導入:
- NVIDIA は NeMo Curator を使用して Nemotron-4 トレーニングデータを準備
- キュレーション済みオープンソースデータセット: RedPajama v2、The Pile
参考資料
フィルタリングガイド- 30+ 品質フィルタ、ヒューリスティック重複排除ガイド- 完全一致、ファジー、セマンティック手法
リソース
- GitHub: https://github.com/NVIDIA/NeMo-Curator ⭐ 500+
- ドキュメント: https://docs.nvidia.com/nemo-framework/user-guide/latest/datacuration/
- バージョン: 0.4.0+
- ライセンス: Apache 2.0
ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- davila7
- ライセンス
- MIT
- 最終更新
- 不明
Source: https://github.com/davila7/claude-code-templates / ライセンス: MIT
関連スキル
agent-browser
AI エージェント向けのブラウザ自動化 CLI です。ウェブサイトとの対話が必要な場合に使用します。ページ遷移、フォーム入力、ボタンクリック、スクリーンショット取得、データ抽出、ウェブアプリのテスト、ブラウザ操作の自動化など、あらゆるブラウザタスクに対応できます。「ウェブサイトを開く」「フォームに記入する」「ボタンをクリックする」「スクリーンショットを取得する」「ページからデータを抽出する」「このウェブアプリをテストする」「サイトにログインする」「ブラウザ操作を自動化する」といった要求や、プログラマティックなウェブ操作が必要なタスクで起動します。
anyskill
AnySkill — あなたのプライベート・スキルクラウド。GitHubを基盤としたリポジトリからエージェントスキルを管理、同期、動的にロードできます。自然言語でクラウドスキルを検索し、オンデマンドでプロンプトを自動ロード、カスタムスキルのアップロードと共有、スキルバンドルの一括インストールが可能です。OpenClaw、Antigravity、Claude Code、Cursorに対応しています。
engram
AIエージェント向けの永続的なメモリシステムです。バグ修正、意思決定、発見、設定変更の後はmem_saveを使用してください。ユーザーが「覚えている」「記憶している」と言及した場合、または以前のセッションと重複する作業を開始する際はmem_searchを使用します。セッション終了前にmem_session_summaryを使用して、コンテキストを保持してください。
skyvern
AI駆動のブラウザ自動化により、任意のウェブサイトを自動化できます。フォーム入力、データ抽出、ファイルダウンロード、ログイン、複数ステップのワークフロー実行など、ユーザーがウェブサイトと連携する必要があるときに使用します。Skyvernは、LLMとコンピュータビジョンを活用して、未知のサイトも自動操作可能です。Python SDK、TypeScript SDK、REST API、MCPサーバー、またはCLIを通じて統合できます。
pinchbench
PinchBenchベンチマークを実行して、OpenClawエージェントの実世界タスクにおけるパフォーマンスを評価できます。モデルの機能テスト、モデル間の比較、ベンチマーク結果のリーダーボード提出、またはOpenClawのセットアップがカレンダー、メール、リサーチ、コーディング、複数ステップのワークフローにどの程度対応しているかを確認する際に使用します。
openui
OpenUIとOpenUI Langを使用してジェネレーティブUIアプリを構築できます。これらはLLM生成インターフェースのためのトークン効率的なオープン標準です。OpenUI、@openuidev、ジェネレーティブUI、LLMからのストリーミングUI、AI向けコンポーネントライブラリ、またはjson-render/A2UIの置き換えについて述べる際に使用します。スキャフォルディング、defineComponent、システムプロンプト、Renderer、およびOpenUI Lang出力のデバッグに対応しています。