Anthropic ClaudeLLM・AI開発⭐ リポ 0品質スコア 50/100

nemo-curator

Name: nemo-curator
Author: davila7

LLMトレーニング向けのGPUアクセラレーション対応データキュレーションツールです。テキスト・画像・動画・音声に対応し、ファジー重複除去（従来比16倍高速）、品質フィルタリング（30以上のヒューリスティクス）、セマンティック重複除去、PII除去、NSFWコンテンツ検出などの機能を備えています。RAPIDSを活用して複数GPUにスケールするため、高品質な学習データセットの準備、Webデータのクリーニング、大規模コーパスの重複除去に活用できます。

description の原文を見る

GPU-accelerated data curation for LLM training. Supports text/image/video/audio. Features fuzzy deduplication (16× faster), quality filtering (30+ heuristics), semantic deduplication, PII redaction, NSFW detection. Scales across GPUs with RAPIDS. Use for preparing high-quality training datasets, cleaning web data, or deduplicating large corpora.

SKILL.md 本文

NeMo Curator - GPU加速データキュレーション

LLM用の高品質なトレーニングデータを準備するためのNVIDIAツールキット。

NeMo Curator を使う場合

以下の場合に NeMo Curator を使用してください:

Web スクレイプ (Common Crawl) から LLM トレーニングデータを準備する
高速な重複排除が必要 (CPU より16倍高速)
マルチモーダルデータセット (テキスト、画像、ビデオ、オーディオ) をキュレーションする
低品質または有害なコンテンツをフィルタリングする
GPU クラスタ全体でデータ処理をスケーリングする

パフォーマンス:

16倍高速 なファジー重複排除 (8TB RedPajama v2)
40% 低い TCO (CPU 代替案と比較)
ほぼリニアスケーリング (GPU ノード間)

代わりに以下の選択肢を検討してください:

datatrove: CPU ベース、オープンソースデータ処理
dolma: Allen AI のデータツールキット
Ray Data: 汎用 ML データ処理 (キュレーション特化ではない)

クイックスタート

インストール

# Text curation (CUDA 12)
uv pip install "nemo-curator[text_cuda12]"

# All modalities
uv pip install "nemo-curator[all_cuda12]"

# CPU-only (slower)
uv pip install "nemo-curator[cpu]"

基本的なテキストキュレーションパイプライン

from nemo_curator import ScoreFilter, Modify
from nemo_curator.datasets import DocumentDataset
import pandas as pd

# Load data
df = pd.DataFrame({"text": ["Good document", "Bad doc", "Excellent text"]})
dataset = DocumentDataset(df)

# Quality filtering
def quality_score(doc):
    return len(doc["text"].split()) > 5  # Filter short docs

filtered = ScoreFilter(quality_score)(dataset)

# Deduplication
from nemo_curator.modules import ExactDuplicates
deduped = ExactDuplicates()(filtered)

# Save
deduped.to_parquet("curated_data/")

データキュレーションパイプライン

ステージ 1: 品質フィルタリング

from nemo_curator.filters import (
    WordCountFilter,
    RepeatedLinesFilter,
    UrlRatioFilter,
    NonAlphaNumericFilter
)

# Apply 30+ heuristic filters
from nemo_curator import ScoreFilter

# Word count filter
dataset = dataset.filter(WordCountFilter(min_words=50, max_words=100000))

# Remove repetitive content
dataset = dataset.filter(RepeatedLinesFilter(max_repeated_line_fraction=0.3))

# URL ratio filter
dataset = dataset.filter(UrlRatioFilter(max_url_ratio=0.2))

ステージ 2: 重複排除

完全一致重複排除:

from nemo_curator.modules import ExactDuplicates

# Remove exact duplicates
deduped = ExactDuplicates(id_field="id", text_field="text")(dataset)

ファジー重複排除 (GPU で16倍高速):

from nemo_curator.modules import FuzzyDuplicates

# MinHash + LSH deduplication
fuzzy_dedup = FuzzyDuplicates(
    id_field="id",
    text_field="text",
    num_hashes=260,      # MinHash parameters
    num_buckets=20,
    hash_method="md5"
)

deduped = fuzzy_dedup(dataset)

セマンティック重複排除:

from nemo_curator.modules import SemanticDuplicates

# Embedding-based deduplication
semantic_dedup = SemanticDuplicates(
    id_field="id",
    text_field="text",
    embedding_model="sentence-transformers/all-MiniLM-L6-v2",
    threshold=0.8  # Cosine similarity threshold
)

deduped = semantic_dedup(dataset)

ステージ 3: PII マスキング

from nemo_curator.modules import Modify
from nemo_curator.modifiers import PIIRedactor

# Redact personally identifiable information
pii_redactor = PIIRedactor(
    supported_entities=["EMAIL_ADDRESS", "PHONE_NUMBER", "PERSON", "LOCATION"],
    anonymize_action="replace"  # or "redact"
)

redacted = Modify(pii_redactor)(dataset)

ステージ 4: 分類器フィルタリング

from nemo_curator.classifiers import QualityClassifier

# Quality classification
quality_clf = QualityClassifier(
    model_path="nvidia/quality-classifier-deberta",
    batch_size=256,
    device="cuda"
)

# Filter low-quality documents
high_quality = dataset.filter(lambda doc: quality_clf(doc["text"]) > 0.5)

GPU アクセラレーション

GPU vs CPU パフォーマンス

処理	CPU (16コア)	GPU (A100)	高速化
ファジー重複排除 (8TB)	120 時間	7.5 時間	16×
完全一致重複排除 (1TB)	8 時間	0.5 時間	16×
品質フィルタリング	2 時間	0.2 時間	10×

マルチ GPU スケーリング

from nemo_curator import get_client
import dask_cuda

# Initialize GPU cluster
client = get_client(cluster_type="gpu", n_workers=8)

# Process with 8 GPUs
deduped = FuzzyDuplicates(...)(dataset)

マルチモーダルキュレーション

画像キュレーション

from nemo_curator.image import (
    AestheticFilter,
    NSFWFilter,
    CLIPEmbedder
)

# Aesthetic scoring
aesthetic_filter = AestheticFilter(threshold=5.0)
filtered_images = aesthetic_filter(image_dataset)

# NSFW detection
nsfw_filter = NSFWFilter(threshold=0.9)
safe_images = nsfw_filter(filtered_images)

# Generate CLIP embeddings
clip_embedder = CLIPEmbedder(model="openai/clip-vit-base-patch32")
image_embeddings = clip_embedder(safe_images)

ビデオキュレーション

from nemo_curator.video import (
    SceneDetector,
    ClipExtractor,
    InternVideo2Embedder
)

# Detect scenes
scene_detector = SceneDetector(threshold=27.0)
scenes = scene_detector(video_dataset)

# Extract clips
clip_extractor = ClipExtractor(min_duration=2.0, max_duration=10.0)
clips = clip_extractor(scenes)

# Generate embeddings
video_embedder = InternVideo2Embedder()
video_embeddings = video_embedder(clips)

オーディオキュレーション

from nemo_curator.audio import (
    ASRInference,
    WERFilter,
    DurationFilter
)

# ASR transcription
asr = ASRInference(model="nvidia/stt_en_fastconformer_hybrid_large_pc")
transcribed = asr(audio_dataset)

# Filter by WER (word error rate)
wer_filter = WERFilter(max_wer=0.3)
high_quality_audio = wer_filter(transcribed)

# Duration filtering
duration_filter = DurationFilter(min_duration=1.0, max_duration=30.0)
filtered_audio = duration_filter(high_quality_audio)

一般的なパターン

Web スクレイプキュレーション (Common Crawl)

from nemo_curator import ScoreFilter, Modify
from nemo_curator.filters import *
from nemo_curator.modules import *
from nemo_curator.datasets import DocumentDataset

# Load Common Crawl data
dataset = DocumentDataset.read_parquet("common_crawl/*.parquet")

# Pipeline
pipeline = [
    # 1. Quality filtering
    WordCountFilter(min_words=100, max_words=50000),
    RepeatedLinesFilter(max_repeated_line_fraction=0.2),
    SymbolToWordRatioFilter(max_symbol_to_word_ratio=0.3),
    UrlRatioFilter(max_url_ratio=0.3),

    # 2. Language filtering
    LanguageIdentificationFilter(target_languages=["en"]),

    # 3. Deduplication
    ExactDuplicates(id_field="id", text_field="text"),
    FuzzyDuplicates(id_field="id", text_field="text", num_hashes=260),

    # 4. PII redaction
    PIIRedactor(),

    # 5. NSFW filtering
    NSFWClassifier(threshold=0.8)
]

# Execute
for stage in pipeline:
    dataset = stage(dataset)

# Save
dataset.to_parquet("curated_common_crawl/")

分散処理

from nemo_curator import get_client
from dask_cuda import LocalCUDACluster

# Multi-GPU cluster
cluster = LocalCUDACluster(n_workers=8)
client = get_client(cluster=cluster)

# Process large dataset
dataset = DocumentDataset.read_parquet("s3://large_dataset/*.parquet")
deduped = FuzzyDuplicates(...)(dataset)

# Cleanup
client.close()
cluster.close()

パフォーマンスベンチマーク

ファジー重複排除 (8TB RedPajama v2)

CPU (256コア): 120 時間
GPU (8× A100): 7.5 時間
高速化: 16×

完全一致重複排除 (1TB)

CPU (64コア): 8 時間
GPU (4× A100): 0.5 時間
高速化: 16×

品質フィルタリング (100GB)

CPU (32コア): 2 時間
GPU (2× A100): 0.2 時間
高速化: 10×

コスト比較

CPU ベースのキュレーション (AWS c5.18xlarge × 10):

コスト: $3.60/時間 × 10 = $36/時間
8TB の処理時間: 120 時間
合計: $4,320

GPU ベースのキュレーション (AWS p4d.24xlarge × 2):

コスト: $32.77/時間 × 2 = $65.54/時間
8TB の処理時間: 7.5 時間
合計: $491.55

節約額: 89% 削減 ($3,828 節約)

サポートされるデータ形式

入力: Parquet、JSONL、CSV
出力: Parquet (推奨)、JSONL
WebDataset: マルチモーダル用 TAR アーカイブ

ユースケース

本番環境への導入:

NVIDIA は NeMo Curator を使用して Nemotron-4 トレーニングデータを準備
キュレーション済みオープンソースデータセット: RedPajama v2、The Pile

参考資料

フィルタリングガイド - 30+ 品質フィルタ、ヒューリスティック
重複排除ガイド - 完全一致、ファジー、セマンティック手法

リソース

GitHub: https://github.com/NVIDIA/NeMo-Curator ⭐ 500+
ドキュメント: https://docs.nvidia.com/nemo-framework/user-guide/latest/datacuration/
バージョン: 0.4.0+
ライセンス: Apache 2.0

ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

詳細情報

作者: davila7
リポジトリ: davila7/claude-code-templates
ライセンス: MIT
最終更新: 不明

GitHubで原本を見る →フィードバックを送る

Source: https://github.com/davila7/claude-code-templates / ライセンス: MIT