Anthropic Claudeソフトウェア開発⭐ リポ 0品質スコア 50/100

scrape

Name: scrape
Author: brightdata

Bright Data CLI（`bdata scrape`）を使用して、Webページの内容をMarkdown・HTML・JSON形式でクリーンに取得するスキルです。特定URLのコンテンツ取得、複数URLからの一括抽出、ページネーションされたリストのクロールなどに使用します。Amazon・LinkedIn・TikTok・Instagram・YouTube・Redditなど対応プラットフォームは`data-feeds`へ、URLの事前探索が必要な場合は`search`へそれぞれ委譲し、Bright Data CLIが未インストールの場合はインストールとログインを案内します。

description の原文を見る

Scrape web content as clean markdown/HTML/JSON via the Bright Data CLI (`bdata scrape`). Use when the user wants to fetch a page, extract content from a list of URLs, or crawl paginated listings. Hands off to `data-feeds` for supported platforms (Amazon, LinkedIn, TikTok, Instagram, YouTube, Reddit, etc.) and to `search` when URLs must be discovered first. Requires the Bright Data CLI; proactively guides install + login if missing.

SKILL.md 本文

Bright Data — Scrape

Bright Data CLI を使用して、1 つ以上の URL からクリーンなコンテンツ (markdown、HTML、JSON、スクリーンショット) を取得します。このスキルは「生のコンテンツまたはわずかに構造化されたコンテンツを取得する」というタスクを担当します。プラットフォーム固有の構造化データ (Amazon、LinkedIn、TikTok など) については、data-feeds を使用してください—セレクターロジックなしでクリーン JSON を取得できます。

セットアップゲート (最初に実行)

スクレイプを行う前に、CLI がインストールされて認証されていることを確認してください:

if ! command -v bdata >/dev/null 2>&1; then
    echo "bdata CLI not installed — see bright-data-best-practices/references/cli-setup.md"
elif ! bdata zones >/dev/null 2>&1; then
    echo "bdata not authenticated — run: bdata login  (or: bdata login --device for SSH)"
fi

どちらのチェックでも失敗する場合は停止し、ユーザーを skills/bright-data-best-practices/references/cli-setup.md にルーティングしてください。レガシー curl フォールバックをサイレントに実行しないでください—最初にユーザーに確認してください。

パスを選択してください

状況	アクション
単一 URL	`bdata scrape <url> -f markdown`
小さいリスト (≤ ~20 URL)	シェルループ、一度に 1 つ (参照: `references/patterns.md`)
大きいリスト (数十以上)	`xargs -P 4` (並列化キャップ付き) (参照: `references/patterns.md`)
ページネーション付きリスト	ページ 1 をスクレイプ → 次のページ URL を抽出 → 追加 → 繰り返す (参照: `references/examples.md`)
JS が多い / ログインゲート付き / インタラクション必須	`bdata browser` にエスカレート (参照: `brightdata-cli` スキル)
Amazon、LinkedIn、TikTok、Instagram、YouTube、Reddit、…	停止— `data-feeds` に委譲
URL がまだない、トピックだけ	`search` に委譲

アクション

コアコマンド:

# Clean markdown (デフォルト)
bdata scrape "https://example.com/article" -f markdown -o article.md

# Raw HTML (DOM が必要な場合)
bdata scrape "https://example.com" -f html -o page.html

# 構造化 JSON (Unlocker がパースされたフィールドを返す場合)
bdata scrape "https://example.com" -f json --pretty -o page.json

# ビジュアルスナップショット (PNG を保存)
bdata scrape "https://example.com" -f screenshot -o page.png

# ジオターゲット (終了国を上書き)
bdata scrape "https://example.com" --country de -f markdown

完全なフラグリファレンス: references/flags.md

検証ゲート (成功を主張する前に実行)

空でない出力: test -s "$out_path" — または stdout の場合、少なくとも 200 バイトのコンテンツ。
ブロックページではない — 以下のいずれかの特徴について出力を grep します (大文字小文字を区別しない):
- Access Denied
- Just a moment
- Attention Required
- Checking your browser
- captcha
- cf-browser-verification
- cloudflare (合計本文 < 2KB)
期待されるマーカーが存在する (タスク向け): 例えば、製品ページには価格パターン (\$\d) が含まれるべき、記事には少なくとも 1 つの <h1> または # 見出しが含まれるべき。
失敗時のエスカレーションはしご:
- 異なる --country で再試行 (例: オリジンサイトが US の場合 --country de)
- 完全な JS レンダリング用に bdata browser にエスカレート (brightdata-cli スキルに委譲)

上記のすべてのチェックに合格するまで、成功を報告しないでください。

赤旗

出力を検査せずに成功を主張する。
2>/dev/null でエラーをサイレンスする—認証失敗とレート制限エラーを見逃します。
Amazon/LinkedIn/TikTok/Instagram/YouTube/Reddit URL に対して bdata scrape を実行する—これらは data-feeds でサポートされており、構造化データを直接返します。スクレイプは構造を失います。
同じタスク内で同じ URL を繰り返しスクレイプする—最初の結果をキャッシュしてください。
大きいリストに対して bdata scrape を順序立てていループする (xargs -P 4 または同様の並列化キャップを使用する代わりに)。
curl を api.brightdata.com に対して直接使用する—レガシーパス。CLI が利用できない場合のみ。

参照

references/flags.md — すべてのフラグと使用時期に関する注記。
references/patterns.md — シェルループバッチング、xargs 並列化、ページネーションレシピ、リトライ/バックオフ、ブロックページ復旧チェーン、レガシー curl フォールバック。
references/examples.md — (1) 単一ページ → markdown、(2) 並列化キャップを使用して URL リストをバッチ処理、(3) ページネーション付きリスト、(4) ブロックページ復旧。

ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

詳細情報

作者: brightdata
リポジトリ: brightdata/skills
ライセンス: MIT
最終更新: 不明

GitHubで原本を見る →フィードバックを送る

Source: https://github.com/brightdata/skills / ライセンス: MIT

scrape

SKILL.md 本文

Bright Data — Scrape

セットアップゲート (最初に実行)

パスを選択してください

アクション

検証ゲート (成功を主張する前に実行)

赤旗

参照

詳細情報

関連スキル

doubt-driven-development

apprun-skills

desloppify

debugging-and-error-recovery

test-driven-development

incremental-implementation