scrape
Bright Data CLI(`bdata scrape`)を使用して、Webページの内容をMarkdown・HTML・JSON形式でクリーンに取得するスキルです。特定URLのコンテンツ取得、複数URLからの一括抽出、ページネーションされたリストのクロールなどに使用します。Amazon・LinkedIn・TikTok・Instagram・YouTube・Redditなど対応プラットフォームは`data-feeds`へ、URLの事前探索が必要な場合は`search`へそれぞれ委譲し、Bright Data CLIが未インストールの場合はインストールとログインを案内します。
description の原文を見る
Scrape web content as clean markdown/HTML/JSON via the Bright Data CLI (`bdata scrape`). Use when the user wants to fetch a page, extract content from a list of URLs, or crawl paginated listings. Hands off to `data-feeds` for supported platforms (Amazon, LinkedIn, TikTok, Instagram, YouTube, Reddit, etc.) and to `search` when URLs must be discovered first. Requires the Bright Data CLI; proactively guides install + login if missing.
SKILL.md 本文
Bright Data — Scrape
Bright Data CLI を使用して、1 つ以上の URL からクリーンなコンテンツ (markdown、HTML、JSON、スクリーンショット) を取得します。このスキルは「生のコンテンツまたはわずかに構造化されたコンテンツを取得する」というタスクを担当します。プラットフォーム固有の構造化データ (Amazon、LinkedIn、TikTok など) については、data-feeds を使用してください—セレクターロジックなしでクリーン JSON を取得できます。
セットアップゲート (最初に実行)
スクレイプを行う前に、CLI がインストールされて認証されていることを確認してください:
if ! command -v bdata >/dev/null 2>&1; then
echo "bdata CLI not installed — see bright-data-best-practices/references/cli-setup.md"
elif ! bdata zones >/dev/null 2>&1; then
echo "bdata not authenticated — run: bdata login (or: bdata login --device for SSH)"
fi
どちらのチェックでも失敗する場合は停止し、ユーザーを skills/bright-data-best-practices/references/cli-setup.md にルーティングしてください。レガシー curl フォールバックをサイレントに実行しないでください—最初にユーザーに確認してください。
パスを選択してください
| 状況 | アクション |
|---|---|
| 単一 URL | bdata scrape <url> -f markdown |
| 小さいリスト (≤ ~20 URL) | シェルループ、一度に 1 つ (参照: references/patterns.md) |
| 大きいリスト (数十以上) | xargs -P 4 (並列化キャップ付き) (参照: references/patterns.md) |
| ページネーション付きリスト | ページ 1 をスクレイプ → 次のページ URL を抽出 → 追加 → 繰り返す (参照: references/examples.md) |
| JS が多い / ログインゲート付き / インタラクション必須 | bdata browser にエスカレート (参照: brightdata-cli スキル) |
| Amazon、LinkedIn、TikTok、Instagram、YouTube、Reddit、… | 停止— data-feeds に委譲 |
| URL がまだない、トピックだけ | search に委譲 |
アクション
コアコマンド:
# Clean markdown (デフォルト)
bdata scrape "https://example.com/article" -f markdown -o article.md
# Raw HTML (DOM が必要な場合)
bdata scrape "https://example.com" -f html -o page.html
# 構造化 JSON (Unlocker がパースされたフィールドを返す場合)
bdata scrape "https://example.com" -f json --pretty -o page.json
# ビジュアルスナップショット (PNG を保存)
bdata scrape "https://example.com" -f screenshot -o page.png
# ジオターゲット (終了国を上書き)
bdata scrape "https://example.com" --country de -f markdown
完全なフラグリファレンス: references/flags.md
検証ゲート (成功を主張する前に実行)
- 空でない出力:
test -s "$out_path"— または stdout の場合、少なくとも 200 バイトのコンテンツ。 - ブロックページではない — 以下のいずれかの特徴について出力を grep します (大文字小文字を区別しない):
Access DeniedJust a momentAttention RequiredChecking your browsercaptchacf-browser-verificationcloudflare(合計本文 < 2KB)
- 期待されるマーカーが存在する (タスク向け): 例えば、製品ページには価格パターン (
\$\d) が含まれるべき、記事には少なくとも 1 つの<h1>または#見出しが含まれるべき。 - 失敗時のエスカレーションはしご:
- 異なる
--countryで再試行 (例: オリジンサイトが US の場合--country de) - 完全な JS レンダリング用に
bdata browserにエスカレート (brightdata-cliスキルに委譲)
- 異なる
上記のすべてのチェックに合格するまで、成功を報告しないでください。
赤旗
- 出力を検査せずに成功を主張する。
2>/dev/nullでエラーをサイレンスする—認証失敗とレート制限エラーを見逃します。- Amazon/LinkedIn/TikTok/Instagram/YouTube/Reddit URL に対して
bdata scrapeを実行する—これらはdata-feedsでサポートされており、構造化データを直接返します。スクレイプは構造を失います。 - 同じタスク内で同じ URL を繰り返しスクレイプする—最初の結果をキャッシュしてください。
- 大きいリストに対して
bdata scrapeを順序立てていループする (xargs -P 4または同様の並列化キャップを使用する代わりに)。 curlをapi.brightdata.comに対して直接使用する—レガシーパス。CLI が利用できない場合のみ。
参照
— すべてのフラグと使用時期に関する注記。references/flags.md— シェルループバッチング、references/patterns.mdxargs並列化、ページネーションレシピ、リトライ/バックオフ、ブロックページ復旧チェーン、レガシーcurlフォールバック。— (1) 単一ページ → markdown、(2) 並列化キャップを使用して URL リストをバッチ処理、(3) ページネーション付きリスト、(4) ブロックページ復旧。references/examples.md
ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- brightdata
- リポジトリ
- brightdata/skills
- ライセンス
- MIT
- 最終更新
- 不明
Source: https://github.com/brightdata/skills / ライセンス: MIT
関連スキル
doubt-driven-development
重要な判断はすべて、本番環境への展開前に新しい視点から対抗的レビューを実施します。速度より正確性が重要な場合、不慣れなコードを扱う場合、本番環境・セキュリティに関わるロジック・取り消し不可の操作など影響度が高い場合、または後でバグを修正するよりも今検証する方が効率的な場合に活用してください。
apprun-skills
TypeScriptを使用したAppRunアプリケーションのMVU設計に関する総合的なガイダンスが得られます。コンポーネントパターン、イベントハンドリング、状態管理(非同期ジェネレータを含む)、パラメータと保護機能を備えたルーティング・ナビゲーション、vistestを使用したテストに対応しています。AppRunコンポーネントの設計・レビュー、ルートの配線、状態フローの管理、AppRunテストの作成時に活用してください。
desloppify
コードベースのヘルスチェックと技術負債の追跡ツールです。コード品質、技術負債、デッドコード、大規模ファイル、ゴッドクラス、重複関数、コードスメル、命名規則の問題、インポートサイクル、結合度の問題についてユーザーが質問した場合に使用してください。また、ヘルススコアの確認、次の改善項目の提案、クリーンアップ計画の作成をリクエストされた際にも対応します。29言語に対応しています。
debugging-and-error-recovery
テストが失敗したり、ビルドが壊れたり、動作が期待と異なったり、予期しないエラーが発生したりした場合に、体系的な根本原因デバッグをガイドします。推測ではなく、根本原因を見つけて修正するための体系的なアプローチが必要な場合に使用してください。
test-driven-development
テスト駆動開発により実装を進めます。ロジックの実装、バグの修正、動作の変更など、あらゆる場面で活用できます。コードが正常に動作することを証明する必要がある場合、バグ報告を受けた場合、既存機能を修正する予定がある場合に使用してください。
incremental-implementation
変更を段階的に実施します。複数のファイルに影響する機能や変更を実装する場合に使用してください。大量のコードを一度に書こうとしている場合や、タスクが一度では完結できないほど大きい場合に活用します。