Agent Skills by ALSEL
Anthropic Claudeソフトウェア開発⭐ リポ 0品質スコア 50/100

scrape

Bright Data CLI(`bdata scrape`)を使用して、Webページの内容をMarkdown・HTML・JSON形式でクリーンに取得するスキルです。特定URLのコンテンツ取得、複数URLからの一括抽出、ページネーションされたリストのクロールなどに使用します。Amazon・LinkedIn・TikTok・Instagram・YouTube・Redditなど対応プラットフォームは`data-feeds`へ、URLの事前探索が必要な場合は`search`へそれぞれ委譲し、Bright Data CLIが未インストールの場合はインストールとログインを案内します。

description の原文を見る

Scrape web content as clean markdown/HTML/JSON via the Bright Data CLI (`bdata scrape`). Use when the user wants to fetch a page, extract content from a list of URLs, or crawl paginated listings. Hands off to `data-feeds` for supported platforms (Amazon, LinkedIn, TikTok, Instagram, YouTube, Reddit, etc.) and to `search` when URLs must be discovered first. Requires the Bright Data CLI; proactively guides install + login if missing.

SKILL.md 本文

Bright Data — Scrape

Bright Data CLI を使用して、1 つ以上の URL からクリーンなコンテンツ (markdown、HTML、JSON、スクリーンショット) を取得します。このスキルは「生のコンテンツまたはわずかに構造化されたコンテンツを取得する」というタスクを担当します。プラットフォーム固有の構造化データ (Amazon、LinkedIn、TikTok など) については、data-feeds を使用してください—セレクターロジックなしでクリーン JSON を取得できます。

セットアップゲート (最初に実行)

スクレイプを行う前に、CLI がインストールされて認証されていることを確認してください:

if ! command -v bdata >/dev/null 2>&1; then
    echo "bdata CLI not installed — see bright-data-best-practices/references/cli-setup.md"
elif ! bdata zones >/dev/null 2>&1; then
    echo "bdata not authenticated — run: bdata login  (or: bdata login --device for SSH)"
fi

どちらのチェックでも失敗する場合は停止し、ユーザーを skills/bright-data-best-practices/references/cli-setup.md にルーティングしてください。レガシー curl フォールバックをサイレントに実行しないでください—最初にユーザーに確認してください。

パスを選択してください

状況アクション
単一 URLbdata scrape <url> -f markdown
小さいリスト (≤ ~20 URL)シェルループ、一度に 1 つ (参照: references/patterns.md)
大きいリスト (数十以上)xargs -P 4 (並列化キャップ付き) (参照: references/patterns.md)
ページネーション付きリストページ 1 をスクレイプ → 次のページ URL を抽出 → 追加 → 繰り返す (参照: references/examples.md)
JS が多い / ログインゲート付き / インタラクション必須bdata browser にエスカレート (参照: brightdata-cli スキル)
Amazon、LinkedIn、TikTok、Instagram、YouTube、Reddit、…停止— data-feeds に委譲
URL がまだない、トピックだけsearch に委譲

アクション

コアコマンド:

# Clean markdown (デフォルト)
bdata scrape "https://example.com/article" -f markdown -o article.md

# Raw HTML (DOM が必要な場合)
bdata scrape "https://example.com" -f html -o page.html

# 構造化 JSON (Unlocker がパースされたフィールドを返す場合)
bdata scrape "https://example.com" -f json --pretty -o page.json

# ビジュアルスナップショット (PNG を保存)
bdata scrape "https://example.com" -f screenshot -o page.png

# ジオターゲット (終了国を上書き)
bdata scrape "https://example.com" --country de -f markdown

完全なフラグリファレンス: references/flags.md

検証ゲート (成功を主張する前に実行)

  1. 空でない出力: test -s "$out_path" — または stdout の場合、少なくとも 200 バイトのコンテンツ。
  2. ブロックページではない — 以下のいずれかの特徴について出力を grep します (大文字小文字を区別しない):
    • Access Denied
    • Just a moment
    • Attention Required
    • Checking your browser
    • captcha
    • cf-browser-verification
    • cloudflare (合計本文 < 2KB)
  3. 期待されるマーカーが存在する (タスク向け): 例えば、製品ページには価格パターン (\$\d) が含まれるべき、記事には少なくとも 1 つの <h1> または # 見出しが含まれるべき。
  4. 失敗時のエスカレーションはしご:
    • 異なる --country で再試行 (例: オリジンサイトが US の場合 --country de)
    • 完全な JS レンダリング用に bdata browser にエスカレート (brightdata-cli スキルに委譲)

上記のすべてのチェックに合格するまで、成功を報告しないでください。

赤旗

  • 出力を検査せずに成功を主張する。
  • 2>/dev/null でエラーをサイレンスする—認証失敗とレート制限エラーを見逃します。
  • Amazon/LinkedIn/TikTok/Instagram/YouTube/Reddit URL に対して bdata scrape を実行する—これらは data-feeds でサポートされており、構造化データを直接返します。スクレイプは構造を失います。
  • 同じタスク内で同じ URL を繰り返しスクレイプする—最初の結果をキャッシュしてください。
  • 大きいリストに対して bdata scrape を順序立てていループする (xargs -P 4 または同様の並列化キャップを使用する代わりに)。
  • curlapi.brightdata.com に対して直接使用する—レガシーパス。CLI が利用できない場合のみ。

参照

  • references/flags.md — すべてのフラグと使用時期に関する注記。
  • references/patterns.md — シェルループバッチング、xargs 並列化、ページネーションレシピ、リトライ/バックオフ、ブロックページ復旧チェーン、レガシー curl フォールバック。
  • references/examples.md — (1) 単一ページ → markdown、(2) 並列化キャップを使用して URL リストをバッチ処理、(3) ページネーション付きリスト、(4) ブロックページ復旧。

ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

詳細情報

作者
brightdata
リポジトリ
brightdata/skills
ライセンス
MIT
最終更新
不明

Source: https://github.com/brightdata/skills / ライセンス: MIT

関連スキル

汎用ソフトウェア開発⭐ リポ 39,967

doubt-driven-development

重要な判断はすべて、本番環境への展開前に新しい視点から対抗的レビューを実施します。速度より正確性が重要な場合、不慣れなコードを扱う場合、本番環境・セキュリティに関わるロジック・取り消し不可の操作など影響度が高い場合、または後でバグを修正するよりも今検証する方が効率的な場合に活用してください。

by addyosmani
汎用ソフトウェア開発⭐ リポ 1,175

apprun-skills

TypeScriptを使用したAppRunアプリケーションのMVU設計に関する総合的なガイダンスが得られます。コンポーネントパターン、イベントハンドリング、状態管理(非同期ジェネレータを含む)、パラメータと保護機能を備えたルーティング・ナビゲーション、vistestを使用したテストに対応しています。AppRunコンポーネントの設計・レビュー、ルートの配線、状態フローの管理、AppRunテストの作成時に活用してください。

by yysun
OpenAIソフトウェア開発⭐ リポ 797

desloppify

コードベースのヘルスチェックと技術負債の追跡ツールです。コード品質、技術負債、デッドコード、大規模ファイル、ゴッドクラス、重複関数、コードスメル、命名規則の問題、インポートサイクル、結合度の問題についてユーザーが質問した場合に使用してください。また、ヘルススコアの確認、次の改善項目の提案、クリーンアップ計画の作成をリクエストされた際にも対応します。29言語に対応しています。

by Git-on-my-level
汎用ソフトウェア開発⭐ リポ 39,967

debugging-and-error-recovery

テストが失敗したり、ビルドが壊れたり、動作が期待と異なったり、予期しないエラーが発生したりした場合に、体系的な根本原因デバッグをガイドします。推測ではなく、根本原因を見つけて修正するための体系的なアプローチが必要な場合に使用してください。

by addyosmani
汎用ソフトウェア開発⭐ リポ 39,967

test-driven-development

テスト駆動開発により実装を進めます。ロジックの実装、バグの修正、動作の変更など、あらゆる場面で活用できます。コードが正常に動作することを証明する必要がある場合、バグ報告を受けた場合、既存機能を修正する予定がある場合に使用してください。

by addyosmani
汎用ソフトウェア開発⭐ リポ 39,967

incremental-implementation

変更を段階的に実施します。複数のファイルに影響する機能や変更を実装する場合に使用してください。大量のコードを一度に書こうとしている場合や、タスクが一度では完結できないほど大きい場合に活用します。

by addyosmani
本サイトは GitHub 上で公開されているオープンソースの SKILL.md ファイルをクロール・インデックス化したものです。 各スキルの著作権は原作者に帰属します。掲載に問題がある場合は info@alsel.co.jp または /takedown フォームよりご連絡ください。
原作者: brightdata · brightdata/skills · ライセンス: MIT