Agent Skills by ALSEL
Anthropic Claudeソフトウェア開発⭐ リポ 0品質スコア 50/100

scrapy-web-scraping

Scrapy Pythonフレームワークを使用したWebスクレイパーおよびクローラーの構築を専門的にサポートします。スパイダーの開発、データ抽出、パイプライン管理におけるベストプラクティスを提供します。

description の原文を見る

Expert guidance for building web scrapers and crawlers using the Scrapy Python framework with best practices for spider development, data extraction, and pipeline management.

SKILL.md 本文

Scrapy Web Scraping

Scrapyフレームワーク、Python ウェブスクレイピング、スパイダー開発、およびウェブサイトからデータを抽出するためのスケーラブルクローラー構築の専門家です。

コア専門知識

  • Scrapy フレームワークのアーキテクチャとコンポーネント
  • スパイダー開発とクローリング戦略
  • データ抽出のための CSS セレクタと XPath 式
  • データ処理と保存のための Item Pipelines
  • リクエスト/レスポンス処理のためのミドルウェア開発
  • Scrapy-Splash または Scrapy-Playwright を使用した JavaScript レンダリングコンテンツの処理
  • プロキシローテーションと anti-bot 回避テクニック
  • Scrapy-Redis を使用した分散クローリング

主要原則

  • Python のベストプラクティスに従った、クリーンで保守性の高いスパイダーコードを記述
  • 懸念事項が明確に分離されたモジュール式スパイダーアーキテクチャを使用
  • ロバストなエラーハンドリングと再試行メカニズムを実装
  • robots.txt コンプライアンスを含むスクレイピングのための倫理的慣行に従う
  • スケーラビリティとパフォーマンスを最初から設計に組み込む
  • スパイダーの動作とデータスキーマを十分に文書化

スパイダー開発

プロジェクト構造

myproject/
    scrapy.cfg
    myproject/
        __init__.py
        items.py
        middlewares.py
        pipelines.py
        settings.py
        spiders/
            __init__.py
            myspider.py

スパイダーベストプラクティス

  • ターゲットサイトを反映した説明的なスパイダー名を使用
  • スコープ外のクローリングを防ぐために明確な allowed_domains を定義
  • カスタム開始ロジックのために start_requests() を実装
  • 明確で単一の責任を持つ parse() メソッドを使用
  • 一貫したデータ抽出のために ItemLoader を活用
  • データクリーニングのために入力/出力プロセッサを適用

データ抽出

  • 可能な場合は可読性のために CSS セレクタを優先
  • 複雑な選択(親要素のトラバーサル、テキスト正規化)には XPath を使用
  • 定義された Item クラスへのデータ抽出
  • デフォルト値を使用して欠落データを適切に処理
  • CSS セレクタで ::text および ::attr() 疑似要素を使用
# 良い実装例:ItemLoader を使用
from scrapy.loader import ItemLoader
from myproject.items import ProductItem

def parse_product(self, response):
    loader = ItemLoader(item=ProductItem(), response=response)
    loader.add_css('name', 'h1.product-title::text')
    loader.add_css('price', 'span.price::text')
    loader.add_xpath('description', '//div[@class="desc"]/text()')
    yield loader.load_item()

リクエスト処理

レート制限

  • DOWNLOAD_DELAY を適切に設定(最小 1~3 秒)
  • 動的レート調整のために AUTOTHROTTLE を有効化
  • CONCURRENT_REQUESTS_PER_DOMAIN を使用して並列リクエストを制限

ヘッダーと User-Agent

  • 検出を回避するために User-Agent 文字列をローテーション
  • Referer を含む適切なヘッダーを設定
  • 現実的な User-Agent ローテーションのために scrapy-fake-useragent を使用

プロキシ

  • 大規模クローリングのためにプロキシローテーションミドルウェアを実装
  • 機密ターゲットにはレジデンシャルプロキシを使用
  • 自動ローテーションでプロキシ障害を処理

Item Pipelines

  • パイプラインでデータ完全性とフォーマットを検証
  • 重複排除ロジックを実装
  • 抽出されたデータをクリーン化し正規化
  • 適切なフォーマット(JSON、CSV、データベース)でデータを保存
  • データベース操作のために非同期パイプラインを使用
class ValidationPipeline:
    def process_item(self, item, spider):
        if not item.get('name'):
            raise DropItem("Missing name field")
        return item

エラーハンドリング

  • 特定のエラーコードのためのカスタム再試行ミドルウェアを実装
  • 後の分析のために失敗したリクエストをログ
  • リクエスト障害のために errback ハンドラを使用
  • 統計情報収集でスパイダーの健全性を監視

パフォーマンス最適化

  • 開発中は HTTP キャッシュを有効化
  • HTTPCACHE_ENABLED を使用して冗長なリクエストを回避
  • ジョブ永続化で増分クローリングを実装
  • scrapy.extensions.memusage でメモリ使用量をプロファイル
  • I/O 操作のために非同期パイプラインを使用

設定の構成

# 推奨本番設定
CONCURRENT_REQUESTS = 16
DOWNLOAD_DELAY = 1
AUTOTHROTTLE_ENABLED = True
AUTOTHROTTLE_START_DELAY = 1
AUTOTHROTTLE_MAX_DELAY = 10
ROBOTSTXT_OBEY = True
HTTPCACHE_ENABLED = True
LOG_LEVEL = 'INFO'

テスト

  • パース ロジックのユニットテストを記述
  • スパイダーコントラクトのために scrapy.contracts を使用
  • 再現性のためにキャッシュされたレスポンスでテスト
  • 出力データのフォーマットと完全性を検証

主要な依存関係

  • scrapy
  • scrapy-splash(JavaScript レンダリング用)
  • scrapy-playwright(モダン JS サイト用)
  • scrapy-redis(分散クローリング用)
  • scrapy-fake-useragent
  • itemloaders

倫理的配慮

  • 明確に許可されていない限り、常に robots.txt を尊重
  • 説明的な User-Agent でクローラーを識別
  • 合理的なレート制限を実装
  • 同意なしに個人情報や機密データをスクレイピングしない
  • スクレイピング前にウェブサイトの利用規約を確認

ライセンス: Apache-2.0(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

詳細情報

作者
mindrally
リポジトリ
mindrally/skills
ライセンス
Apache-2.0
最終更新
不明

Source: https://github.com/mindrally/skills / ライセンス: Apache-2.0

関連スキル

汎用ソフトウェア開発⭐ リポ 39,967

doubt-driven-development

重要な判断はすべて、本番環境への展開前に新しい視点から対抗的レビューを実施します。速度より正確性が重要な場合、不慣れなコードを扱う場合、本番環境・セキュリティに関わるロジック・取り消し不可の操作など影響度が高い場合、または後でバグを修正するよりも今検証する方が効率的な場合に活用してください。

by addyosmani
汎用ソフトウェア開発⭐ リポ 1,175

apprun-skills

TypeScriptを使用したAppRunアプリケーションのMVU設計に関する総合的なガイダンスが得られます。コンポーネントパターン、イベントハンドリング、状態管理(非同期ジェネレータを含む)、パラメータと保護機能を備えたルーティング・ナビゲーション、vistestを使用したテストに対応しています。AppRunコンポーネントの設計・レビュー、ルートの配線、状態フローの管理、AppRunテストの作成時に活用してください。

by yysun
OpenAIソフトウェア開発⭐ リポ 797

desloppify

コードベースのヘルスチェックと技術負債の追跡ツールです。コード品質、技術負債、デッドコード、大規模ファイル、ゴッドクラス、重複関数、コードスメル、命名規則の問題、インポートサイクル、結合度の問題についてユーザーが質問した場合に使用してください。また、ヘルススコアの確認、次の改善項目の提案、クリーンアップ計画の作成をリクエストされた際にも対応します。29言語に対応しています。

by Git-on-my-level
汎用ソフトウェア開発⭐ リポ 39,967

debugging-and-error-recovery

テストが失敗したり、ビルドが壊れたり、動作が期待と異なったり、予期しないエラーが発生したりした場合に、体系的な根本原因デバッグをガイドします。推測ではなく、根本原因を見つけて修正するための体系的なアプローチが必要な場合に使用してください。

by addyosmani
汎用ソフトウェア開発⭐ リポ 39,967

test-driven-development

テスト駆動開発により実装を進めます。ロジックの実装、バグの修正、動作の変更など、あらゆる場面で活用できます。コードが正常に動作することを証明する必要がある場合、バグ報告を受けた場合、既存機能を修正する予定がある場合に使用してください。

by addyosmani
汎用ソフトウェア開発⭐ リポ 39,967

incremental-implementation

変更を段階的に実施します。複数のファイルに影響する機能や変更を実装する場合に使用してください。大量のコードを一度に書こうとしている場合や、タスクが一度では完結できないほど大きい場合に活用します。

by addyosmani
本サイトは GitHub 上で公開されているオープンソースの SKILL.md ファイルをクロール・インデックス化したものです。 各スキルの著作権は原作者に帰属します。掲載に問題がある場合は info@alsel.co.jp または /takedown フォームよりご連絡ください。
原作者: mindrally · mindrally/skills · ライセンス: Apache-2.0