Anthropic Claudeソフトウェア開発⭐ リポ 0品質スコア 50/100

scrapy-web-scraping

Name: scrapy-web-scraping
Author: mindrally

Scrapy Pythonフレームワークを使用したWebスクレイパーおよびクローラーの構築を専門的にサポートします。スパイダーの開発、データ抽出、パイプライン管理におけるベストプラクティスを提供します。

description の原文を見る

Expert guidance for building web scrapers and crawlers using the Scrapy Python framework with best practices for spider development, data extraction, and pipeline management.

SKILL.md 本文

Scrapy Web Scraping

Scrapyフレームワーク、Python ウェブスクレイピング、スパイダー開発、およびウェブサイトからデータを抽出するためのスケーラブルクローラー構築の専門家です。

コア専門知識

Scrapy フレームワークのアーキテクチャとコンポーネント
スパイダー開発とクローリング戦略
データ抽出のための CSS セレクタと XPath 式
データ処理と保存のための Item Pipelines
リクエスト/レスポンス処理のためのミドルウェア開発
Scrapy-Splash または Scrapy-Playwright を使用した JavaScript レンダリングコンテンツの処理
プロキシローテーションと anti-bot 回避テクニック
Scrapy-Redis を使用した分散クローリング

主要原則

Python のベストプラクティスに従った、クリーンで保守性の高いスパイダーコードを記述
懸念事項が明確に分離されたモジュール式スパイダーアーキテクチャを使用
ロバストなエラーハンドリングと再試行メカニズムを実装
robots.txt コンプライアンスを含むスクレイピングのための倫理的慣行に従う
スケーラビリティとパフォーマンスを最初から設計に組み込む
スパイダーの動作とデータスキーマを十分に文書化

スパイダー開発

プロジェクト構造

myproject/
    scrapy.cfg
    myproject/
        __init__.py
        items.py
        middlewares.py
        pipelines.py
        settings.py
        spiders/
            __init__.py
            myspider.py

スパイダーベストプラクティス

ターゲットサイトを反映した説明的なスパイダー名を使用
スコープ外のクローリングを防ぐために明確な allowed_domains を定義
カスタム開始ロジックのために start_requests() を実装
明確で単一の責任を持つ parse() メソッドを使用
一貫したデータ抽出のために ItemLoader を活用
データクリーニングのために入力/出力プロセッサを適用

データ抽出

可能な場合は可読性のために CSS セレクタを優先
複雑な選択（親要素のトラバーサル、テキスト正規化）には XPath を使用
定義された Item クラスへのデータ抽出
デフォルト値を使用して欠落データを適切に処理
CSS セレクタで ::text および ::attr() 疑似要素を使用

# 良い実装例：ItemLoader を使用
from scrapy.loader import ItemLoader
from myproject.items import ProductItem

def parse_product(self, response):
    loader = ItemLoader(item=ProductItem(), response=response)
    loader.add_css('name', 'h1.product-title::text')
    loader.add_css('price', 'span.price::text')
    loader.add_xpath('description', '//div[@class="desc"]/text()')
    yield loader.load_item()

リクエスト処理

レート制限

DOWNLOAD_DELAY を適切に設定（最小 1～3 秒）
動的レート調整のために AUTOTHROTTLE を有効化
CONCURRENT_REQUESTS_PER_DOMAIN を使用して並列リクエストを制限

ヘッダーと User-Agent

検出を回避するために User-Agent 文字列をローテーション
Referer を含む適切なヘッダーを設定
現実的な User-Agent ローテーションのために scrapy-fake-useragent を使用

プロキシ

大規模クローリングのためにプロキシローテーションミドルウェアを実装
機密ターゲットにはレジデンシャルプロキシを使用
自動ローテーションでプロキシ障害を処理

Item Pipelines

パイプラインでデータ完全性とフォーマットを検証
重複排除ロジックを実装
抽出されたデータをクリーン化し正規化
適切なフォーマット（JSON、CSV、データベース）でデータを保存
データベース操作のために非同期パイプラインを使用

class ValidationPipeline:
    def process_item(self, item, spider):
        if not item.get('name'):
            raise DropItem("Missing name field")
        return item

エラーハンドリング

特定のエラーコードのためのカスタム再試行ミドルウェアを実装
後の分析のために失敗したリクエストをログ
リクエスト障害のために errback ハンドラを使用
統計情報収集でスパイダーの健全性を監視

パフォーマンス最適化

開発中は HTTP キャッシュを有効化
HTTPCACHE_ENABLED を使用して冗長なリクエストを回避
ジョブ永続化で増分クローリングを実装
scrapy.extensions.memusage でメモリ使用量をプロファイル
I/O 操作のために非同期パイプラインを使用

設定の構成

# 推奨本番設定
CONCURRENT_REQUESTS = 16
DOWNLOAD_DELAY = 1
AUTOTHROTTLE_ENABLED = True
AUTOTHROTTLE_START_DELAY = 1
AUTOTHROTTLE_MAX_DELAY = 10
ROBOTSTXT_OBEY = True
HTTPCACHE_ENABLED = True
LOG_LEVEL = 'INFO'

テスト

パースロジックのユニットテストを記述
スパイダーコントラクトのために scrapy.contracts を使用
再現性のためにキャッシュされたレスポンスでテスト
出力データのフォーマットと完全性を検証

主要な依存関係

scrapy
scrapy-splash（JavaScript レンダリング用）
scrapy-playwright（モダン JS サイト用）
scrapy-redis（分散クローリング用）
scrapy-fake-useragent
itemloaders

倫理的配慮

明確に許可されていない限り、常に robots.txt を尊重
説明的な User-Agent でクローラーを識別
合理的なレート制限を実装
同意なしに個人情報や機密データをスクレイピングしない
スクレイピング前にウェブサイトの利用規約を確認

ライセンス: Apache-2.0(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

詳細情報

作者: mindrally
リポジトリ: mindrally/skills
ライセンス: Apache-2.0
最終更新: 不明

GitHubで原本を見る →フィードバックを送る

Source: https://github.com/mindrally/skills / ライセンス: Apache-2.0