scrapy-web-scraping
Scrapy Pythonフレームワークを使用したWebスクレイパーおよびクローラーの構築を専門的にサポートします。スパイダーの開発、データ抽出、パイプライン管理におけるベストプラクティスを提供します。
description の原文を見る
Expert guidance for building web scrapers and crawlers using the Scrapy Python framework with best practices for spider development, data extraction, and pipeline management.
SKILL.md 本文
Scrapy Web Scraping
Scrapyフレームワーク、Python ウェブスクレイピング、スパイダー開発、およびウェブサイトからデータを抽出するためのスケーラブルクローラー構築の専門家です。
コア専門知識
- Scrapy フレームワークのアーキテクチャとコンポーネント
- スパイダー開発とクローリング戦略
- データ抽出のための CSS セレクタと XPath 式
- データ処理と保存のための Item Pipelines
- リクエスト/レスポンス処理のためのミドルウェア開発
- Scrapy-Splash または Scrapy-Playwright を使用した JavaScript レンダリングコンテンツの処理
- プロキシローテーションと anti-bot 回避テクニック
- Scrapy-Redis を使用した分散クローリング
主要原則
- Python のベストプラクティスに従った、クリーンで保守性の高いスパイダーコードを記述
- 懸念事項が明確に分離されたモジュール式スパイダーアーキテクチャを使用
- ロバストなエラーハンドリングと再試行メカニズムを実装
- robots.txt コンプライアンスを含むスクレイピングのための倫理的慣行に従う
- スケーラビリティとパフォーマンスを最初から設計に組み込む
- スパイダーの動作とデータスキーマを十分に文書化
スパイダー開発
プロジェクト構造
myproject/
scrapy.cfg
myproject/
__init__.py
items.py
middlewares.py
pipelines.py
settings.py
spiders/
__init__.py
myspider.py
スパイダーベストプラクティス
- ターゲットサイトを反映した説明的なスパイダー名を使用
- スコープ外のクローリングを防ぐために明確な
allowed_domainsを定義 - カスタム開始ロジックのために
start_requests()を実装 - 明確で単一の責任を持つ
parse()メソッドを使用 - 一貫したデータ抽出のために
ItemLoaderを活用 - データクリーニングのために入力/出力プロセッサを適用
データ抽出
- 可能な場合は可読性のために CSS セレクタを優先
- 複雑な選択(親要素のトラバーサル、テキスト正規化)には XPath を使用
- 定義された Item クラスへのデータ抽出
- デフォルト値を使用して欠落データを適切に処理
- CSS セレクタで
::textおよび::attr()疑似要素を使用
# 良い実装例:ItemLoader を使用
from scrapy.loader import ItemLoader
from myproject.items import ProductItem
def parse_product(self, response):
loader = ItemLoader(item=ProductItem(), response=response)
loader.add_css('name', 'h1.product-title::text')
loader.add_css('price', 'span.price::text')
loader.add_xpath('description', '//div[@class="desc"]/text()')
yield loader.load_item()
リクエスト処理
レート制限
DOWNLOAD_DELAYを適切に設定(最小 1~3 秒)- 動的レート調整のために
AUTOTHROTTLEを有効化 CONCURRENT_REQUESTS_PER_DOMAINを使用して並列リクエストを制限
ヘッダーと User-Agent
- 検出を回避するために User-Agent 文字列をローテーション
- Referer を含む適切なヘッダーを設定
- 現実的な User-Agent ローテーションのために
scrapy-fake-useragentを使用
プロキシ
- 大規模クローリングのためにプロキシローテーションミドルウェアを実装
- 機密ターゲットにはレジデンシャルプロキシを使用
- 自動ローテーションでプロキシ障害を処理
Item Pipelines
- パイプラインでデータ完全性とフォーマットを検証
- 重複排除ロジックを実装
- 抽出されたデータをクリーン化し正規化
- 適切なフォーマット(JSON、CSV、データベース)でデータを保存
- データベース操作のために非同期パイプラインを使用
class ValidationPipeline:
def process_item(self, item, spider):
if not item.get('name'):
raise DropItem("Missing name field")
return item
エラーハンドリング
- 特定のエラーコードのためのカスタム再試行ミドルウェアを実装
- 後の分析のために失敗したリクエストをログ
- リクエスト障害のために
errbackハンドラを使用 - 統計情報収集でスパイダーの健全性を監視
パフォーマンス最適化
- 開発中は HTTP キャッシュを有効化
HTTPCACHE_ENABLEDを使用して冗長なリクエストを回避- ジョブ永続化で増分クローリングを実装
scrapy.extensions.memusageでメモリ使用量をプロファイル- I/O 操作のために非同期パイプラインを使用
設定の構成
# 推奨本番設定
CONCURRENT_REQUESTS = 16
DOWNLOAD_DELAY = 1
AUTOTHROTTLE_ENABLED = True
AUTOTHROTTLE_START_DELAY = 1
AUTOTHROTTLE_MAX_DELAY = 10
ROBOTSTXT_OBEY = True
HTTPCACHE_ENABLED = True
LOG_LEVEL = 'INFO'
テスト
- パース ロジックのユニットテストを記述
- スパイダーコントラクトのために
scrapy.contractsを使用 - 再現性のためにキャッシュされたレスポンスでテスト
- 出力データのフォーマットと完全性を検証
主要な依存関係
- scrapy
- scrapy-splash(JavaScript レンダリング用)
- scrapy-playwright(モダン JS サイト用)
- scrapy-redis(分散クローリング用)
- scrapy-fake-useragent
- itemloaders
倫理的配慮
- 明確に許可されていない限り、常に robots.txt を尊重
- 説明的な User-Agent でクローラーを識別
- 合理的なレート制限を実装
- 同意なしに個人情報や機密データをスクレイピングしない
- スクレイピング前にウェブサイトの利用規約を確認
ライセンス: Apache-2.0(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- mindrally
- リポジトリ
- mindrally/skills
- ライセンス
- Apache-2.0
- 最終更新
- 不明
Source: https://github.com/mindrally/skills / ライセンス: Apache-2.0
関連スキル
doubt-driven-development
重要な判断はすべて、本番環境への展開前に新しい視点から対抗的レビューを実施します。速度より正確性が重要な場合、不慣れなコードを扱う場合、本番環境・セキュリティに関わるロジック・取り消し不可の操作など影響度が高い場合、または後でバグを修正するよりも今検証する方が効率的な場合に活用してください。
apprun-skills
TypeScriptを使用したAppRunアプリケーションのMVU設計に関する総合的なガイダンスが得られます。コンポーネントパターン、イベントハンドリング、状態管理(非同期ジェネレータを含む)、パラメータと保護機能を備えたルーティング・ナビゲーション、vistestを使用したテストに対応しています。AppRunコンポーネントの設計・レビュー、ルートの配線、状態フローの管理、AppRunテストの作成時に活用してください。
desloppify
コードベースのヘルスチェックと技術負債の追跡ツールです。コード品質、技術負債、デッドコード、大規模ファイル、ゴッドクラス、重複関数、コードスメル、命名規則の問題、インポートサイクル、結合度の問題についてユーザーが質問した場合に使用してください。また、ヘルススコアの確認、次の改善項目の提案、クリーンアップ計画の作成をリクエストされた際にも対応します。29言語に対応しています。
debugging-and-error-recovery
テストが失敗したり、ビルドが壊れたり、動作が期待と異なったり、予期しないエラーが発生したりした場合に、体系的な根本原因デバッグをガイドします。推測ではなく、根本原因を見つけて修正するための体系的なアプローチが必要な場合に使用してください。
test-driven-development
テスト駆動開発により実装を進めます。ロジックの実装、バグの修正、動作の変更など、あらゆる場面で活用できます。コードが正常に動作することを証明する必要がある場合、バグ報告を受けた場合、既存機能を修正する予定がある場合に使用してください。
incremental-implementation
変更を段階的に実施します。複数のファイルに影響する機能や変更を実装する場合に使用してください。大量のコードを一度に書こうとしている場合や、タスクが一度では完結できないほど大きい場合に活用します。