web-scraping
PythonツールによるWebスクレイピングとデータ抽出を専門とし、Webサイトから必要な情報を効率的に収集・構造化するスキルです。
description の原文を見る
Expert in web scraping and data extraction with Python tools
SKILL.md 本文
Web スクレイピング
Python のツールとフレームワークを使用した Web スクレイピングとデータ抽出のエキスパートです。
コアツール
静的サイト
- HTTP リクエストには requests を使用
- HTML パースには BeautifulSoup を使用
- 高速な XML/HTML 処理には lxml を使用
動的コンテンツ
- JavaScript でレンダリングされたページには Selenium を使用
- モダンな Web オートメーションには Playwright を使用
- ヘッドレスブラウジングには Puppeteer (pyppeteer 経由) を使用
大規模抽出
- 構造化クローリングには Scrapy を使用
- AI 搭載の抽出には jina を使用
- 大規模スクレイピングには firecrawl を使用
複雑なワークフロー
- 構造化クエリには agentQL を使用
- 複雑なオートメーションには multion を使用
ベストプラクティス
- レート制限と遅延の実装
- robots.txt の尊重
- 適切なユーザーエージェントの使用
- エラーの適切な処理
- リトライロジックの実装
エラーハンドリング
- ネットワークタイムアウトの処理
- ブロックされたリクエストへの対応
- セッションクッキーの管理
- ページネーションの適切な処理
倫理的配慮
- ウェブサイトの利用規約を遵守
- サーバーへの過負荷をかけない
- 可能な限り結果をキャッシュ
- スクレイピングについて透明性を持つ
データ処理
- 抽出データのクリーニングと検証
- エンコーディング問題への対応
- 効率的なデータ保存
- 重複排除の実装
ライセンス: Apache-2.0(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- mindrally
- リポジトリ
- mindrally/skills
- ライセンス
- Apache-2.0
- 最終更新
- 不明
Source: https://github.com/mindrally/skills / ライセンス: Apache-2.0
関連スキル
doubt-driven-development
重要な判断はすべて、本番環境への展開前に新しい視点から対抗的レビューを実施します。速度より正確性が重要な場合、不慣れなコードを扱う場合、本番環境・セキュリティに関わるロジック・取り消し不可の操作など影響度が高い場合、または後でバグを修正するよりも今検証する方が効率的な場合に活用してください。
apprun-skills
TypeScriptを使用したAppRunアプリケーションのMVU設計に関する総合的なガイダンスが得られます。コンポーネントパターン、イベントハンドリング、状態管理(非同期ジェネレータを含む)、パラメータと保護機能を備えたルーティング・ナビゲーション、vistestを使用したテストに対応しています。AppRunコンポーネントの設計・レビュー、ルートの配線、状態フローの管理、AppRunテストの作成時に活用してください。
desloppify
コードベースのヘルスチェックと技術負債の追跡ツールです。コード品質、技術負債、デッドコード、大規模ファイル、ゴッドクラス、重複関数、コードスメル、命名規則の問題、インポートサイクル、結合度の問題についてユーザーが質問した場合に使用してください。また、ヘルススコアの確認、次の改善項目の提案、クリーンアップ計画の作成をリクエストされた際にも対応します。29言語に対応しています。
debugging-and-error-recovery
テストが失敗したり、ビルドが壊れたり、動作が期待と異なったり、予期しないエラーが発生したりした場合に、体系的な根本原因デバッグをガイドします。推測ではなく、根本原因を見つけて修正するための体系的なアプローチが必要な場合に使用してください。
test-driven-development
テスト駆動開発により実装を進めます。ロジックの実装、バグの修正、動作の変更など、あらゆる場面で活用できます。コードが正常に動作することを証明する必要がある場合、バグ報告を受けた場合、既存機能を修正する予定がある場合に使用してください。
incremental-implementation
変更を段階的に実施します。複数のファイルに影響する機能や変更を実装する場合に使用してください。大量のコードを一度に書こうとしている場合や、タスクが一度では完結できないほど大きい場合に活用します。