tavily-crawl
Tavily CLIを使用してウェブサイトをクロールし、複数ページからコンテンツを一括取得するスキル。「サイトをクロールして」「ドキュメントをすべてダウンロード」「/docs以下を全部抽出」など、同一ドメイン上の多数のページからコンテンツを収集したい場合に使用し、クロールの深さ・幅の制御やパスフィルタリング、各ページをローカルのMarkdownファイルとして保存する機能もサポートします。
description の原文を見る
| Crawl websites and extract content from multiple pages via the Tavily CLI. Use this skill when the user wants to crawl a site, download documentation, extract an entire docs section, bulk-extract pages, save a site as local markdown files, or says "crawl", "get all the pages", "download the docs", "extract everything under /docs", "bulk extract", or needs content from many pages on the same domain. Supports depth/breadth control, path filtering, semantic instructions, and saving each page as a local markdown file.
SKILL.md 本文
tavily crawl
複数ページのウェブサイトをクロールしコンテンツを抽出します。各ページをローカルのマークダウンファイルとして保存することをサポートしています。
コマンド実行前に
tvly が PATH にない場合は、まず以下でインストールしてください:
curl -fsSL https://cli.tavily.com/install.sh | bash && tvly login
このステップをスキップしたり、他のツールに頼らないようにしてください。
インストール方法と認証オプションについては tavily-cli を参照してください。
使用する場合
- サイト内の多くのページからコンテンツが必要 (例:
/docs/配下全て) - ドキュメントをオフライン使用のためにダウンロードしたい
ワークフローのステップ4: 検索 → 抽出 → マッピング → クロール → 調査
クイックスタート
# 基本的なクロール
tvly crawl "https://docs.example.com" --json
# 各ページをマークダウンファイルで保存
tvly crawl "https://docs.example.com" --output-dir ./docs/
# 深いクロール (制限付き)
tvly crawl "https://docs.example.com" --max-depth 2 --limit 50 --json
# 特定パスにフィルタ
tvly crawl "https://example.com" --select-paths "/api/.*,/guides/.*" --exclude-paths "/blog/.*" --json
# セマンティックフォーカス (フルページではなく関連チャンクを返す)
tvly crawl "https://docs.example.com" --instructions "認証ドキュメントを見つける" --chunks-per-source 3 --json
オプション
| オプション | 説明 |
|---|---|
--max-depth | 深さレベル (1-5、デフォルト: 1) |
--max-breadth | ページあたりのリンク数 (デフォルト: 20) |
--limit | 総ページ数の上限 (デフォルト: 50) |
--instructions | セマンティックフォーカスのための自然言語ガイダンス |
--chunks-per-source | ページあたりのチャンク数 (1-5、--instructions が必須) |
--extract-depth | basic (デフォルト) または advanced |
--format | markdown (デフォルト) または text |
--select-paths | 含める正規表現パターン (カンマ区切り) |
--exclude-paths | 除外する正規表現パターン (カンマ区切り) |
--select-domains | 含めるドメインの正規表現 (カンマ区切り) |
--exclude-domains | 除外するドメインの正規表現 (カンマ区切り) |
--allow-external / --no-external | 外部リンクを含める (デフォルト: 含める) |
--include-images | 画像を含める |
--timeout | 最大待機時間 (10-150秒) |
-o, --output | JSON出力をファイルに保存 |
--output-dir | 各ページを.mdファイルとしてディレクトリに保存 |
--json | 構造化JSON出力 |
コンテキスト取得 vs. データ収集のためのクロール
エージェント的用途 (結果をLLMに供給する場合):
常に --instructions + --chunks-per-source を使用してください。フルページではなく関連チャンクのみを返します — コンテキスト爆発を防ぎます。
tvly crawl "https://docs.example.com" --instructions "API認証" --chunks-per-source 3 --json
データ収集用途 (ファイルに保存する場合):
--chunks-per-source なしで --output-dir を使用して、マークダウンファイルとしてフルページを取得します。
tvly crawl "https://docs.example.com" --max-depth 2 --output-dir ./docs/
Tips
- 保守的に始める —
--max-depth 1、--limit 20— そしてスケールアップします。 --select-pathsを使用 して必要なセクションに焦点を当てます。- クロール前にまずmap を使用 してサイト構造を理解します。
- 常に
--limitを設定 して暴走クロールを防ぎます。
関連項目
tavily-map— クロール前にURLを発見tavily-extract— 個別ページの抽出tavily-search— URLがない場合にページを検索
ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- tavily-ai
- リポジトリ
- tavily-ai/skills
- ライセンス
- MIT
- 最終更新
- 不明
Source: https://github.com/tavily-ai/skills / ライセンス: MIT
関連スキル
nature-response
Nature系ジャーナルの原稿修正に対する査読者への回答文について、下書き、チェック、または修正を行うことができます。査読者からのコメント、編集者の決定文、修正指示、回答案の作成、または大幅修正・軽微修正の対応方法に関するご相談があれば、対応いたします。査読報告書や回答文作成のサポートが必要な場合にご利用ください。
microsoft-docs
公式のMicrosoft文書を参照して、Azure、.NET、Agent Framework、Aspire、VS Code、GitHubなど様々な分野の概念、チュートリアル、コード例を検索します。デフォルトではMicrosoft Learn MCPを使用し、learn.microsoft.com外のコンテンツについてはContext7およびAspire MCPを使用します。
API Documentation Lookup
このスキルは、ユーザーが「Effect APIを調べる」「Effectドキュメントを確認する」「Effect関数のシグネチャを探す」「Effect.Xは何をするのか」「Effect.Xの使い方」「Effect APIリファレンス」「Effectドキュメントを取得する」といった質問をした場合や、公式のEffect-TS APIドキュメントから特定の関数シグネチャ、パラメータ、使用例を調べる必要がある場合に使用します。
knowledge-base
このスキルは、ヘルプセンターのアーキテクチャ設計、サポート記事の執筆、検索とセルフサービスの最適化が必要な場合に活用できます。ナレッジベース、ヘルプセンター、サポート記事、セルフサービス、記事テンプレート、検索最適化、コンテンツ分類、ヘルプドキュメントの設計・管理に関するあらゆるタスクで動作します。
markdown
GitHub Flavored Markdown標準に従ったMarkdownファイルのフォーマットと検証ができます。自動的なlinting処理と手動による意味的なレビューを組み合わせることで、ファイルの品質を確保します。
claude-md-enhancer
CLAUDE.mdファイルをプロジェクトタイプに合わせて分析・生成・改善します。ベストプラクティス、モジュール設計対応、技術スタックのカスタマイズに対応しています。新規プロジェクトの立ち上げ、既存のCLAUDE.mdファイルの改善、またはAI支援開発の標準化を図る際にご活用ください。