Anthropic Claudeドキュメント⭐ リポ 0品質スコア 50/100

tavily-crawl

Name: tavily-crawl
Author: tavily-ai

Tavily CLIを使用してウェブサイトをクロールし、複数ページからコンテンツを一括取得するスキル。「サイトをクロールして」「ドキュメントをすべてダウンロード」「/docs以下を全部抽出」など、同一ドメイン上の多数のページからコンテンツを収集したい場合に使用し、クロールの深さ・幅の制御やパスフィルタリング、各ページをローカルのMarkdownファイルとして保存する機能もサポートします。

description の原文を見る

| Crawl websites and extract content from multiple pages via the Tavily CLI. Use this skill when the user wants to crawl a site, download documentation, extract an entire docs section, bulk-extract pages, save a site as local markdown files, or says "crawl", "get all the pages", "download the docs", "extract everything under /docs", "bulk extract", or needs content from many pages on the same domain. Supports depth/breadth control, path filtering, semantic instructions, and saving each page as a local markdown file.

SKILL.md 本文

tavily crawl

複数ページのウェブサイトをクロールしコンテンツを抽出します。各ページをローカルのマークダウンファイルとして保存することをサポートしています。

コマンド実行前に

tvly が PATH にない場合は、まず以下でインストールしてください:

curl -fsSL https://cli.tavily.com/install.sh | bash && tvly login

このステップをスキップしたり、他のツールに頼らないようにしてください。

インストール方法と認証オプションについては tavily-cli を参照してください。

使用する場合

サイト内の多くのページからコンテンツが必要 (例: /docs/ 配下全て)
ドキュメントをオフライン使用のためにダウンロードしたい
ワークフロー のステップ4: 検索 → 抽出 → マッピング → クロール → 調査

クイックスタート

# 基本的なクロール
tvly crawl "https://docs.example.com" --json

# 各ページをマークダウンファイルで保存
tvly crawl "https://docs.example.com" --output-dir ./docs/

# 深いクロール (制限付き)
tvly crawl "https://docs.example.com" --max-depth 2 --limit 50 --json

# 特定パスにフィルタ
tvly crawl "https://example.com" --select-paths "/api/.*,/guides/.*" --exclude-paths "/blog/.*" --json

# セマンティックフォーカス (フルページではなく関連チャンクを返す)
tvly crawl "https://docs.example.com" --instructions "認証ドキュメントを見つける" --chunks-per-source 3 --json

オプション

オプション	説明
`--max-depth`	深さレベル (1-5、デフォルト: 1)
`--max-breadth`	ページあたりのリンク数 (デフォルト: 20)
`--limit`	総ページ数の上限 (デフォルト: 50)
`--instructions`	セマンティックフォーカスのための自然言語ガイダンス
`--chunks-per-source`	ページあたりのチャンク数 (1-5、`--instructions` が必須)
`--extract-depth`	`basic` (デフォルト) または `advanced`
`--format`	`markdown` (デフォルト) または `text`
`--select-paths`	含める正規表現パターン (カンマ区切り)
`--exclude-paths`	除外する正規表現パターン (カンマ区切り)
`--select-domains`	含めるドメインの正規表現 (カンマ区切り)
`--exclude-domains`	除外するドメインの正規表現 (カンマ区切り)
`--allow-external / --no-external`	外部リンクを含める (デフォルト: 含める)
`--include-images`	画像を含める
`--timeout`	最大待機時間 (10-150秒)
`-o, --output`	JSON出力をファイルに保存
`--output-dir`	各ページを.mdファイルとしてディレクトリに保存
`--json`	構造化JSON出力

コンテキスト取得 vs. データ収集のためのクロール

エージェント的用途 (結果をLLMに供給する場合):

常に --instructions + --chunks-per-source を使用してください。フルページではなく関連チャンクのみを返します — コンテキスト爆発を防ぎます。

tvly crawl "https://docs.example.com" --instructions "API認証" --chunks-per-source 3 --json

データ収集用途 (ファイルに保存する場合):

--chunks-per-source なしで --output-dir を使用して、マークダウンファイルとしてフルページを取得します。

tvly crawl "https://docs.example.com" --max-depth 2 --output-dir ./docs/

Tips

保守的に始める — --max-depth 1、--limit 20 — そしてスケールアップします。
--select-paths を使用 して必要なセクションに焦点を当てます。
クロール前にまずmap を使用 してサイト構造を理解します。
常に --limit を設定 して暴走クロールを防ぎます。

詳細情報

作者: tavily-ai
リポジトリ: tavily-ai/skills
ライセンス: MIT
最終更新: 不明

GitHubで原本を見る →フィードバックを送る

Source: https://github.com/tavily-ai/skills / ライセンス: MIT

tavily-crawl

SKILL.md 本文

tavily crawl

コマンド実行前に

使用する場合

クイックスタート

オプション

コンテキスト取得 vs. データ収集のためのクロール

Tips

関連項目

詳細情報

関連スキル

nature-response

microsoft-docs

API Documentation Lookup

knowledge-base

markdown

claude-md-enhancer