Agent Skills by ALSEL
Anthropic ClaudeLLM・AI開発⭐ リポ 0品質スコア 50/100

web-browser

ボタンのクリック、フォームの入力、リンクのナビゲーションなど、Webページ上でのさまざまな操作を自動化するスキルです。Chrome DevTools Protocol(CDP)を使用してGoogle ChromeまたはChromiumブラウザをリモート操作することで動作します。ClaudeがWebを閲覧する必要がある際に、このスキルを通じて実行します。

description の原文を見る

Allows to interact with web pages by performing actions such as clicking buttons, filling out forms, and navigating links. It works by remote controlling Google Chrome or Chromium browsers using the Chrome DevTools Protocol (CDP). When Claude needs to browse the web, it can use this skill to do so.

SKILL.md 本文

Web Browser Skill

協調的なサイト探索のための最小限の CDP ツール。

Chrome を起動

./scripts/start.js                  # Isolated reusable profile (default)
./scripts/start.js --profile        # Copy your profile into isolated cache
./scripts/start.js --reset-profile  # Clear selected cached profile before launch

リモートデバッグを有効にして Chrome を起動します(デフォルトポート: :9222)。

プロファイルの動作:

  • デフォルトモード: ~/.cache/agent-web/browser/fresh-profile を使用
  • --profile モード: ~/.cache/agent-web/browser/profile-copy を使用
  • このスキルはお使いの Chrome プロファイルに直接接続しません
  • :9222 が未知のインスタンスで既に使用されている場合、起動は失敗します(再利用はしません)

Chrome が標準的な場所にインストールされていない場合は、以下を設定します:

BROWSER_BIN=/path/to/chrome ./scripts/start.js

オプションのデバッグエンドポイント上書き:

BROWSER_DEBUG_PORT=9333 ./scripts/start.js

ナビゲート

./scripts/nav.js https://example.com
./scripts/nav.js https://example.com --new

現在のタブでナビゲートするか、新しいタブを開きます。

デバイスエミュレーション (モバイル)

./scripts/emulate.js --list
./scripts/emulate.js iphone-14
./scripts/emulate.js pixel-7 --landscape
./scripts/emulate.js --reset

ブラウザスキルコマンド用のアクティブなデバイスエミュレーション設定(ビューポート、DPR、タッチ、UA)を設定します。--reset で削除します。

nav.jseval.jspick.jsdismiss-cookies.jsscreenshot.js などのコマンドは、アクティブな設定を自動的に適用します。

JavaScript を実行

./scripts/eval.js 'document.title'
./scripts/eval.js 'document.querySelectorAll("a").length'
./scripts/eval.js 'JSON.stringify(Array.from(document.querySelectorAll("a")).map(a => ({ text: a.textContent.trim(), href: a.href })).filter(link => !link.href.startsWith("https://")))'

アクティブなタブで JavaScript を実行します(async コンテキスト)。文字列エスケープに注意してください。シングルクォートを使用することをお勧めします。

スクリーンショット

./scripts/screenshot.js
./scripts/screenshot.js --full-page
./scripts/screenshot.js --device iphone-14
./scripts/screenshot.js --device pixel-7 --full-page

スクリーンショットを撮り、一時ファイルパスを返します。

  • デフォルト: 現在のビューポート
  • --full-page: ドキュメント全体の高さをキャプチャ
  • --device <preset>: そのスクリーンショット用の一時的なモバイルエミュレーション

要素を選択

./scripts/pick.js "Click the submit button"

インタラクティブな要素ピッカー。クリックして選択、Cmd/Ctrl+Click で複数選択、Enter で完了。

クッキーダイアログを閉じる

./scripts/dismiss-cookies.js          # Accept cookies
./scripts/dismiss-cookies.js --reject # Reject cookies (where possible)

EU のクッキー同意ダイアログを自動的に閉じます。

ページにナビゲートした後に実行:

./scripts/nav.js https://example.com && ./scripts/dismiss-cookies.js

クイックモバイルデバッグフロー

./scripts/start.js
./scripts/nav.js https://example.com
./scripts/emulate.js iphone-14
./scripts/nav.js https://example.com      # reload with mobile UA
./scripts/dismiss-cookies.js
./scripts/screenshot.js --full-page

バックグラウンドログ(コンソール + エラー + ネットワーク)

start.js によって自動的に起動され、JSONL ログを以下に書き込みます:

~/.cache/agent-web/logs/YYYY-MM-DD/<targetId>.jsonl

手動で起動:

./scripts/watch.js

最新ログをテール:

./scripts/logs-tail.js           # dump current log and exit
./scripts/logs-tail.js --follow  # keep following

ネットワークレスポンスを要約:

./scripts/net-summary.js

ライセンス: Apache-2.0(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

詳細情報

作者
mitsuhiko
リポジトリ
mitsuhiko/agent-stuff
ライセンス
Apache-2.0
最終更新
不明

Source: https://github.com/mitsuhiko/agent-stuff / ライセンス: Apache-2.0

関連スキル

OpenAILLM・AI開発⭐ リポ 6,054

agent-browser

AI エージェント向けのブラウザ自動化 CLI です。ウェブサイトとの対話が必要な場合に使用します。ページ遷移、フォーム入力、ボタンクリック、スクリーンショット取得、データ抽出、ウェブアプリのテスト、ブラウザ操作の自動化など、あらゆるブラウザタスクに対応できます。「ウェブサイトを開く」「フォームに記入する」「ボタンをクリックする」「スクリーンショットを取得する」「ページからデータを抽出する」「このウェブアプリをテストする」「サイトにログインする」「ブラウザ操作を自動化する」といった要求や、プログラマティックなウェブ操作が必要なタスクで起動します。

by JimmyLv
汎用LLM・AI開発⭐ リポ 1,982

anyskill

AnySkill — あなたのプライベート・スキルクラウド。GitHubを基盤としたリポジトリからエージェントスキルを管理、同期、動的にロードできます。自然言語でクラウドスキルを検索し、オンデマンドでプロンプトを自動ロード、カスタムスキルのアップロードと共有、スキルバンドルの一括インストールが可能です。OpenClaw、Antigravity、Claude Code、Cursorに対応しています。

by LeoYeAI
汎用LLM・AI開発⭐ リポ 1,982

engram

AIエージェント向けの永続的なメモリシステムです。バグ修正、意思決定、発見、設定変更の後はmem_saveを使用してください。ユーザーが「覚えている」「記憶している」と言及した場合、または以前のセッションと重複する作業を開始する際はmem_searchを使用します。セッション終了前にmem_session_summaryを使用して、コンテキストを保持してください。

by LeoYeAI
汎用LLM・AI開発⭐ リポ 21,584

skyvern

AI駆動のブラウザ自動化により、任意のウェブサイトを自動化できます。フォーム入力、データ抽出、ファイルダウンロード、ログイン、複数ステップのワークフロー実行など、ユーザーがウェブサイトと連携する必要があるときに使用します。Skyvernは、LLMとコンピュータビジョンを活用して、未知のサイトも自動操作可能です。Python SDK、TypeScript SDK、REST API、MCPサーバー、またはCLIを通じて統合できます。

by Skyvern-AI
汎用LLM・AI開発⭐ リポ 1,149

pinchbench

PinchBenchベンチマークを実行して、OpenClawエージェントの実世界タスクにおけるパフォーマンスを評価できます。モデルの機能テスト、モデル間の比較、ベンチマーク結果のリーダーボード提出、またはOpenClawのセットアップがカレンダー、メール、リサーチ、コーディング、複数ステップのワークフローにどの程度対応しているかを確認する際に使用します。

by pinchbench
汎用LLM・AI開発⭐ リポ 4,693

openui

OpenUIとOpenUI Langを使用してジェネレーティブUIアプリを構築できます。これらはLLM生成インターフェースのためのトークン効率的なオープン標準です。OpenUI、@openuidev、ジェネレーティブUI、LLMからのストリーミングUI、AI向けコンポーネントライブラリ、またはjson-render/A2UIの置き換えについて述べる際に使用します。スキャフォルディング、defineComponent、システムプロンプト、Renderer、およびOpenUI Lang出力のデバッグに対応しています。

by thesysdev
本サイトは GitHub 上で公開されているオープンソースの SKILL.md ファイルをクロール・インデックス化したものです。 各スキルの著作権は原作者に帰属します。掲載に問題がある場合は info@alsel.co.jp または /takedown フォームよりご連絡ください。
原作者: mitsuhiko · mitsuhiko/agent-stuff · ライセンス: Apache-2.0