Agent Skills by ALSEL
Anthropic ClaudeLLM・AI開発⭐ リポ 0品質スコア 50/100

remote-browser

サンドボックス環境(GUI なし)で動作する agent が、ローカルブラウザをリモートから操作するためのスキル。Webサイトのナビゲーション、フォーム入力、スクリーンショットの取得、トンネル経由でのローカル開発サーバーの公開などが必要な場面で使用します。

description の原文を見る

Controls a local browser from a sandboxed remote machine. Use when the agent is running in a sandbox (no GUI) and needs to navigate websites, interact with web pages, fill forms, take screenshots, or expose local dev servers via tunnels.

SKILL.md 本文

サンドボックス化されたエージェント向けブラウザー自動化

このスキルは、ヘッドレスブラウザーを制御する必要があるサンドボックス化されたリモートマシン(クラウドVM、CI、コーディングエージェント)で実行されるエージェント向けです。

前提条件

browser-use doctor    # インストール確認

セットアップの詳細については、https://github.com/browser-use/browser-use/blob/main/browser_use/skill_cli/README.md を参照してください。

コア ワークフロー

  1. ナビゲート: browser-use open <url> — ヘッドレスブラウザーを起動(必要な場合)
  2. 検査: browser-use state — クリック可能な要素をインデックス付きで返す
  3. 操作: state から取得したインデックスを使用(browser-use click 5, browser-use input 3 "text"
  4. 確認: browser-use state または browser-use screenshot で確認
  5. 繰り返す: コマンド間でブラウザーは開いたままになります
  6. クリーンアップ: 完了したら browser-use close を実行

ブラウザーモード

browser-use open <url>                                    # デフォルト: ヘッドレス Chromium
browser-use cloud connect                                 # クラウドブラウザーをプロビジョニングして接続
browser-use --connect open <url>                          # 実行中の Chrome を CDP 経由で自動検出
browser-use --cdp-url ws://localhost:9222/... open <url>  # CDP URL 経由で接続

コマンド

# ナビゲーション
browser-use open <url>                    # URL に移動
browser-use back                          # 履歴を戻る
browser-use scroll down                   # 下にスクロール(--amount N でピクセル数を指定)
browser-use scroll up                     # 上にスクロール
browser-use tab list                      # すべてのタブとロック状態を一覧表示
browser-use tab new [url]                 # 新しいタブを開く(空白または URL 付き)
browser-use tab switch <index>            # インデックスでタブを切り替える
browser-use tab close <index> [index...]  # 1 つ以上のタブを閉じる

# ページ状態 — 常に state を最初に実行して要素インデックスを取得
browser-use state                         # URL、タイトル、インデックス付きのクリック可能な要素
browser-use screenshot [path.png]         # スクリーンショット(パスなしで base64、--full でフルページ)

# インタラクション — state から取得したインデックスを使用
browser-use click <index>                 # インデックスで要素をクリック
browser-use click <x> <y>                 # ピクセル座標でクリック
browser-use type "text"                   # フォーカスされた要素にテキストを入力
browser-use input <index> "text"          # 要素をクリックしてからテキストを入力
browser-use keys "Enter"                  # キーボードキーを送信("Control+a" など)
browser-use select <index> "option"       # ドロップダウンオプションを選択
browser-use upload <index> <path>         # ファイル入力にファイルをアップロード
browser-use hover <index>                 # 要素にカーソルを移す
browser-use dblclick <index>              # 要素をダブルクリック
browser-use rightclick <index>            # 要素を右クリック

# データ抽出
browser-use eval "js code"                # JavaScript を実行して結果を返す
browser-use get title                     # ページタイトル
browser-use get html [--selector "h1"]    # ページ HTML(または selector でスコープ)
browser-use get text <index>              # 要素のテキスト内容
browser-use get value <index>             # input/textarea の値
browser-use get attributes <index>        # 要素の属性
browser-use get bbox <index>              # バウンディングボックス(x, y, width, height)

# 待機
browser-use wait selector "css"           # 要素を待機(--state visible|hidden|attached|detached, --timeout ms)
browser-use wait text "text"              # テキストが表示されるのを待機

# Cookie
browser-use cookies get [--url <url>]     # Cookie を取得(オプションでフィルター)
browser-use cookies set <name> <value>    # Cookie を設定(--domain, --secure, --http-only, --same-site, --expires)
browser-use cookies clear [--url <url>]   # Cookie をクリア
browser-use cookies export <file>         # JSON にエクスポート
browser-use cookies import <file>         # JSON からインポート

# Python — ブラウザーアクセス可能な永続的セッション
browser-use python "code"                 # Python を実行(変数は呼び出し間で永続)
browser-use python --file script.py       # ファイルを実行
browser-use python --vars                 # 定義された変数を表示
browser-use python --reset                # 名前空間をクリア

# セッション
browser-use close                         # ブラウザーを閉じてデーモンを停止
browser-use sessions                      # アクティブなセッションを一覧表示
browser-use close --all                   # すべてのセッションを閉じる

Python の browser オブジェクトは以下を提供します: browser.url, browser.title, browser.html, browser.goto(url), browser.back(), browser.click(index), browser.type(text), browser.input(index, text), browser.keys(keys), browser.upload(index, path), browser.screenshot(path), browser.scroll(direction, amount), browser.wait(seconds).

トンネル

ローカル開発サーバーを Cloudflare トンネル経由でブラウザーに公開します。

browser-use tunnel <port>                 # トンネルを開始(冪等)
browser-use tunnel list                   # アクティブなトンネルを表示
browser-use tunnel stop <port>            # トンネルを停止
browser-use tunnel stop --all             # すべてのトンネルを停止

コマンド チェーニング

コマンドは && でチェーンできます。ブラウザーはデーモン経由で永続するため、チェーニングは安全で効率的です。

browser-use open https://example.com && browser-use state
browser-use input 5 "user@example.com" && browser-use input 6 "password" && browser-use click 7

中間出力が不要な場合はチェーンします。インデックスを検出するために state を解析する必要がある場合は別々に実行します。

一般的なワークフロー

ローカル開発サーバーの公開

python -m http.server 3000 &                      # 開発サーバーを起動
browser-use tunnel 3000                            # → https://abc.trycloudflare.com
browser-use open https://abc.trycloudflare.com     # トンネルをブラウズ

トンネルはブラウザーセッションから独立して動作し、browser-use close を実行後も永続します。

マルチエージェント(--connect モード)

複数のエージェントは --connect 経由で 1 つのブラウザーを共有できます。各エージェントは独自のタブを取得し、他のエージェントは干渉できません。

セットアップ: 一度登録してから、すべての --connect コマンドでインデックスを渡します:

INDEX=$(browser-use register)                    # → "1" を出力
browser-use --connect $INDEX open <url>          # エージェント独自のタブで移動
browser-use --connect $INDEX state               # エージェントのタブから状態を取得
browser-use --connect $INDEX click <element>     # エージェントのタブでクリック
  • タブロック: エージェントがタブを変更する(クリック、入力、ナビゲート)とき、そのタブはロックされます。他のエージェントが同じタブを変更しようとするとエラーが発生します。
  • 読み取り専用アクセス: statescreenshotget、および wait コマンドはロックに関係なくすべてのタブで機能します。
  • エージェントセッションは 5 分間の非アクティブ後に期限切れになります。新しいインデックスを取得するには browser-use register を再度実行してください。

グローバルオプション

オプション説明
--headedブラウザーウィンドウを表示
--connect実行中の Chrome を CDP 経由で自動検出
--cdp-url <url>CDP URL 経由で接続(http:// または ws://
--session NAME名前付きセッションをターゲット(デフォルト: "default")
--jsonJSON として出力

ヒント

  1. 常に state を最初に実行 して、利用可能な要素とそのインデックスを確認します
  2. セッションは永続しますclose するまでコマンド間でブラウザーは開いたままです
  3. トンネルは独立していますbrowser-use close を実行後も永続します
  4. tunnel は冪等です — 同じポートに対して再度呼び出すと既存の URL が返されます

トラブルシューティング

  • ブラウザーが起動しないですか? browser-use close を実行してから再試行します。browser-use doctor を実行して確認してください。
  • 要素が見つかりないですか? browser-use scroll down を実行してから browser-use state を実行します
  • トンネルが機能しないですか? which cloudflared で確認、browser-use tunnel list でアクティブなトンネルを確認します

クリーンアップ

browser-use close                         # ブラウザーセッションを閉じる
browser-use tunnel stop --all             # トンネルを停止(ある場合)

ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

詳細情報

作者
browser-use
リポジトリ
browser-use/browser-use
ライセンス
MIT
最終更新
不明

Source: https://github.com/browser-use/browser-use / ライセンス: MIT

関連スキル

OpenAILLM・AI開発⭐ リポ 6,054

agent-browser

AI エージェント向けのブラウザ自動化 CLI です。ウェブサイトとの対話が必要な場合に使用します。ページ遷移、フォーム入力、ボタンクリック、スクリーンショット取得、データ抽出、ウェブアプリのテスト、ブラウザ操作の自動化など、あらゆるブラウザタスクに対応できます。「ウェブサイトを開く」「フォームに記入する」「ボタンをクリックする」「スクリーンショットを取得する」「ページからデータを抽出する」「このウェブアプリをテストする」「サイトにログインする」「ブラウザ操作を自動化する」といった要求や、プログラマティックなウェブ操作が必要なタスクで起動します。

by JimmyLv
汎用LLM・AI開発⭐ リポ 1,982

anyskill

AnySkill — あなたのプライベート・スキルクラウド。GitHubを基盤としたリポジトリからエージェントスキルを管理、同期、動的にロードできます。自然言語でクラウドスキルを検索し、オンデマンドでプロンプトを自動ロード、カスタムスキルのアップロードと共有、スキルバンドルの一括インストールが可能です。OpenClaw、Antigravity、Claude Code、Cursorに対応しています。

by LeoYeAI
汎用LLM・AI開発⭐ リポ 1,982

engram

AIエージェント向けの永続的なメモリシステムです。バグ修正、意思決定、発見、設定変更の後はmem_saveを使用してください。ユーザーが「覚えている」「記憶している」と言及した場合、または以前のセッションと重複する作業を開始する際はmem_searchを使用します。セッション終了前にmem_session_summaryを使用して、コンテキストを保持してください。

by LeoYeAI
汎用LLM・AI開発⭐ リポ 21,584

skyvern

AI駆動のブラウザ自動化により、任意のウェブサイトを自動化できます。フォーム入力、データ抽出、ファイルダウンロード、ログイン、複数ステップのワークフロー実行など、ユーザーがウェブサイトと連携する必要があるときに使用します。Skyvernは、LLMとコンピュータビジョンを活用して、未知のサイトも自動操作可能です。Python SDK、TypeScript SDK、REST API、MCPサーバー、またはCLIを通じて統合できます。

by Skyvern-AI
汎用LLM・AI開発⭐ リポ 1,149

pinchbench

PinchBenchベンチマークを実行して、OpenClawエージェントの実世界タスクにおけるパフォーマンスを評価できます。モデルの機能テスト、モデル間の比較、ベンチマーク結果のリーダーボード提出、またはOpenClawのセットアップがカレンダー、メール、リサーチ、コーディング、複数ステップのワークフローにどの程度対応しているかを確認する際に使用します。

by pinchbench
汎用LLM・AI開発⭐ リポ 4,693

openui

OpenUIとOpenUI Langを使用してジェネレーティブUIアプリを構築できます。これらはLLM生成インターフェースのためのトークン効率的なオープン標準です。OpenUI、@openuidev、ジェネレーティブUI、LLMからのストリーミングUI、AI向けコンポーネントライブラリ、またはjson-render/A2UIの置き換えについて述べる際に使用します。スキャフォルディング、defineComponent、システムプロンプト、Renderer、およびOpenUI Lang出力のデバッグに対応しています。

by thesysdev
本サイトは GitHub 上で公開されているオープンソースの SKILL.md ファイルをクロール・インデックス化したものです。 各スキルの著作権は原作者に帰属します。掲載に問題がある場合は info@alsel.co.jp または /takedown フォームよりご連絡ください。
原作者: browser-use · browser-use/browser-use · ライセンス: MIT