remote-browser
サンドボックス環境(GUI なし)で動作する agent が、ローカルブラウザをリモートから操作するためのスキル。Webサイトのナビゲーション、フォーム入力、スクリーンショットの取得、トンネル経由でのローカル開発サーバーの公開などが必要な場面で使用します。
description の原文を見る
Controls a local browser from a sandboxed remote machine. Use when the agent is running in a sandbox (no GUI) and needs to navigate websites, interact with web pages, fill forms, take screenshots, or expose local dev servers via tunnels.
SKILL.md 本文
サンドボックス化されたエージェント向けブラウザー自動化
このスキルは、ヘッドレスブラウザーを制御する必要があるサンドボックス化されたリモートマシン(クラウドVM、CI、コーディングエージェント)で実行されるエージェント向けです。
前提条件
browser-use doctor # インストール確認
セットアップの詳細については、https://github.com/browser-use/browser-use/blob/main/browser_use/skill_cli/README.md を参照してください。
コア ワークフロー
- ナビゲート:
browser-use open <url>— ヘッドレスブラウザーを起動(必要な場合) - 検査:
browser-use state— クリック可能な要素をインデックス付きで返す - 操作: state から取得したインデックスを使用(
browser-use click 5,browser-use input 3 "text") - 確認:
browser-use stateまたはbrowser-use screenshotで確認 - 繰り返す: コマンド間でブラウザーは開いたままになります
- クリーンアップ: 完了したら
browser-use closeを実行
ブラウザーモード
browser-use open <url> # デフォルト: ヘッドレス Chromium
browser-use cloud connect # クラウドブラウザーをプロビジョニングして接続
browser-use --connect open <url> # 実行中の Chrome を CDP 経由で自動検出
browser-use --cdp-url ws://localhost:9222/... open <url> # CDP URL 経由で接続
コマンド
# ナビゲーション
browser-use open <url> # URL に移動
browser-use back # 履歴を戻る
browser-use scroll down # 下にスクロール(--amount N でピクセル数を指定)
browser-use scroll up # 上にスクロール
browser-use tab list # すべてのタブとロック状態を一覧表示
browser-use tab new [url] # 新しいタブを開く(空白または URL 付き)
browser-use tab switch <index> # インデックスでタブを切り替える
browser-use tab close <index> [index...] # 1 つ以上のタブを閉じる
# ページ状態 — 常に state を最初に実行して要素インデックスを取得
browser-use state # URL、タイトル、インデックス付きのクリック可能な要素
browser-use screenshot [path.png] # スクリーンショット(パスなしで base64、--full でフルページ)
# インタラクション — state から取得したインデックスを使用
browser-use click <index> # インデックスで要素をクリック
browser-use click <x> <y> # ピクセル座標でクリック
browser-use type "text" # フォーカスされた要素にテキストを入力
browser-use input <index> "text" # 要素をクリックしてからテキストを入力
browser-use keys "Enter" # キーボードキーを送信("Control+a" など)
browser-use select <index> "option" # ドロップダウンオプションを選択
browser-use upload <index> <path> # ファイル入力にファイルをアップロード
browser-use hover <index> # 要素にカーソルを移す
browser-use dblclick <index> # 要素をダブルクリック
browser-use rightclick <index> # 要素を右クリック
# データ抽出
browser-use eval "js code" # JavaScript を実行して結果を返す
browser-use get title # ページタイトル
browser-use get html [--selector "h1"] # ページ HTML(または selector でスコープ)
browser-use get text <index> # 要素のテキスト内容
browser-use get value <index> # input/textarea の値
browser-use get attributes <index> # 要素の属性
browser-use get bbox <index> # バウンディングボックス(x, y, width, height)
# 待機
browser-use wait selector "css" # 要素を待機(--state visible|hidden|attached|detached, --timeout ms)
browser-use wait text "text" # テキストが表示されるのを待機
# Cookie
browser-use cookies get [--url <url>] # Cookie を取得(オプションでフィルター)
browser-use cookies set <name> <value> # Cookie を設定(--domain, --secure, --http-only, --same-site, --expires)
browser-use cookies clear [--url <url>] # Cookie をクリア
browser-use cookies export <file> # JSON にエクスポート
browser-use cookies import <file> # JSON からインポート
# Python — ブラウザーアクセス可能な永続的セッション
browser-use python "code" # Python を実行(変数は呼び出し間で永続)
browser-use python --file script.py # ファイルを実行
browser-use python --vars # 定義された変数を表示
browser-use python --reset # 名前空間をクリア
# セッション
browser-use close # ブラウザーを閉じてデーモンを停止
browser-use sessions # アクティブなセッションを一覧表示
browser-use close --all # すべてのセッションを閉じる
Python の browser オブジェクトは以下を提供します: browser.url, browser.title, browser.html, browser.goto(url), browser.back(), browser.click(index), browser.type(text), browser.input(index, text), browser.keys(keys), browser.upload(index, path), browser.screenshot(path), browser.scroll(direction, amount), browser.wait(seconds).
トンネル
ローカル開発サーバーを Cloudflare トンネル経由でブラウザーに公開します。
browser-use tunnel <port> # トンネルを開始(冪等)
browser-use tunnel list # アクティブなトンネルを表示
browser-use tunnel stop <port> # トンネルを停止
browser-use tunnel stop --all # すべてのトンネルを停止
コマンド チェーニング
コマンドは && でチェーンできます。ブラウザーはデーモン経由で永続するため、チェーニングは安全で効率的です。
browser-use open https://example.com && browser-use state
browser-use input 5 "user@example.com" && browser-use input 6 "password" && browser-use click 7
中間出力が不要な場合はチェーンします。インデックスを検出するために state を解析する必要がある場合は別々に実行します。
一般的なワークフロー
ローカル開発サーバーの公開
python -m http.server 3000 & # 開発サーバーを起動
browser-use tunnel 3000 # → https://abc.trycloudflare.com
browser-use open https://abc.trycloudflare.com # トンネルをブラウズ
トンネルはブラウザーセッションから独立して動作し、browser-use close を実行後も永続します。
マルチエージェント(--connect モード)
複数のエージェントは --connect 経由で 1 つのブラウザーを共有できます。各エージェントは独自のタブを取得し、他のエージェントは干渉できません。
セットアップ: 一度登録してから、すべての --connect コマンドでインデックスを渡します:
INDEX=$(browser-use register) # → "1" を出力
browser-use --connect $INDEX open <url> # エージェント独自のタブで移動
browser-use --connect $INDEX state # エージェントのタブから状態を取得
browser-use --connect $INDEX click <element> # エージェントのタブでクリック
- タブロック: エージェントがタブを変更する(クリック、入力、ナビゲート)とき、そのタブはロックされます。他のエージェントが同じタブを変更しようとするとエラーが発生します。
- 読み取り専用アクセス:
state、screenshot、get、およびwaitコマンドはロックに関係なくすべてのタブで機能します。 - エージェントセッションは 5 分間の非アクティブ後に期限切れになります。新しいインデックスを取得するには
browser-use registerを再度実行してください。
グローバルオプション
| オプション | 説明 |
|---|---|
--headed | ブラウザーウィンドウを表示 |
--connect | 実行中の Chrome を CDP 経由で自動検出 |
--cdp-url <url> | CDP URL 経由で接続(http:// または ws://) |
--session NAME | 名前付きセッションをターゲット(デフォルト: "default") |
--json | JSON として出力 |
ヒント
- 常に
stateを最初に実行 して、利用可能な要素とそのインデックスを確認します - セッションは永続します —
closeするまでコマンド間でブラウザーは開いたままです - トンネルは独立しています —
browser-use closeを実行後も永続します tunnelは冪等です — 同じポートに対して再度呼び出すと既存の URL が返されます
トラブルシューティング
- ブラウザーが起動しないですか?
browser-use closeを実行してから再試行します。browser-use doctorを実行して確認してください。 - 要素が見つかりないですか?
browser-use scroll downを実行してからbrowser-use stateを実行します - トンネルが機能しないですか?
which cloudflaredで確認、browser-use tunnel listでアクティブなトンネルを確認します
クリーンアップ
browser-use close # ブラウザーセッションを閉じる
browser-use tunnel stop --all # トンネルを停止(ある場合)
ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- browser-use
- ライセンス
- MIT
- 最終更新
- 不明
Source: https://github.com/browser-use/browser-use / ライセンス: MIT
関連スキル
agent-browser
AI エージェント向けのブラウザ自動化 CLI です。ウェブサイトとの対話が必要な場合に使用します。ページ遷移、フォーム入力、ボタンクリック、スクリーンショット取得、データ抽出、ウェブアプリのテスト、ブラウザ操作の自動化など、あらゆるブラウザタスクに対応できます。「ウェブサイトを開く」「フォームに記入する」「ボタンをクリックする」「スクリーンショットを取得する」「ページからデータを抽出する」「このウェブアプリをテストする」「サイトにログインする」「ブラウザ操作を自動化する」といった要求や、プログラマティックなウェブ操作が必要なタスクで起動します。
anyskill
AnySkill — あなたのプライベート・スキルクラウド。GitHubを基盤としたリポジトリからエージェントスキルを管理、同期、動的にロードできます。自然言語でクラウドスキルを検索し、オンデマンドでプロンプトを自動ロード、カスタムスキルのアップロードと共有、スキルバンドルの一括インストールが可能です。OpenClaw、Antigravity、Claude Code、Cursorに対応しています。
engram
AIエージェント向けの永続的なメモリシステムです。バグ修正、意思決定、発見、設定変更の後はmem_saveを使用してください。ユーザーが「覚えている」「記憶している」と言及した場合、または以前のセッションと重複する作業を開始する際はmem_searchを使用します。セッション終了前にmem_session_summaryを使用して、コンテキストを保持してください。
skyvern
AI駆動のブラウザ自動化により、任意のウェブサイトを自動化できます。フォーム入力、データ抽出、ファイルダウンロード、ログイン、複数ステップのワークフロー実行など、ユーザーがウェブサイトと連携する必要があるときに使用します。Skyvernは、LLMとコンピュータビジョンを活用して、未知のサイトも自動操作可能です。Python SDK、TypeScript SDK、REST API、MCPサーバー、またはCLIを通じて統合できます。
pinchbench
PinchBenchベンチマークを実行して、OpenClawエージェントの実世界タスクにおけるパフォーマンスを評価できます。モデルの機能テスト、モデル間の比較、ベンチマーク結果のリーダーボード提出、またはOpenClawのセットアップがカレンダー、メール、リサーチ、コーディング、複数ステップのワークフローにどの程度対応しているかを確認する際に使用します。
openui
OpenUIとOpenUI Langを使用してジェネレーティブUIアプリを構築できます。これらはLLM生成インターフェースのためのトークン効率的なオープン標準です。OpenUI、@openuidev、ジェネレーティブUI、LLMからのストリーミングUI、AI向けコンポーネントライブラリ、またはjson-render/A2UIの置き換えについて述べる際に使用します。スキャフォルディング、defineComponent、システムプロンプト、Renderer、およびOpenUI Lang出力のデバッグに対応しています。