minimal-run-and-audit
READMEを起点としたAIリポジトリ再現における、信頼済みレーンでの実行・レポートスキル。指定されたスモークテストや推論・評価コマンドの実行結果を記録・正規化し、リポジトリファイルの変更があった場合はパッチノートを含む標準化された`repro_outputs/`ファイルを生成する際に使用する。学習の実行、リポジトリの初期取り込み、汎用的な環境セットアップ、論文の検索、対象の選定、またはエンドツーエンドのオーケストレーション単体には使用しない。
description の原文を見る
Trusted-lane execution and reporting skill for README-first AI repo reproduction. Use when the task is specifically to capture or normalize evidence from the selected smoke test or documented inference or evaluation command and write standardized `repro_outputs/` files, including patch notes when repository files changed. Do not use for training execution, initial repo intake, generic environment setup, paper lookup, target selection, or end-to-end orchestration by itself.
SKILL.md 本文
minimal-run-and-audit
../../references/agent-operating-principles.md の共有オペレーティング原則を使用してください。このスキルは、すべてのコマンドを厳密なプロトコルに変えることなく、実行証拠を監査可能にするべきです。
適用時期
- 再現対象とセットアップ計画が存在する場合。
- メインスキルが実行証拠と正規化された出力が必要な場合。
- スモークテスト、文書化されたインファレンス実行、文書化された評価実行、またはその他の短い非トレーニング検証が適切な場合。
- ユーザーが既に試みるべきコマンドを認識しており、実行とレポートのみを望む場合。
適用しない時期
- 初期リポジトリスキャン中。
- 環境またはアセットが実行を意味のないものにするほど不明確な場合。
- タスクがリポジトリ実行ではなく文献検索である場合。
- ユーザーがメイン実行として何が計算されるべきかをまだ決定している場合。
明確な境界
- このスキルは、試みられたコマンドに対する正規化されたレポートを所有します。
- メインスキルまたはシンヘルパーから実行証拠を受け取ることがあります。
- 独自に全体的な対象を選択しません。
- 広範な論文分析を実行しません。
- トレーニングスタートアップ、再開、またはロングラン トレーニング状態を所有しません。
- リスキーなコード編集を受け入れ可能な実践に正規化すべきではありません。
入力の期待値
- 選択された再現目標
- 実行可能なコマンドまたはスモークコマンド
- 環境およびアセット仮定
- オプションのパッチメタデータ
出力の期待値
- 実行結果サマリー
- 正規化された
repro_outputs/ファイル - 検証済み、部分的、およびブロック状態の明確な区別
- リポジトリファイルが変更された場合の
PATCHES.md
注記
references/reporting-policy.md、scripts/run_command.py、および scripts/write_outputs.py を使用してください。
ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- lllllllama
- ライセンス
- MIT
- 最終更新
- 不明
Source: https://github.com/lllllllama/ai-paper-reproduction-skill / ライセンス: MIT
関連スキル
agent-browser
AI エージェント向けのブラウザ自動化 CLI です。ウェブサイトとの対話が必要な場合に使用します。ページ遷移、フォーム入力、ボタンクリック、スクリーンショット取得、データ抽出、ウェブアプリのテスト、ブラウザ操作の自動化など、あらゆるブラウザタスクに対応できます。「ウェブサイトを開く」「フォームに記入する」「ボタンをクリックする」「スクリーンショットを取得する」「ページからデータを抽出する」「このウェブアプリをテストする」「サイトにログインする」「ブラウザ操作を自動化する」といった要求や、プログラマティックなウェブ操作が必要なタスクで起動します。
anyskill
AnySkill — あなたのプライベート・スキルクラウド。GitHubを基盤としたリポジトリからエージェントスキルを管理、同期、動的にロードできます。自然言語でクラウドスキルを検索し、オンデマンドでプロンプトを自動ロード、カスタムスキルのアップロードと共有、スキルバンドルの一括インストールが可能です。OpenClaw、Antigravity、Claude Code、Cursorに対応しています。
engram
AIエージェント向けの永続的なメモリシステムです。バグ修正、意思決定、発見、設定変更の後はmem_saveを使用してください。ユーザーが「覚えている」「記憶している」と言及した場合、または以前のセッションと重複する作業を開始する際はmem_searchを使用します。セッション終了前にmem_session_summaryを使用して、コンテキストを保持してください。
skyvern
AI駆動のブラウザ自動化により、任意のウェブサイトを自動化できます。フォーム入力、データ抽出、ファイルダウンロード、ログイン、複数ステップのワークフロー実行など、ユーザーがウェブサイトと連携する必要があるときに使用します。Skyvernは、LLMとコンピュータビジョンを活用して、未知のサイトも自動操作可能です。Python SDK、TypeScript SDK、REST API、MCPサーバー、またはCLIを通じて統合できます。
pinchbench
PinchBenchベンチマークを実行して、OpenClawエージェントの実世界タスクにおけるパフォーマンスを評価できます。モデルの機能テスト、モデル間の比較、ベンチマーク結果のリーダーボード提出、またはOpenClawのセットアップがカレンダー、メール、リサーチ、コーディング、複数ステップのワークフローにどの程度対応しているかを確認する際に使用します。
openui
OpenUIとOpenUI Langを使用してジェネレーティブUIアプリを構築できます。これらはLLM生成インターフェースのためのトークン効率的なオープン標準です。OpenUI、@openuidev、ジェネレーティブUI、LLMからのストリーミングUI、AI向けコンポーネントライブラリ、またはjson-render/A2UIの置き換えについて述べる際に使用します。スキャフォルディング、defineComponent、システムプロンプト、Renderer、およびOpenUI Lang出力のデバッグに対応しています。