Agent Skills by ALSEL
汎用LLM・AI開発⭐ リポ 14品質スコア 71/100

llm-evals

LLMの評価構築、プロンプトのテスト、プロンプトバージョンの比較、プロンプトの最適化、LLM出力のCIゲート設定、またはユーザーがeval、ベンチマーク、プロンプトテスト、回帰検出、LLM応答のスコアリングについて言及している場合に使用します。また、「プロンプトをテストしたい」「このプロンプトはより良いか」「evalスイート」「プロンプト最適化」といった発言があった場合にも使用します。

description の原文を見る

Use when building LLM evaluations, testing prompts, comparing prompt versions, optimizing prompts, setting up CI gates for LLM outputs, or when the user mentions eval, benchmark, prompt testing, regression detection, or scoring LLM responses. Also use when someone says "test my prompt", "is this prompt better", "eval suite", or "prompt optimization".

SKILL.md 本文

注意: このスキルのライセンスは unknown です。本サイトでは本文プレビューのみを表示しています。利用前に GitHub の原本でライセンス条件をご確認ください。

LLM Evals

概要

/Users/rshah/evals にある evals フレームワークは、統合されたLLM評価・最適化エンジンです。統計的厳密性を持ってプロンプト品質を測定し、回帰を検出し、プロンプトを自動最適化し、CI でのデプロイメントをゲートするために使用します。

基本原則: 直感ではなく、N 回のトライアルと統計テストで評価します。

いつ使うのか

  • LLM プロンプトやパイプラインの評価を設定する場合
  • 2つのプロンプトバージョンを比較して、どちらが優れているかを確認する場合
  • プロンプトを自動的に最適化する場合
  • 悪いプロンプト変更をブロックするCI ゲートを追加する場合
  • カスタムまたは組み込みメトリクスを使用してLLM出力をスコアリングする場合
  • RAG パイプライン、エージェント、または非同期LLM ワークフローをテストする場合

クイックリファレンス

インストール

cd /Users/rshah/evals
pip install -e .   # または: uv sync

CLI コマンド

コマンド目的
evals run suite.yaml評価スイートを実行
`eva

...

詳細情報

作者
rachittshah
リポジトリ
rachittshah/optimize-anything
ライセンス
unknown
最終更新
2026/3/3

Source: https://github.com/rachittshah/optimize-anything / ライセンス: unknown

関連スキル

OpenAILLM・AI開発⭐ リポ 6,054

agent-browser

AI エージェント向けのブラウザ自動化 CLI です。ウェブサイトとの対話が必要な場合に使用します。ページ遷移、フォーム入力、ボタンクリック、スクリーンショット取得、データ抽出、ウェブアプリのテスト、ブラウザ操作の自動化など、あらゆるブラウザタスクに対応できます。「ウェブサイトを開く」「フォームに記入する」「ボタンをクリックする」「スクリーンショットを取得する」「ページからデータを抽出する」「このウェブアプリをテストする」「サイトにログインする」「ブラウザ操作を自動化する」といった要求や、プログラマティックなウェブ操作が必要なタスクで起動します。

by JimmyLv
汎用LLM・AI開発⭐ リポ 1,982

anyskill

AnySkill — あなたのプライベート・スキルクラウド。GitHubを基盤としたリポジトリからエージェントスキルを管理、同期、動的にロードできます。自然言語でクラウドスキルを検索し、オンデマンドでプロンプトを自動ロード、カスタムスキルのアップロードと共有、スキルバンドルの一括インストールが可能です。OpenClaw、Antigravity、Claude Code、Cursorに対応しています。

by LeoYeAI
汎用LLM・AI開発⭐ リポ 1,982

engram

AIエージェント向けの永続的なメモリシステムです。バグ修正、意思決定、発見、設定変更の後はmem_saveを使用してください。ユーザーが「覚えている」「記憶している」と言及した場合、または以前のセッションと重複する作業を開始する際はmem_searchを使用します。セッション終了前にmem_session_summaryを使用して、コンテキストを保持してください。

by LeoYeAI
汎用LLM・AI開発⭐ リポ 21,584

skyvern

AI駆動のブラウザ自動化により、任意のウェブサイトを自動化できます。フォーム入力、データ抽出、ファイルダウンロード、ログイン、複数ステップのワークフロー実行など、ユーザーがウェブサイトと連携する必要があるときに使用します。Skyvernは、LLMとコンピュータビジョンを活用して、未知のサイトも自動操作可能です。Python SDK、TypeScript SDK、REST API、MCPサーバー、またはCLIを通じて統合できます。

by Skyvern-AI
汎用LLM・AI開発⭐ リポ 1,149

pinchbench

PinchBenchベンチマークを実行して、OpenClawエージェントの実世界タスクにおけるパフォーマンスを評価できます。モデルの機能テスト、モデル間の比較、ベンチマーク結果のリーダーボード提出、またはOpenClawのセットアップがカレンダー、メール、リサーチ、コーディング、複数ステップのワークフローにどの程度対応しているかを確認する際に使用します。

by pinchbench
汎用LLM・AI開発⭐ リポ 4,693

openui

OpenUIとOpenUI Langを使用してジェネレーティブUIアプリを構築できます。これらはLLM生成インターフェースのためのトークン効率的なオープン標準です。OpenUI、@openuidev、ジェネレーティブUI、LLMからのストリーミングUI、AI向けコンポーネントライブラリ、またはjson-render/A2UIの置き換えについて述べる際に使用します。スキャフォルディング、defineComponent、システムプロンプト、Renderer、およびOpenUI Lang出力のデバッグに対応しています。

by thesysdev
本サイトは GitHub 上で公開されているオープンソースの SKILL.md ファイルをクロール・インデックス化したものです。 各スキルの著作権は原作者に帰属します。掲載に問題がある場合は info@alsel.co.jp または /takedown フォームよりご連絡ください。
原作者: rachittshah · rachittshah/optimize-anything · ライセンス: unknown