Agent Skills by ALSEL
Anthropic ClaudeLLM・AI開発⭐ リポ 0品質スコア 50/100

ai-evals

LLM製品の評価(eval)を構築・実行する際にサポートします。モデルの品質測定、テストケースの作成、採点基準(ルーブリック)の設計、AIの出力品質を体系的に計測したい場合に活用してください。

description の原文を見る

Help users create and run AI evaluations. Use when someone is building evals for LLM products, measuring model quality, creating test cases, designing rubrics, or trying to systematically measure AI output quality.

SKILL.md 本文

AI Evals

AI製品の洞察を活用して、ユーザーが体系的なAI評価を作成できるようにサポートします。

サポート方法

ユーザーがAI evalsのヘルプを求めてきたときは:

  1. 評価対象を理解する - 彼らがどのAI機能やモデルをテストしているのか、そして「良好」とは何かを尋ねる
  2. 評価アプローチの設計をサポート - ルーブリック、テストケース、測定方法を提案する
  3. 実装をガイド - エッジケース、採点基準、反復サイクルを考え抜くのを支援する
  4. プロダクト要件と結びつける - evalsが技術メトリクスではなく、実際のユーザーニーズに合致していることを確認する

コア原則

Evalsは新しいPRDである

Brendan Foody:「モデルがプロダクトであれば、evalはプロダクト要件定義書です。」Evalsはあるが、AI製品における成功の姿を定義します。これはオプショナルな品質チェックではなく、中核的な仕様です。

Evalsはコア・プロダクト・スキルである

Hamel Husain & Shreya Shankar:「AnthropicとOpenAIのチーフプロダクトオフィサーの両者が、evalsがプロダクトビルダー向けの最も重要な新スキルになっていると述べています。」これはMLエンジニア向けだけではなく、プロダクト担当者もこれをマスターする必要があります。

ワークフロー(プロセス)が重要である

優れたevalsを構築するには、エラー分析、オープンコーディング(何が間違っているかを書き出す)、失敗パターンのクラスタリング、ルーブリック作成が必要です。これは一度きりのテストではなく、体系的なプロセスです。

ユーザーをサポートするための質問

  • 「このAI出力の『良好』とは何ですか?」
  • 「これまで見てきた最も一般的な失敗パターンは何ですか?」
  • 「モデルが改善したか悪化したかをどのように判断しますか?」
  • 「ユーザーが実際に気にするものを測定していますか?」
  • 「失敗パターンを理解するために十分な出力を手動でレビューしましたか?」

よくある間違い

  • 手動レビューをスキップ - 手動トレース分析を通じて失敗パターンを理解しなければ、優れたevalsは書けません
  • 曖昧な基準を使用 - 「出力は良好でなければならない」はevalではなく、具体的で測定可能な基準が必要です
  • 検証なしのLLM-as-judge - LLMを判定者として使用する場合、その判定者が人間の専門家に対して有効であることを検証する必要があります
  • リッカート尺度より二値判定 - 合格/不合格の決定を強制する。1~5の尺度は無意味な平均値を生成します

詳しく知る

2人のゲストから得た2つの全インサイトについては、references/guest-insights.mdを参照してください

関連スキル

  • Building with LLMs
  • AI Product Strategy
  • Evaluating New Technology

ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

詳細情報

作者
refoundai
リポジトリ
refoundai/lenny-skills
ライセンス
MIT
最終更新
不明

Source: https://github.com/refoundai/lenny-skills / ライセンス: MIT

関連スキル

OpenAILLM・AI開発⭐ リポ 6,054

agent-browser

AI エージェント向けのブラウザ自動化 CLI です。ウェブサイトとの対話が必要な場合に使用します。ページ遷移、フォーム入力、ボタンクリック、スクリーンショット取得、データ抽出、ウェブアプリのテスト、ブラウザ操作の自動化など、あらゆるブラウザタスクに対応できます。「ウェブサイトを開く」「フォームに記入する」「ボタンをクリックする」「スクリーンショットを取得する」「ページからデータを抽出する」「このウェブアプリをテストする」「サイトにログインする」「ブラウザ操作を自動化する」といった要求や、プログラマティックなウェブ操作が必要なタスクで起動します。

by JimmyLv
汎用LLM・AI開発⭐ リポ 1,982

anyskill

AnySkill — あなたのプライベート・スキルクラウド。GitHubを基盤としたリポジトリからエージェントスキルを管理、同期、動的にロードできます。自然言語でクラウドスキルを検索し、オンデマンドでプロンプトを自動ロード、カスタムスキルのアップロードと共有、スキルバンドルの一括インストールが可能です。OpenClaw、Antigravity、Claude Code、Cursorに対応しています。

by LeoYeAI
汎用LLM・AI開発⭐ リポ 1,982

engram

AIエージェント向けの永続的なメモリシステムです。バグ修正、意思決定、発見、設定変更の後はmem_saveを使用してください。ユーザーが「覚えている」「記憶している」と言及した場合、または以前のセッションと重複する作業を開始する際はmem_searchを使用します。セッション終了前にmem_session_summaryを使用して、コンテキストを保持してください。

by LeoYeAI
汎用LLM・AI開発⭐ リポ 21,584

skyvern

AI駆動のブラウザ自動化により、任意のウェブサイトを自動化できます。フォーム入力、データ抽出、ファイルダウンロード、ログイン、複数ステップのワークフロー実行など、ユーザーがウェブサイトと連携する必要があるときに使用します。Skyvernは、LLMとコンピュータビジョンを活用して、未知のサイトも自動操作可能です。Python SDK、TypeScript SDK、REST API、MCPサーバー、またはCLIを通じて統合できます。

by Skyvern-AI
汎用LLM・AI開発⭐ リポ 1,149

pinchbench

PinchBenchベンチマークを実行して、OpenClawエージェントの実世界タスクにおけるパフォーマンスを評価できます。モデルの機能テスト、モデル間の比較、ベンチマーク結果のリーダーボード提出、またはOpenClawのセットアップがカレンダー、メール、リサーチ、コーディング、複数ステップのワークフローにどの程度対応しているかを確認する際に使用します。

by pinchbench
汎用LLM・AI開発⭐ リポ 4,693

openui

OpenUIとOpenUI Langを使用してジェネレーティブUIアプリを構築できます。これらはLLM生成インターフェースのためのトークン効率的なオープン標準です。OpenUI、@openuidev、ジェネレーティブUI、LLMからのストリーミングUI、AI向けコンポーネントライブラリ、またはjson-render/A2UIの置き換えについて述べる際に使用します。スキャフォルディング、defineComponent、システムプロンプト、Renderer、およびOpenUI Lang出力のデバッグに対応しています。

by thesysdev
本サイトは GitHub 上で公開されているオープンソースの SKILL.md ファイルをクロール・インデックス化したものです。 各スキルの著作権は原作者に帰属します。掲載に問題がある場合は info@alsel.co.jp または /takedown フォームよりご連絡ください。
原作者: refoundai · refoundai/lenny-skills · ライセンス: MIT