brain-in-the-fish
汎用ドキュメント評価エンジン — 認知モデル化されたAIエージェントとオントロジーベースのスコアリングを用いて、任意のドキュメントを任意の基準で評価できます
description の原文を見る
Universal document evaluation engine — evaluate any document against any criteria using cognitively-modelled AI agents with ontology-grounded scoring
SKILL.md 本文
Brain in the Fish — MCPスキルガイド
このツールの概要
Brain in the Fishは、AIエージェントのパネルを使用して、ドキュメント(エッセイ、ポリシー、契約書、臨床レポート、調査)を評価基準に対して評価します。各エージェントのメンタルステートはOWLオントロジーとして存在します。スコアリングはハルシネーション(幻覚)を数学的に検出可能にするエビデンス密度スコアラー(EDS)に基づいています。
利用可能なMCPツール
| ツール | 用途 | 使用タイミング |
|---|---|---|
eval_status | サーバーステータスとセッション状態を確認 | 最初に実行 — サーバーが動作していることを確認 |
eval_ingest | ドキュメント(PDF/テキスト)を取り込む | ステップ1 |
eval_criteria | 評価フレームワークを読み込む | ステップ2 |
eval_align | ドキュメントセクションを評価基準に整列 | ステップ3 |
eval_spawn | 評価者エージェントパネルを生成 | ステップ4 |
eval_scoring_tasks | すべてのスコアリングプロンプトを取得 | ステップ5 |
eval_score_prompt | 1つのエージェント/評価基準ペアのスコアリングプロンプトを取得 | ステップ5(タスク単位) |
eval_record_score | エージェントからのスコアを記録 | ステップ6 |
eval_debate_status | 意見相違と収束を確認 | ステップ7 |
eval_challenge_prompt | ディベート用のチャレンジプロンプトを取得 | ステップ7(チャレンジ単位) |
eval_report | 最終評価レポートを生成 | ステップ8 |
eval_whatif | 修正テキストを使用した「もしも」スコアリング | オプション |
評価ワークフロー
クイックモード(決定論的、サブエージェント不要)
eval_ingest → eval_criteria → eval_align → eval_spawn → eval_report
サーバーがエビデンススコアリングを内部的に実行します。eval_reportは決定論的なスコアを含む完全な評価を生成します。
フルモード(Claudeサブエージェントスコアリング付き)
1. eval_ingest(path, intent)
2. eval_criteria(framework_or_intent)
3. eval_align()
4. eval_spawn(intent)
5. eval_scoring_tasks() → すべてのタスクを取得
6. 各タスクについて:
- スコアリングプロンプトを読む
- エージェントペルソナとしてドキュメント内容を評価基準に対して評価
- eval_record_score(agent_id, criterion_id, score, justification, evidence, gaps)を実行
7. eval_debate_status() → 意見相違を確認
8. 意見相違がある場合:
- eval_challenge_prompt(challenger, target, criterion)を実行
- チャレンジ論証を生成
- 修正されたスコアで eval_record_score()を実行
- 収束するまで繰り返す
9. eval_report() → 最終レポート
サブエージェント派遣パターン
複数のClaudeサブエージェントでオーケストレーションを行う場合:
オーケストレーターが eval_scoring_tasks() を読む
→ パネル内の各エージェントについて:
eval_scoring_tasks()のシステムプロンプトでサブエージェントを派遣
サブエージェントが受け取るもの: ペルソナ、評価基準、ドキュメントセクション
サブエージェントが評価で eval_record_score を呼び出す
→ すべてのスコアが記録された後:
eval_debate_status を確認
意見相違がある場合: チャレンジサブエージェントを派遣
→ 最終出力用に eval_report を実行
サブエージェント用のスコアリングガイドライン
エージェントペルソナとしてスコアする場合:
- スコアリングプロンプトで提供されたドキュメント内容を慎重に読む
- ルーブリックレベルを参照 — ドキュメントが満たしているレベルを述べる
- ドキュメントテキストから具体的なエビデンスを引用 (直接引用)
- ギャップを特定 — スコアを改善するために何が不足しているか
- ペルソナになりきる — 主題専門家と執筆専門家では異なる方法でスコアリングします
- ハルシネーションを避ける — 提供されたテキストに表示されるエビデンスのみを参照
- フルスケールを使用 — すべてのスコアを6〜8にまとめないこと。1〜10の範囲を適切に使用してください。
eval_record_score用のレスポンス形式
{
"agent_id": "スコアリングタスクから取得",
"criterion_id": "スコアリングタスクから取得",
"score": 7.5,
"max_score": 10.0,
"round": 1,
"justification": "具体的なドキュメント内容とルーブリックレベルを参照した詳細な正当化。このセクションはレベル3(スコア範囲6〜8)を満たします。なぜなら[具体的なエビデンス]を示しているからです。レベル4に達するためには、ドキュメントが[具体的な改善]を必要とします。",
"evidence_used": ["ドキュメントからの直接引用", "別の引用"],
"gaps_identified": ["トピックXが欠落している", "主張Yに対する反論がない"]
}
サポートされているドキュメントタイプ
| タイプ | インテントキーワード | 自動選択されるフレームワーク |
|---|---|---|
| アカデミックエッセイ | "essay", "mark", "grade", "coursework" | Academic Essay Marking |
| ポリシードキュメント | "policy", "green book", "impact assessment" | HM Treasury Green Book |
| 調査/研究 | "survey", "methodology", "questionnaire" | Survey Methodology |
| 契約/法務 | "contract", "legal", "compliance" | Contract Review |
| 臨床/NHS | "nhs", "clinical", "patient", "governance" | NHS Clinical Governance |
| GCSE英語 | "gcse", "english language" | GCSE English Language |
| 汎用 | その他 | Generic Quality |
アーキテクチャに関する注記
- 3つのオントロジーが1つのOxigraphトリプルストアに共存: ドキュメント、評価基準、エージェント
- エビデンススコアラーは決定論的なエビデンス基盤スコアリングベースラインを提供
- 検証シグナル(引用、構造、読みやすさレベル、論理的誤謬、留保表現)がスパイクとしてスコアラーにフィードイン
- 認識論的ステートは経験的/規範的/証言的基盤を持つ正当化された信念を追跡
- 哲学的分析はカント的/功利主義的/徳倫理的なレンズを適用
- 信念ダイナミクス — マズローのニーズはディベート中の発見に基づいて更新され、信頼は進化します
- 相互評価メモリは履歴比較用の結果を保持
- すべてのトリプルは queryable — 基盤となるonto_*ツールを通じてSPARQL経由で利用可能
ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- fabio-rovai
- ライセンス
- MIT
- 最終更新
- 2026/4/5
Source: https://github.com/fabio-rovai/brain-in-the-fish / ライセンス: MIT
関連スキル
agent-browser
AI エージェント向けのブラウザ自動化 CLI です。ウェブサイトとの対話が必要な場合に使用します。ページ遷移、フォーム入力、ボタンクリック、スクリーンショット取得、データ抽出、ウェブアプリのテスト、ブラウザ操作の自動化など、あらゆるブラウザタスクに対応できます。「ウェブサイトを開く」「フォームに記入する」「ボタンをクリックする」「スクリーンショットを取得する」「ページからデータを抽出する」「このウェブアプリをテストする」「サイトにログインする」「ブラウザ操作を自動化する」といった要求や、プログラマティックなウェブ操作が必要なタスクで起動します。
anyskill
AnySkill — あなたのプライベート・スキルクラウド。GitHubを基盤としたリポジトリからエージェントスキルを管理、同期、動的にロードできます。自然言語でクラウドスキルを検索し、オンデマンドでプロンプトを自動ロード、カスタムスキルのアップロードと共有、スキルバンドルの一括インストールが可能です。OpenClaw、Antigravity、Claude Code、Cursorに対応しています。
engram
AIエージェント向けの永続的なメモリシステムです。バグ修正、意思決定、発見、設定変更の後はmem_saveを使用してください。ユーザーが「覚えている」「記憶している」と言及した場合、または以前のセッションと重複する作業を開始する際はmem_searchを使用します。セッション終了前にmem_session_summaryを使用して、コンテキストを保持してください。
skyvern
AI駆動のブラウザ自動化により、任意のウェブサイトを自動化できます。フォーム入力、データ抽出、ファイルダウンロード、ログイン、複数ステップのワークフロー実行など、ユーザーがウェブサイトと連携する必要があるときに使用します。Skyvernは、LLMとコンピュータビジョンを活用して、未知のサイトも自動操作可能です。Python SDK、TypeScript SDK、REST API、MCPサーバー、またはCLIを通じて統合できます。
pinchbench
PinchBenchベンチマークを実行して、OpenClawエージェントの実世界タスクにおけるパフォーマンスを評価できます。モデルの機能テスト、モデル間の比較、ベンチマーク結果のリーダーボード提出、またはOpenClawのセットアップがカレンダー、メール、リサーチ、コーディング、複数ステップのワークフローにどの程度対応しているかを確認する際に使用します。
openui
OpenUIとOpenUI Langを使用してジェネレーティブUIアプリを構築できます。これらはLLM生成インターフェースのためのトークン効率的なオープン標準です。OpenUI、@openuidev、ジェネレーティブUI、LLMからのストリーミングUI、AI向けコンポーネントライブラリ、またはjson-render/A2UIの置き換えについて述べる際に使用します。スキャフォルディング、defineComponent、システムプロンプト、Renderer、およびOpenUI Lang出力のデバッグに対応しています。