Brain in the Fish — MCPスキルガイド

このツールの概要

Brain in the Fishは、AIエージェントのパネルを使用して、ドキュメント(エッセイ、ポリシー、契約書、臨床レポート、調査)を評価基準に対して評価します。各エージェントのメンタルステートはOWLオントロジーとして存在します。スコアリングはハルシネーション(幻覚)を数学的に検出可能にするエビデンス密度スコアラー(EDS)に基づいています。

利用可能なMCPツール

ツール	用途	使用タイミング
`eval_status`	サーバーステータスとセッション状態を確認	最初に実行 — サーバーが動作していることを確認
`eval_ingest`	ドキュメント(PDF/テキスト)を取り込む	ステップ1
`eval_criteria`	評価フレームワークを読み込む	ステップ2
`eval_align`	ドキュメントセクションを評価基準に整列	ステップ3
`eval_spawn`	評価者エージェントパネルを生成	ステップ4
`eval_scoring_tasks`	すべてのスコアリングプロンプトを取得	ステップ5
`eval_score_prompt`	1つのエージェント/評価基準ペアのスコアリングプロンプトを取得	ステップ5(タスク単位)
`eval_record_score`	エージェントからのスコアを記録	ステップ6
`eval_debate_status`	意見相違と収束を確認	ステップ7
`eval_challenge_prompt`	ディベート用のチャレンジプロンプトを取得	ステップ7(チャレンジ単位)
`eval_report`	最終評価レポートを生成	ステップ8
`eval_whatif`	修正テキストを使用した「もしも」スコアリング	オプション

評価ワークフロー

クイックモード(決定論的、サブエージェント不要)

eval_ingest → eval_criteria → eval_align → eval_spawn → eval_report

サーバーがエビデンススコアリングを内部的に実行します。eval_reportは決定論的なスコアを含む完全な評価を生成します。

フルモード(Claudeサブエージェントスコアリング付き)

1. eval_ingest(path, intent)
2. eval_criteria(framework_or_intent)
3. eval_align()
4. eval_spawn(intent)
5. eval_scoring_tasks() → すべてのタスクを取得
6. 各タスクについて:
   - スコアリングプロンプトを読む
   - エージェントペルソナとしてドキュメント内容を評価基準に対して評価
   - eval_record_score(agent_id, criterion_id, score, justification, evidence, gaps)を実行
7. eval_debate_status() → 意見相違を確認
8. 意見相違がある場合:
   - eval_challenge_prompt(challenger, target, criterion)を実行
   - チャレンジ論証を生成
   - 修正されたスコアで eval_record_score()を実行
   - 収束するまで繰り返す
9. eval_report() → 最終レポート

サブエージェント派遣パターン

複数のClaudeサブエージェントでオーケストレーションを行う場合:

オーケストレーターが eval_scoring_tasks() を読む
  → パネル内の各エージェントについて:
      eval_scoring_tasks()のシステムプロンプトでサブエージェントを派遣
      サブエージェントが受け取るもの: ペルソナ、評価基準、ドキュメントセクション
      サブエージェントが評価で eval_record_score を呼び出す
  → すべてのスコアが記録された後:
      eval_debate_status を確認
      意見相違がある場合: チャレンジサブエージェントを派遣
  → 最終出力用に eval_report を実行

サブエージェント用のスコアリングガイドライン

エージェントペルソナとしてスコアする場合:

スコアリングプロンプトで提供されたドキュメント内容を慎重に読む
ルーブリックレベルを参照 — ドキュメントが満たしているレベルを述べる
ドキュメントテキストから具体的なエビデンスを引用 (直接引用)
ギャップを特定 — スコアを改善するために何が不足しているか
ペルソナになりきる — 主題専門家と執筆専門家では異なる方法でスコアリングします
ハルシネーションを避ける — 提供されたテキストに表示されるエビデンスのみを参照
フルスケールを使用 — すべてのスコアを6〜8にまとめないこと。1〜10の範囲を適切に使用してください。

eval_record_score用のレスポンス形式

{
  "agent_id": "スコアリングタスクから取得",
  "criterion_id": "スコアリングタスクから取得",
  "score": 7.5,
  "max_score": 10.0,
  "round": 1,
  "justification": "具体的なドキュメント内容とルーブリックレベルを参照した詳細な正当化。このセクションはレベル3(スコア範囲6〜8)を満たします。なぜなら[具体的なエビデンス]を示しているからです。レベル4に達するためには、ドキュメントが[具体的な改善]を必要とします。",
  "evidence_used": ["ドキュメントからの直接引用", "別の引用"],
  "gaps_identified": ["トピックXが欠落している", "主張Yに対する反論がない"]
}

サポートされているドキュメントタイプ

タイプ	インテントキーワード	自動選択されるフレームワーク
アカデミックエッセイ	"essay", "mark", "grade", "coursework"	Academic Essay Marking
ポリシードキュメント	"policy", "green book", "impact assessment"	HM Treasury Green Book
調査/研究	"survey", "methodology", "questionnaire"	Survey Methodology
契約/法務	"contract", "legal", "compliance"	Contract Review
臨床/NHS	"nhs", "clinical", "patient", "governance"	NHS Clinical Governance
GCSE英語	"gcse", "english language"	GCSE English Language
汎用	その他	Generic Quality

アーキテクチャに関する注記

3つのオントロジーが1つのOxigraphトリプルストアに共存: ドキュメント、評価基準、エージェント
エビデンススコアラーは決定論的なエビデンス基盤スコアリングベースラインを提供
検証シグナル(引用、構造、読みやすさレベル、論理的誤謬、留保表現)がスパイクとしてスコアラーにフィードイン
認識論的ステートは経験的/規範的/証言的基盤を持つ正当化された信念を追跡
哲学的分析はカント的/功利主義的/徳倫理的なレンズを適用
信念ダイナミクス — マズローのニーズはディベート中の発見に基づいて更新され、信頼は進化します
相互評価メモリは履歴比較用の結果を保持
すべてのトリプルは queryable — 基盤となるonto_*ツールを通じてSPARQL経由で利用可能

ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

brain-in-the-fish

SKILL.md 本文