citation-check-skill
ビジョン機能搭載の検証ゲート(ウェブ検索対応)。ユーザーが以下を実施したい場合に使用します:(1) スライド、レポート、PDF、画像を信頼できるオンラインソースと照合して検証、(2) 引用文献が実際に存在し、主張通りの内容であることを確認、(3) チャート、グラフ、表の正確性をチェック、(4) AIが生成したコンテンツをドキュメントのみモード(外部知識なし)で監査。2つのモードを搭載しており、検索モードはウェブに対して検証し、ドキュメントのみモードは提供されたドキュメントに全て遡れることを確認します。あらゆる言語のコンテンツに対応しています。
description の原文を見る
Vision-enabled verification gate with web search. Use when users want to (1) verify slides/reports/PDFs/images against authoritative online sources, (2) validate that citations actually exist and say what's claimed, (3) check charts/graphs/tables for accuracy, (4) audit AI-generated content in doc-only mode (no external knowledge). Two modes - search mode validates against web, doc-only mode ensures everything traces to provided documents. Supports content in any language.
SKILL.md 本文
引用・ハルシネーション検証ツール v2
ビジョン機能とウェブ検索を備えた検証ツール。すべての主張を信頼できるソースまたは提供されたドキュメントに対して検証します。あらゆる言語のコンテンツに対応しています。
**設計原則:**決定論的検証。同じ入力 → 同じ出力
2つの検証モード
モード 1: 検索検証(デフォルト)
- ウェブで信頼できるソースを検索
- 引用が実際に存在することを検証
- 引用元が主張していることを確認
- 統計情報の元データを検出
モード 2: ドキュメントのみの検証
- ユーザーがソースドキュメントを提供
- すべてがそれらのドキュメントに遡るため必須
- 外部知識から来ているように見えるものにフラグを立てる
- トリガー: 「このドキュメントのみ使用」/ 「PDFのみに対して検証」/ 「ウェブを検索しないでください」
2パス・アーキテクチャ
**重要:**常に2つの別個のパスを使用してください。抽出と検証を混在させないでください。
パス 1: 抽出のみ
- ドキュメント/スライド/画像全体を読む
- 以下のクレーム抽出ルールを使用してすべてのクレームを抽出
- 出力: 番号付きリスト
[claim_id] | [claim_text] | [claim_type] | [location] - このパスでは検証を行わない
- 進める前にユーザーに抽出結果を提示して確認を得る
パス 2: 検証のみ
- パス 1 の出力を固定入力として取得
- claim_id を順序通りに検証
- 再抽出は許可されない — パス 1 のクレームのみで作業
- ステータス決定木をすべてのクレームに適用
- 最終レポートを生成
これにより「検証途中での新しいクレーム発見」を防ぎ、一貫性を保証します。
クレーム抽出ルール(網羅的)
以下のクレームタイプのみを抽出してください。厳密にルールを適用してください — 判断は加えません。
クレームとして抽出する:
| タイプ | パターン | 例 |
|---|---|---|
| 統計 | 単位/文脈付きの任意の数字(%、$、カウント、比率、小数) | 「92.3% の精度」、「47 億ドルの市場」 |
| 比較 | X は Y より[比較級] | 「ベースラインの 3 倍高速」 |
| 時間的 | 時間に結びついた主張 | 「2024 年の採用率は達成した...」 |
| 属性 | ソースに結びついたクレーム | 「WHO によると...」、「Smith et al. が発見...」 |
| 因果関係 | X は Y を引き起こす/導く/結果として生じる | 「これはレイテンシを削減する...」 |
| 存在 | 何かが存在する/本当である主張 | 「5 億人のユーザーがいる」、「モデルは対応している...」 |
| ランキング | 位置のクレーム | 「最大」、「最初」、「トップ 3」 |
| 引用 | 直接引用 | ソースに帰属する引用符で囲まれたテキスト |
クレームとして抽出しない:
| タイプ | 例 | 理由 |
|---|---|---|
| 定義 | 「機械学習は AI のサブセット」 | 定義的であり、事実上のクレームではない |
| 意見として明記されたもの | 「私たちは信じる...」、「我々の見方では...」 | 明示的に主観的 |
| 反事実 | 「採用が続くと...」、「潜在的に...」 | 推測的 |
| 質問 | 「何が成長を促進するのか?」 | 主張ではない |
| ソースのない将来の予測 | 「2030 年までに 100 億ドルに達する」 | 予測レポートを引用していない限り |
| 方法論の説明 | 「PyTorch 2.0 を使用した」 | プロセスであり、事実上のクレームではない |
| 謝辞 | 「協力者の方々に感謝」 | 検証不可能 |
抽出出力フォーマット
[C01] | "Model achieves 96.555% accuracy on ImageNet" | Statistic | Slide 3, bullet 2
[C02] | "Outperforms GPT-4 by 12% on reasoning tasks" | Comparative | Slide 3, bullet 3
[C03] | "According to Chen et al. (2024), transformers scale linearly" | Attribution | Slide 5, para 1
[C04] | "Market size reached $4.7B in 2024" | Statistic + Temporal | Slide 7, chart title
ステータス決定木
すべてのクレームにこのツリーを適用してください。正確に従ってください — ショートカットなし。
START
│
├─ これはCITATION クレーム(論文/レポート/ソースを参照)ですか?
│ ├─ はい → CITATION VALIDATION へ
│ └─ いいえ → STATISTIC/FACT VALIDATION へ
│
│
CITATION VALIDATION
│
├─ ステップ 1: 引用されたソースは存在しますか?
│ │ すべての必須検索クエリを実行(検索テンプレートを参照)
│ │
│ ├─ いいえ → ステータス: 「Citation Not Found」
│ │ 問題: 「[citation] をどのデータベースでも見つけることができません」
│ │ 終了
│ │
│ └─ はい → ステップ 2: ソースは主張されたトピックを含んでいますか?
│ │
│ ├─ いいえ → ステータス: 「Misquoted」
│ │ 問題: 「ソースは存在しますが、[topic] について論じていません」
│ │ 終了
│ │
│ └─ はい → ステップ 3: ソースは正確なクレームをサポートしていますか?
│ │
│ ├─ はい(完全一致) → ステータス: 「Verified」
│ │ 信頼度: 「exact」
│ │
│ ├─ はい(言い換え、同じ意味) → ステータス: 「Verified」
│ │ 信頼度: 「paraphrase」
│ │
│ ├─ 部分的(文脈不足) → ステータス: 「Misleading」
│ │ 問題: 「クレームは重要な文脈を省略: [何が不足しているか]」
│ │
│ └─ いいえ(矛盾) → ステータス: 「Hallucination」
│ 問題: 「ソースは [X] と言い、クレームは [Y] と言っています」
│
│
STATISTIC/FACT VALIDATION
│
├─ ステップ 1: 信頼できるソースが見つかりますか?
│ │ すべての必須検索クエリを実行(検索テンプレートを参照)
│ │
│ ├─ いいえ(ソースが見つからない) → ステータス: 「Unverified」
│ │ 問題: 「信頼できるソースが見つかりません」
│ │ 終了
│ │
│ └─ はい → ステップ 2: 値は完全に一致していますか?
│ │
│ ├─ はい → ステータス: 「Verified」
│ │ 信頼度: 「exact」
│ │ 終了
│ │
│ └─ いいえ → ステータス: 「Numerical Error」
│ NUMERICAL ERROR DETAILS へ進む
│
│
NUMERICAL ERROR DETAILS(学術的精度モード)
│
├─ 記録:
│ • ソース値: [ソースからの正確な数字]
│ • クレーム値: [チェック中ドキュメント内の数字]
│ • 偏差: [正確な差を計算]
│ • ソース位置: [ページ、テーブル、セクション]
│
├─ 分類:
│ • 丸めが発生 → Numerical Error
│ • 切り捨てが発生 → Numerical Error
│ • 有効数字の不一致 → Numerical Error
│ • 単位の不一致 → Numerical Error
│ • 方向の誤り(増加対減少) → Hallucination
│
└─ 例外: ソース自体が丸められた数字を提供している場合
• 例: ソースが「96.555%(約 97%)」と言っている
• その場合、「97%」を主張 → Verified(近似値を引用)
数値精度ルール(学術基準)
デフォルトモード: 厳密な学術的精度。正確な数字のみ。
| ルール | ソース | クレーム | ステータス |
|---|---|---|---|
| 完全一致が必須 | 96.555% | 96.555% | ✓ Verified |
| 丸めは誤り | 96.555% | 97% | ✗ Numerical Error |
| 丸めは誤り | 96.555% | 96.6% | ✗ Numerical Error |
| 切り捨ては誤り | 96.555% | 96.5% | ✗ Numerical Error |
| 有効数字は一致が必須 | 0.834 | 0.83 | ✗ Numerical Error |
| 単位は一致が必須 | 96.555% | 0.96555 | ✗ Numerical Error |
| 方向は重要 | +12% 成長 | +15% 成長 | ✗ Hallucination |
| 桁のオーダー | 47 億ドル | 470 億ドル | ✗ Hallucination |
数値エラー出力フォーマット
### Numerical Error: [Claim ID]
| フィールド | 値 |
|-------|-------|
| クレーム | 「モデルは 97% の精度を達成」 |
| 位置 | スライド 4、箇条書き 2 |
| ソース | Chen et al. (2024)、表 3、p.8 |
| ソース値 | 96.555% |
| クレーム値 | 97% |
| 偏差 | +0.445%(切り上げ) |
| ステータス | Numerical Error |
| 修正 | 「モデルは 96.555% の精度を達成」に置き換え |
信頼度分類
| レベル | 基準 | 用途 |
|---|---|---|
| exact | ≥95% の単語重複 OR 同一単位での同一数字 | 直接引用、正確な統計 |
| paraphrase | 同じ事実、異なる表現、解釈を追加していない | 言い換えられた知見 |
| interpretation | ソースデータから引き出された推論 | ソースから計算、統合 |
ルール: レベル間で不確実な場合は、より慎重なオプションを使用してレビュー用にフラグを立ててください。
必須検索テンプレート
すべての適用可能なテンプレートを実行してください。最初の結果の後で停止しないでください。
学術的引用用
クエリ 1: "[最初の著者の姓] [年] [タイトルの最初の 3 語]"
クエリ 2: "[論文の完全なタイトル]" site:semanticscholar.org OR site:arxiv.org
クエリ 3: "[最初の著者] [年] [会場/ジャーナル名]"
クエリ 4: "doi:[DOI]"(DOI が提供されている場合)
クエリ 5: "arxiv:[arxiv_id]"(arXiv ID が提供されている場合)
統計(市場規模、使用数など)用
クエリ 1: "[単位付きの正確な数字] [トピック] [年]"
クエリ 2: "[トピック] [年] 統計レポート site:statista.com"
クエリ 3: "[トピック] [年] レポート site:mckinsey.com OR site:gartner.com"
クエリ 4: "[トピック] 市場規模 [年] site:gov OR site:edu"
クエリ 5: "[トピック] [数字] 元ソース"
企業/製品クレーム用
クエリ 1: "[企業名] [クレームトピック] プレスリリース [年]"
クエリ 2: site:[企業ドメイン] [クレームトピック]
クエリ 3: "[企業名] [メトリック] 公式発表"
クエリ 4: "[企業名] [クレーム] SEC 提出書類"(上場企業の場合)
健康/医療クレーム用
クエリ 1: "[クレームトピック] site:who.int OR site:cdc.gov OR site:nih.gov"
クエリ 2: "[クレーム] システマティックレビュー site:cochrane.org"
クエリ 3: "[クレーム] メタアナリシス pubmed"
政府/ポリシークレーム用
クエリ 1: "[ポリシー/法律名] site:gov"
クエリ 2: "[統計] 公式統計 [国]"
クエリ 3: "[クレーム] [機関名] レポート"
ソース権威ヒエラルキー
複数のソースが見つかった場合は、この順序で優先してください:
| ランク | ソースタイプ | 例 |
|---|---|---|
| 1 | 一次資料 | オリジナル研究、公式レポート、生データ |
| 2 | 政府/機関 | WHO、CDC、世界銀行、国家統計局 |
| 3 | ピアレビュー出版 | Nature、Science、IEEE、ACM |
| 4 | 業界レポート(指定) | Gartner、McKinsey、Statista(方法論付き) |
| 5 | 一次ソースを引用する信頼できるニュース | NYT、Reuters が元のソースを引用 |
| 6 | 二次コンピレーション | Wikipedia(出典を確認) |
ルール: ランク 5-6 のソースのみが見つかった場合、ステータス = 「Unverified」、注記「二次ソースのみが見つかりました」
マルチソース検証(検索モード)
クレームが「Verified」ステータスを達成するのは次の場合のみです:
| 条件 | 必要なソース |
|---|---|
| 一次資料が見つかった | 1(信頼できる場合: .gov、ピアレビュー、公式) |
| 二次ソースのみ | 同意する独立した 2 つ以上のソース |
| ソースが矛盾 | ステータス = 「Unverified」、矛盾を注記 |
タイブレーカー・ルール
不確実な場合は、これらのルールを適用してください。判断は加えません。
| 状況 | ルール |
|---|---|
| クレームの日付が不明 | 利用可能な最新年度を参照すると想定;「日付が必要」とフラグを立てる |
| 矛盾するソース | 最も最近の権威あるソースを使用;両者を引用;矛盾を注記 |
| すべてのクエリ後にソースが見つからない | ステータス = 「Unverified」(「Hallucination」ではない) |
| 通貨換算による数値の違い | 「明確にする必要がある: 通貨/単位」とフラグを立てる |
| 同一組織、複数レポート | 最新のものを使用;日付付きで引用 |
| クレームが「約」または「およそ」を使用 | 基となる数字がソースの有効範囲(±ソースの 10%)内にあるかどうかを検証 |
| ソースが有料 | 注記「ソースは有料、正確なテキストを検証できません」 |
| ソースが異なる言語 | 翻訳して検証;翻訳を注記 |
ビジュアルデータ検証
すべてのチャート、グラフ、テーブル、または図について:
ステップ 1: データポイントを抽出
- ビジュアルからすべての値を読む
- 記録: 軸ラベル、単位、スケール、凡例
- ビジュアル歪み(切り詰められた軸、3D 効果など)を注記
ステップ 2: ソースを検出
- 検索モード: データの検索テンプレートを実行
- ドキュメントのみモード: ソースドキュメント内で見つける
ステップ 3: 値を 1 つずつ比較
| ビジュアル要素 | 抽出された値 | ソース値 | ステータス |
|----------------|-----------------|--------------|--------|
| バー 1(2022)| 45% | 45.0% | ✓ Verified |
| バー 2(2023)| 62% | 58.3% | ✗ Numerical Error |
| バー 3(2024)| 78% | ソースにない | ✗ Hallucination |
ステップ 4: ビジュアル整合性を確認
| チェック | 問題タイプ |
|---|---|
| Y 軸が非ゼロで開始 | 「Visual Distortion: 軸操作」 |
| 3D 効果が比率を歪める | 「Visual Distortion: 3D 誇張」 |
| ソースがあるのに誤差範囲がない | 「Misleading: 不確実性を省略」 |
| ソースと異なる時間範囲 | 「Misleading: 期間を選別」 |
ドキュメントのみモード・ワークフロー
トリガーフレーズ:
- 「このドキュメントのみ使用」
- 「ウェブを検索しないでください」
- 「PDF のみに対して検証」
- 「すべてはソースから」
ステップ 1: ソースドキュメントをインデックス作成
すべての検証の前に完全なインデックスを構築:
SOURCE INDEX
ドキュメント: [filename]
ページ: [count]
ページ 1:
- テキスト: [内容の要約]
- 統計: [文脈を含むすべての数字のリスト]
- テーブル: [Table 1: 列 X, Y, Z]
- 図: [Figure 1: X を表示]
ページ 2:
...
ステップ 2: 2 パス・アーキテクチャを適用
検索モードと同じですが、検証はソースインデックスのみを使用します。
ステップ 3: 各クレームをトレース
クレーム: [C01] 「モデルは 92% の精度を達成」
インデックスで検索: 「92」、「精度」、「パフォーマンス」
├─ 見つかった: セクション 4.2、p.8 — 「私たちのモデルは 92.1% の精度を達成」
│ └─ ステータス: Numerical Error(92% vs 92.1%)
│
OR
│
├─ インデックスに見つからない
│ └─ ステータス: 「Not in Source」
│ 問題: 「このクレームは提供されたドキュメントにトレースできません」
│ 可能性: 外部知識 / ハルシネーション
ステップ 4: すべての外部知識にフラグを立てる
ドキュメントのみモードでは、ソースにトレースできないクレーム = 問題
### 外部知識が検出されました
これらのクレームは提供されたドキュメントに含まれていません:
| クレーム ID | クレーム | ステータス | 問題 |
|----------|-------|--------|-------|
| C07 | 「この方法は業界で広く採用されている」 | Not in Source | モデル学習データからと思われる |
| C12 | 「Nature 2024 に掲載」 | Not in Source | ソースで出版会場が言及されていない |
出力フォーマット
サマリーブロック(常に最初)
## 検証レポート
**モード:** [Search / Doc-Only]
**ドキュメント:** [filename または説明]
**生成:** [timestamp]
### サマリー
| メトリック | カウント |
|--------|-------|
| 抽出されたクレーム総数 | X |
| 検証済み | Y |
| 数値エラー | Z |
| 未検証 | A |
| ハルシネーション | B |
| 誤解を招く | C |
| ソースにない(ドキュメントのみ) | D |
**全体的ステータス:** [PASS: すべて検証済み / FAIL: 問題が見つかった]
詳細な検出結果(ステータス別グループ化)
### ✓ 検証済みクレーム(N)
| ID | クレーム | ソース | 位置 | 信頼度 |
|----|-------|--------|----------|------------|
| C01 | 「92.1% の精度」 | Chen et al. 2024 | 表 3、p.8 | exact |
### ✗ 数値エラー(N)
| ID | クレーム | ソース値 | クレーム値 | 偏差 | 修正 |
|----|-------|--------------|---------------|-----------|-----|
| C03 | 「97% の精度」 | 96.555% | 97% | +0.445% | 96.555% を使用 |
### ✗ ハルシネーション(N)
| ID | クレーム | 問題 | ソースが言うこと |
|----|-------|-------|-------------|
| C05 | 「3 倍高速」 | ソースと矛盾 | ソース: 2.1 倍高速 |
### ⚠ 未検証(N)
| ID | クレーム | 問題 |
|----|-------|-------|
| C08 | 「50 億ドルの市場」 | 信頼できるソースが見つかりません |
### ⚠ 誤解を招く(N)
| ID | クレーム | 問題 | 不足している文脈 |
|----|-------|-------|-----------------|
| C10 | 「最高のパフォーマンス」 | メトリックを選別 | サブセットのみ;全体的パフォーマンスは低い |
参照されたソース
### ソース
| ID | 引用 | タイプ | URL | 用途 |
|----|----------|------|-----|----------|
| S1 | Chen et al. (2024) | arxiv | https://arxiv.org/... | C01, C02, C03 |
| S2 | Statista Market Report | レポート | https://statista.com/... | C08 |
重要なルール
- 常に 2 パス — 最初に抽出、その後検証。決して混在させない。
- すべてのクレームを確認 — 例外なし、「明白な」ものをスキップしない。
- 正確な数字のみ — 学術モードでは 96.555% ≠ 97%。
- 起源を見つける — 不明な一次資料を引用する二次資料を受け入れない。
- すべての検索テンプレートを実行 — 最初の結果の後で停止しない。
- 引用は実在する必要がある — 論文/レポートが存在することを確認するために検索。
- ソースが実際に何を言っているかを確認 — 実在する論文も誤引用されることができます。
- ドキュメントのみモードでは、すべての外部知識にフラグを立てる — 真実であってもフラグを立てる。
- 不確実な場合は慎重に — 「Unverified」は誤った「Verified」より安全。
- タイブレーカー・ルールに従う — 恣意的な判断を加えない。
言語サポート
- あらゆる言語のコンテンツを受け入れる
- ソースの適切な言語で検索
- ユーザーのリクエストと同じ言語でレポート
- クロスランゲージ検証をサポート(例: 英語の論文を引用する中国語スライド)
- 検証のために翻訳する場合、次のように注記: 「[言語] から翻訳」
出力フォーマット・オプション
クイック: サマリー + 重要な問題のみ(数値エラー、ハルシネーション、未検証) フル: すべてのクレームを含む完全な追跡可能性レポート JSON: マシン可読監査(references/citation_schema.json を参照)
変更ログ
v2.0 — 一貫性更新
- 2 パス・アーキテクチャを追加(抽出 → 検証の分離)
- 網
ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- serenakeyitan
- ライセンス
- MIT
- 最終更新
- 2026/1/26
Source: https://github.com/serenakeyitan/citation-check-skill / ライセンス: MIT