構造化テキスト解析における正規表現 vs LLM

構造化テキスト(クイズ、フォーム、請求書、ドキュメント)を解析するための実践的な意思決定フレームワークです。主要な洞察: 正規表現は 95～98% のケースを安く確定的に処理します。残りのエッジケースのためにコストのかかる LLM 呼び出しを予約しておきます。

活用するタイミング

繰り返しパターンを持つ構造化テキスト(質問、フォーム、テーブル)の解析
テキスト抽出に正規表現と LLM のどちらを使うかの判断
両方のアプローチを組み合わせたハイブリッドパイプラインの構築
テキスト処理におけるコスト/精度トレードオフの最適化

意思決定フレームワーク

テキスト形式が一貫性があり繰り返されているか?
├── はい (90%以上がパターンに従う) → 正規表現から開始
│   ├── 正規表現が95%以上を処理 → 完了、LLM は不要
│   └── 正規表現が95%未満を処理 → エッジケースのみ LLM を追加
└── いいえ (自由形式、高い可変性) → LLM を直接使用

アーキテクチャパターン

ソーステキスト
    │
    ▼
[正規表現パーサー] ─── 構造を抽出 (95-98% の精度)
    │
    ▼
[テキストクリーナー] ─── ノイズを除去 (マーカー、ページ番号、アーティファクト)
    │
    ▼
[信頼度スコアラー] ─── 低信頼度の抽出をフラグ
    │
    ├── 高信頼度 (≥0.95) → 直接出力
    │
    └── 低信頼度 (<0.95) → [LLM バリデータ] → 出力

実装

1. 正規表現パーサー (大部分を処理)

import re
from dataclasses import dataclass

@dataclass(frozen=True)
class ParsedItem:
    id: str
    text: str
    choices: tuple[str, ...]
    answer: str
    confidence: float = 1.0

def parse_structured_text(content: str) -> list[ParsedItem]:
    """正規表現パターンを使用して構造化テキストを解析します。"""
    pattern = re.compile(
        r"(?P<id>\d+)\.\s*(?P<text>.+?)\n"
        r"(?P<choices>(?:[A-D]\..+?\n)+)"
        r"Answer:\s*(?P<answer>[A-D])",
        re.MULTILINE | re.DOTALL,
    )
    items = []
    for match in pattern.finditer(content):
        choices = tuple(
            c.strip() for c in re.findall(r"[A-D]\.\s*(.+)", match.group("choices"))
        )
        items.append(ParsedItem(
            id=match.group("id"),
            text=match.group("text").strip(),
            choices=choices,
            answer=match.group("answer"),
        ))
    return items

2. 信頼度スコアリング

LLM レビューが必要な可能性のあるアイテムをフラグします:

@dataclass(frozen=True)
class ConfidenceFlag:
    item_id: str
    score: float
    reasons: tuple[str, ...]

def score_confidence(item: ParsedItem) -> ConfidenceFlag:
    """抽出の信頼度をスコアリングし、問題をフラグします。"""
    reasons = []
    score = 1.0

    if len(item.choices) < 3:
        reasons.append("few_choices")
        score -= 0.3

    if not item.answer:
        reasons.append("missing_answer")
        score -= 0.5

    if len(item.text) < 10:
        reasons.append("short_text")
        score -= 0.2

    return ConfidenceFlag(
        item_id=item.id,
        score=max(0.0, score),
        reasons=tuple(reasons),
    )

def identify_low_confidence(
    items: list[ParsedItem],
    threshold: float = 0.95,
) -> list[ConfidenceFlag]:
    """信頼度閾値以下のアイテムを返します。"""
    flags = [score_confidence(item) for item in items]
    return [f for f in flags if f.score < threshold]

3. LLM バリデータ (エッジケースのみ)

def validate_with_llm(
    item: ParsedItem,
    original_text: str,
    client,
) -> ParsedItem:
    """LLM を使用して低信頼度の抽出を修正します。"""
    response = client.messages.create(
        model="claude-haiku-4-5-20251001",  # バリデーション用の最安モデル
        max_tokens=500,
        messages=[{
            "role": "user",
            "content": (
                f"このテキストから質問、選択肢、答えを抽出してください。\n\n"
                f"テキスト: {original_text}\n\n"
                f"現在の抽出: {item}\n\n"
                f"必要に応じて修正した JSON を返すか、正確な場合は 'CORRECT' を返してください。"
            ),
        }],
    )
    # LLM レスポンスを解析し、修正されたアイテムを返す...
    return corrected_item

4. ハイブリッドパイプライン

def process_document(
    content: str,
    *,
    llm_client=None,
    confidence_threshold: float = 0.95,
) -> list[ParsedItem]:
    """完全なパイプライン: 正規表現 → 信頼度チェック → エッジケース用 LLM。"""
    # ステップ 1: 正規表現抽出 (95-98% を処理)
    items = parse_structured_text(content)

    # ステップ 2: 信頼度スコアリング
    low_confidence = identify_low_confidence(items, confidence_threshold)

    if not low_confidence or llm_client is None:
        return items

    # ステップ 3: LLM バリデーション (フラグされたアイテムのみ)
    low_conf_ids = {f.item_id for f in low_confidence}
    result = []
    for item in items:
        if item.id in low_conf_ids:
            result.append(validate_with_llm(item, content, llm_client))
        else:
            result.append(item)

    return result

実世界の指標

本番環境のクイズ解析パイプラインから (410 アイテム):

メトリクス	値
正規表現成功率	98.0%
低信頼度アイテム	8 (2.0%)
必要な LLM 呼び出し	~5
全 LLM 比でのコスト削減	~95%
テストカバレッジ	93%

ベストプラクティス

正規表現から開始する — 不完全な正規表現でも改善するためのベースラインを提供します
信頼度スコアリングを使用する — プログラムでどの部分が LLM ヘルプを必要とするかを特定します
最安の LLM を使用する — バリデーション用には Haiku クラスのモデルで十分です
パースされたアイテムを変更しない — クリーニング/バリデーションステップから新しいインスタンスを返します
TDD はパーサーに有効 — 既知のパターンに対するテストを最初に記述してから、エッジケースに進みます
メトリクスをログする — (正規表現成功率、LLM 呼び出し数) パイプラインの健全性を追跡します

避けるべきアンチパターン

正規表現が 95% 以上を処理する場合すべてのテキストを LLM に送信する (高額で低速)
自由形式で高い可変性のテキストに正規表現を使用する (LLM がここではより良い)
信頼度スコアリングをスキップして正規表現が「単に機能する」ことを願う
クリーニング/バリデーションステップ中にパースされたオブジェクトを変更する
エッジケース (形式が不正な入力、欠落フィールド、エンコーディング問題) をテストしない

使用するタイミング

クイズ/試験問題の解析
フォームデータの抽出
請求書/レシートの処理
ドキュメント構造の解析 (ヘッダー、セクション、テーブル)
コストが重要な、繰り返しパターンを持つ任意の構造化テキスト

ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

regex-vs-llm-structured-text

SKILL.md 本文