Agent Skills by ALSEL
OpenAILLM・AI開発⭐ リポ 2品質スコア 64/100

glm-ocr

Zhipu GLM-OCRを用いたPDF/PPT/画像からMarkdownへのOCR処理を行います。厳密な検証と、失敗時の安全なフォールバック機能を備えています。スキャン文書やスクリーンショットなどの画像ファイル、PowerPointプレゼンテーション、PDFドキュメントを自動的にMarkdown形式に変換できます。高精度の光学文字認識により、レイアウトや構造を保持しながらテキストを抽出します。処理に失敗した場合でも、フォールバック処理により安全に対応し、ビジネス運用を中断させません。

description の原文を見る

PDF/PPT/Image -> Markdown OCR with Zhipu GLM-OCR, strict verification, and failure-safe fallback.

SKILL.md 本文

GLM-OCR スキル

使用場面

以下のタスクに関わる場合、このスキルを使用します:

  • PDF / PPT / PPTX / 画像の OCR
  • 教科書、講義スライド、またはスクリーンショットを Markdown に変換
  • OCR 出力が実際に完全であるかを検証
  • レガシーな混合出力、失敗したプレースホルダー、またはサイレント OCR 破損の調査

プロジェクトレイアウト

  • input/ — OCR 待ちのソースファイル
  • output/ — Markdown 出力、抽出された画像、および _failed_segments/*.failed.json
  • _cache/ppt_pdf/ — PPT/PPTX から変換されたキャッシュ済み PDF
  • ocr.py — メイン OCR パイプライン
  • verify_ocr.py — 受け入れチェック
  • audit_ocr_integrity.py — 深い整合性監査
  • reference_book_metadata.py — 教科書ディレクトリページ、ページオフセット、QR リソース生成
  • backfill_reference_book_directory_pages.py — 教科書メタデータの一括更新
  • rerun_pdf_segments.py — 失敗したまたは疑わしいページ範囲のみを再実行
  • duplicate_image_reviewer.py — 重複/類似画像レビュー用ローカル UI
  • clean_junk_images.py — 重複監査、類似度検索、削除、およびレガシーサイズクリーン フォールバック
  • markdown_cleanup.py / repair_math_delimiters.py — OCR 側 Markdown および LaTeX デリミタ クリーンアップ
  • KNOWLEDGE_PIPELINE.md — ソースライブラリ → OCR 中間出力 → Obsidian ノート ワークフロー

必須ワークフロー

  1. ソースファイルを input/ に配置します。
  2. python ocr.py を実行します。
  3. python verify_ocr.pypython audit_ocr_integrity.py の両方を実行します。
  4. 教科書/参考書の場合、reference_book_metadata.py または backfill_reference_book_directory_pages.py を使用して 目录页.md、ページオフセット、QR メタデータを生成します。
  5. 両方のチェックがクリーンで、対応する出力ディレクトリに _failed_segments/*.failed.json がない場合にのみ、バッチを完了として扱います。
  6. ダウンストリームのノート生成の前に、OCR 中間出力を使用し、生の OCR フォルダを最終的なナレッジ資料庫に直接インポートしないでください。

失敗のセマンティクス

  • フォールバックチェーンは セグメント PDF アップロード → ページごと画像 OCR → ネイティブ PDF テキスト フォールバック です。
  • すべてのフォールバック後もセグメントが失敗したままの場合、パイプラインは _failed_segments/*.failed.json を書き込みます。
  • 失敗したプレースホルダーと失敗したセグメントレポートは、OCR 結果が不完全であることを意味します。そのような出力をサイレントに渡したり、ダウンストリームに移したりしないでください。

よくある問題と推奨される対応

  • 1301 contentFilter: まずセグメントを分割し、ブロックされたページを別途実行してから、必要に応じてセカンダリ OCR / ビジョンパスのみをブロックされたページに対して使用します。
  • レガシーの segment_*.md: 範囲指定された .md カバレッジとコンテンツが比較されるまで削除しないでください。
  • ZIP/RAR 抽出からのガベージファイル名: まずソース名を修正し、その後 input/output/、およびダウンストリームライブラリ名を同期に保ちます。
  • 空のネイティブ PDF テキスト フォールバック: スキャンされた書籍では一般的です。画像 OCR または別のビジョンパスへの切り替えに備えてください。
  • $ 2x+1 $ のような数式デリミタ: ノート執筆ステージの後ではなく、OCR 出力時にクリーンアップします。
  • ヘッダー/フッターストリップ、ロゴ、ウォーターマーク、グリフフラグメント: images/ になる前に抑制します。
  • 通常の孤立画像は最初に監査されるべきです。参照されていないすべての画像を盲目的に削除しないでください。
  • ページが非 GLM ルートで埋められた場合、メイン OCR パイプラインから来たふりをするのではなく、AI ビジュアル補足 (非 GLM-OCR 出力) または同等のものとしてマークします。
  • 正確なマーカー形式と監査ルールについては、OCR_AUDIT_POLICY.md に従ってください。

注記

  • PPT/PPTX 一時 PDF は output/ ではなく _cache/ppt_pdf/ に属します。
  • verify_ocr.py は最小限の受け入れゲートです。
  • audit_ocr_integrity.py は、レガシーな混合出力またはサイレント破損がないという確信が必要な場合は常に使用されるべきです。
  • 完全なダウンストリーム ノート ワークフローについては、KNOWLEDGE_PIPELINE.md も参照してください。

ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

詳細情報

作者
sunrisever
リポジトリ
sunrisever/glm-ocr
ライセンス
MIT
最終更新
2026/3/23

Source: https://github.com/sunrisever/glm-ocr / ライセンス: MIT

本サイトは GitHub 上で公開されているオープンソースの SKILL.md ファイルをクロール・インデックス化したものです。 各スキルの著作権は原作者に帰属します。掲載に問題がある場合は info@alsel.co.jp または /takedown フォームよりご連絡ください。
原作者: sunrisever · sunrisever/glm-ocr · ライセンス: MIT