OpenAILLM・AI開発⭐ リポ 2品質スコア 64/100
glm-ocr
Zhipu GLM-OCRを用いたPDF/PPT/画像からMarkdownへのOCR処理を行います。厳密な検証と、失敗時の安全なフォールバック機能を備えています。スキャン文書やスクリーンショットなどの画像ファイル、PowerPointプレゼンテーション、PDFドキュメントを自動的にMarkdown形式に変換できます。高精度の光学文字認識により、レイアウトや構造を保持しながらテキストを抽出します。処理に失敗した場合でも、フォールバック処理により安全に対応し、ビジネス運用を中断させません。
description の原文を見る
PDF/PPT/Image -> Markdown OCR with Zhipu GLM-OCR, strict verification, and failure-safe fallback.
SKILL.md 本文
GLM-OCR スキル
使用場面
以下のタスクに関わる場合、このスキルを使用します:
- PDF / PPT / PPTX / 画像の OCR
- 教科書、講義スライド、またはスクリーンショットを Markdown に変換
- OCR 出力が実際に完全であるかを検証
- レガシーな混合出力、失敗したプレースホルダー、またはサイレント OCR 破損の調査
プロジェクトレイアウト
input/— OCR 待ちのソースファイルoutput/— Markdown 出力、抽出された画像、および_failed_segments/*.failed.json_cache/ppt_pdf/— PPT/PPTX から変換されたキャッシュ済み PDFocr.py— メイン OCR パイプラインverify_ocr.py— 受け入れチェックaudit_ocr_integrity.py— 深い整合性監査reference_book_metadata.py— 教科書ディレクトリページ、ページオフセット、QR リソース生成backfill_reference_book_directory_pages.py— 教科書メタデータの一括更新rerun_pdf_segments.py— 失敗したまたは疑わしいページ範囲のみを再実行duplicate_image_reviewer.py— 重複/類似画像レビュー用ローカル UIclean_junk_images.py— 重複監査、類似度検索、削除、およびレガシーサイズクリーン フォールバックmarkdown_cleanup.py/repair_math_delimiters.py— OCR 側 Markdown および LaTeX デリミタ クリーンアップKNOWLEDGE_PIPELINE.md— ソースライブラリ → OCR 中間出力 → Obsidian ノート ワークフロー
必須ワークフロー
- ソースファイルを
input/に配置します。 python ocr.pyを実行します。python verify_ocr.pyとpython audit_ocr_integrity.pyの両方を実行します。- 教科書/参考書の場合、
reference_book_metadata.pyまたはbackfill_reference_book_directory_pages.pyを使用して目录页.md、ページオフセット、QR メタデータを生成します。 - 両方のチェックがクリーンで、対応する出力ディレクトリに
_failed_segments/*.failed.jsonがない場合にのみ、バッチを完了として扱います。 - ダウンストリームのノート生成の前に、OCR 中間出力を使用し、生の OCR フォルダを最終的なナレッジ資料庫に直接インポートしないでください。
失敗のセマンティクス
- フォールバックチェーンは
セグメント PDF アップロード → ページごと画像 OCR → ネイティブ PDF テキスト フォールバックです。 - すべてのフォールバック後もセグメントが失敗したままの場合、パイプラインは
_failed_segments/*.failed.jsonを書き込みます。 - 失敗したプレースホルダーと失敗したセグメントレポートは、OCR 結果が不完全であることを意味します。そのような出力をサイレントに渡したり、ダウンストリームに移したりしないでください。
よくある問題と推奨される対応
1301 contentFilter: まずセグメントを分割し、ブロックされたページを別途実行してから、必要に応じてセカンダリ OCR / ビジョンパスのみをブロックされたページに対して使用します。- レガシーの
segment_*.md: 範囲指定された.mdカバレッジとコンテンツが比較されるまで削除しないでください。 - ZIP/RAR 抽出からのガベージファイル名: まずソース名を修正し、その後
input/、output/、およびダウンストリームライブラリ名を同期に保ちます。 - 空のネイティブ PDF テキスト フォールバック: スキャンされた書籍では一般的です。画像 OCR または別のビジョンパスへの切り替えに備えてください。
$ 2x+1 $のような数式デリミタ: ノート執筆ステージの後ではなく、OCR 出力時にクリーンアップします。- ヘッダー/フッターストリップ、ロゴ、ウォーターマーク、グリフフラグメント:
images/になる前に抑制します。 - 通常の孤立画像は最初に監査されるべきです。参照されていないすべての画像を盲目的に削除しないでください。
- ページが非 GLM ルートで埋められた場合、メイン OCR パイプラインから来たふりをするのではなく、
AI ビジュアル補足 (非 GLM-OCR 出力)または同等のものとしてマークします。 - 正確なマーカー形式と監査ルールについては、
OCR_AUDIT_POLICY.mdに従ってください。
注記
- PPT/PPTX 一時 PDF は
output/ではなく_cache/ppt_pdf/に属します。 verify_ocr.pyは最小限の受け入れゲートです。audit_ocr_integrity.pyは、レガシーな混合出力またはサイレント破損がないという確信が必要な場合は常に使用されるべきです。- 完全なダウンストリーム ノート ワークフローについては、
KNOWLEDGE_PIPELINE.mdも参照してください。
ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- sunrisever
- リポジトリ
- sunrisever/glm-ocr
- ライセンス
- MIT
- 最終更新
- 2026/3/23
Source: https://github.com/sunrisever/glm-ocr / ライセンス: MIT