OpenAILLM・AI開発⭐ リポ 2品質スコア 64/100

glm-ocr

Name: glm-ocr
Author: sunrisever

Zhipu GLM-OCRを用いたPDF/PPT/画像からMarkdownへのOCR処理を行います。厳密な検証と、失敗時の安全なフォールバック機能を備えています。スキャン文書やスクリーンショットなどの画像ファイル、PowerPointプレゼンテーション、PDFドキュメントを自動的にMarkdown形式に変換できます。高精度の光学文字認識により、レイアウトや構造を保持しながらテキストを抽出します。処理に失敗した場合でも、フォールバック処理により安全に対応し、ビジネス運用を中断させません。

description の原文を見る

PDF/PPT/Image -> Markdown OCR with Zhipu GLM-OCR, strict verification, and failure-safe fallback.

SKILL.md 本文

GLM-OCR スキル

使用場面

以下のタスクに関わる場合、このスキルを使用します:

PDF / PPT / PPTX / 画像の OCR
教科書、講義スライド、またはスクリーンショットを Markdown に変換
OCR 出力が実際に完全であるかを検証
レガシーな混合出力、失敗したプレースホルダー、またはサイレント OCR 破損の調査

プロジェクトレイアウト

input/ — OCR 待ちのソースファイル
output/ — Markdown 出力、抽出された画像、および _failed_segments/*.failed.json
_cache/ppt_pdf/ — PPT/PPTX から変換されたキャッシュ済み PDF
ocr.py — メイン OCR パイプライン
verify_ocr.py — 受け入れチェック
audit_ocr_integrity.py — 深い整合性監査
reference_book_metadata.py — 教科書ディレクトリページ、ページオフセット、QR リソース生成
backfill_reference_book_directory_pages.py — 教科書メタデータの一括更新
rerun_pdf_segments.py — 失敗したまたは疑わしいページ範囲のみを再実行
duplicate_image_reviewer.py — 重複/類似画像レビュー用ローカル UI
clean_junk_images.py — 重複監査、類似度検索、削除、およびレガシーサイズクリーンフォールバック
markdown_cleanup.py / repair_math_delimiters.py — OCR 側 Markdown および LaTeX デリミタクリーンアップ
KNOWLEDGE_PIPELINE.md — ソースライブラリ → OCR 中間出力 → Obsidian ノートワークフロー

必須ワークフロー

ソースファイルを input/ に配置します。
python ocr.py を実行します。
python verify_ocr.py と python audit_ocr_integrity.py の両方を実行します。
教科書/参考書の場合、reference_book_metadata.py または backfill_reference_book_directory_pages.py を使用して 目录页.md、ページオフセット、QR メタデータを生成します。
両方のチェックがクリーンで、対応する出力ディレクトリに _failed_segments/*.failed.json がない場合にのみ、バッチを完了として扱います。
ダウンストリームのノート生成の前に、OCR 中間出力を使用し、生の OCR フォルダを最終的なナレッジ資料庫に直接インポートしないでください。

失敗のセマンティクス

フォールバックチェーンは セグメント PDF アップロード → ページごと画像 OCR → ネイティブ PDF テキストフォールバック です。
すべてのフォールバック後もセグメントが失敗したままの場合、パイプラインは _failed_segments/*.failed.json を書き込みます。
失敗したプレースホルダーと失敗したセグメントレポートは、OCR 結果が不完全であることを意味します。そのような出力をサイレントに渡したり、ダウンストリームに移したりしないでください。

よくある問題と推奨される対応

1301 contentFilter: まずセグメントを分割し、ブロックされたページを別途実行してから、必要に応じてセカンダリ OCR / ビジョンパスのみをブロックされたページに対して使用します。
レガシーの segment_*.md: 範囲指定された .md カバレッジとコンテンツが比較されるまで削除しないでください。
ZIP/RAR 抽出からのガベージファイル名: まずソース名を修正し、その後 input/、output/、およびダウンストリームライブラリ名を同期に保ちます。
空のネイティブ PDF テキストフォールバック: スキャンされた書籍では一般的です。画像 OCR または別のビジョンパスへの切り替えに備えてください。
$ 2x+1 $ のような数式デリミタ: ノート執筆ステージの後ではなく、OCR 出力時にクリーンアップします。
ヘッダー/フッターストリップ、ロゴ、ウォーターマーク、グリフフラグメント: images/ になる前に抑制します。
通常の孤立画像は最初に監査されるべきです。参照されていないすべての画像を盲目的に削除しないでください。
ページが非 GLM ルートで埋められた場合、メイン OCR パイプラインから来たふりをするのではなく、AI ビジュアル補足 (非 GLM-OCR 出力) または同等のものとしてマークします。
正確なマーカー形式と監査ルールについては、OCR_AUDIT_POLICY.md に従ってください。

注記

PPT/PPTX 一時 PDF は output/ ではなく _cache/ppt_pdf/ に属します。
verify_ocr.py は最小限の受け入れゲートです。
audit_ocr_integrity.py は、レガシーな混合出力またはサイレント破損がないという確信が必要な場合は常に使用されるべきです。
完全なダウンストリームノートワークフローについては、KNOWLEDGE_PIPELINE.md も参照してください。

ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

詳細情報

作者: sunrisever
リポジトリ: sunrisever/glm-ocr
ライセンス: MIT
最終更新: 2026/3/23

GitHubで原本を見る →フィードバックを送る

Source: https://github.com/sunrisever/glm-ocr / ライセンス: MIT

glm-ocr

SKILL.md 本文

GLM-OCR スキル

使用場面

プロジェクトレイアウト

必須ワークフロー

失敗のセマンティクス

よくある問題と推奨される対応

注記

詳細情報

関連スキル

agent-browser

anyskill

engram

skyvern

pinchbench

openui