glm-ocr
Zhipu GLM-OCRを用いたPDF/PPT/画像からMarkdownへのOCR処理を行います。厳密な検証と、失敗時の安全なフォールバック機能を備えています。スキャン文書やスクリーンショットなどの画像ファイル、PowerPointプレゼンテーション、PDFドキュメントを自動的にMarkdown形式に変換できます。高精度の光学文字認識により、レイアウトや構造を保持しながらテキストを抽出します。処理に失敗した場合でも、フォールバック処理により安全に対応し、ビジネス運用を中断させません。
description の原文を見る
PDF/PPT/Image -> Markdown OCR with Zhipu GLM-OCR, strict verification, and failure-safe fallback.
SKILL.md 本文
GLM-OCR スキル
使用場面
以下のタスクに関わる場合、このスキルを使用します:
- PDF / PPT / PPTX / 画像の OCR
- 教科書、講義スライド、またはスクリーンショットを Markdown に変換
- OCR 出力が実際に完全であるかを検証
- レガシーな混合出力、失敗したプレースホルダー、またはサイレント OCR 破損の調査
プロジェクトレイアウト
input/— OCR 待ちのソースファイルoutput/— Markdown 出力、抽出された画像、および_failed_segments/*.failed.json_cache/ppt_pdf/— PPT/PPTX から変換されたキャッシュ済み PDFocr.py— メイン OCR パイプラインverify_ocr.py— 受け入れチェックaudit_ocr_integrity.py— 深い整合性監査reference_book_metadata.py— 教科書ディレクトリページ、ページオフセット、QR リソース生成backfill_reference_book_directory_pages.py— 教科書メタデータの一括更新rerun_pdf_segments.py— 失敗したまたは疑わしいページ範囲のみを再実行duplicate_image_reviewer.py— 重複/類似画像レビュー用ローカル UIclean_junk_images.py— 重複監査、類似度検索、削除、およびレガシーサイズクリーン フォールバックmarkdown_cleanup.py/repair_math_delimiters.py— OCR 側 Markdown および LaTeX デリミタ クリーンアップKNOWLEDGE_PIPELINE.md— ソースライブラリ → OCR 中間出力 → Obsidian ノート ワークフロー
必須ワークフロー
- ソースファイルを
input/に配置します。 python ocr.pyを実行します。python verify_ocr.pyとpython audit_ocr_integrity.pyの両方を実行します。- 教科書/参考書の場合、
reference_book_metadata.pyまたはbackfill_reference_book_directory_pages.pyを使用して目录页.md、ページオフセット、QR メタデータを生成します。 - 両方のチェックがクリーンで、対応する出力ディレクトリに
_failed_segments/*.failed.jsonがない場合にのみ、バッチを完了として扱います。 - ダウンストリームのノート生成の前に、OCR 中間出力を使用し、生の OCR フォルダを最終的なナレッジ資料庫に直接インポートしないでください。
失敗のセマンティクス
- フォールバックチェーンは
セグメント PDF アップロード → ページごと画像 OCR → ネイティブ PDF テキスト フォールバックです。 - すべてのフォールバック後もセグメントが失敗したままの場合、パイプラインは
_failed_segments/*.failed.jsonを書き込みます。 - 失敗したプレースホルダーと失敗したセグメントレポートは、OCR 結果が不完全であることを意味します。そのような出力をサイレントに渡したり、ダウンストリームに移したりしないでください。
よくある問題と推奨される対応
1301 contentFilter: まずセグメントを分割し、ブロックされたページを別途実行してから、必要に応じてセカンダリ OCR / ビジョンパスのみをブロックされたページに対して使用します。- レガシーの
segment_*.md: 範囲指定された.mdカバレッジとコンテンツが比較されるまで削除しないでください。 - ZIP/RAR 抽出からのガベージファイル名: まずソース名を修正し、その後
input/、output/、およびダウンストリームライブラリ名を同期に保ちます。 - 空のネイティブ PDF テキスト フォールバック: スキャンされた書籍では一般的です。画像 OCR または別のビジョンパスへの切り替えに備えてください。
$ 2x+1 $のような数式デリミタ: ノート執筆ステージの後ではなく、OCR 出力時にクリーンアップします。- ヘッダー/フッターストリップ、ロゴ、ウォーターマーク、グリフフラグメント:
images/になる前に抑制します。 - 通常の孤立画像は最初に監査されるべきです。参照されていないすべての画像を盲目的に削除しないでください。
- ページが非 GLM ルートで埋められた場合、メイン OCR パイプラインから来たふりをするのではなく、
AI ビジュアル補足 (非 GLM-OCR 出力)または同等のものとしてマークします。 - 正確なマーカー形式と監査ルールについては、
OCR_AUDIT_POLICY.mdに従ってください。
注記
- PPT/PPTX 一時 PDF は
output/ではなく_cache/ppt_pdf/に属します。 verify_ocr.pyは最小限の受け入れゲートです。audit_ocr_integrity.pyは、レガシーな混合出力またはサイレント破損がないという確信が必要な場合は常に使用されるべきです。- 完全なダウンストリーム ノート ワークフローについては、
KNOWLEDGE_PIPELINE.mdも参照してください。
ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- sunrisever
- リポジトリ
- sunrisever/glm-ocr
- ライセンス
- MIT
- 最終更新
- 2026/3/23
Source: https://github.com/sunrisever/glm-ocr / ライセンス: MIT
関連スキル
agent-browser
AI エージェント向けのブラウザ自動化 CLI です。ウェブサイトとの対話が必要な場合に使用します。ページ遷移、フォーム入力、ボタンクリック、スクリーンショット取得、データ抽出、ウェブアプリのテスト、ブラウザ操作の自動化など、あらゆるブラウザタスクに対応できます。「ウェブサイトを開く」「フォームに記入する」「ボタンをクリックする」「スクリーンショットを取得する」「ページからデータを抽出する」「このウェブアプリをテストする」「サイトにログインする」「ブラウザ操作を自動化する」といった要求や、プログラマティックなウェブ操作が必要なタスクで起動します。
anyskill
AnySkill — あなたのプライベート・スキルクラウド。GitHubを基盤としたリポジトリからエージェントスキルを管理、同期、動的にロードできます。自然言語でクラウドスキルを検索し、オンデマンドでプロンプトを自動ロード、カスタムスキルのアップロードと共有、スキルバンドルの一括インストールが可能です。OpenClaw、Antigravity、Claude Code、Cursorに対応しています。
engram
AIエージェント向けの永続的なメモリシステムです。バグ修正、意思決定、発見、設定変更の後はmem_saveを使用してください。ユーザーが「覚えている」「記憶している」と言及した場合、または以前のセッションと重複する作業を開始する際はmem_searchを使用します。セッション終了前にmem_session_summaryを使用して、コンテキストを保持してください。
skyvern
AI駆動のブラウザ自動化により、任意のウェブサイトを自動化できます。フォーム入力、データ抽出、ファイルダウンロード、ログイン、複数ステップのワークフロー実行など、ユーザーがウェブサイトと連携する必要があるときに使用します。Skyvernは、LLMとコンピュータビジョンを活用して、未知のサイトも自動操作可能です。Python SDK、TypeScript SDK、REST API、MCPサーバー、またはCLIを通じて統合できます。
pinchbench
PinchBenchベンチマークを実行して、OpenClawエージェントの実世界タスクにおけるパフォーマンスを評価できます。モデルの機能テスト、モデル間の比較、ベンチマーク結果のリーダーボード提出、またはOpenClawのセットアップがカレンダー、メール、リサーチ、コーディング、複数ステップのワークフローにどの程度対応しているかを確認する際に使用します。
openui
OpenUIとOpenUI Langを使用してジェネレーティブUIアプリを構築できます。これらはLLM生成インターフェースのためのトークン効率的なオープン標準です。OpenUI、@openuidev、ジェネレーティブUI、LLMからのストリーミングUI、AI向けコンポーネントライブラリ、またはjson-render/A2UIの置き換えについて述べる際に使用します。スキャフォルディング、defineComponent、システムプロンプト、Renderer、およびOpenUI Lang出力のデバッグに対応しています。