python-ocr-expertise
PyTesseract、PaddleOCR、EasyOCR、docTR、keras-ocr、TrOCRを使ったPython OCR。 画像やドキュメントからのテキスト抽出、OCRパイプラインの構築、OCRライブラリの選定、OCR精度のデバッグが必要な場合に活用できます。9つのOCRライブラリ(3つのレベル別)、前処理パイプライン、PSMモード、GPU加速、信頼度フィルタリング、ライブラリ選定ガイドを網羅しています。 キーワード:OCR、Tesseract、PyTesseract、PaddleOCR、EasyOCR、テキスト抽出、画像、ドキュメント
description の原文を見る
Python OCR with PyTesseract, PaddleOCR, EasyOCR, docTR, keras-ocr, TrOCR. Use when: Extracting text from images/documents, building OCR pipelines, choosing between OCR libraries, debugging OCR accuracy. Covers: 9 OCR libraries (3 tiers), preprocessing pipeline, PSM modes, GPU acceleration, confidence filtering, library selection guide. Keywords: ocr, tesseract, pytesseract, paddleocr, easyocr, text extraction, image, document
SKILL.md 本文
Python OCR専門知識
適用範囲ガード
Pythonに固有。Python OCRライブラリまたはPythonベースのテキスト抽出パイプラインにのみアクティベートします。
使用する場合
- 画像またはスキャンドキュメントからテキストを抽出する
- 本番環境のOCRパイプラインを構築する
- OCRライブラリ間で選択・比較する
- OCR精度の問題をデバッグする
使用しない場合
- テキスト抽出を超えたドキュメント理解(
ai-multimodalを使用) - デジタルPDFからのPDFテキスト抽出(
pdfスキルを使用——OCRは不要) - Python以外のOCR実装
- シンプルなスクリーンショットのテキスト読み取り(Claudeのビジョン機能を直接使用)
アンチパターン
| しないこと | 理由 | 修正方法 |
|---|---|---|
| 画像前処理をスキップする | OCR精度が生画像で30~50%低下する | 常に適用:グレースケール → ブラー → 大津の二値化 → 傾き補正 |
| 単一行テキストでデフォルトPSMモードを使用する | PSM 3(自動)は単純な入力に対してレイアウト分析に時間を無駄にする | 対象を絞った抽出にはPSM 7(単一行)またはPSM 8(単一単語)を使用 |
| 信頼度スコアを無視する | 低信頼度の結果がサイレントにゴミテキストを導入する | 最小0.7の閾値でフィルタリング;ユースケースごとに調整 |
| 多言語本番環境でPyTesseractを使用する | Tesseract精度はディープラーニングオプションより大幅に遅れている | 多言語にはPaddleOCR(最高精度)またはEasyOCR(最も簡単なセットアップ)を使用 |
| WebサービスでリクエストごとにOCRモデルを読み込む | モデル読み込みに2~10秒かかり;レスポンス時間が致命的 | モデルを起動時に1回初期化;リクエスト全体で再利用 |
競合
pdfスキル:デジタルPDFテキストにはpdfスキルを使用;スキャン画像/ドキュメントのOCRにはこのスキルを使用。ai-multimodal:ドキュメント理解にはai-multimodalを使用;生テキスト抽出にはこのスキルを使用。
ライブラリ選択
| ユースケース | ライブラリ | 理由 |
|---|---|---|
| シンプルなテキスト抽出 | PyTesseract | 最も軽量なセットアップ;クリーン画像で十分 |
| 最高精度(多言語) | PaddleOCR | 最先端のPP-OCRv4/v5 |
| 迅速なセットアップ、80以上の言語 | EasyOCR | ワンライナーセットアップ;良好な精度 |
| ドキュメント理解 | docTR | 1つのパイプラインでレイアウト+テキスト |
| 手書きテキスト | TrOCR | Transformerベース;手書き用として最適 |
| エッジ/モバイル展開 | RapidOCR | ONNXベース;軽量 |
精度階層: PaddleOCR >= docTR > EasyOCR > PyTesseract
必須前処理
import cv2
def preprocess_for_ocr(image_path):
img = cv2.imread(image_path)
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
blur = cv2.GaussianBlur(gray, (5, 5), 0)
_, binary = cv2.threshold(blur, 0, 255, cv2.THRESH_BINARY + cv2.THRESH_OTSU)
return binary
PyTesseract PSMモード(エキスパート知識)
| PSM | ユースケース |
|---|---|
| 3 | 完全自動(デフォルト) |
| 4 | 単一列、可変サイズ |
| 6 | 均一なテキストブロック |
| 7 | 単一テキスト行 |
| 8 | 単一単語 |
| 11 | スパーステキスト(可能な限り検出) |
| 13 | 生行(ハック回避) |
取り込みとルーティング
| タスク | 参照ファイル |
|---|---|
| 新しいOCRパイプラインを構築する | workflows/build-ocr-pipeline.md |
| ライブラリを選択・比較する | workflows/library-selection.md |
| 精度の問題をデバッグする | references/troubleshooting.md |
| 画像前処理 | references/preprocessing.md |
| PyTesseract深掘り | references/pytesseract.md |
| PaddleOCR深掘り | references/paddleocr.md |
| EasyOCR深掘り | references/easyocr.md |
| docTR/keras-ocr/TrOCR | references/doctr.md |
関連スキル
ai-multimodal— OCRを超えたドキュメント理解pdf— PDFテキスト抽出(デジタル、スキャンなし)media-processing— 画像前処理パイプライン
ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ
詳細情報
- 作者
- krzemienski
- ライセンス
- MIT
- 最終更新
- 2026/5/2
Source: https://github.com/krzemienski/awesome-list-site / ライセンス: MIT
関連スキル
hugging-face-trackio
Trackioを使用してMLトレーニング実験を追跡・可視化できます。トレーニング中のメトリクスログ記録(Python API)、トレーニング診断のアラート発火、ログされたメトリクスの取得・分析(CLI)が必要な場合に活用してください。リアルタイムダッシュボード表示、Webhookを使用したアラート、HF Space同期、自動化向けのJSON出力に対応しています。
btc-bottom-model
ビットコインのサイクルタイミングモデルで、加重スコアリングシステムを搭載しています。日次パルス(4指標、32ポイント)とウィークリー構造(9指標、68ポイント)の2カテゴリーにわたる13の指標を追跡し、0~100のマーケットヒートスコアを算出します。ETFフロー、ファンディングレート、ロング/ショート比率、恐怖・貪欲指数、LTH-MVRV、NUPL、SOPR(LTH+STH)、LTH供給率、移動平均倍率(365日MA、200週MA)、週次RSI、出来高トレンドに対応します。市場サイクル全体を通じて買いと売りの両方の推奨を提供します。ビットコインの底値拾い、BTCサイクルポジション、買い時・売り時、オンチェーン指標、MVRV、NUPL、SOPR、LTH動向、ETFの流出入、ファンディングレート、恐怖指数、ビットコインが過熱状態か、マイナーコスト、暗号資産市場のセンチメント、BTCのポジションサイジング、「今ビットコインを買うべきか」「BTCが天井をつけているか」「オンチェーン指標は何を示しているか」といった質問の際にこのスキルを活用します。
protein_solubility_optimization
タンパク質の溶解性最適化 - タンパク質の溶解性を最適化します。タンパク質の特性を計算し、溶解性と親水性を予測し、有効な変異を提案します。タンパク質配列の特性計算、タンパク質機能の予測、親水性計算、ゼロショット配列予測を含むタンパク質エンジニアリング業務に使用できます。3つのSCPサーバーから4つのツールを統合しています。
research-lookup
Parallel Chat APIまたはPerplexity sonar-pro-searchを使用して、最新の研究情報を検索できます。学術論文の検索にも対応しています。クエリは自動的に最適なバックエンドにルーティングされるため、論文の検索、研究データの収集、科学情報の検証に活用できます。
tree-formatting
ggtree(R)またはiTOL(ウェブ)を使用して、系統樹の可視化とフォーマットを行います。系統樹を図として描画する際、ツリーレイアウトの選択、分類学に基づく枝やラベルの色付け、クレードの折りたたみ、サポート値の表示、またはツリーへのオーバーレイ追加が必要な場合に使用してください。系統推定(protein-phylogenyスキルを使用)やドメイン注釈(今後の独立したスキル)には使用しないでください。
querying-indonesian-gov-data
インドネシア政府の50以上のAPIとデータソースに接続できます。BPJPH(ハラール認証)、BOM(食品安全)、OJK(金融適正性)、BPS(統計)、BMKG(気象・地震)、インドネシア中央銀行(為替レート)、IDX(株式)、CKAN公開データポータル、pasal.id(第三者法MCP)に対応しています。インドネシア政府データを活用したアプリ開発、.go.idウェブサイトのスクレイピング、ハラール認証の確認、企業の法的適正性の検証、金融機関ステータスの照会、またはインドネシアMCPサーバーへの接続時に使用できます。CSRF処理、CKAN API使用方法、IP制限回避など、すぐに実行可能なPythonパターンを含んでいます。