Agent Skills by ALSEL
OpenAIデータ・分析⭐ リポ 1品質スコア 73/100

python-ocr-expertise

PyTesseract、PaddleOCR、EasyOCR、docTR、keras-ocr、TrOCRを使ったPython OCR。 画像やドキュメントからのテキスト抽出、OCRパイプラインの構築、OCRライブラリの選定、OCR精度のデバッグが必要な場合に活用できます。9つのOCRライブラリ(3つのレベル別)、前処理パイプライン、PSMモード、GPU加速、信頼度フィルタリング、ライブラリ選定ガイドを網羅しています。 キーワード:OCR、Tesseract、PyTesseract、PaddleOCR、EasyOCR、テキスト抽出、画像、ドキュメント

description の原文を見る

Python OCR with PyTesseract, PaddleOCR, EasyOCR, docTR, keras-ocr, TrOCR. Use when: Extracting text from images/documents, building OCR pipelines, choosing between OCR libraries, debugging OCR accuracy. Covers: 9 OCR libraries (3 tiers), preprocessing pipeline, PSM modes, GPU acceleration, confidence filtering, library selection guide. Keywords: ocr, tesseract, pytesseract, paddleocr, easyocr, text extraction, image, document

SKILL.md 本文

Python OCR専門知識

適用範囲ガード

Pythonに固有。Python OCRライブラリまたはPythonベースのテキスト抽出パイプラインにのみアクティベートします。

使用する場合

  • 画像またはスキャンドキュメントからテキストを抽出する
  • 本番環境のOCRパイプラインを構築する
  • OCRライブラリ間で選択・比較する
  • OCR精度の問題をデバッグする

使用しない場合

  • テキスト抽出を超えたドキュメント理解(ai-multimodalを使用)
  • デジタルPDFからのPDFテキスト抽出(pdfスキルを使用——OCRは不要)
  • Python以外のOCR実装
  • シンプルなスクリーンショットのテキスト読み取り(Claudeのビジョン機能を直接使用)

アンチパターン

しないこと理由修正方法
画像前処理をスキップするOCR精度が生画像で30~50%低下する常に適用:グレースケール → ブラー → 大津の二値化 → 傾き補正
単一行テキストでデフォルトPSMモードを使用するPSM 3(自動)は単純な入力に対してレイアウト分析に時間を無駄にする対象を絞った抽出にはPSM 7(単一行)またはPSM 8(単一単語)を使用
信頼度スコアを無視する低信頼度の結果がサイレントにゴミテキストを導入する最小0.7の閾値でフィルタリング;ユースケースごとに調整
多言語本番環境でPyTesseractを使用するTesseract精度はディープラーニングオプションより大幅に遅れている多言語にはPaddleOCR(最高精度)またはEasyOCR(最も簡単なセットアップ)を使用
WebサービスでリクエストごとにOCRモデルを読み込むモデル読み込みに2~10秒かかり;レスポンス時間が致命的モデルを起動時に1回初期化;リクエスト全体で再利用

競合

  • pdfスキル:デジタルPDFテキストにはpdfスキルを使用;スキャン画像/ドキュメントのOCRにはこのスキルを使用。
  • ai-multimodal:ドキュメント理解にはai-multimodalを使用;生テキスト抽出にはこのスキルを使用。

ライブラリ選択

ユースケースライブラリ理由
シンプルなテキスト抽出PyTesseract最も軽量なセットアップ;クリーン画像で十分
最高精度(多言語)PaddleOCR最先端のPP-OCRv4/v5
迅速なセットアップ、80以上の言語EasyOCRワンライナーセットアップ;良好な精度
ドキュメント理解docTR1つのパイプラインでレイアウト+テキスト
手書きテキストTrOCRTransformerベース;手書き用として最適
エッジ/モバイル展開RapidOCRONNXベース;軽量

精度階層: PaddleOCR >= docTR > EasyOCR > PyTesseract

必須前処理

import cv2
def preprocess_for_ocr(image_path):
    img = cv2.imread(image_path)
    gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
    blur = cv2.GaussianBlur(gray, (5, 5), 0)
    _, binary = cv2.threshold(blur, 0, 255, cv2.THRESH_BINARY + cv2.THRESH_OTSU)
    return binary

PyTesseract PSMモード(エキスパート知識)

PSMユースケース
3完全自動(デフォルト)
4単一列、可変サイズ
6均一なテキストブロック
7単一テキスト行
8単一単語
11スパーステキスト(可能な限り検出)
13生行(ハック回避)

取り込みとルーティング

タスク参照ファイル
新しいOCRパイプラインを構築するworkflows/build-ocr-pipeline.md
ライブラリを選択・比較するworkflows/library-selection.md
精度の問題をデバッグするreferences/troubleshooting.md
画像前処理references/preprocessing.md
PyTesseract深掘りreferences/pytesseract.md
PaddleOCR深掘りreferences/paddleocr.md
EasyOCR深掘りreferences/easyocr.md
docTR/keras-ocr/TrOCRreferences/doctr.md

関連スキル

  • ai-multimodal — OCRを超えたドキュメント理解
  • pdf — PDFテキスト抽出(デジタル、スキャンなし)
  • media-processing — 画像前処理パイプライン

ライセンス: MIT(寛容ライセンスのため全文を引用しています) · 原本リポジトリ

詳細情報

作者
krzemienski
リポジトリ
krzemienski/awesome-list-site
ライセンス
MIT
最終更新
2026/5/2

Source: https://github.com/krzemienski/awesome-list-site / ライセンス: MIT

関連スキル

OpenAIデータ・分析⭐ リポ 1,451

hugging-face-trackio

Trackioを使用してMLトレーニング実験を追跡・可視化できます。トレーニング中のメトリクスログ記録(Python API)、トレーニング診断のアラート発火、ログされたメトリクスの取得・分析(CLI)が必要な場合に活用してください。リアルタイムダッシュボード表示、Webhookを使用したアラート、HF Space同期、自動化向けのJSON出力に対応しています。

by gradio-app
汎用データ・分析⭐ リポ 855

btc-bottom-model

ビットコインのサイクルタイミングモデルで、加重スコアリングシステムを搭載しています。日次パルス(4指標、32ポイント)とウィークリー構造(9指標、68ポイント)の2カテゴリーにわたる13の指標を追跡し、0~100のマーケットヒートスコアを算出します。ETFフロー、ファンディングレート、ロング/ショート比率、恐怖・貪欲指数、LTH-MVRV、NUPL、SOPR(LTH+STH)、LTH供給率、移動平均倍率(365日MA、200週MA)、週次RSI、出来高トレンドに対応します。市場サイクル全体を通じて買いと売りの両方の推奨を提供します。ビットコインの底値拾い、BTCサイクルポジション、買い時・売り時、オンチェーン指標、MVRV、NUPL、SOPR、LTH動向、ETFの流出入、ファンディングレート、恐怖指数、ビットコインが過熱状態か、マイナーコスト、暗号資産市場のセンチメント、BTCのポジションサイジング、「今ビットコインを買うべきか」「BTCが天井をつけているか」「オンチェーン指標は何を示しているか」といった質問の際にこのスキルを活用します。

by star23
Anthropic Claudeデータ・分析⭐ リポ 380

protein_solubility_optimization

タンパク質の溶解性最適化 - タンパク質の溶解性を最適化します。タンパク質の特性を計算し、溶解性と親水性を予測し、有効な変異を提案します。タンパク質配列の特性計算、タンパク質機能の予測、親水性計算、ゼロショット配列予測を含むタンパク質エンジニアリング業務に使用できます。3つのSCPサーバーから4つのツールを統合しています。

by SpectrAI-Initiative
Anthropic Claudeデータ・分析⭐ リポ 1,743

research-lookup

Parallel Chat APIまたはPerplexity sonar-pro-searchを使用して、最新の研究情報を検索できます。学術論文の検索にも対応しています。クエリは自動的に最適なバックエンドにルーティングされるため、論文の検索、研究データの収集、科学情報の検証に活用できます。

by K-Dense-AI
Anthropic Claudeデータ・分析⭐ リポ 299

tree-formatting

ggtree(R)またはiTOL(ウェブ)を使用して、系統樹の可視化とフォーマットを行います。系統樹を図として描画する際、ツリーレイアウトの選択、分類学に基づく枝やラベルの色付け、クレードの折りたたみ、サポート値の表示、またはツリーへのオーバーレイ追加が必要な場合に使用してください。系統推定(protein-phylogenyスキルを使用)やドメイン注釈(今後の独立したスキル)には使用しないでください。

by majiayu000
汎用データ・分析⭐ リポ 145

querying-indonesian-gov-data

インドネシア政府の50以上のAPIとデータソースに接続できます。BPJPH(ハラール認証)、BOM(食品安全)、OJK(金融適正性)、BPS(統計)、BMKG(気象・地震)、インドネシア中央銀行(為替レート)、IDX(株式)、CKAN公開データポータル、pasal.id(第三者法MCP)に対応しています。インドネシア政府データを活用したアプリ開発、.go.idウェブサイトのスクレイピング、ハラール認証の確認、企業の法的適正性の検証、金融機関ステータスの照会、またはインドネシアMCPサーバーへの接続時に使用できます。CSRF処理、CKAN API使用方法、IP制限回避など、すぐに実行可能なPythonパターンを含んでいます。

by suryast
本サイトは GitHub 上で公開されているオープンソースの SKILL.md ファイルをクロール・インデックス化したものです。 各スキルの著作権は原作者に帰属します。掲載に問題がある場合は info@alsel.co.jp または /takedown フォームよりご連絡ください。
原作者: krzemienski · krzemienski/awesome-list-site · ライセンス: MIT